OCR

python 中文图片文字识别

python • 李魔佛发表了文章 • 0 个评论 • 11809 次浏览 • 2019-02-01 10:47 • 来自相关话题

pytesseract这个库识别率偏低，也就菜鸟才会用。
使用方法很简单，安装好pytesseract（里面很多坑，小白的话不可避免要折腾一番），然后下载一个中文的字库，百度网盘：https://pan.baidu.com/s/1_jom2d95IeR40gsvkhUuvQ

然后把文件放到tesseract的文件夹中 C:\Program Files (x86)\Tesseract-OCR\tessdata
然后就可以拿来识别了：
from PIL import Image
im = Image.open('chinese.jpg')
plt.figure(figsize=(20,20))
plt.imshow(im)

pytesseract.image_to_string(im,lang='chi_sim')
图片的内容是这样的：

然后识别效果如下：

'可L又使用以下的语句i上图片显示大此'
还是不咋地。

那么可以换成大厂的API。试试百度的：
""" 读取图片 """
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()

image = get_file_content('example.jpg')

""" 调用通用文字识别, 图片参数为本地图片 """
client.basicGeneral(image);

""" 如果有可选参数 """
options = {}
options["language_type"] = "CHN_ENG"
options["detect_direction"] = "true"
options["detect_language"] = "true"
options["probability"] = "true"

from aip import AipOcr

""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

""" 带参数调用通用文字识别, 图片参数为本地图片 """
client.basicGeneral(image, options)

url = "https//www.x.com/sample.jpg"

""" 调用通用文字识别, 图片参数为远程url图片 """
client.basicGeneralUrl(url);

""" 如果有可选参数 """
options = {}
options["language_type"] = "CHN_ENG"
options["detect_direction"] = "true"
options["detect_language"] = "true"
options["probability"] = "true"

""" 带参数调用通用文字识别, 图片参数为远程url图片 """
client.basicGeneralUrl(url, options)
先去百度云申请一个API，免费的。
https://cloud.baidu.com/doc/OCR/OCR-Python-SDK.html#.E9.85.8D.E7.BD.AEAipOcr
然后把key复制到上面的代码中就可以了。

然后再调用看看结果：
可以使用以下的语句让图片显示大些正确率明显高很多了。

查看全部

from PIL import Image

im = Image.open('chinese.jpg')

plt.figure(figsize=(20,20))

plt.imshow(im)



pytesseract.image_to_string(im,lang='chi_sim')

图片的内容是这样的：

然后识别效果如下：

'可L又使用以下的语句i上图片显示大 此'

还是不咋地。

那么可以换成大厂的API。试试百度的：

""" 读取图片 """

def get_file_content(filePath):

    with open(filePath, 'rb') as fp:

        return fp.read()



image = get_file_content('example.jpg')



""" 调用通用文字识别, 图片参数为本地图片 """

client.basicGeneral(image);



""" 如果有可选参数 """

options = {}

options["language_type"] = "CHN_ENG"

options["detect_direction"] = "true"

options["detect_language"] = "true"

options["probability"] = "true"



from aip import AipOcr



""" 你的 APPID AK SK """

APP_ID = '你的 App ID'

API_KEY = '你的 Api Key'

SECRET_KEY = '你的 Secret Key'



client = AipOcr(APP_ID, API_KEY, SECRET_KEY)





""" 带参数调用通用文字识别, 图片参数为本地图片 """

client.basicGeneral(image, options)



url = "https//www.x.com/sample.jpg"



""" 调用通用文字识别, 图片参数为远程url图片 """

client.basicGeneralUrl(url);



""" 如果有可选参数 """

options = {}

options["language_type"] = "CHN_ENG"

options["detect_direction"] = "true"

options["detect_language"] = "true"

options["probability"] = "true"



""" 带参数调用通用文字识别, 图片参数为远程url图片 """

client.basicGeneralUrl(url, options)

先去百度云申请一个API，免费的。
https://cloud.baidu.com/doc/OCR/OCR-Python-SDK.html#.E9.85.8D.E7.BD.AEAipOcr
然后把key复制到上面的代码中就可以了。

然后再调用看看结果：

可以使用以下的语句让图片显示大些

正确率明显高很多了。

python 中文图片文字识别

python • 李魔佛发表了文章 • 0 个评论 • 11809 次浏览 • 2019-02-01 10:47 • 来自相关话题

from PIL import Image

im = Image.open('chinese.jpg')

plt.figure(figsize=(20,20))

plt.imshow(im)



pytesseract.image_to_string(im,lang='chi_sim')

图片的内容是这样的：

然后识别效果如下：

'可L又使用以下的语句i上图片显示大 此'

还是不咋地。

那么可以换成大厂的API。试试百度的：

""" 读取图片 """

def get_file_content(filePath):

    with open(filePath, 'rb') as fp:

        return fp.read()



image = get_file_content('example.jpg')



""" 调用通用文字识别, 图片参数为本地图片 """

client.basicGeneral(image);



""" 如果有可选参数 """

options = {}

options["language_type"] = "CHN_ENG"

options["detect_direction"] = "true"

options["detect_language"] = "true"

options["probability"] = "true"



from aip import AipOcr



""" 你的 APPID AK SK """

APP_ID = '你的 App ID'

API_KEY = '你的 Api Key'

SECRET_KEY = '你的 Secret Key'



client = AipOcr(APP_ID, API_KEY, SECRET_KEY)





""" 带参数调用通用文字识别, 图片参数为本地图片 """

client.basicGeneral(image, options)



url = "https//www.x.com/sample.jpg"



""" 调用通用文字识别, 图片参数为远程url图片 """

client.basicGeneralUrl(url);



""" 如果有可选参数 """

options = {}

options["language_type"] = "CHN_ENG"

options["detect_direction"] = "true"

options["detect_language"] = "true"

options["probability"] = "true"



""" 带参数调用通用文字识别, 图片参数为远程url图片 """

client.basicGeneralUrl(url, options)

可以使用以下的语句让图片显示大些

正确率明显高很多了。

python 中文图片文字识别

python • 李魔佛发表了文章 • 0 个评论 • 11809 次浏览 • 2019-02-01 10:47 • 来自相关话题

from PIL import Image

im = Image.open('chinese.jpg')

plt.figure(figsize=(20,20))

plt.imshow(im)



pytesseract.image_to_string(im,lang='chi_sim')

图片的内容是这样的：

然后识别效果如下：

'可L又使用以下的语句i上图片显示大 此'

还是不咋地。

那么可以换成大厂的API。试试百度的：

""" 读取图片 """

def get_file_content(filePath):

    with open(filePath, 'rb') as fp:

        return fp.read()



image = get_file_content('example.jpg')



""" 调用通用文字识别, 图片参数为本地图片 """

client.basicGeneral(image);



""" 如果有可选参数 """

options = {}

options["language_type"] = "CHN_ENG"

options["detect_direction"] = "true"

options["detect_language"] = "true"

options["probability"] = "true"



from aip import AipOcr



""" 你的 APPID AK SK """

APP_ID = '你的 App ID'

API_KEY = '你的 Api Key'

SECRET_KEY = '你的 Secret Key'



client = AipOcr(APP_ID, API_KEY, SECRET_KEY)





""" 带参数调用通用文字识别, 图片参数为本地图片 """

client.basicGeneral(image, options)



url = "https//www.x.com/sample.jpg"



""" 调用通用文字识别, 图片参数为远程url图片 """

client.basicGeneralUrl(url);



""" 如果有可选参数 """

options = {}

options["language_type"] = "CHN_ENG"

options["detect_direction"] = "true"

options["detect_language"] = "true"

options["probability"] = "true"



""" 带参数调用通用文字识别, 图片参数为远程url图片 """

client.basicGeneralUrl(url, options)

可以使用以下的语句让图片显示大些

正确率明显高很多了。

更多...

python 中文图片文字识别

python 中文图片文字识别

话题描述

相关话题

最佳回复者

1 人关注该话题