OCR python

python 中文图片文字识别

pytesseract这个库识别率偏低，也就菜鸟才会用。
使用方法很简单，安装好pytesseract（里面很多坑，小白的话不可避免要折腾一番），然后下载一个中文的字库，百度网盘：https://pan.baidu.com/s/1_jom2d95IeR40gsvkhUuvQ

然后把文件放到tesseract的文件夹中 C:\Program Files (x86)\Tesseract-OCR\tessdata
然后就可以拿来识别了：

from PIL import Image

im = Image.open('chinese.jpg')

plt.figure(figsize=(20,20))

plt.imshow(im)



pytesseract.image_to_string(im,lang='chi_sim')

图片的内容是这样的：

然后识别效果如下：

'可L又使用以下的语句i上图片显示大 此'

还是不咋地。

那么可以换成大厂的API。试试百度的：

""" 读取图片 """

def get_file_content(filePath):

    with open(filePath, 'rb') as fp:

        return fp.read()



image = get_file_content('example.jpg')



""" 调用通用文字识别, 图片参数为本地图片 """

client.basicGeneral(image);



""" 如果有可选参数 """

options = {}

options["language_type"] = "CHN_ENG"

options["detect_direction"] = "true"

options["detect_language"] = "true"

options["probability"] = "true"



from aip import AipOcr



""" 你的 APPID AK SK """

APP_ID = '你的 App ID'

API_KEY = '你的 Api Key'

SECRET_KEY = '你的 Secret Key'



client = AipOcr(APP_ID, API_KEY, SECRET_KEY)





""" 带参数调用通用文字识别, 图片参数为本地图片 """

client.basicGeneral(image, options)



url = "https//www.x.com/sample.jpg"



""" 调用通用文字识别, 图片参数为远程url图片 """

client.basicGeneralUrl(url);



""" 如果有可选参数 """

options = {}

options["language_type"] = "CHN_ENG"

options["detect_direction"] = "true"

options["detect_language"] = "true"

options["probability"] = "true"



""" 带参数调用通用文字识别, 图片参数为远程url图片 """

client.basicGeneralUrl(url, options)

先去百度云申请一个API，免费的。
https://cloud.baidu.com/doc/OCR/OCR-Python-SDK.html#.E9.85.8D.E7.BD.AEAipOcr
然后把key复制到上面的代码中就可以了。

然后再调用看看结果：

可以使用以下的语句让图片显示大些

正确率明显高很多了。

1

2019-02-01

0 个评论

要回复文章请先登录或注册

python 中文图片文字识别

0 个评论

发起人

推荐内容

python 中文图片文字识别

0 个评论

发起人

推荐内容

相关问题