服务器安装openfiler,openfileresa安装
安装了Tesseract OCR,也就是光学角色注册。光学字符识别是扫描字符并根据字符的形状将其转换为电子文本的过程。对于图形验证码来说,这些都是不规则字符,确实是稍微扭曲一下字符就变形了。
宇宙魔方下载地址:康涅狄格州https://digi.bib.uni-mannheim.de/tessera/
进入下载页面后,你会看到各种下载列表。exe文件。你也可以在这里下载3.0版本。
其中带dev的文件名为开发版,不带dev的文件名为稳定版,不带dev的文件名也可以下载。例如,你也可以下载特塞拉CT-ocr-setup-3.05.02.exe。
下载后双击,显示如下图所示页面。
您可以在此处选择附加languagedata(下载)选项来安装OCR支持的语言包,以便OCR可以识别多种语言。然后,单击下一步按钮。
接下来,要在python代码中使用tesseract函数,请使用pip安装pytesseract。
安装pip pytesseract
2.配置全局使用的环境变量。例如,如果安装路径是D:\ program files(x86)\ tessera CT-ocr,则将该路径添加到环境变量的路径中。
配置完成后,在命令行上输入tesseract -v。环境变量已成功配置,如下图所示。
3.验证安装。然后,可以用tesseract和pytesseract来测试。
将下图所示的图像作为样本进行测试。
这个图片的链接可以直接保存或者下载到https://raw.github用户content.com/python3web spider/test Tess/master/image . png
首先在命令行上测试,将镜像下载到驱动器的chromeDownload文件夹中,另存为image.png,然后在这个文件夹中打开命令行,使用tesseract命令进行测试。
宇宙魔方image.png结果
执行结果如下。
d:(chromedownloadtesseractimage.png结果
tesseractopensourceocrenginev3。05.02含莱普尼卡
在这里,我调用了宇宙魔方命令。第一个参数是图像名称,第二个参数result是存储结果的目标的文件名。
执行结果是图像的识别结果。这是Python3WebSpider。结果. txt显示在chromeDownload文件夹中,图片文本成功转换为电子文本。
然后,你也可以使用Python代码进行测试。在这里,您需要使用pytesseract库。测试代码如下所示。
from pilimportimporttimportimportpesracttext=pytesserac at . image _ to _ string(image . open(r d:(chrome下载) )
执行结果如下。
Python3WebSpider
如果结果成功输出,验证tesseract和pytesseract是否已成功安装。
4.当使用tesseract命令行测试使用中遇到的漏洞时,会议开始报告以下错误
错误打开数据文件\程序文件(x86 ) tessera CT-ocr\Tess数据/工程训练数据
请提供您的“Tess数据”目录。
未能加载语言“英语”
宇宙魔方无法加载语言!
无法初始化宇宙魔方.
错误意味着环境变量TESSDATA_PREFIX不足以加载任何语言和初始化tesseract。
解决方法也很简单。将TESSDATA_PREFIX添加到环境变量中,如下图所示
注意:变量值的路径为d:/program files(x86)/tessera CT-ocr,使用正斜杠“/”。windows上复制的路径默认为反斜杠“\”
配置完成后,您可以重新打开命令行进行正常使用。
在第二个坑中使用pytesseract时出现以下错误
背景(mostrecentcalllast):
文件 d:\ python 36 \ lib \ site-packages \ pytesserac . py ,第170行,在run _ tesseract中
proc=subprocess.popen(cmd_args,**subprocess_args))
__init__中第709行的文件“d :\python 36\lib\subprocess.py”
恢复信号,开始新会话)
文件 d :\python 36\lib\subprocess.py ,第997行,in _execute_child
startupinfo)
找不到文件未找到错误3360 [winerror2]系统中指定的文件。
在handlingoftheaboveexception期间,发生了另一个异常:
背景(mostrecentcalllast):
模块中的文件" D:/python/20180911.py ",第四行
text=pytesselat。图像到字符串(图像。打开)(研发:(铬合金下载(image.png))
图像到字符串中的文件" d:\ python 36 \ lib \ site packages \ pytesselat。py”,第294行
returnrun_and_get_output(*args).
文件" d:\ python 36 \ lib \ site-packages \ pytessera CT。py”,第202行,inrun _ and _ get _ out
run _ tesse lat(* * kwargs))()()()()))(d)项。
运行_宇宙魔方中的d:\ python 36 \ lib \ site packages \ pytessera CT。巴拉圭文件172行
升起宇宙魔方创始人(
皮特塞拉CT。皮特塞拉CT。tessera tnotfounderor:tessa tissantedorit snotinyourrpath
这个有洞。添加了全局变量吗?还是表示没有安装宇宙魔方或不在路径(路径)中?
百度一下,解决方案如下。
安装皮斯特拉特后,将在python库(python库)目录下的站点打包课程下生成皮斯特拉特文件夹。在这个文件夹中找到宇宙魔方。py .路径为d:\python36\lib\site-.
# changethistevessel不是你的路径,或其名称不同
宇宙魔方_cmd=宇宙魔方
将宇宙魔方_cmd=宇宙魔方更改为CT _ cmd= d:/program files(x86)/tessera CT-ocr/tessera CT。可执行程序的扩展名卡
指示宇宙魔方_cmd配置了安装宇宙魔方的绝对路径。这样就可以找到宇宙魔方了。修改后保存,执行python(python语言)代码就成功了。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。