前段时间,有个朋友找到我帮忙提取一点数据。
他有1000多张一样格式的图片,用火车票(下图)举例,他希望 能将这1000多张图片中的 比如 车次 ,检票口 等信息提取处理导出到Excel中。 当然他的图片不是火车票这种格式,但是他提供的图片上的信息排版都是固定的。我当时直接是在网上找了找有没有工具可以解决这个问题但是发现没有。
按我的理解这种工具应该挺实用的,比如各种单据,各种排版的数据希望按照一定规则批量提取信息。
有没有朋友推荐下工具呢
你朋友的需求属于文本识别(OCR)和信息提取领域。虽然目前可能没有通用的工具可以直接满足所有情况,但有一些工具和库可以帮助你实现这样的任务。这里有几个选项:
Tesseract OCR:Tesseract 是一个开源的 OCR 引擎,可以用于从图像中提取文本信息。你可以使用 Tesseract 来提取图片中的文本,然后编写脚本来处理和提取你需要的信息。
OpenCV:OpenCV 是一个流行的计算机视觉库,它可以帮助你处理图像并识别其中的文本。结合其他技术,如文本区域检测和字符识别,你可以编写代码来自动提取图片中的文本信息。
Pytesseract:Pytesseract 是 Tesseract 的 Python 封装库,它可以方便地与 Python 一起使用,从而实现文本识别的任务。你可以使用 Pytesseract 来从图片中提取文本,并进一步处理提取的文本以获得你需要的信息。
自定义模型:如果你的图片格式比较固定,你也可以考虑训练一个自定义的文本识别模型,以便更好地适应你的需求。使用深度学习框架如 TensorFlow 或 PyTorch 可以帮助你构建和训练这样的模型。
使用这些工具和技术之一,结合一些自定义的处理步骤,你应该能够提取出你朋友需要的信息,并将其导出到 Excel 中。
谢谢,目前我就是这种方式做的。 只是想看看有没有能支持自定义模板的方式来支持更多场景
可以试试 https://www.faceplusplus.com.cn/
我以前用过这个识别身份证,记得是有可以自定义固定排版的
这里面有图像识别,图片识别里,有个证件识别,然后自定义一个模板就好了,
测试阶段是免费的,直接注册个账号,循环调接口就OK
@人间春风意: 谢了,我先研究下