首页 新闻 会员 周边

python解析pdf

0
悬赏园豆:5 [待解决问题]

目前项目遇到了要解析pdf数据的需求

前期使用pdfminer,之后试过各种工具包,均不理想。

需求是将整个pdf文件转化为大的字符串,理想状态是pdf中的表格数据能够按照原有的顺序,按照一定的间隔符号输出。

举例是:

输出为:

‘a b c d\nA B C D\n’(前后的其他文字格式不便)

但结果却经常是乱的,类似: ‘a A\nb c d\nB C D\n’

研究了pdfminer文档稍微详细的demo了解到解析pdf基本是靠坐标的。

仔细研究了下文字坐标排版关系,很不规律,难度依然很大。

请坛内大神予以指引方向。还有其他工具包可供使用或者对于坐标解析有更详细的方法/例子没。

十分感谢

近海735的主页 近海735 | 初学一级 | 园豆:197
提问于:2018-02-12 11:52
< >
分享
所有回答(1)
0

PDF解析一般应该是逐行解析吧 应该就是出来你要的效果啊  你这个大写A又没有错行 应该排在第二行输出啊

犇牛牛 | 园豆:31 (初学一级) | 2018-02-12 16:18

ch出现表格的时候,有好多就不是按照表格的行解析的了,pdf是按照指令坐标解析的,有空可以看看文中的两个链接。^_^

支持(0) 反对(0) 近海735 | 园豆:197 (初学一级) | 2018-02-26 09:10
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册