python解析pdf

悬赏园豆：5 [待解决问题]

目前项目遇到了要解析pdf数据的需求

前期使用pdfminer，之后试过各种工具包，均不理想。

需求是将整个pdf文件转化为大的字符串，理想状态是pdf中的表格数据能够按照原有的顺序，按照一定的间隔符号输出。

举例是：

输出为：

‘a b c d\nA B C D\n’(前后的其他文字格式不便)

但结果却经常是乱的，类似： ‘a A\nb c d\nB C D\n’

研究了pdfminer文档与稍微详细的demo了解到解析pdf基本是靠坐标的。

仔细研究了下文字坐标排版关系，很不规律，难度依然很大。

请坛内大神予以指引方向。还有其他工具包可供使用或者对于坐标解析有更详细的方法/例子没。

十分感谢

近海735 | 初学一级 | 园豆：197
提问于：2018-02-12 11:52

< >

所有回答(1)

PDF解析一般应该是逐行解析吧应该就是出来你要的效果啊你这个大写A又没有错行应该排在第二行输出啊

犇牛牛 | 园豆：31 (初学一级) | 2018-02-12 16:18

ch出现表格的时候，有好多就不是按照表格的行解析的了，pdf是按照指令坐标解析的，有空可以看看文中的两个链接。^_^

支持(0) 反对(0) 近海735 | 园豆：197 (初学一级) | 2018-02-26 09:10

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。