目前项目遇到了要解析pdf数据的需求
前期使用pdfminer,之后试过各种工具包,均不理想。
需求是将整个pdf文件转化为大的字符串,理想状态是pdf中的表格数据能够按照原有的顺序,按照一定的间隔符号输出。
举例是:
输出为:
‘a b c d\nA B C D\n’(前后的其他文字格式不便)
但结果却经常是乱的,类似: ‘a A\nb c d\nB C D\n’
研究了pdfminer文档与稍微详细的demo了解到解析pdf基本是靠坐标的。
仔细研究了下文字坐标排版关系,很不规律,难度依然很大。
请坛内大神予以指引方向。还有其他工具包可供使用或者对于坐标解析有更详细的方法/例子没。
十分感谢
PDF解析一般应该是逐行解析吧 应该就是出来你要的效果啊 你这个大写A又没有错行 应该排在第二行输出啊
ch出现表格的时候,有好多就不是按照表格的行解析的了,pdf是按照指令坐标解析的,有空可以看看文中的两个链接。^_^