首页 新闻 会员 周边 捐助

C#读取PDF文件错误

0
悬赏园豆:50 [已关闭问题] 关闭于 2013-06-18 15:24

Unknown encoding for 'GB-EUC-H'

说明: 执行当前 Web 请求期间,出现未经处理的异常。请检查堆栈跟踪信息,以了解有关该错误以及代码中导致错误的出处的详细信息。

异常详细信息: java.io.IOException: Unknown encoding for 'GB-EUC-H'

 

PDDocument doc = PDDocument.load(pdfFile);
PDFTextStripper pdfStripper = new PDFTextStripper();

string text = pdfStripper.getText(doc);运行到这一步异常

只需要一个眼神的主页 只需要一个眼神 | 初学一级 | 园豆:25
提问于:2013-04-07 15:47
< >
分享
所有回答(3)
0

java.io.IOException

标题是c#????

chenping2008 | 园豆:9836 (大侠五级) | 2013-04-07 15:56

C#能读取PDF文档吧。用到第三方包.这个包是JAVA写的 叫PDFBox

支持(0) 反对(0) 只需要一个眼神 | 园豆:25 (初学一级) | 2013-04-07 16:05

@只需要一个眼神: 读取的时候,能不能指定编码

https://issues.apache.org/jira/browse/PDFBOX-612

也可以考虑c#直接读取pdf

iTextSharp

 

支持(0) 反对(0) chenping2008 | 园豆:9836 (大侠五级) | 2013-04-07 16:13

@chenping2008: 

iTextSharp 好象是不能读取PDF文件里面的内容吧
支持(0) 反对(0) 只需要一个眼神 | 园豆:25 (初学一级) | 2013-04-08 09:46
0
zhi++ | 园豆:487 (菜鸟二级) | 2013-04-10 20:36
0

有个名为Free Spire.PDF for .net的控件支持提取PDF文档中的文本,不仅是全部文本,指定区域的部分文本也可以提取,相关代码示例可以参考他们官网上的教程。这是对应链接:提取全部文本https://www.e-iceblue.cn/extract/extract-text-and-image-from-pdf.html 提取指定区域的文本https://www.e-iceblue.cn/extract/extract-text-from-a-specific-rectangular-area-in-pdf.html

Tina_Tang | 园豆:346 (菜鸟二级) | 2021-06-07 17:31
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册