C#读取PDF文件错误

悬赏园豆：50 [已关闭问题] 关闭于 2013-06-18 15:24

Unknown encoding for 'GB-EUC-H'

说明: 执行当前 Web 请求期间，出现未经处理的异常。请检查堆栈跟踪信息，以了解有关该错误以及代码中导致错误的出处的详细信息。

异常详细信息: java.io.IOException: Unknown encoding for 'GB-EUC-H'

PDDocument doc = PDDocument.load(pdfFile);
PDFTextStripper pdfStripper = new PDFTextStripper();

string text = pdfStripper.getText(doc);运行到这一步异常

c# java

只需要一个眼神 | 初学一级 | 园豆：25
提问于：2013-04-07 15:47

< >

所有回答(3)

java.io.IOException

标题是c#????

chenping2008 | 园豆：9836 (大侠五级) | 2013-04-07 15:56

C#能读取PDF文档吧。用到第三方包.这个包是JAVA写的叫PDFBox

支持(0) 反对(0) 只需要一个眼神 | 园豆：25 (初学一级) | 2013-04-07 16:05

@只需要一个眼神: 读取的时候，能不能指定编码

https://issues.apache.org/jira/browse/PDFBOX-612

也可以考虑c#直接读取pdf

iTextSharp

支持(0) 反对(0) chenping2008 | 园豆：9836 (大侠五级) | 2013-04-07 16:13

@chenping2008:

iTextSharp 好象是不能读取PDF文件里面的内容吧

支持(0) 反对(0) 只需要一个眼神 | 园豆：25 (初学一级) | 2013-04-08 09:46

PDF文件错误

zhi++ | 园豆：487 (菜鸟二级) | 2013-04-10 20:36

有个名为Free Spire.PDF for .net的控件支持提取PDF文档中的文本，不仅是全部文本，指定区域的部分文本也可以提取，相关代码示例可以参考他们官网上的教程。这是对应链接：提取全部文本https://www.e-iceblue.cn/extract/extract-text-and-image-from-pdf.html 提取指定区域的文本https://www.e-iceblue.cn/extract/extract-text-from-a-specific-rectangular-area-in-pdf.html

Tina_Tang | 园豆：346 (菜鸟二级) | 2021-06-07 17:31

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。

欢迎，请先 登录 或者 注册 。

C#读取PDF文件错误

欢迎，请先登录或者注册。