Unknown encoding for 'GB-EUC-H'
说明: 执行当前 Web 请求期间,出现未经处理的异常。请检查堆栈跟踪信息,以了解有关该错误以及代码中导致错误的出处的详细信息。
异常详细信息: java.io.IOException: Unknown encoding for 'GB-EUC-H'
PDDocument doc = PDDocument.load(pdfFile);
PDFTextStripper pdfStripper = new PDFTextStripper();
string text = pdfStripper.getText(doc);运行到这一步异常
java.io.IOException
标题是c#????
C#能读取PDF文档吧。用到第三方包.这个包是JAVA写的 叫PDFBox
@chenping2008:
iTextSharp 好象是不能读取PDF文件里面的内容吧
有个名为Free Spire.PDF for .net的控件支持提取PDF文档中的文本,不仅是全部文本,指定区域的部分文本也可以提取,相关代码示例可以参考他们官网上的教程。这是对应链接:提取全部文本https://www.e-iceblue.cn/extract/extract-text-and-image-from-pdf.html 提取指定区域的文本https://www.e-iceblue.cn/extract/extract-text-from-a-specific-rectangular-area-in-pdf.html