首页 新闻 赞助 找找看

如何转换html文件到xml?

0
悬赏园豆:20 [已解决问题] 解决于 2010-04-16 16:40

使用java 的一个开源工具 Jtidy 可以清理不规则的html文件并生成 对应的xml文件,但是由于html的容错性较强,百分之80的网页都存在错误,无法成功转换,如果我要批量进行转换用来抽取其中的信息,那么我该怎么处理呢.....

天地不仁的主页 天地不仁 | 初学一级 | 园豆:130
提问于:2010-04-15 20:24
< >
分享
最佳答案
0

请参考这篇文章,先进行处理,然后转换。

http://www.blogjava.net/haogj/archive/2006/03/02/33321.html

收获园豆:20
冠军 | 小虾三级 |园豆:886 | 2010-04-15 22:29
请问假如出现这种类型的错误: line 191 column 5 - Error: discarding unexpected </form> line 193 column 5 - Error: discarding unexpected </td> line 215 column 7 - Error: discarding unexpected </form> line 216 column 9 - Error: discarding unexpected </td> line 217 column -1 - Error: discarding unexpected </tr> line 220 column -3 - Error: discarding unexpected </div> line 312 column 358 - Error: discarding unexpected </a> line 371 column 36 - Error: <ccid_nobr> is not recognized! line 371 column 36 - Error: discarding unexpected <ccid_nobr> line 376 column 10 - Error: <ccid_code> is not recognized! line 381 column -3 - Error: discarding unexpected </ccid_nobr> line 389 column 36 - Error: <ccid_nobr> is not recognized! line 389 column 36 - Error: discarding unexpected <ccid_nobr> line 394 column 10 - Error: <ccid_code> is not recognized! line 401 column -3 - Error: discarding unexpected </ccid_nobr> line 439 column 15 - Error: discarding unexpected </span> line 439 column 22 - Error: discarding unexpected </span> line 604 column 5 - Error: discarding unexpected <td> InputStream: Doctype given is "-//W3C//DTD XHTML 1.0 Transitional//EN" InputStream: Document content looks like HTML proprietary 277 warnings, 7 errors were found! 有办法修正么?......
天地不仁 | 园豆:130 (初学一级) | 2010-04-16 11:24
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册