使用java 的一个开源工具 Jtidy 可以清理不规则的html文件并生成 对应的xml文件,但是由于html的容错性较强,百分之80的网页都存在错误,无法成功转换,如果我要批量进行转换用来抽取其中的信息,那么我该怎么处理呢.....
请参考这篇文章,先进行处理,然后转换。
http://www.blogjava.net/haogj/archive/2006/03/02/33321.html