html内容抽取问题

悬赏园豆：20 [待解决问题]

想问：如果html编辑的不规则，那爬虫在抽取文本的时候，不是很蛋疼？有没什么方法可以比较统一的抽取出它的body的内容？

.NET技术 C#

amojry | 初学一级 | 园豆：180
提问于：2010-09-26 09:33

< >

所有回答(3)

可以使用如下正则表达式来实现
<body>(.*\r\n)*</body>

花猫.NET | 园豆：215 (菜鸟二级) | 2010-09-26 09:49

额`` ` 这个回答````

支持(0) 反对(0) amojry | 园豆：180 (初学一级) | 2010-09-26 09:56

这应该没有统一的规则的吧，你不可能要求所有的站点都有统一的风格吧，建议建立xml的规则配置

这样你就不用老是改代码了，只需要配置不同的xml就可以了

keepsilence | 园豆：457 (菜鸟二级) | 2010-09-26 09:52

有参考价值

支持(0) 反对(0) amojry | 园豆：180 (初学一级) | 2010-09-26 09:56

不管它是否有规则，抓取的时候只要抓取符合最外层匹配的正则，然后做一些过滤操作。

Astar | 园豆：40805 (高人七级) | 2010-09-26 11:27

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。