首页 新闻 会员 周边

html内容抽取问题

0
悬赏园豆:20 [待解决问题]

想问: 如果html编辑的不规则,那爬虫在抽取文本的时候,不是很蛋疼?有没什么方法可以比较统一的抽取出它的body的内容?

amojry的主页 amojry | 初学一级 | 园豆:180
提问于:2010-09-26 09:33
< >
分享
所有回答(3)
0

可以使用如下正则表达式来实现
<body>(.*\r\n)*</body>

花猫.NET | 园豆:215 (菜鸟二级) | 2010-09-26 09:49
额`` ` 这个回答````
支持(0) 反对(0) amojry | 园豆:180 (初学一级) | 2010-09-26 09:56
0

这应该没有统一的规则的吧,你不可能要求所有的站点都有统一的风格吧,建议建立xml的规则配置

这样你就不用老是改代码了,只需要配置不同的xml就可以了

keepsilence | 园豆:457 (菜鸟二级) | 2010-09-26 09:52
有参考价值
支持(0) 反对(0) amojry | 园豆:180 (初学一级) | 2010-09-26 09:56
0

不管它是否有规则,抓取的时候只要抓取符合最外层匹配的正则,然后做一些过滤操作。

Astar | 园豆:40805 (高人七级) | 2010-09-26 11:27
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册