想问: 如果html编辑的不规则,那爬虫在抽取文本的时候,不是很蛋疼?有没什么方法可以比较统一的抽取出它的body的内容?
可以使用如下正则表达式来实现<body>(.*\r\n)*</body>
这应该没有统一的规则的吧,你不可能要求所有的站点都有统一的风格吧,建议建立xml的规则配置
这样你就不用老是改代码了,只需要配置不同的xml就可以了
不管它是否有规则,抓取的时候只要抓取符合最外层匹配的正则,然后做一些过滤操作。