首页新闻找找看学习计划

Heritrix如何提取指定网页的URL,只要URL,其他内容不要

0
悬赏园豆:10 [已解决问题] 解决于 2016-03-31 14:05

我在做一个爬虫的测试,Heritrix如何才能把其他的内容过滤掉,我只要输入指定链接里面包含的链接?麻烦知道的大神说下,谢谢

wangxing.xu的主页 wangxing.xu | 初学一级 | 园豆:127
提问于:2016-03-28 17:52
< >
分享
最佳答案
0

自己解决了

wangxing.xu | 初学一级 |园豆:127 | 2016-03-31 14:04
其他回答(1)
0

正则表达式

收获园豆:10
Rich.T | 园豆:3438 (老鸟四级) | 2016-03-28 18:05

我想过滤掉js,图片文件,只要html文件,具体怎么操作啊?

支持(0) 反对(0) wangxing.xu | 园豆:127 (初学一级) | 2016-03-29 17:07
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册