我在做一个爬虫的测试,Heritrix如何才能把其他的内容过滤掉,我只要输入指定链接里面包含的链接?麻烦知道的大神说下,谢谢
自己解决了
正则表达式
我想过滤掉js,图片文件,只要html文件,具体怎么操作啊?