首页 新闻 会员 周边

蜘蛛爬行程序

0
悬赏园豆:10 [已解决问题] 解决于 2008-06-26 11:18
大家谁做过蜘蛛爬行程序啊,就是搜索各个网页中的email地址,好像得用到多线程呢,而且还要限制页面的级数,就是搜索到第几层页面,大家帮帮忙,给个思路。。
小孤狸的主页 小孤狸 | 初学一级 | 园豆:7
提问于:2008-06-25 13:17
< >
分享
最佳答案
0
网上有关这个的例子.....下载了看看,是个老外写的,是在csdn上的,具体找找......
Jared.Nie | 小虾三级 |园豆:1940 | 2008-06-26 10:05
其他回答(3)
0
你是说用多线程 同时扒 不同DIV里面的 EMAIL吗? 我倒是有个建议,你可以不考虑在哪个 DIV上,直接就开始先扒一天的 EMAIL,然后选择出里面出现个数太多的,那肯定就是网站的 EMAIL或者一些广告的,把他们放在数据库里,然后再添加一个认证模块,只有Email不在这些地址之中的才储存起来,留着干啥都行!(当然如果你想发垃圾邮件当我没说!)。最后你也可以把选取出现次数过多EMAIL的功能继续保留,并且在没次扒取email之后进行选取和添加,这样,就算那些网站换了EAMIL,你也不会放过。
西凡 | 园豆:139 (初学一级) | 2008-06-25 14:31
0
正则表达式嘛
小田好好先生 | 园豆:60 (初学一级) | 2008-06-25 17:11
0
=。= 我爬过图片 论坛回复的抓贴 不过爬Email不大赞成 论技术也就是正则表达式
小眼睛老鼠 | 园豆:2731 (老鸟四级) | 2008-06-26 02:14
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册