爬虫原理很简单,但要实现起来却挺复杂的。首先要懂得线程、还要熟悉深度优先和广度优先,最重要的是要根据自己的需要来设置正则表达式提取网上的内容。
需要一个程序,可以把网页上需要的内容根据自己的设置提取出来。比如:淘宝里有许多商品,我需要把里面的商品全部用爬虫技术爬出来存放在一个EXCAL表里。
求c#源码。。。。
自己写去
正在写!!
你这不就是Etao么,另外现在task封装了线程操作已经很方便了,至于页面分析,将来会越来越繁琐也是一门学问,人家总是会变的。
试试神箭手云爬虫平台的淘宝商品信息及评价采集爬虫(按商品搜索关键字)支持云端自动采集,实时监控更新~
爬虫链接:http://www.shenjianshou.cn/index.php?r=market/configDetail&pid=119
采集到的数据可以直接导出EXCEL文件