案例: http://jipiao.kuxun.cn/hangqing.html
因为我们公司的网站也是一个类似酷讯网的机票预订的网站,想实现这种需求,不知道是如何实现?酷讯网的特价机票都是实时通过爬虫项各个航空官网去捕获的。我们网站之前也做过一个爬虫,但是后来航空公司的网站给频繁访问网站的IP禁止访问了,意思是不能频繁的访问,后来就不知道怎么做了。
本人asp.net方向,对爬虫有所耳闻,但不曾开发过。想挑战一下这个,但是自己不知道如何下手,希望各位园友指点一下。
频繁访问会被封IP,那就每访问一次以后间隔几秒,或是十几秒再去访问就好了,
爬虫主要做的向个动作如下,
1.打开页面,一般起始页都是固定的,是一个列表页,
2.得到html然后解析,入库,解析一般都是用正则,正则需要注意的是.有时候正则写的不规范,会导致解析起来使用大量的时间,这里需要用到函数超时,
3.得到下一页的URL,然后循环第一个动作.
这里需要注意的是,
有一些ajax页面有异步数据,所以要用么webborwser,有时候一些页面会弹出JS窗口,推荐使用webborwserex控件
定时爬取的话.会用到定时器,推荐quartz.net
过滤重复数据的话,可以用数据库的触发器,也可以用使用内存过滤,内存的话.推荐BloomFilter
其实关于爬虫,园子里也有很多相关的博客,你可以去找找相关的资料,希望对你有所帮助.
另外 有很多合作方都是调用提供的接口的
好像也挺无奈的哈。公司就不肯花点钱弄个接口过来