首页 新闻 搜索 专区 学院

请问如何建立一个类似酷讯网的爬虫?

0
悬赏园豆:50 [已关闭问题] 关闭于 2012-12-12 18:17

案例: http://jipiao.kuxun.cn/hangqing.html

因为我们公司的网站也是一个类似酷讯网的机票预订的网站,想实现这种需求,不知道是如何实现?酷讯网的特价机票都是实时通过爬虫项各个航空官网去捕获的。我们网站之前也做过一个爬虫,但是后来航空公司的网站给频繁访问网站的IP禁止访问了,意思是不能频繁的访问,后来就不知道怎么做了。

 

本人asp.net方向,对爬虫有所耳闻,但不曾开发过。想挑战一下这个,但是自己不知道如何下手,希望各位园友指点一下。

阿猫小覃的主页 阿猫小覃 | 初学一级 | 园豆:2
提问于:2012-12-12 13:54
< >
分享
所有回答(2)
0

频繁访问会被封IP,那就每访问一次以后间隔几秒,或是十几秒再去访问就好了,

爬虫主要做的向个动作如下,

1.打开页面,一般起始页都是固定的,是一个列表页,

2.得到html然后解析,入库,解析一般都是用正则,正则需要注意的是.有时候正则写的不规范,会导致解析起来使用大量的时间,这里需要用到函数超时,

3.得到下一页的URL,然后循环第一个动作.

 

这里需要注意的是,

有一些ajax页面有异步数据,所以要用么webborwser,有时候一些页面会弹出JS窗口,推荐使用webborwserex控件

定时爬取的话.会用到定时器,推荐quartz.net

过滤重复数据的话,可以用数据库的触发器,也可以用使用内存过滤,内存的话.推荐BloomFilter

 

其实关于爬虫,园子里也有很多相关的博客,你可以去找找相关的资料,希望对你有所帮助.

只会造轮子 | 园豆:2274 (老鸟四级) | 2012-12-12 14:16
0

另外 有很多合作方都是调用提供的接口的

世界万物 | 园豆:276 (菜鸟二级) | 2012-12-12 17:48

好像也挺无奈的哈。公司就不肯花点钱弄个接口过来

支持(0) 反对(0) 阿猫小覃 | 园豆:2 (初学一级) | 2012-12-12 18:17
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册