请问如何建立一个类似酷讯网的爬虫？

悬赏园豆：50 [已关闭问题] 关闭于 2012-12-12 18:17

因为我们公司的网站也是一个类似酷讯网的机票预订的网站，想实现这种需求，不知道是如何实现？酷讯网的特价机票都是实时通过爬虫项各个航空官网去捕获的。我们网站之前也做过一个爬虫，但是后来航空公司的网站给频繁访问网站的IP禁止访问了，意思是不能频繁的访问，后来就不知道怎么做了。

本人asp.net方向，对爬虫有所耳闻，但不曾开发过。想挑战一下这个，但是自己不知道如何下手，希望各位园友指点一下。

ASP.NET .NET技术网站开发 C#

阿猫小覃 | 初学一级 | 园豆：2
提问于：2012-12-12 13:54

< >

所有回答(2)

频繁访问会被封IP,那就每访问一次以后间隔几秒,或是十几秒再去访问就好了,

爬虫主要做的向个动作如下,

1.打开页面,一般起始页都是固定的,是一个列表页,

2.得到html然后解析,入库,解析一般都是用正则,正则需要注意的是.有时候正则写的不规范,会导致解析起来使用大量的时间,这里需要用到函数超时,

3.得到下一页的URL,然后循环第一个动作.

这里需要注意的是,

有一些ajax页面有异步数据,所以要用么webborwser,有时候一些页面会弹出JS窗口,推荐使用webborwserex控件

定时爬取的话.会用到定时器,推荐quartz.net

过滤重复数据的话,可以用数据库的触发器,也可以用使用内存过滤,内存的话.推荐BloomFilter

其实关于爬虫,园子里也有很多相关的博客,你可以去找找相关的资料,希望对你有所帮助.

只会造轮子 | 园豆：2274 (老鸟四级) | 2012-12-12 14:16

另外有很多合作方都是调用提供的接口的

世界万物 | 园豆：276 (菜鸟二级) | 2012-12-12 17:48

好像也挺无奈的哈。公司就不肯花点钱弄个接口过来

支持(0) 反对(0) 阿猫小覃 | 园豆：2 (初学一级) | 2012-12-12 18:17

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。

欢迎，请先 登录 或者 注册 。