首页 新闻 搜索 专区 学院

如何实现网页新闻信息采集

0
悬赏园豆:10 [已解决问题] 解决于 2011-01-28 13:09

最近对这个挺感兴趣的,在网上转了好久也没有结果,还请大哥哥指教啊,先谢啦

问题补充: 对于那些Ajax的网站怎么做呀
麻将我会的主页 麻将我会 | 初学一级 | 园豆:24
提问于:2011-01-19 12:04
< >
分享
最佳答案
0

WebRequest  获取网站地址页面的信息。

对页面信息的操作,你可以选择多种方式,正则表达式,还有.net自带的mshtml引用。

具体的操作你可以自己去摸索下。

收获园豆:10
盗贼 | 菜鸟二级 |园豆:255 | 2011-01-19 13:47
其他回答(5)
0

webclient下载新闻网页,用mshtml提取需要的信息

Ajax的网站一般为了搜索引擎优化在也会在设置相应的页面

青牛客 | 园豆:562 (小虾三级) | 2011-01-19 15:45
0

Ajax的网站直接找他的Ajax接口

manji | 园豆:633 (小虾三级) | 2011-01-20 17:48
0

极速动车组采集器5.2

http://www.cnblogs.com/wangzsky/archive/2011/01/15/1936248.html

可以参考这个。速度非常快。而且规则简单

wangzsky | 园豆:350 (菜鸟二级) | 2011-01-22 14:06
0

看看这个,采集sina新闻

http://szedwin.gotoip1.com/read.php?tid-1035.html

用的是perl,需要安装Web::Scraper模块才行。

笑翱江湖 | 园豆:126 (初学一级) | 2011-12-06 13:55
0

一般的采集器采集新闻还可以,ajax的这些就搞不定了,需要用专业的采集器:

推荐你一个:数据农场  http://www.zhuashuju.com

我贴一段介绍给你看看,详细的你去网站上自己看吧


浏览器能看到的数据可轻松采集,尤其擅长采集Js脚本输出、Ajax动态加载、点击后显示的、超大超长列表、隐藏、iframe框架等难度较大数据

单个任务每天可采集30万页面,可按照客户要求进一步提高或者降低采集速度,保障以最快的速度完成数据的采集工作。

各种类型的web站点均在采集范围之内,新闻,论坛,博客,生活服务类,电子商务网站,行业网站,门户网站,微博等等,只要是浏览器能浏览的站点全部能够采集。

可以突破防采集措施,如登陆采集,验证码采集等技术难题,可对目标网站进行7*24实时监控,自动化发现并采集新增数据。

流浪的军刀 | 园豆:206 (菜鸟二级) | 2013-02-27 15:49
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册