如何实现网页新闻信息采集

悬赏园豆：10 [已解决问题] 解决于 2011-01-28 13:09

最近对这个挺感兴趣的，在网上转了好久也没有结果，还请大哥哥指教啊，先谢啦

.NET技术 C#

问题补充： 对于那些Ajax的网站怎么做呀

麻将我会 | 初学一级 | 园豆：24
提问于：2011-01-19 12:04

< >

最佳答案

WebRequest 获取网站地址页面的信息。

对页面信息的操作，你可以选择多种方式，正则表达式，还有.net自带的mshtml引用。

具体的操作你可以自己去摸索下。

收获园豆：10

盗贼 | 菜鸟二级 |园豆：255 | 2011-01-19 13:47

其他回答(5)

webclient下载新闻网页，用mshtml提取需要的信息

Ajax的网站一般为了搜索引擎优化在也会在设置相应的页面

青牛客 | 园豆：562 (小虾三级) | 2011-01-19 15:45

Ajax的网站直接找他的Ajax接口

manji | 园豆：633 (小虾三级) | 2011-01-20 17:48

极速动车组采集器5.2

可以参考这个。速度非常快。而且规则简单

wangzsky | 园豆：350 (菜鸟二级) | 2011-01-22 14:06

看看这个，采集sina新闻

http://szedwin.gotoip1.com/read.php?tid-1035.html

用的是perl，需要安装Web::Scraper模块才行。

笑翱江湖 | 园豆：126 (初学一级) | 2011-12-06 13:55

一般的采集器采集新闻还可以，ajax的这些就搞不定了，需要用专业的采集器：

推荐你一个：数据农场　　http://www.zhuashuju.com

我贴一段介绍给你看看，详细的你去网站上自己看吧

浏览器能看到的数据可轻松采集，尤其擅长采集Js脚本输出、Ajax动态加载、点击后显示的、超大超长列表、隐藏、iframe框架等难度较大数据

: 各种类型的web站点均在采集范围之内,新闻,论坛,博客,生活服务类,电子商务网站，行业网站,门户网站，微博等等,只要是浏览器能浏览的站点全部能够采集。

流浪的军刀 | 园豆：206 (菜鸟二级) | 2013-02-27 15:49

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。