WebRequest 获取网站地址页面的信息。
对页面信息的操作,你可以选择多种方式,正则表达式,还有.net自带的mshtml引用。
具体的操作你可以自己去摸索下。
webclient下载新闻网页,用mshtml提取需要的信息
Ajax的网站一般为了搜索引擎优化在也会在设置相应的页面
Ajax的网站直接找他的Ajax接口
看看这个,采集sina新闻
http://szedwin.gotoip1.com/read.php?tid-1035.html
用的是perl,需要安装Web::Scraper模块才行。
一般的采集器采集新闻还可以,ajax的这些就搞不定了,需要用专业的采集器:
推荐你一个:数据农场 http://www.zhuashuju.com
我贴一段介绍给你看看,详细的你去网站上自己看吧
浏览器能看到的数据可轻松采集,尤其擅长采集Js脚本输出、Ajax动态加载、点击后显示的、超大超长列表、隐藏、iframe框架等难度较大数据
单个任务每天可采集30万页面,可按照客户要求进一步提高或者降低采集速度,保障以最快的速度完成数据的采集工作。
各种类型的web站点均在采集范围之内,新闻,论坛,博客,生活服务类,电子商务网站,行业网站,门户网站,微博等等,只要是浏览器能浏览的站点全部能够采集。
可以突破防采集措施,如登陆采集,验证码采集等技术难题,可对目标网站进行7*24实时监控,自动化发现并采集新增数据。