网页上的垃圾广告太多,如果只抓取正文就没有这个困扰。
请各位说说实现的思路,有代码更好。最好是C#
无非是用HttpRequest发起请求,然后得到网页的源码,然后用正则进行信息的提取
http://www.cnblogs.com/cai9911/archive/2006/10/17/531137.html