1)如果你已经模拟登录到想要采集的网页了.那采集就不是问题了.
2)下面代码应该有用,try catch 日志处理自行加上.
string url="www.baidu.com";//The page you want to see.
httpWebRequest webRequest = (HttpWebRequest)WebRequest.Create(url);
httpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse();
Stream stream = webResponse.GetResponseStream();
StreamReader reader = new StreamReader(stream, System.Text.Encoding.GetEncoding("gb2312"));
//整个页面内容 如果需要部分内容,自己写正则表达式.
content = reader.ReadToEnd();
reader.Close();
webResponse.Close();
验证码估计要手动写了,,.....其他用正则
验证码你可以在网上找一个,加载进去》。。。。。
写爬虫的童鞋可以试试神箭手云爬虫,自带JS渲染、代理ip、验证码识别等功能,还可以发布和导出爬取的数据,生成图表等,都在云端进行,不需要安装开发环境。
开发文档参考:http://doc.shenjianshou.cn/