首页 新闻 会员 周边 捐助

登陆 采集 验证码

0
悬赏园豆:200 [待解决问题]

如何对一个网站登陆后(过验证码) 进行信息采集

坏黑豹的主页 坏黑豹 | 初学一级 | 园豆:2
提问于:2011-04-11 16:38
< >
分享
所有回答(4)
0

1)如果你已经模拟登录到想要采集的网页了.那采集就不是问题了.

2)下面代码应该有用,try catch  日志处理自行加上.

string url="www.baidu.com";//The page you want to see.

httpWebRequest webRequest = (HttpWebRequest)WebRequest.Create(url); 
httpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse(); 
Stream stream = webResponse.GetResponseStream(); 
StreamReader reader = new StreamReader(stream, System.Text.Encoding.GetEncoding("gb2312")); 
 //整个页面内容 如果需要部分内容,自己写正则表达式.
content = reader.ReadToEnd();
reader.Close();
webResponse.Close();

DYStudio.Net | 园豆:1747 (小虾三级) | 2011-04-11 19:48
0

验证码估计要手动写了,,.....其他用正则

56180825 | 园豆:1749 (小虾三级) | 2011-04-12 08:38
0

验证码你可以在网上找一个,加载进去》。。。。。

yysa | 园豆:122 (初学一级) | 2011-05-26 08:30
0

写爬虫的童鞋可以试试神箭手云爬虫,自带JS渲染、代理ip、验证码识别等功能,还可以发布和导出爬取的数据,生成图表等,都在云端进行,不需要安装开发环境。

开发文档参考:http://doc.shenjianshou.cn/

sosozzzx | 园豆:302 (菜鸟二级) | 2016-08-15 15:02
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册