首页新闻找找看学习计划

C# 网络爬虫模拟登陆新浪微博

0
悬赏园豆:10 [待解决问题]

最近正在研究网络爬虫的东西,现在有些网站必须要登陆进去才能爬取,有些比较初级的网站通过在地址栏访问的方式就可以登陆到网页,然而有些网站的登陆机制采用了JS的方式,并且采用了加密的方法,新浪微博就是一个特例,希望有经验的能够介绍一些比较好的方法。

问题补充:

最近两天我又测试了一下,发现谷歌浏览器竟然在不用登陆的情况下就可以进入他人的微博主页,而firefox浏览器则必须先登录之后才能访问其他人的微博主页,有人知道谷歌浏览器是怎么做到的吗

scq的主页 scq | 初学一级 | 园豆:192
提问于:2014-04-11 15:54
< >
分享
所有回答(3)
0

用 Fiddler 抓包,分析 HTTP 请求和响应内容。

Launcher | 园豆:44980 (高人七级) | 2014-04-11 16:13

目前我就是按这方面做得,分析了HTTP的请求和响应,但是怎样才能知道他的加密算法和登陆认证方法

支持(0) 反对(0) scq | 园豆:192 (初学一级) | 2014-04-11 16:19

@scq: 首先你需要区分 HTTPS 和 HTTP,前者的话好说,属于标准安全协议,后者的话,它的加密方式会写在 JS 中,你可以通过阅读 JS 代码获知它的加密方式。

支持(0) 反对(0) Launcher | 园豆:44980 (高人七级) | 2014-04-11 16:29
0

如果没有改的话,应该还是用js加密密码的,加密方法可以实用chrome浏览器的调试功能,设置在鼠标单击时进入断点,然后点击登录,就可以浏览到加密代码。

喵喵喵猫 | 园豆:1742 (小虾三级) | 2014-04-12 20:16

参考:http://q.cnblogs.com/q/31488/

支持(0) 反对(0) 喵喵喵猫 | 园豆:1742 (小虾三级) | 2014-04-12 20:19
0

试试神箭手云爬虫平台的新浪微博爬虫[按微博昵称爬取]支持云端自动采集,实时监控更新~

爬虫链接:http://www.shenjianshou.cn/index.php?r=market/configDetail&pid=139

sosozzzx | 园豆:302 (菜鸟二级) | 2016-08-29 16:31
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册