首页 新闻 会员 周边

java 用程序抓取页面登陆问题

0
悬赏园豆:50 [待解决问题]

你好,我是java程序员,想问一下,我用java程序抓一个页面,但是这个页面要登陆后才会显示出QQ,有没有什么办法,可以直接

登入他们的网站后就可以采集到呢,哪个论坛是用discuz做的,QQ登陆直接到了腾讯界面,如果网站登入的话,需要验证码,也不

能用提交的方式登陆,谢谢,java抓取页面,有没有说是利用默认的哪个浏览器过去的呢,抓取的机制是?不好意思,就直接提了

这么多问题,谢谢谁帮忙解答一下。

樱花草678的主页 樱花草678 | 初学一级 | 园豆:152
提问于:2013-10-26 23:19
< >
分享
所有回答(5)
0

httpclient 这个框架可以帮你抓取html.

当然如果出现登陆才能抓取,那你只能通过httpclient post提交登陆信息,存储cookie,然后抓取html.

Beyond-bit | 园豆:2885 (老鸟四级) | 2013-10-26 23:40
0

有验证码?关键是破这个

你可以找一下图片识别的相关技术

田林九村 | 园豆:2367 (老鸟四级) | 2013-10-27 11:11
0

试试cookie技术。

angelshelter | 园豆:9887 (大侠五级) | 2013-10-27 21:34
0

如果说就是要使用qq,新浪之类登录的话,都有外部的api,返回形式,有xml,json:网页直接使用它的js,客户端的话,使用httpclient,里面有get,post方法,能够对验证模块进行参数处理,具体使用百度即可;也可以直接使用urlconnect,也可以验证。至于你说的抓取页面,没必要,

江边流客 | 园豆:5 (初学一级) | 2013-10-28 17:06
0

有利用浏览器来实现的方法,不过比较重量级。不是很推荐使用。一般都是一些网页自动化测试的东西,可以勉强拿来凑数。

比如 selenium

风云力 | 园豆:541 (小虾三级) | 2013-10-29 17:49
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册