你好,我是java程序员,想问一下,我用java程序抓一个页面,但是这个页面要登陆后才会显示出QQ,有没有什么办法,可以直接
登入他们的网站后就可以采集到呢,哪个论坛是用discuz做的,QQ登陆直接到了腾讯界面,如果网站登入的话,需要验证码,也不
能用提交的方式登陆,谢谢,java抓取页面,有没有说是利用默认的哪个浏览器过去的呢,抓取的机制是?不好意思,就直接提了
这么多问题,谢谢谁帮忙解答一下。
httpclient 这个框架可以帮你抓取html.
当然如果出现登陆才能抓取,那你只能通过httpclient post提交登陆信息,存储cookie,然后抓取html.
有验证码?关键是破这个
你可以找一下图片识别的相关技术
试试cookie技术。
如果说就是要使用qq,新浪之类登录的话,都有外部的api,返回形式,有xml,json:网页直接使用它的js,客户端的话,使用httpclient,里面有get,post方法,能够对验证模块进行参数处理,具体使用百度即可;也可以直接使用urlconnect,也可以验证。至于你说的抓取页面,没必要,
有利用浏览器来实现的方法,不过比较重量级。不是很推荐使用。一般都是一些网页自动化测试的东西,可以勉强拿来凑数。
比如 selenium