首页 新闻 会员 周边

nutch 抓取需要登录的网站

0
悬赏园豆:100 [已解决问题] 解决于 2014-08-21 22:55

本人现在要用nutch去抓取公司的内网系统里面的内容,可是内网是需要登录的。我现在已经模拟表单登录取得url ,如 www.xxx/login.do?user=zhangsan&pas=123。内网利用session和cookie进行保存内容。

 请问使用nutch怎么模拟登录?

我在网上找了很久也没有找到有用的信息。有的说要模拟cookie,关键是怎么模拟,我需要完整的过程(对java不太熟悉)。

希望圆友提供下帮助,项目很紧急,后面还有进行信息筛选,还要推荐关键词等,所以这个需要尽快实现。

问题补充:

 我找到2个补丁文件,但是怎么用确不知道了,请问nutch怎么应用patch文件,看上去好像可行的样子,https://issues.apache.org/jira/browse/NUTCH-827

清风君的主页 清风君 | 菜鸟二级 | 园豆:372
提问于:2014-08-13 17:58
< >
分享
最佳答案
0

直接请求登录页面,将响应的cookie保存下来,之后的请求带上cookie?

收获园豆:40
潮流还是非主流 | 菜鸟二级 |园豆:306 | 2014-08-20 11:41

我自己已经实现了,下面是我实现的过程http://www.cnblogs.com/xiaoshuai1992/p/nutchlogin.html

清风君 | 园豆:372 (菜鸟二级) | 2014-08-21 22:56
其他回答(2)
0

应该要把用户名和密码post过去吧?

收获园豆:30
XiaoFaye | 园豆:3087 (老鸟四级) | 2014-08-13 18:21

这个。。。

支持(0) 反对(0) 清风君 | 园豆:372 (菜鸟二级) | 2014-08-13 19:19
0

模拟cookie应当可以,怎么模拟这个恐怕还要靠自己了。

收获园豆:30
LiuKaiFa | 园豆:1491 (小虾三级) | 2014-08-14 07:50

关键就是怎么模拟,我也知道可以...

支持(0) 反对(0) 清风君 | 园豆:372 (菜鸟二级) | 2014-08-14 09:04
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册