本人现在要用nutch去抓取公司的内网系统里面的内容,可是内网是需要登录的。我现在已经模拟表单登录取得url ,如 www.xxx/login.do?user=zhangsan&pas=123。内网利用session和cookie进行保存内容。
请问使用nutch怎么模拟登录?
我在网上找了很久也没有找到有用的信息。有的说要模拟cookie,关键是怎么模拟,我需要完整的过程(对java不太熟悉)。
希望圆友提供下帮助,项目很紧急,后面还有进行信息筛选,还要推荐关键词等,所以这个需要尽快实现。
我找到2个补丁文件,但是怎么用确不知道了,请问nutch怎么应用patch文件,看上去好像可行的样子,https://issues.apache.org/jira/browse/NUTCH-827
直接请求登录页面,将响应的cookie保存下来,之后的请求带上cookie?
我自己已经实现了,下面是我实现的过程http://www.cnblogs.com/xiaoshuai1992/p/nutchlogin.html
应该要把用户名和密码post过去吧?
这个。。。
模拟cookie应当可以,怎么模拟这个恐怕还要靠自己了。
关键就是怎么模拟,我也知道可以...