首页新闻找找看学习计划
当前位置: 博问标签 /nutch/未解决/ 已解决
0
回答数

关于nutch2.x爬取网页写入mysql乱码的问题

用nutch2.x爬取国内网站,因为国内网站的编码并不统一,同时有gbk和utf8的门户网站也不少,我用nutch2.x爬取的网页数据存入数据库因为编码不统一,总是存在乱码的问题。请问该如何解决。 或
3
回答数

5 java正则 怎么能 最多的 匹配 符合的 子串?

问一下,正则怎么 能最多的匹配,比如 上面的 想 [a-z]+ 是 字母 1到多个, 那么 ab,bc,abc 都是符合的,实际上结果里只有 abc,怎么能都获取?
0
回答数

5 怎样 能让 爬虫 用得上 VPS上的 IP资源?代理?VPN?端口映射?

VPS就是 T宝上 买的 动态更换IP的 vps 这个 vps 有个 特点 就是 动态的更换ip,宽带拨号 一次 就换一个ip,这个 ip 对于 爬虫来说 很有用; 可是 这些都是虚拟机,配置很低,运
1
回答数

30 在eclipse里面尝试着用nutch2.2.1版本抓取网页存储在MySQL数据库中出错

我在Cygwin下面执行bin/nutch crawl urls -depth 3 -topN 5也是出现这样的错去,请问是怎么回事呢?是不是那个hadoop-core-1.2.0.jar包要修改一下
3
回答数

100 nutch 抓取需要登录的网站

本人现在要用nutch去抓取公司的内网系统里面的内容,可是内网是需要登录的。我现在已经模拟表单登录取得url ,如 www.xxx/login.do?user=zhangsan&pas=123。内网利
1
回答数

5 实现网络爬虫与搜索引擎技术都需要配备什么样的资源?

公司准备做一个关于搜索引擎方面的东西,但是本人对这块不是熟悉,都需要配备什么样的资源,比如人才,软件(开源或商业的,开源优先),硬件,网络等,请大家不吝赐教。 大致的要求是能有一个爬虫去一些网站爬数据