首页 新闻 搜索 专区 学院
当前位置:博问标签/nutch/未解决/ 已解决
0
回答数

待解决问题 关于nutch2.x爬取网页写入mysql乱码的问题

用nutch2.x爬取国内网站,因为国内网站的编码并不统一,同时有gbk和utf8的门户网站也不少,我用nutch2.x爬取的网页数据存入数据库因为编码不统一,总是存在乱码的问题。请问该如何解决。 或
0
回答数

待解决问题 5 怎样 能让 爬虫 用得上 VPS上的 IP资源?代理?VPN?端口映射?

VPS就是 T宝上 买的 动态更换IP的 vps 这个 vps 有个 特点 就是 动态的更换ip,宽带拨号 一次 就换一个ip,这个 ip 对于 爬虫来说 很有用; 可是 这些都是虚拟机,配置很低,运
1
回答数

待解决问题 30 在eclipse里面尝试着用nutch2.2.1版本抓取网页存储在MySQL数据库中出错

我在Cygwin下面执行bin/nutch crawl urls -depth 3 -topN 5也是出现这样的错去,请问是怎么回事呢?是不是那个hadoop-core-1.2.0.jar包要修改一下