首页 新闻 会员 周边

nutch抓取数据后怎么解析呢?

0
悬赏园豆:80 [待解决问题]

nutch抓取数据后,直接可以给Lucene用吗?还是需要解析后才能给Lucene用,那用eclipse怎么解析呢?小弟刚接触nutch,一头雾水啊,各位大神救命啊

逝去的光影的主页 逝去的光影 | 初学一级 | 园豆:13
提问于:2013-11-26 16:10
< >
分享
所有回答(2)
0

可以开发插件做解析,Lucene是做索引用的不是做解析的,如果只是简单的数据抓取可以自己写个简单的信息抓取工具,使用java开发用Jsoup,使用C#开发的话结合HtmlAgilityPack还是比较容易的。

StanZhai | 园豆:202 (菜鸟二级) | 2013-11-27 09:16
0

nutch 采集的应该是包含Html标签的数据,你应该要针对这些数据进行提取处理,如用正则提取标题,正文,然后再给Lucence去建立索引。这样提取出的数据才有意义

Zery | 园豆:6151 (大侠五级) | 2013-11-27 12:21

nutch采集的是一堆文件,我不知道怎么解析那堆文件获得url之类的html数据啊,百度都没怎么说

支持(0) 反对(0) 逝去的光影 | 园豆:13 (初学一级) | 2013-11-27 12:46

@逝去的光影: 如果采集的只是Url那你需要构造一个Http请求根据url把请求回来的数据,用正则取出需要的信息,如果是html那就直接正则取就是了

支持(0) 反对(0) Zery | 园豆:6151 (大侠五级) | 2013-11-27 15:53

@Zery: 但是采集回来的文件不是txt格式啊,不能直接读取吧?都是什么.cc什么的结尾

支持(0) 反对(0) 逝去的光影 | 园豆:13 (初学一级) | 2013-11-27 15:56
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册