nutch抓取数据后,直接可以给Lucene用吗?还是需要解析后才能给Lucene用,那用eclipse怎么解析呢?小弟刚接触nutch,一头雾水啊,各位大神救命啊
可以开发插件做解析,Lucene是做索引用的不是做解析的,如果只是简单的数据抓取可以自己写个简单的信息抓取工具,使用java开发用Jsoup,使用C#开发的话结合HtmlAgilityPack还是比较容易的。
nutch 采集的应该是包含Html标签的数据,你应该要针对这些数据进行提取处理,如用正则提取标题,正文,然后再给Lucence去建立索引。这样提取出的数据才有意义
nutch采集的是一堆文件,我不知道怎么解析那堆文件获得url之类的html数据啊,百度都没怎么说
@逝去的光影: 如果采集的只是Url那你需要构造一个Http请求根据url把请求回来的数据,用正则取出需要的信息,如果是html那就直接正则取就是了
@Zery: 但是采集回来的文件不是txt格式啊,不能直接读取吧?都是什么.cc什么的结尾