首页 新闻 会员 周边 捐助

谁熟悉lucene.net ,如何索引大文本,比如新闻内容

0
悬赏园豆:30 [已关闭问题] 关闭于 2010-11-09 16:59

我要对博客,新闻进行索引,小字段没事,对于博客新闻的内容,如何索引。不可能都把内容都放到document的Field当中吧。

还有,谁有CJKAnalyzer分词器的.net版本。在网上找了半天都没找到。

有的帮忙提供以下,谢谢

一天到晚游泳的鱼的主页 一天到晚游泳的鱼 | 初学一级 | 园豆:120
提问于:2010-09-30 10:10
< >
分享
所有回答(1)
0

首先声明:我没有做过博客、新闻的全文检索项目。

如果我做的话,会是以下的思路。

1、找找看检索的博客、新闻看看有没有 RSS? 有的话分析出来内容主干。

2、如果是html文档,能不能提取出文章标题、热点标签词,或者去掉html标记。在对其建立索引。

3、检索的文章多不多,都下载下了试试看,或许把内容都放到document的Field当中就能够实现。

 CJKAnalyzer分词器的.net版本下载地址:http://download.prjcode.com/detail/cFSTcWh

(PS:此链接能下载,我已测试,但弹出的广告页很多很烦人。你也可以自己搜索:Lucene.Net.NLS.rar 里面有)

冰是睡着的水 | 园豆:110 (初学一级) | 2010-09-30 16:21
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册