首先声明:我没有做过博客、新闻的全文检索项目。
如果我做的话,会是以下的思路。
1、找找看检索的博客、新闻看看有没有 RSS? 有的话分析出来内容主干。
2、如果是html文档,能不能提取出文章标题、热点标签词,或者去掉html标记。在对其建立索引。
3、检索的文章多不多,都下载下了试试看,或许把内容都放到document的Field当中就能够实现。
CJKAnalyzer分词器的.net版本下载地址:http://download.prjcode.com/detail/cFSTcWh
(PS:此链接能下载,我已测试,但弹出的广告页很多很烦人。你也可以自己搜索:Lucene.Net.NLS.rar 里面有)