请教园子里的达人! 利用lucene.net建立搜索引擎,请释疑!
现在我想把期刊网上的每个学科分类下的文章通过spider抓取回来,分析html结构,按照指定的域(Field) 建立lucene索引.
现在我面临的问题如下,请教:
一:我如何能分析每篇文章的URL组成规律?然后通过该URL来抓取该篇文章
二:比如对于抓取的这篇文章 http://www.cqvip.com/QK/92605Z/198702/15118985.html(只需要该页面中关于该文章的信息,其他的链接,文本,图片,广告等都不要),如何提取它的标题,作者,摘要,关键词等,从而在lucene中建立对应的域(Field)索引?
谢谢能提供详细的思路或者资料! 谢谢
1.每个网站的URL都不尽相同,只能为不同的网站配置不同的模板(正则表达式)。
2.提取页面中的内容,也需要为不同的网站配置不同的正则
使用System.Text.RegularExpression中的API实现网页数据的抓取
途径A:
使用WebRequest, WebResponse获取HTML流,根据正则表达式判断并截取有效数据。
途径B:
使用WebBrowser创建一个HtmlDocument对象,然后使用类似DOM的方式操作HTML元素获取有效数据。
参考地址:
http://www.cnblogs.com/drummery/archive/2008/03/31/1131367.html