求网络爬虫(spider)如果定位URL和解析网页元数据问题! 谢谢

悬赏园豆：30 [已解决问题] 解决于 2008-10-24 23:15

请教园子里的达人! 利用lucene.net建立搜索引擎,请释疑!
现在我想把期刊网上的每个学科分类下的文章通过spider抓取回来,分析html结构,按照指定的域(Field) 建立lucene索引.
现在我面临的问题如下,请教:

一:我如何能分析每篇文章的URL组成规律?然后通过该URL来抓取该篇文章

二:比如对于抓取的这篇文章 http://www.cqvip.com/QK/92605Z/198702/15118985.html(只需要该页面中关于该文章的信息,其他的链接,文本,图片,广告等都不要),如何提取它的标题,作者,摘要,关键词等,从而在lucene中建立对应的域(Field)索引?

谢谢能提供详细的思路或者资料! 谢谢

网站开发 Google应用