首页 新闻 会员 周边

求网络爬虫(spider)如果定位URL和解析网页元数据问题! 谢谢

0
悬赏园豆:30 [已解决问题] 解决于 2008-10-24 23:15

请教园子里的达人! 利用lucene.net建立搜索引擎,请释疑!
现在我想把期刊网上的每个学科分类下的文章通过spider抓取回来,分析html结构,按照指定的域(Field) 建立lucene索引.
现在我面临的问题如下,请教:

一:我如何能分析每篇文章的URL组成规律?然后通过该URL来抓取该篇文章

二:比如对于抓取的这篇文章 http://www.cqvip.com/QK/92605Z/198702/15118985.html(只需要该页面中关于该文章的信息,其他的链接,文本,图片,广告等都不要),如何提取它的标题,作者,摘要,关键词等,从而在lucene中建立对应的域(Field)索引?

谢谢能提供详细的思路或者资料! 谢谢

Charleston的主页 Charleston | 初学一级 | 园豆:10
提问于:2008-10-23 00:32
< >
分享
最佳答案
1

1.每个网站的URL都不尽相同,只能为不同的网站配置不同的模板(正则表达式)。

2.提取页面中的内容,也需要为不同的网站配置不同的正则

麒麟.NET | 老鸟四级 |园豆:3614 | 2008-10-23 11:15
其他回答(1)
0

使用System.Text.RegularExpression中的API实现网页数据的抓取

        途径A:

             使用WebRequest, WebResponse获取HTML流,根据正则表达式判断并截取有效数据。
    
         途径B:

            使用WebBrowser创建一个HtmlDocument对象,然后使用类似DOM的方式操作HTML元素获取有效数据。


参考地址:

http://www.cnblogs.com/drummery/archive/2008/03/31/1131367.html 

RicoRui | 园豆:3663 (老鸟四级) | 2008-10-24 09:52
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册