关于新闻资讯类信息爬虫具体实现的请教？

悬赏园豆：80 [待解决问题]

最近做毕设，需要用爬虫爬取各大新闻媒体和一些行业资讯网站的数据，想知道爬取的思路。
我知道是分析html提取超链接，有几个疑点：
1、对于这一类的爬虫，是针对性的抓取还是全网爬取比较好？
2、如果针对性的抓取，对于不在抓取列表内的网站如何爬取？
3、对于爬取的网页，如何判别是否是新闻或者资讯信息类型？因为在各大网站里也有一些其他信息或不需要的网页，我只需要爬取结构化的信息，对于其他信息的网页可以剔除。
4、由于爬取的网站可能比较多，用模板配置正则表达式的方式不可取，如何设计通用的解析网页提取超链接或者正文内容的方法？
就如百度和谷歌的新闻，他们应该也是通过爬虫获取的，那他们是如何爬取的呢？还是说他们的新闻模块只是针对专门的网站进行爬取和特殊的处理？
另，rss的方式我知道，但有些网站可能并不提供rss且rss时效性较高，所以现在讨论的是基于爬虫的方式。

欢迎各位不吝赐教，感激不尽！

爬虫新闻爬虫新闻采集信息采集

Wilco | 初学一级 | 园豆：122
提问于：2013-04-13 20:00

< >

所有回答(1)

可以用htmlparser 这里又相关介绍http://baike.baidu.com/view/1174491.htm

HoYO | 园豆：80 (初学一级) | 2013-04-15 17:23

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。