首页 新闻 会员 周边

关于新闻资讯类信息爬虫具体实现的请教?

0
悬赏园豆:80 [待解决问题]

最近做毕设,需要用爬虫爬取各大新闻媒体和一些行业资讯网站的数据,想知道爬取的思路。
我知道是分析html提取超链接,有几个疑点:
1、对于这一类的爬虫,是针对性的抓取还是全网爬取比较好?
2、如果针对性的抓取,对于不在抓取列表内的网站如何爬取?
3、对于爬取的网页,如何判别是否是新闻或者资讯信息类型?因为在各大网站里也有一些其他信息或不需要的网页,我只需要爬取结构化的信息,对于其他信息的网页可以剔除。
4、由于爬取的网站可能比较多,用模板配置正则表达式的方式不可取,如何设计通用的解析网页提取超链接或者正文内容的方法?
就如百度和谷歌的新闻,他们应该也是通过爬虫获取的,那他们是如何爬取的呢?还是说他们的新闻模块只是针对专门的网站进行爬取和特殊的处理?
另,rss的方式我知道,但有些网站可能并不提供rss且rss时效性较高,所以现在讨论的是基于爬虫的方式。

欢迎各位不吝赐教,感激不尽!

Wilco的主页 Wilco | 初学一级 | 园豆:122
提问于:2013-04-13 20:00
< >
分享
所有回答(1)
0

可以用htmlparser  这里又相关介绍http://baike.baidu.com/view/1174491.htm

HoYO | 园豆:80 (初学一级) | 2013-04-15 17:23
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册