最近做毕设,需要用爬虫爬取各大新闻媒体和一些行业资讯网站的数据,想知道爬取的思路。
我知道是分析html提取超链接,有几个疑点:
1、对于这一类的爬虫,是针对性的抓取还是全网爬取比较好?
2、如果针对性的抓取,对于不在抓取列表内的网站如何爬取?
3、对于爬取的网页,如何判别是否是新闻或者资讯信息类型?因为在各大网站里也有一些其他信息或不需要的网页,我只需要爬取结构化的信息,对于其他信息的网页可以剔除。
4、由于爬取的网站可能比较多,用模板配置正则表达式的方式不可取,如何设计通用的解析网页提取超链接或者正文内容的方法?
就如百度和谷歌的新闻,他们应该也是通过爬虫获取的,那他们是如何爬取的呢?还是说他们的新闻模块只是针对专门的网站进行爬取和特殊的处理?
另,rss的方式我知道,但有些网站可能并不提供rss且rss时效性较高,所以现在讨论的是基于爬虫的方式。
欢迎各位不吝赐教,感激不尽!
可以用htmlparser 这里又相关介绍http://baike.baidu.com/view/1174491.htm