网络爬虫,提取指定网页上的结构化数据,可以采用各种方法,自己编写爬虫,使用框架等。
那么提取网页上非结构化数据,要用什么方法呢?有人说用正则去匹配,但它不是非结构化的么?怎么用通用的方法去获取?
也可能我对非结构化数据的概念的理解有所偏差。。。
本质上还是根据特征来提取,分析所有的内容来分析结构,有些指定内容在指定层次的标签内,有些内容在某个特定内容之后。
有道理
你要把具体的网页 贴出来,你要抓的马部分也贴出来,这样有针对性的提问,会更好的得到解答
确实是这样。不过当时遇到这个问题的时候并没有具体的网站,只是宽泛地被问到了这个问题,到现在也没有一个好的思路。
文本,图片,视频只要有展示,理论上都是可以获取的。比如文本,使用正则匹配,图片可以根据链接下载,或者编码存储。同类的数据资源存储方式大同小异,具体的操作需要根据具体场景分析。
首先要清楚需要的数据是啥,而不是考虑数据是不是结构化吧。。。
假设有这么一个需求,抓取全国所有本科院校的学校简介。
所有的高校官方主页,它的html结构都是不一样的。学校简介,不同的学校主页放在不同层次的标签下,它也没有类似的关键字(以下是某某学校的“学校简介”)。假设所有院校的名录是有的。能不能有一种好的方法,将所有学校的简介抓取下来。机器学习就不考虑了,会搞这个我就不搞爬虫了。看你分析的头头是道,麻烦您设计一个完整的逻辑。
@踏破凌霄城: 不能。