首页 新闻 会员 周边 捐助

请教关于爬虫提取非结构化数据的方法

0
悬赏园豆:5 [已解决问题] 解决于 2019-10-11 16:49

网络爬虫,提取指定网页上的结构化数据,可以采用各种方法,自己编写爬虫,使用框架等。
那么提取网页上非结构化数据,要用什么方法呢?有人说用正则去匹配,但它不是非结构化的么?怎么用通用的方法去获取?
也可能我对非结构化数据的概念的理解有所偏差。。。

正态分个布的主页 正态分个布 | 初学一级 | 园豆:97
提问于:2019-03-19 10:52
< >
分享
最佳答案
0

本质上还是根据特征来提取,分析所有的内容来分析结构,有些指定内容在指定层次的标签内,有些内容在某个特定内容之后。

收获园豆:5
随风行云 | 小虾三级 |园豆:936 | 2019-03-19 12:02

有道理

正态分个布 | 园豆:97 (初学一级) | 2019-03-20 15:36
其他回答(2)
0

你要把具体的网页 贴出来,你要抓的马部分也贴出来,这样有针对性的提问,会更好的得到解答

兴想事成 | 园豆:540 (小虾三级) | 2019-03-20 14:47

确实是这样。不过当时遇到这个问题的时候并没有具体的网站,只是宽泛地被问到了这个问题,到现在也没有一个好的思路。

支持(0) 反对(0) 正态分个布 | 园豆:97 (初学一级) | 2019-03-20 15:49
0

文本,图片,视频只要有展示,理论上都是可以获取的。比如文本,使用正则匹配,图片可以根据链接下载,或者编码存储。同类的数据资源存储方式大同小异,具体的操作需要根据具体场景分析。
首先要清楚需要的数据是啥,而不是考虑数据是不是结构化吧。。。

Masako | 园豆:1893 (小虾三级) | 2019-03-20 15:32

假设有这么一个需求,抓取全国所有本科院校的学校简介。
所有的高校官方主页,它的html结构都是不一样的。学校简介,不同的学校主页放在不同层次的标签下,它也没有类似的关键字(以下是某某学校的“学校简介”)。假设所有院校的名录是有的。能不能有一种好的方法,将所有学校的简介抓取下来。机器学习就不考虑了,会搞这个我就不搞爬虫了。看你分析的头头是道,麻烦您设计一个完整的逻辑。

支持(0) 反对(0) 正态分个布 | 园豆:97 (初学一级) | 2019-03-20 15:47

@踏破凌霄城: 不能。

支持(0) 反对(0) Masako | 园豆:1893 (小虾三级) | 2019-03-20 15:50
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册