请教关于爬虫提取非结构化数据的方法

悬赏园豆：5 [已解决问题] 解决于 2019-10-11 16:49

网络爬虫，提取指定网页上的结构化数据，可以采用各种方法，自己编写爬虫，使用框架等。
那么提取网页上非结构化数据，要用什么方法呢？有人说用正则去匹配，但它不是非结构化的么？怎么用通用的方法去获取？
也可能我对非结构化数据的概念的理解有所偏差。。。

爬虫

正态分个布 | 初学一级 | 园豆：97
提问于：2019-03-19 10:52

< >

最佳答案

本质上还是根据特征来提取，分析所有的内容来分析结构，有些指定内容在指定层次的标签内，有些内容在某个特定内容之后。

收获园豆：5

随风行云 | 小虾三级 |园豆：965 | 2019-03-19 12:02

有道理

正态分个布 | 园豆：97 (初学一级) | 2019-03-20 15:36

其他回答(2)

你要把具体的网页贴出来,你要抓的马部分也贴出来,这样有针对性的提问,会更好的得到解答

兴想事成 | 园豆：540 (小虾三级) | 2019-03-20 14:47

确实是这样。不过当时遇到这个问题的时候并没有具体的网站，只是宽泛地被问到了这个问题，到现在也没有一个好的思路。

支持(0) 反对(0) 正态分个布 | 园豆：97 (初学一级) | 2019-03-20 15:49

文本，图片，视频只要有展示，理论上都是可以获取的。比如文本，使用正则匹配，图片可以根据链接下载，或者编码存储。同类的数据资源存储方式大同小异，具体的操作需要根据具体场景分析。
首先要清楚需要的数据是啥，而不是考虑数据是不是结构化吧。。。

Masako | 园豆：1893 (小虾三级) | 2019-03-20 15:32

假设有这么一个需求，抓取全国所有本科院校的学校简介。
所有的高校官方主页，它的html结构都是不一样的。学校简介，不同的学校主页放在不同层次的标签下，它也没有类似的关键字（以下是某某学校的“学校简介”）。假设所有院校的名录是有的。能不能有一种好的方法，将所有学校的简介抓取下来。机器学习就不考虑了，会搞这个我就不搞爬虫了。看你分析的头头是道，麻烦您设计一个完整的逻辑。

支持(0) 反对(0) 正态分个布 | 园豆：97 (初学一级) | 2019-03-20 15:47

@踏破凌霄城: 不能。

支持(0) 反对(0) Masako | 园豆：1893 (小虾三级) | 2019-03-20 15:50

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。

欢迎，请先 登录 或者 注册 。

请教关于爬虫提取非结构化数据的方法

欢迎，请先登录或者注册。