爬取网站数据

悬赏园豆：10 [已关闭问题] 关闭于 2017-09-06 10:10

要学习爬取网站数据，我该如何下手去学，使用js处理的，最重要的就是取节点的问题

FL陌上花开 | 初学一级 | 园豆：52
提问于：2017-08-21 14:48

< >

所有回答(3)

爬取网页数据一般是后台程序是处理吖，你是JS处理是指用JS扣dom元素嘛？那样和爬取不是一个概念哦。

一般通过http请求网址的方式去爬取网页，一种是找到别人的ajax请求地址去爬取数据，一种和你说的类似，直接爬取整个网页的html，这种爬整个html的方式只能爬加载在页面上的数据，有局限性，如果是这种，你说的“最重要的就是取节点的问题”是指的取某个div吧，根据id或者class，我之前弄过，爬取整个网页后，需要通过正则匹配到这个网页（文本）里指定id或者class的div，比较麻烦，=。= 弄肯定能弄，无外乎就是分析一下规律，找到正则进行匹配。不过你说的爬取数据建议还是去了解一些http方面的知识,我之前用到了httpclient这个类，你可以从这里下手去学习~~

顾星河 | 园豆：7382 (大侠五级) | 2017-08-21 15:16

可以用python 也可以用java 还可以用一些自动化工具比如selenium 网上有很多例子爬取后的内容可以通过jsoup来解析或者通过标签筛选。给一个python的例子：

http://www.cnblogs.com/fnng/p/3576154.html

ycyzharry | 园豆：25949 (高人七级) | 2017-08-21 15:27

内容都是正则取得，你搞什么的鬼？教程你看不懂吗？

入云来 | 园豆：204 (菜鸟二级) | 2017-08-21 20:21

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。