首页新闻找找看学习计划

爬取网站数据

0
悬赏园豆:10 [已关闭问题] 关闭于 2017-09-06 10:10

要学习爬取网站数据,我该如何下手去学,使用js处理的,最重要的就是取节点的问题

js
FL陌上花开的主页 FL陌上花开 | 初学一级 | 园豆:52
提问于:2017-08-21 14:48
< >
分享
所有回答(3)
0

爬取网页数据一般是后台程序是处理吖,你是JS处理是指用JS扣dom元素嘛?那样和爬取不是一个概念哦。

一般通过http请求网址的方式去爬取网页,一种是找到别人的ajax请求地址去爬取数据,一种和你说的类似,直接爬取整个网页的html,这种爬整个html的方式只能爬加载在页面上的数据,有局限性,如果是这种,你说的“最重要的就是取节点的问题”是指的取某个div吧,根据id或者class,我之前弄过,爬取整个网页后,需要通过正则匹配到这个网页(文本)里指定id或者class的div,比较麻烦,=。= 弄肯定能弄,无外乎就是分析一下规律,找到正则进行匹配。不过你说的爬取数据建议还是去了解一些http方面的知识,我之前用到了httpclient这个类,你可以从这里下手去学习~~

默卿 | 园豆:4063 (老鸟四级) | 2017-08-21 15:16
0

可以用python 也可以用java 还可以用一些自动化工具比如selenium 网上有很多例子 爬取后的内容可以通过jsoup来解析或者通过标签筛选。给一个python的例子:

http://www.cnblogs.com/fnng/p/3576154.html

ycyzharry | 园豆:18814 (专家六级) | 2017-08-21 15:27
0

 内容都是正则取得,你搞什么的鬼?教程你看不懂吗?

入云来 | 园豆:204 (菜鸟二级) | 2017-08-21 20:21
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册