首页 新闻 赞助 找找看

爬虫如何抓取网站下拉动态加载的内容。

0
悬赏园豆:100 [已解决问题] 解决于 2016-12-20 14:08

写一个java的小爬虫程序,爬知乎的一些内容。

知乎的关注者列表,页面拉到底加载更多的一些联系人

ajax实现,我ajax并不是很懂。

现在我想获得这部分新加载的数据,如何获取,

很多答案就是分析http,找到这个ajax的请求地址这样泛泛地回答,等等等等

我想知道如何分析,如果讲很麻烦,希望可以提供一些详细的资料,

或者有一些类似的程序示例。谢谢

能不能别闹的主页 能不能别闹 | 初学一级 | 园豆:71
提问于:2015-07-28 20:33
< >
分享
最佳答案
-2

第二次提这个问题了,我问你知道 HTTP 不,你也不说。就你这个需求很言,理解 HTTP 协议,理解 WEB 程序原理,理解浏览器原理,足够你写出程序了。

收获园豆:100
Launcher | 高人七级 |园豆:45045 | 2015-07-29 14:22
其他回答(4)
0

下载一个Fiddler2,安装后打开,再开启浏览器,你就会发现所有的请求都会显示在这个软件里了。点击右边部分的Inspectors标签,就可以看到提交和服务端响应的数据内容了。

I,Robot | 园豆:9783 (大侠五级) | 2015-07-28 21:37
0

说句实话,你的要求已经超出了普通网友能帮忙的程度了。

教一个学生一个月,学生还得够努力够智商,够呛能完成你目前的要求吧。

爱编程的大叔 | 园豆:30839 (高人七级) | 2015-07-28 22:28

其实我也知道我差的很多,我也没想一口吃个胖子。

我现在有点像没头的苍蝇,感觉这里也要学哪里也要学,但是不知道学的这些东西对这个项目是否是必要的。

比如我是不是真的要学会写一个ajax样式的网站,还是只要理解其中的原理就行。

能不能告诉我,完成这个工作需要哪些技术?学的先后次序是什么?

麻烦了。

支持(0) 反对(0) 能不能别闹 | 园豆:71 (初学一级) | 2015-07-29 06:51
0

用程序把该网页内容下载下来转成字符串,再用正则表达式匹配对应的联系人和邮箱。

唯我独萌 | 园豆:537 (小虾三级) | 2015-07-29 08:20
1

先学会抓包分析http(s)请求和响应,然后定位到ajax异步请求动态加载部分,分析请求头、请求参数等,你再构造报文模拟ajax请求或者直接后台http请求拿到响应数据。

JeffWong | 园豆:2328 (老鸟四级) | 2015-07-29 09:43
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册