爬虫获取不到网页源码

悬赏园豆：5 [待解决问题]

用了python和c#爬这个网站https://exchange.xforce.ibmcloud.com/activity

但是就只能得到上图中的代码，不能获取全部内容，不知道怎么回事，求教大家~

爬虫 python c#

思仔 | 菜鸟二级 | 园豆：207
提问于：2015-07-29 18:10

< >

所有回答(5)

应该是有js控制html加载了，比如滚动加载

✎﹏ℳ๓₯㎕ღ | 园豆：1499 (小虾三级) | 2015-07-29 18:15

那应该怎么爬呢？

支持(0) 反对(0) 思仔 | 园豆：207 (菜鸟二级) | 2015-07-29 18:19

@思仔: C#应该不行，Python的话可以模拟到一些类似滚动的用户操作。

支持(0) 反对(0) ✎﹏ℳ๓₯㎕ღ | 园豆：1499 (小虾三级) | 2015-07-29 18:21

@Mr_Lxs: 求指导刚开始学习python~ 就遇到这么个网站。。。不知道如何入手了

支持(0) 反对(0) 思仔 | 园豆：207 (菜鸟二级) | 2015-07-29 18:27

@思仔: 不好意思我也不会Python的，之前遇到这个问题的，就是Python可以解决这个问题的。

支持(0) 反对(0) ✎﹏ℳ๓₯㎕ღ | 园豆：1499 (小虾三级) | 2015-07-29 18:30

@Mr_Lxs: 好的谢啦我再找找资料~

支持(0) 反对(0) 思仔 | 园豆：207 (菜鸟二级) | 2015-07-29 18:36

你去看这个网页的http请求里面肯定会有异步操作可能返回json数据你按照它的http请求格式直接访问得到json数据

jio92 | 园豆：1064 (小虾三级) | 2015-07-30 08:45

不太通python，不过听同事说 Phantomjs 做爬取还行

网上给你搜了这篇文章你看看对你有用没

http://segmentfault.com/a/1190000002477913

clarlespeng | 园豆：469 (菜鸟二级) | 2015-07-30 10:13

内网限制，你那个网站我打不开，我猜想你遇到的问题是动态JS涉及的内容你获取不到，是吧？如果是的话，需要找到那一块是哪个js在更新，找到了直接获取js所在的完整url即可。

west_Tang风 | 园豆：201 (菜鸟二级) | 2016-01-26 17:47

（PowerShell中的）两只爬虫，两只爬虫，跑地快，爬网页不赖~~~
一只基于com版的ie，一只基于.net中的WebRequest类，都是老奶奶，不奇怪。。。

给ie爬虫对象，发送n个page down ，即可模拟向下翻页，专破懒加载内容。

PowerShell免费软件 | 园豆：332 (菜鸟二级) | 2016-07-06 21:41

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。