首页 新闻 会员 周边 捐助

爬虫获取不到网页源码

0
悬赏园豆:5 [待解决问题]

用了python和c#爬这个网站https://exchange.xforce.ibmcloud.com/activity

但是就只能得到上图中的代码,不能获取全部内容,不知道怎么回事,求教大家~

思仔的主页 思仔 | 菜鸟二级 | 园豆:207
提问于:2015-07-29 18:10
< >
分享
所有回答(5)
0

应该是有js控制html加载了,比如 滚动加载

✎﹏ℳ๓₯㎕ღ | 园豆:1499 (小虾三级) | 2015-07-29 18:15

那应该怎么爬呢?

支持(0) 反对(0) 思仔 | 园豆:207 (菜鸟二级) | 2015-07-29 18:19

@思仔: C#应该不行,Python的话可以模拟到一些类似滚动的用户操作。

支持(0) 反对(0) ✎﹏ℳ๓₯㎕ღ | 园豆:1499 (小虾三级) | 2015-07-29 18:21

@Mr_Lxs: 求指导  刚开始学习python~ 就遇到这么个网站。。。不知道如何入手了

支持(0) 反对(0) 思仔 | 园豆:207 (菜鸟二级) | 2015-07-29 18:27

@思仔: 不好意思我也不会Python的,之前遇到这个问题的,就是Python可以解决这个问题的。

支持(0) 反对(0) ✎﹏ℳ๓₯㎕ღ | 园豆:1499 (小虾三级) | 2015-07-29 18:30

@Mr_Lxs: 好的  谢啦 我再找找资料~

支持(0) 反对(0) 思仔 | 园豆:207 (菜鸟二级) | 2015-07-29 18:36
0

你去看这个网页的http请求   里面肯定会有异步操作  可能返回json数据  你按照它的http请求格式 直接访问 得到json数据

jio92 | 园豆:1064 (小虾三级) | 2015-07-30 08:45
0

不太通python,不过听同事说 Phantomjs 做爬取还行

网上给你搜了这篇文章 你看看对你有用没

http://segmentfault.com/a/1190000002477913

clarlespeng | 园豆:469 (菜鸟二级) | 2015-07-30 10:13
0

内网限制,你那个网站我打不开,我猜想你遇到的问题是动态JS涉及的内容你获取不到,是吧?如果是的话,需要找到那一块是哪个js在更新,找到了直接获取js所在的完整url即可。

west_Tang风 | 园豆:201 (菜鸟二级) | 2016-01-26 17:47
0

(PowerShell中的)两只爬虫,两只爬虫,跑地快,爬网页不赖~~~
一只基于com版的ie,一只基于.net中的WebRequest类,都是老奶奶,不奇怪 。。。

给ie爬虫对象,发送n个page down ,即可模拟向下翻页, 专破懒加载内容。

PowerShell免费软件 | 园豆:332 (菜鸟二级) | 2016-07-06 21:41
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册