首页新闻找找看学习计划

爬虫需要支持 js加载

0
悬赏园豆:50 [已关闭问题] 关闭于 2016-11-22 21:17

在做一个爬虫,目前的做法是后台直接发起请求,获取页面结构,但是这样有个问题,就是通过js异步加载的页面是不能完整加载出来的。

 

需要一个能在后台运行的,可以模拟浏览器的方法,最好是别依赖前台已经要开个窗体啊、浏览器什么的。

大家有什么思路?现在完全是没思路了,尝试了一些模拟方法,都没办法应对 js 的异步加载页面。

Sky.Grain的主页 Sky.Grain | 菜鸟二级 | 园豆:303
提问于:2016-11-18 00:02
< >
分享
所有回答(3)
0

 什么语言的?.NET平台的使用WebBrowser控件可以调用IE的内核执行js代码,然后获取js加载的内容

授之以渔 | 园豆:872 (小虾三级) | 2016-11-18 08:20

.net 的 webBrowser 需要在前台开启一个浏览器, 主要现在不想要这个效果,有什么方式能在后台静默的方式么?

 

支持(0) 反对(0) Sky.Grain | 园豆:303 (菜鸟二级) | 2016-11-18 10:52
0

用selenium

老男人 | 园豆:205 (菜鸟二级) | 2016-11-18 11:33

selenium 是需要用浏览器来打开的,不过了解到 selenium能在后台中静默模拟浏览器访问。但是一直没找到怎么去做,有什么文档或实例么?

 

支持(0) 反对(0) Sky.Grain | 园豆:303 (菜鸟二级) | 2016-11-18 11:34

@Sky.Grain: 园子里一搜 “c# selenium”

支持(0) 反对(0) 老男人 | 园豆:205 (菜鸟二级) | 2016-11-18 11:40
0

我最近都在做有关爬虫的项目,想问你是用的js的话,可以使用jsoup,我觉得还是很方便的。欢迎采纳

Boblim | 园豆:492 (菜鸟二级) | 2016-11-18 13:59

我是 .net直接做,只是对于那种用ajax 加载的页面,通过后台请求时,拉到的页面是不一样的,正在想办法解决这个问题,有什么思路么?ps:不想通过在前台挂载浏览器的方式实现。

支持(0) 反对(0) Sky.Grain | 园豆:303 (菜鸟二级) | 2016-11-18 14:07
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册