爬虫需要支持 js加载

悬赏园豆：50 [已关闭问题] 关闭于 2016-11-22 21:17

在做一个爬虫，目前的做法是后台直接发起请求，获取页面结构，但是这样有个问题，就是通过js异步加载的页面是不能完整加载出来的。

需要一个能在后台运行的，可以模拟浏览器的方法，最好是别依赖前台已经要开个窗体啊、浏览器什么的。

大家有什么思路？现在完全是没思路了，尝试了一些模拟方法，都没办法应对 js 的异步加载页面。

guxiang0569

Sky.Grain | 菜鸟二级 | 园豆：308
提问于：2016-11-18 00:02

< >

所有回答(3)

什么语言的？.NET平台的使用WebBrowser控件可以调用IE的内核执行js代码，然后获取js加载的内容

授之以渔 | 园豆：1112 (小虾三级) | 2016-11-18 08:20

.net 的 webBrowser 需要在前台开启一个浏览器，主要现在不想要这个效果，有什么方式能在后台静默的方式么？

支持(0) 反对(0) Sky.Grain | 园豆：308 (菜鸟二级) | 2016-11-18 10:52

用selenium

老男人 | 园豆：205 (菜鸟二级) | 2016-11-18 11:33

selenium 是需要用浏览器来打开的，不过了解到 selenium能在后台中静默模拟浏览器访问。但是一直没找到怎么去做，有什么文档或实例么？

支持(0) 反对(0) Sky.Grain | 园豆：308 (菜鸟二级) | 2016-11-18 11:34

@Sky.Grain: 园子里一搜 “c# selenium”

支持(0) 反对(0) 老男人 | 园豆：205 (菜鸟二级) | 2016-11-18 11:40

我最近都在做有关爬虫的项目，想问你是用的js的话，可以使用jsoup，我觉得还是很方便的。欢迎采纳

Boblim | 园豆：492 (菜鸟二级) | 2016-11-18 13:59

我是 .net直接做，只是对于那种用ajax 加载的页面，通过后台请求时，拉到的页面是不一样的，正在想办法解决这个问题，有什么思路么？ps：不想通过在前台挂载浏览器的方式实现。

支持(0) 反对(0) Sky.Grain | 园豆：308 (菜鸟二级) | 2016-11-18 14:07

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。