在做一个爬虫,目前的做法是后台直接发起请求,获取页面结构,但是这样有个问题,就是通过js异步加载的页面是不能完整加载出来的。
需要一个能在后台运行的,可以模拟浏览器的方法,最好是别依赖前台已经要开个窗体啊、浏览器什么的。
大家有什么思路?现在完全是没思路了,尝试了一些模拟方法,都没办法应对 js 的异步加载页面。
什么语言的?.NET平台的使用WebBrowser控件可以调用IE的内核执行js代码,然后获取js加载的内容
.net 的 webBrowser 需要在前台开启一个浏览器, 主要现在不想要这个效果,有什么方式能在后台静默的方式么?
用selenium
selenium 是需要用浏览器来打开的,不过了解到 selenium能在后台中静默模拟浏览器访问。但是一直没找到怎么去做,有什么文档或实例么?
@Sky.Grain: 园子里一搜 “c# selenium”
我最近都在做有关爬虫的项目,想问你是用的js的话,可以使用jsoup,我觉得还是很方便的。欢迎采纳
我是 .net直接做,只是对于那种用ajax 加载的页面,通过后台请求时,拉到的页面是不一样的,正在想办法解决这个问题,有什么思路么?ps:不想通过在前台挂载浏览器的方式实现。