小弟最近在做一个新闻项目主要是做 文章采集
要采集评论。解析用的正则
评论目前大部分都是用AJAX加载无法采集
请问下路过的大神有没有什么好点的思路 最好是案例
如果有案例的话 发我邮箱tangxg1991@163.com
谢谢了
我们是做大规模 动态网站数据采集 单个的话倒是可以做到 再次请求
目前的要求是必须做到通用 和浏览器一样 只是不下载CSS 和渲染
继续补充问题吧
采集新浪新闻评论 网易新闻评论
目前软件架构是 C-S-S 管理端 分布式服务端 分布式采集端
找一个简易的浏览器核心 没有渲染也可以只需要能正常解析DOM和JS代码
求大神帮忙解决下 动态页面采集...
谁说AJAX无法采集`,你再发请求不就行了
你好,我们是做大规模 动态网站数据采集 单个的话倒是可以做到 再次请求
目前的要求是必须做到通用 和浏览器一样 只是不下载CSS 和渲染
@落幕残情: 浏览器也是再次发请求的,如果你要做到这种程度的通用,
那你需用一个JS执行器推荐webkit
@吴瑞祥: webkit 也考虑过没有找到很好的解决方案
$.Ajax({
type:'GET',
url:'xxxx.xxx',
success:function(data){
//do sth;
}
})
你好,我们是做大规模 动态网站数据采集 单个的话倒是可以做到 再次请求
目前的要求是必须做到通用 和浏览器一样 只是不下载CSS 和渲染
@落幕残情: 大规模也可以这么做啊,你被小看这几行代码...你合理运用,采集数据,这几个够用了...
@南宫萧尘: .......太深奥了,不懂 大神求解释
使用定时器,不断的请求采集。
.....
多线程结合定时器
调用webBrowser禁止加载图片 CSS 动画 和其他插件 就OK 但是必须操控 COM