首页新闻找找看学习计划

动态页面采集,求路过的大神支招。。。。

0
悬赏园豆:50 [已关闭问题] 关闭于 2014-05-07 09:51

小弟最近在做一个新闻项目主要是做  文章采集

要采集评论。解析用的正则   

评论目前大部分都是用AJAX加载无法采集

请问下路过的大神有没有什么好点的思路 最好是案例

如果有案例的话 发我邮箱tangxg1991@163.com
谢谢了

问题补充:

我们是做大规模 动态网站数据采集  单个的话倒是可以做到 再次请求
 目前的要求是必须做到通用  和浏览器一样  只是不下载CSS 和渲染

 

继续补充问题吧

采集新浪新闻评论 网易新闻评论

目前软件架构是 C-S-S  管理端  分布式服务端  分布式采集端

找一个简易的浏览器核心 没有渲染也可以只需要能正常解析DOM和JS代码

 

求大神帮忙解决下  动态页面采集...

落幕残情的主页 落幕残情 | 初学一级 | 园豆:9
提问于:2014-04-30 12:35
< >
分享
所有回答(5)
0

谁说AJAX无法采集`,你再发请求不就行了

吴瑞祥 | 园豆:28729 (高人七级) | 2014-04-30 14:01

 你好,我们是做大规模 动态网站数据采集  单个的话倒是可以做到 再次请求
 目前的要求是必须做到通用  和浏览器一样  只是不下载CSS 和渲染

支持(0) 反对(0) 落幕残情 | 园豆:9 (初学一级) | 2014-04-30 15:08

@落幕残情: 浏览器也是再次发请求的,如果你要做到这种程度的通用,

那你需用一个JS执行器推荐webkit

支持(0) 反对(0) 吴瑞祥 | 园豆:28729 (高人七级) | 2014-04-30 15:10

@吴瑞祥: webkit 也考虑过没有找到很好的解决方案

支持(0) 反对(0) 落幕残情 | 园豆:9 (初学一级) | 2014-04-30 15:44
0

$.Ajax({

  type:'GET',

  url:'xxxx.xxx',

  success:function(data){

  //do sth;

}

})

南宫萧尘 | 园豆:187 (初学一级) | 2014-04-30 14:12

 你好,我们是做大规模 动态网站数据采集  单个的话倒是可以做到 再次请求
 目前的要求是必须做到通用  和浏览器一样  只是不下载CSS 和渲染

支持(0) 反对(0) 落幕残情 | 园豆:9 (初学一级) | 2014-04-30 15:08

@落幕残情: 大规模也可以这么做啊,你被小看这几行代码...你合理运用,采集数据,这几个够用了...

支持(0) 反对(0) 南宫萧尘 | 园豆:187 (初学一级) | 2014-04-30 15:12

@南宫萧尘: .......太深奥了,不懂 大神求解释

支持(0) 反对(0) 落幕残情 | 园豆:9 (初学一级) | 2014-04-30 15:45
0

使用定时器,不断的请求采集。

wongdavid | 园豆:394 (菜鸟二级) | 2014-04-30 15:39

.....

支持(0) 反对(0) 落幕残情 | 园豆:9 (初学一级) | 2014-04-30 15:46
0

多线程结合定时器

jason2013 | 园豆:1998 (小虾三级) | 2014-04-30 16:42
0

调用webBrowser禁止加载图片 CSS 动画 和其他插件 就OK  但是必须操控 COM

落幕残情 | 园豆:9 (初学一级) | 2014-05-05 09:55
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册