首页 新闻 搜索 专区 学院

怎样抓取网页内存里的内容

0
悬赏园豆:15 [已关闭问题]

最近在研究网络爬虫  但抓回来的都是查看原文件一样的值,如果而通过js 已改变的值没办法抓回来,但内存里应该变了,请高手指点怎样抓回来的数据跟显示的一样啊?

 

无形的主页 无形 | 初学一级 | 园豆:45
提问于:2009-04-06 11:08
< >
分享
其他回答(2)
0

js抓取不了

 

一般好的抓取的流程是这样的

确定目标

确定页面

抓取内容(页面上的可见数据,一般是没办法用的)

处理内容(将页面上的可见数据转换为自己需要的数据)

将处理过后的内容存入自己的数据库

虽然你无法抓取他的js

但是可以吧他的js的参数抓取过来

然后在在你的程序里吧那些参数像js处理一遍

然后就获得了你自己想要的的东西了:)

小眼睛老鼠 | 园豆:2779 (老鸟四级) | 2009-04-06 11:11
0

刚在CSDN上看到你这同样的问题。

没有那么简单的就能抓取的,需要分析JS代码,配合自己的判断,总之ELT的过程肯定要自己一行一行去写的。

风海迷沙 | 园豆:4453 (老鸟四级) | 2009-04-06 12:31
0

用 webbrowser 控件 可以得到。

webBorwser1.Url = new Uri("Your URL");

webBrowser1.Document.Body.InnerHtml;

eaglet | 园豆:17139 (专家六级) | 2009-04-06 12:36
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册