我要抓取一个网页的html,但是那个网站的屏蔽比较严重,连用iframe都会屏蔽,控制台用ajax获取内容也会屏蔽,无奈想通过抓包来抓取数据,程序调用浏览器打开对应网址来获取html,发现fiddler这个工具居然可以截获http请求的内容,不知道这个功能是怎么实现的,网站找了下说sharppcap可以实现,就是不知道是怎么实现的,还有用webbrowser也会屏蔽,不知道是用了什么牛逼的代码,如果你有更好的抓数据的方式也可以提供下
我本来想调用浏览器打开一个网址并将打开的网址保存成html文件,但是没有现成的,抓取数据仅用于学习使用,急急急
试试.net WebRequest类,参考链接WebRequest Class
这是一开始的方案,早就被屏蔽了
@sixserve: 网址贴出来
@iImax: 学校内部网络,外面没法访问~
@sixserve: 不提供详情,无法回答。
1.iframe时,会有什么现象?
2.webbrowser时,有什么输出?
@iImax: iframe和webbrowser都是空白,我在控制台用js跨域采集数据,暂时解决了