首页 新闻 会员 周边

可能是关于判断下载数据的类型的问题

0
悬赏园豆:100 [已解决问题] 解决于 2008-09-18 09:37

我在做一个爬虫,用来爬网页,并不是爬电影的文件,可是爬虫在爬链接进会把http://www.sina.com/a.wmv加入进去,这种明文的我们当然是可以处理掉的,但是暗文的,如http://www.sina.com/video?id=1我们是没有办法的只有在下载这个页面时才能处理,我的问题是如何判定这个页面是一种媒体文件,或者说当文件大于10M时,我们就可忽略这个文件的采集

lexus的主页 lexus | 初学一级 | 园豆:0
提问于:2008-09-06 14:36
< >
分享
最佳答案
0

判断数据类型并不困难,只要判断 Response 的Headers就可以得到数据的类型

方法如下

 

        HttpWebRequest _MyRequest = null;
        HttpWebResponse _MyResponse = null;

中间的过程我省略的,太多地方有描述了,我想楼主也一定很清楚了,就直接切入正题了。

 

            _MyResponse = (HttpWebResponse)_MyRequest.GetResponse();

            WebHeaderCollection _ResponseHeaders = _MyResponse.Headers;

 

    string _ContentType = _ResponseHeaders["Content-Type"];

 

    这里的 _ContentType 就是数据的类型,一般.wmv 应该是stream具体的楼主测试一下就可以了。另外通过

_ResponseHeaders["Content-Length"]; 还可以得到数据的大小

 

 

eaglet | 专家六级 |园豆:17139 | 2008-09-06 15:34
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册