首页 新闻 搜索 专区 学院

抓取数据乱码,确定不是编码问题,跪求

0
悬赏园豆:20 [已关闭问题] 解决于 2013-09-13 15:31

我要抓取网站数据,已经成功有的网站可以成功抓取,但遇到一个网站编码格式是gb312,我使用定义格式没有问题,但是总是乱码,我实验了我知道的所有的编码格式都不行,

代码:

wc = new WebClient();
wc.Headers.Add("Accept", "image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, */*");
wc.Headers.Add("Accept-Language", "zh-cn");
wc.Headers.Add("UA-CPU", "x86");
wc.Headers.Add("User-Agent", "User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET4.0C; .NET4.0E; InfoPath.3; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)");
wc.Encoding = Encoding.GetEncoding("gb2312");

string shtml = wc.DownloadString(url);

乱码的样子:"?\0\0\0\0\0\0靰鵺SG拆霞s?p?睾媀lk巐C B€,撋<-锥@?-'明?'3??cl?疞朓布I2Lf&<矞瑚晔萡渀K鱒WWWWwUWWW?T?UB菅_贛5e涖浴梛黠l?\\澝Q礊zu镅?

阿河的主页 阿河 | 初学一级 | 园豆:186
提问于:2013-09-13 14:12
< >
分享
其他回答(2)
0

看准了没有别人是gb2312的吗?

还有string shtml = wc.DownloadString(url); 这句中的url返回的是html格式的,还是其它文件?

Albert Fei | 园豆:2102 (老鸟四级) | 2013-09-13 14:37
0

目标网址方便发一下不?

会长 | 园豆:11061 (专家六级) | 2013-09-13 14:46
0

最近发现了一个很不错的学习爬虫开发的教程,推荐给大家:http://blog.csdn.net/youmumzcs/article/details/51373830

wangm_xjtu | 园豆:224 (菜鸟二级) | 2016-05-26 12:33
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册