我要抓取网站数据,已经成功有的网站可以成功抓取,但遇到一个网站编码格式是gb312,我使用定义格式没有问题,但是总是乱码,我实验了我知道的所有的编码格式都不行,
代码:
wc = new WebClient();
wc.Headers.Add("Accept", "image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, */*");
wc.Headers.Add("Accept-Language", "zh-cn");
wc.Headers.Add("UA-CPU", "x86");
wc.Headers.Add("User-Agent", "User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET4.0C; .NET4.0E; InfoPath.3; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)");
wc.Encoding = Encoding.GetEncoding("gb2312");
string shtml = wc.DownloadString(url);
乱码的样子:"?\0\0\0\0\0\0靰鵺SG拆霞s?p?睾媀lk巐C B€,撋<-锥@?-'明?'3??cl?疞朓布I2Lf&<矞瑚晔萡渀K鱒WWWWwUWWW?T?UB菅_贛5e涖浴梛黠l?\\澝Q礊zu镅?
看准了没有别人是gb2312的吗?
还有string shtml = wc.DownloadString(url); 这句中的url返回的是html格式的,还是其它文件?