用c#写了个采集网页html代码的方法,试了几个网站,还行,但是就百度贴吧的代码采集不了,求解救啊!!!!.....
public static string PostAndGetHTML(string targetURL)
{
if (targetURL.IndexOf("http://") < 0)
targetURL = "http://" + targetURL;
WebClient MyWebClient = new WebClient();
string pageHtml="";
try
{
MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据
Byte[] pageData = MyWebClient.DownloadData(targetURL); //从指定网站下载数据
if (targetURL.IndexOf("66") > 0 || targetURL.IndexOf("tieba") > 0 || targetURL.IndexOf("rugao") > 0 || targetURL.IndexOf("xici") > 0 || targetURL.IndexOf("bbs") > 0)
pageHtml = Encoding.Default.GetString(pageData); //如果获取网站页面采用的是GB2312,则使用这句
else
pageHtml = Encoding.UTF8.GetString(pageData); //如果获取网站页面采用的是UTF-8,则使用这句
}
catch(Exception ex)
{
MessageBox.Show(ex.Message.ToString());
}
return pageHtml;
}
有一个开源的组件你去Codeplex上面找找HtmlAgilityPack,很方便的使用Xpath进行匹配的,有兴趣的看看
(*^__^*) 嘻嘻……,我先去试试