如此获得一个页面的HTML的所有代码了之后,有什么算法可以提取出来所有的HREF链接或者是GIF等二进制的图片呢?
我不打算使用正则。
Code
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
response = request.GetResponse();
stream = response.GetResponseStream();
就当前的页面举例:
至少要得到http://www.cnblogs.com/ad.aspx诸如此类的链接。
Code
<div id="footer">
<div id="foot">
<a href="http://www.cnblogs.com/AboutUS.aspx">关于博客园</a>  <a href="http://www.cnblogs.com/ContactUs.aspx">联系我们</a> <a href="http://www.cnblogs.com/ad.aspx">广告服务</a> © 2004-2009 <a href="http://www.cnblogs.com">博客园</a><span style="display:none"><script language="javascript" src="http://count45.51yes.com/click.aspx?id=458492239&logo=1"></script></span> 合作伙伴: <a href="http://www.hjenglish.com" target="_blank">沪江网</a>
</div>
</div>
</div>
htmlparser.net
使用方法
http://www.cnblogs.com/RicCC/archive/2007/06/20/HtmlParser-NET-Examples.html
下载地址
http://www.netomatix.com/products/documentmanagement/HtmlParserDownload.aspx
用 xml
html-> xhtml
这个 可以去 codeproject 找找,有一些html转换为xhtml的代码片段或者是小库
然后 用xmldocument 载入, 在里面查找所有的"A"Node
还有
用正则表达式, <a xx href="(xx)" xx>(xx)</a> 这样获得也可以.
同样页面内的gif等也可以获取. 唔, 要是css里的gif的话 要麻烦一些.
用正则表达式捕捉呀 .net 的 Regex 很强大地
拿取地址的来举例:
Code