这是新浪博客网页源码:
<div id="sina_keyword_ad_area2" class="articalContent ">
<p><a HREF="http://photo.blog.sina.com.cn/showpic.html#blogid=461e620d0100ny09&url=http://static11.photo.sina.com.cn/orignal/461e620dt98e0622de0ea" TARGET="_blank"><img STYLE="DispLAY: block; TexT-ALiGn: center" src="http://simg.sinajs.cn/blog7style/images/common/sg_trans.gif" real_src ="http://static11.photo.sina.com.cn/middle/461e620dt98e0622de0ea&690" NAME="image_operate_17801293989418468" ALT="实拍:山西太原入冬以来首场大雪" TITLE="实拍:山西太原入冬以来首场大雪" /></A></P>
<p> <wbr> <wbr> <wbr>
2011年1月2日晚,山西太原迎来入冬以来的第一场雪,给整座城市带来了惊喜,尽管是夜晚时分,但是姗姗来迟的雪花还是吸引了不少市民出门玩耍。</P>
图片直实地址是real_src后面的,原来取图片地址的正则是:
Regex reg = new Regex(@"(?is)(?:<img[^>]*?src|\bbackground)=(?:(['""])(?<img>[^'"">]+)\1|(?<img>[^'""\s>]+))");
这个正则在这儿用不了,请教高人帮忙看看。
贪婪模式,可能在某些情况下出错:
(?<=real_src=)([\s\S]*)(?=NAME=\")
<img[^>]*real_src(?:\\s*=\\s*)(?:[\"']?)(?<src>[^\\s\"'>]*)(?:[\"']?)[^>]*>