如何用正则表达式..请问下如何获取网页源代码中的信息.

[已解决问题] 解决于 2010-08-23 17:03

我只需要得到 content的内容就可以了..请问如何操作...谢谢...

.NET技术正则表达式

问题补充： 感谢Astar的帮助... 我手上有个正则的代码..能用特定标签将所需要的数据读出来请问一下该正则的语法是什么? 我贴一下代码: public string[] GetImageUrl(string sHtmlText) { // 定义正则表达式用来匹配 img 标签 Regex regImg = new Regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase); // 搜索匹配的字符串 MatchCollection matches = regImg.Matches(sHtmlText); string[] sUrlList = new string[matches.Count]; int i = 0; // 取得匹配项列表 foreach (Match match in matches) sUrlList[i++] = match.Groups["imgUrl"].Value; return sUrlList; }

Hunt | 初学一级 | 园豆：21
提问于：2010-08-17 15:55

< >

最佳答案

使用正则：<meta name="description" content=".+?" />

防止其它标签有content属性，所以匹配过来后截取得到汉字即可。

获取源码和匹配方法，参考我的这个回答：http://space.cnblogs.com/question/13893/

Astar | 高人七级 |园豆：40805 | 2010-08-17 16:13

非常感谢你的帮助... 另外回复的时候如何换行...我贴代码都格式都乱掉了..

Hunt | 园豆：21 (初学一级) | 2010-08-17 16:23

@Hunt:评论不能换行...如果贴代码发站内消息吧。

Astar | 园豆：40805 (高人七级) | 2010-08-17 16:24

@Astar: 恩..我已经将问题补充上去了. .我想得到 match.Groups["imgUrl"].Value; 该正则的语法怎么写..

Hunt | 园豆：21 (初学一级) | 2010-08-17 16:26

@Hunt:给你看个例子，就明白了。 public static string GetImgSrc(string HtmlCode, string imgHttp) { string MatchVale = ""; string Reg = @"<img.+?>"; foreach (Match m in Regex.Matches(HtmlCode.ToLower(), Reg)) { MatchVale += GetImg((m.Value).ToLower().Trim(), imgHttp) + "|"; } return MatchVale; }

Astar | 园豆：40805 (高人七级) | 2010-08-17 16:36

其他回答(1)

http://www.cnblogs.com/xingshao/archive/2009/10/27/1590806.html

抓取天气数据的例子。看看

邢少 | 园豆：10926 (专家六级) | 2010-08-23 16:56

谢谢你的帮助..

支持(0) 反对(0) Hunt | 园豆：21 (初学一级) | 2010-08-23 17:03

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。