首页 新闻 会员 周边 捐助

如何用正则表达式..请问下如何获取网页源代码中的信息.

0
[已解决问题] 解决于 2010-08-23 17:03

<meta name="description" content="活动『闪耀祭(狂欢节)』官网    【雪酷在线8月16日报道】于2009年11月21日公映的剧场版动画『剧场版 超时空要塞F 虚空歌姫』的后篇作品『超时空要塞F 恋离飞翼』决定将于2011年" />

 

 

我只需要得到 content的内容就可以了..请问如何操作...谢谢...

问题补充: 感谢Astar的帮助... 我手上有个正则的代码..能用特定标签将所需要的数据读出来 请问一下该正则的语法是什么? 我贴一下代码: public string[] GetImageUrl(string sHtmlText) { // 定义正则表达式用来匹配 img 标签 Regex regImg = new Regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase); // 搜索匹配的字符串 MatchCollection matches = regImg.Matches(sHtmlText); string[] sUrlList = new string[matches.Count]; int i = 0; // 取得匹配项列表 foreach (Match match in matches) sUrlList[i++] = match.Groups["imgUrl"].Value; return sUrlList; }
Hunt的主页 Hunt | 初学一级 | 园豆:21
提问于:2010-08-17 15:55
< >
分享
最佳答案
0

使用正则:<meta name="description" content=".+?" />

防止其它标签有content属性,所以匹配过来后截取得到汉字即可。

获取源码和匹配方法,参考我的这个回答:http://space.cnblogs.com/question/13893/

Astar | 高人七级 |园豆:40805 | 2010-08-17 16:13
非常感谢你的帮助... 另外回复的时候如何换行...我贴代码都格式都乱掉了..
Hunt | 园豆:21 (初学一级) | 2010-08-17 16:23
@Hunt:评论不能换行...如果贴代码发站内消息吧。
Astar | 园豆:40805 (高人七级) | 2010-08-17 16:24
@Astar: 恩..我已经将问题补充上去了. .我想得到 match.Groups["imgUrl"].Value; 该正则的语法怎么写..
Hunt | 园豆:21 (初学一级) | 2010-08-17 16:26
@Hunt:给你看个例子,就明白了。 public static string GetImgSrc(string HtmlCode, string imgHttp) { string MatchVale = ""; string Reg = @"<img.+?>"; foreach (Match m in Regex.Matches(HtmlCode.ToLower(), Reg)) { MatchVale += GetImg((m.Value).ToLower().Trim(), imgHttp) + "|"; } return MatchVale; }
Astar | 园豆:40805 (高人七级) | 2010-08-17 16:36
其他回答(1)
0
邢少 | 园豆:10926 (专家六级) | 2010-08-23 16:56
谢谢你的帮助..
支持(0) 反对(0) Hunt | 园豆:21 (初学一级) | 2010-08-23 17:03
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册