如何写正则表达式校验文本格式，提取所需内容

悬赏园豆：100 [待解决问题]

假设规范的文本内容如下

<!--文件头--!>
//这是一个注释行
<测试1::csdn url=bbs>
这是我经常上的bbs论坛
</测试1::csdn>

//这还是一个注释行
//再增加一行注释行
<测试2::cnblog name=博客 url=blog>
也是一个学习的好地方
我也来问一个问题
</测试2::cnblog>

//最后一个例子
<换个名字::sina class=新闻>
看看新闻吧
</换个名字::sina>

（1）首先要求能够判断文本内容是否规范，校验文本内容的格式，这里有点类似XML格式，假设如下
<测试::csdn name=博客>
也是一个学习的好地方
</测试::cnblog>

或者

<测试::cnblog name=博客>
也是一个学习的好地方
</测试::cnblog>>

能够判断结构不正确

（2）其次要求能够正确获取内容，以下面这个为例

<测试2::cnblog name=博客 url=blog>
也是一个学习的好地方
我也来问一个问题
</测试2::cnblog>

获取信息如下
前缀:测试2
后缀:cnblog
属性:名称值
     name 博客
     url       blog

内容：也是一个学习的好地方
         我也来问一个问题

感觉很难啊，晕死了

.NET技术正则表达式

小兔快跑 | 初学一级 | 园豆：100
提问于：2010-10-29 23:46

< >

所有回答(3)

<\w+\:\:(?<name>\w+)(?:\s+(?<attr>\w+)\=(?<value>\w+))+>\s?(?<content>\w?)<\/(?<name>\w+)>

这个还真不好写，虽然可以匹配但取值会有问题，如果写语法分析会好些的

LittlePeng | 园豆：3445 (老鸟四级) | 2010-10-30 11:28

弄了半天取属性值搞不定，当属性有多组的时候只能取到最后一组，没辙，谁有高招不？

wgz | 园豆：1254 (小虾三级) | 2010-10-30 12:56

的确

支持(0) 反对(0) LittlePeng | 园豆：3445 (老鸟四级) | 2010-10-30 13:22

::是否可以替换为其他字符串，如"______",再用标准XML格式验证

但是像“name=博客 url=blog”也是不符合XML规范的，应该有双引号

邀月 | 园豆：25475 (高人七级) | 2010-10-30 21:34

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。

欢迎，请先 登录 或者 注册 。

如何写正则表达式校验文本格式，提取所需内容

欢迎，请先登录或者注册。