正则去除网页html代码的例子，但是保留文章结构

悬赏园豆：100 [已解决问题] 解决于 2012-02-07 14:47

正则去除网页html代码的例子，但是不改变原来的文章结构，如保留<p>.该怎么写？找了些别的例子 Regex regex=new Regex("<.+?>",RegexOptions.IgnoreCase);类似于这种的，是没有html代码了，但是文章的结构也没了
现在想达到的目的是，
1、去除网页代码，但是保留文章结构？

正则表达式正则去除网页html代码

在路上01 | 初学一级 | 园豆：9
提问于：2012-01-15 17:35

< >

最佳答案

使用下面的正则表达式：

var regex = new Regex("<[^p>]*>", RegexOptions.IgnoreCase);

收获园豆：30

dudu | 高人七级 |园豆：22853 | 2012-01-15 17:49

这个我也试了下，也很好用，比下面的简单些。也符合一般的思路。挺好的‘。谢谢各位了

在路上01 | 园豆：9 (初学一级) | 2012-01-16 15:01

其他回答(2)

最后是要保留类似于<p>的结构性标记还是说要保留结构性的排版，就像<p>标记可以使用在开始标记和结束用换行符替换"/r/n"，然后在前标记插入换行符后，放置一个Tab制表符或者4~8个空格填充，保持段落起始样式，至于其他的格式，也是类似于这个具体分析啦。

收获园豆：30

O2DS | 园豆：242 (菜鸟二级) | 2012-01-15 18:00

http://www.cnblogs.com/zhoudemo/archive/2012/01/16/2323252.html

看看这个，能解决了。

收获园豆：40

随风ˇ止步 | 园豆：90 (初学一级) | 2012-01-16 09:09

这个不错试了下可以

支持(0) 反对(0) 在路上01 | 园豆：9 (初学一级) | 2012-01-16 14:56

@在路上01: 能用就采纳了呗。

支持(0) 反对(0) 随风ˇ止步 | 园豆：90 (初学一级) | 2012-01-16 15:32

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。