首页 新闻 搜索 专区 学院

正则去除网页html代码的例子,但是保留文章结构

0
悬赏园豆:100 [已解决问题] 解决于 2012-02-07 14:47

正则去除网页html代码的例子,但是不改变原来的文章结构,如保留<p>.该怎么写?找了些别的例子 Regex regex=new Regex("<.+?>",RegexOptions.IgnoreCase);类似于这种的,是没有html代码了,但是文章的结构也没了
现在想达到的目的是,
  1、去除网页代码,但是保留文章结构?

在路上01的主页 在路上01 | 初学一级 | 园豆:9
提问于:2012-01-15 17:35
< >
分享
最佳答案
0

使用下面的正则表达式:

var regex = new Regex("<[^p>]*>", RegexOptions.IgnoreCase);
收获园豆:30
dudu | 高人七级 |园豆:36378 | 2012-01-15 17:49

这个我也试了下,也很好用,比下面的简单些。也符合一般的思路。挺好的‘。谢谢各位了

在路上01 | 园豆:9 (初学一级) | 2012-01-16 15:01
其他回答(2)
0

最后是要保留类似于<p>的结构性标记还是说要保留结构性的排版,就像<p>标记可以使用在开始标记和结束用换行符替换"/r/n",然后在前标记插入换行符后,放置一个Tab制表符或者4~8个空格填充,保持段落起始样式,至于其他的格式,也是类似于这个具体分析啦。

收获园豆:30
O2DS | 园豆:242 (菜鸟二级) | 2012-01-15 18:00
0
收获园豆:40
随风ˇ止步 | 园豆:90 (初学一级) | 2012-01-16 09:09

这个不错试了下可以

支持(0) 反对(0) 在路上01 | 园豆:9 (初学一级) | 2012-01-16 14:56

@在路上01: 能用就采纳了呗。

支持(0) 反对(0) 随风ˇ止步 | 园豆:90 (初学一级) | 2012-01-16 15:32
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册