正则去除网页html代码的例子,但是不改变原来的文章结构,如保留<p>.该怎么写?找了些别的例子 Regex regex=new Regex("<.+?>",RegexOptions.IgnoreCase);类似于这种的,是没有html代码了,但是文章的结构也没了
现在想达到的目的是,
1、去除网页代码,但是保留文章结构?
使用下面的正则表达式:
var regex = new Regex("<[^p>]*>", RegexOptions.IgnoreCase);
这个我也试了下,也很好用,比下面的简单些。也符合一般的思路。挺好的‘。谢谢各位了
最后是要保留类似于<p>的结构性标记还是说要保留结构性的排版,就像<p>标记可以使用在开始标记和结束用换行符替换"/r/n",然后在前标记插入换行符后,放置一个Tab制表符或者4~8个空格填充,保持段落起始样式,至于其他的格式,也是类似于这个具体分析啦。
这个不错试了下可以
@在路上01: 能用就采纳了呗。