将一段html字符串中的html标记全部过滤,获取其中的文本内容,这是开发web应用中最常用的操作之一。
在nodejs进行这个操作非常简单,只需安装html-to-text这个组件
npm install html-to-text
然后这样调用即可:
var htmlToText = require('html-to-text'); var text = htmlToText.fromString('<h1>Hello World</h1>', { wordwrap: 130 }); console.log(text);
C#中有这样的组件吗?难道每个.NET程序员都要自己写正则表达式进行处理吗?
C#中也有很多哇,
AngleSharp: https://github.com/FlorianRappl/AngleSharp
HtmlAgilityPack: http://htmlagilitypack.codeplex.com
选用了AngleSharp
@dudu: 这个不错,就是对.Net Framework的版本要求高些...