下面是一条数据库里的数据,数据是问答题的选项,A,B,C,D....需要就是利用正则表达式去掉网页标签,提取中文,注意只要中文选项的A,B,C,D....都不要了.....
A、患者感受最主要的疾苦
B、可初步反映病情轻重与急缓
C、本次就诊最主要的原因
D、医生对患者诊断用语
只要中文选项的A,B,C,D,不要英文选项?
上面的数据在网页中的格式是
A.发生大幅
B。阿士大夫
C。阿士大夫
D。阿士大夫
.......
处理后
<p>发生大幅</P>
变成这种形式
[a-z][、][/u4e00-/u9fa5]