假如一个网页:
<html>
<title>你好吗?How are you?</title>
<body>我很好,你呢?I'm fine,and you?</body>
</html>
这个网页包含几句话,我只想提取“你好吗”,“我很好“,”你呢”三句,不要标点符号,这三句要分开,求大神怎么做(C#)?
1. 首先取出所有内容
2.正则表达式取出汉字
3.做你想做的事情
辛苦了,主要是第2步
@我足以与你相配:
string htmlContent="<html>.........</html>" string chineseContent=Regex.Match(htmlContent, @"^[\u4e00-\u9fa5]+$").Value
已经经过测试了, 如果有问题继续追问, 没问题就采纳吧~
@请叫我头头哥: 参考该博问第一条回复,那里有详细的问题说明。谢谢^_^
@我足以与你相配: 意思是页面中所有的句子都得匹配出来?而且一个句子会被视作一个串, 是这意思吗?
@我足以与你相配: 如果是这样, 那你的工作量挺大的, 给你个思路吧。
string htmlContent="<html>.........</html>" string chineseContent=Regex.Match(htmlContent, @"^[\u4e00-\u9fa5]+$").Value // 在正则里, 加入所有可能的段位符
@请叫我头头哥: 我给你一个网页的源码,源码中有标签、脚本、英文字符、中文等杂乱的东西。我只想要其中的中文句子,速度不至于太慢,其实就是这个意思。至于怎么得到句子,方法是随便的,只要能得到结果。
@我足以与你相配: en , 嗯, 思路就是上面那么个思路, 你可以思考思考。
@请叫我头头哥: 嗯,工作量是挺大的,不过是自己的一个作品。取句子只是算法的第一步
@我足以与你相配: 看来你这是打算大刀阔斧的干一番啊, 加油, 如果有逻辑或者思路或者技术点上的不明白,可以私信我,或者继续提问, 完整的代码没法帮你写, 建议还是可以的 - -
@请叫我头头哥: 嗯,好的,谢谢
@我足以与你相配: 那就采纳吧, :) 哈哈。
@请叫我头头哥: 说句实话,大实话,正则表达式不适用于这个场景。
不过对于没事乱喊性能的人我就不说啥了。
要性能的话,请别使用C#。
抄一句别人说过的话吧:
如果你想要很高的性能,你必须知道处理的数据是什么样的。
别整天就知道正则。
@爱编程的大叔: 你这最后一句话, 真是说到厉害之处了, 哈哈!
@请叫我头头哥: 推荐你一篇文章,不错。
@爱编程的大叔: 好,。 工作之余的时候会去看的, 不枉大叔的关怀啊!
提取标签,正则匹配汉字,然后对标点符号就行分割。
注释我也取,是汉字都取,而且还不要打乱原文每一句话的汉字顺序。最好也不要打乱每一句话的顺序,还要速度快(每秒取千八百个网页跟玩似的),能说说详细的吗?
比如说这张截图,我要取得句子有:
所有回答
提取标签
正则匹配汉字
回复
幻天芒
园豆
高人七级
注释我也取
是汉字都取
而且还不要打乱原文每一句话的汉字顺序
最好也不要打乱每一句话的顺序
还要速度快
每秒取千八百个网页跟玩似的
能说说详细的吗
支持
反对
回复
我足以与你相配
园豆(已有-此处可不要)
初学一级
......
@我足以与你相配: 循环标签,获取每个标签的text,正则获取汉字,按照符号拆分。
如果是要搜索汉字,那就好办了,一个一个字符取出来,严刑拷打,总能让字符招供是否汉字的。
速度太慢
@我足以与你相配: 要不要帮你申请银河三号高速计算平台。
@爱编程的大叔: 你真是太无趣了,回答个问题不好好回答,还这么讥讽,有意思吗?
@我足以与你相配: 你别往心里去,可能你刚来博问,不太了解博问这帮老家伙, 大叔(@爱编程的大叔 )其实没有恶意的, 只是他的评论一贯作风是比较风趣幽默。 慢慢的你就觉得有点意思了。
@我足以与你相配: 是啊,好没意思。看笑话去。
隔壁小孩问我咋赚钱呢,我答说打工。
他说我有一万,想要30天变成1千万呢。
@请叫我头头哥: 嗯,好的。不过我是真的想问这个问题。
@爱编程的大叔: 麻溜的。 哈哈~
@我足以与你相配: 理解。
可以用正则表达式的
然后呢?
正则表达式
然后呢?
@我足以与你相配: 自己想去