对于大量文本内容,其中包含中文、英文,如何设计函数,实现中文、英文混合的特征提取?
例如 test.txt
17:8 this is "中华人民" a test.In the next year 为了贯彻中央精神\n\r\n\r :在外面的时间里,My test task xiaoming.com can you : 公司发现 find- \n the method:参见《活动法》。score is 909.
正则表达式吧
正则表达有点难 还在学习中