import re cn="([\u4e00-\u9fa5]+)" pattern_cn = re.compile(cn) s = '謝謝' s1 = '谢谢' print(pattern_cn.findall(s1))
怎么判断是简体中文
这个方法不行,
这是一个难题,想到一个旁门左道,找一个繁体转简体的库,对源字符串进行繁体转简体操作,如果转换结果与源字符串相同则说明是简体
给个思路,不知道这个能不帮到你
>>> '谢谢'.encode("utf-8") b'\xe8\xb0\xa2\xe8\xb0\xa2' >>> '謝謝'.encode("utf-8") b'\xe8\xac\x9d\xe8\xac\x9d'
看得出来繁体跟简体的编码结果是不一样的。