1 import re 2 txt='there are a big apple and a big pear and three big peachs' 3 reg=r'big (apple|pear|peachs)' 4 a= re.compile(reg) 5 lisg=re.findall(a,txt) 6 print lisg
理想是匹配出 [u'big apple',u'big pear' ,u'big peachs']
而实际匹配出[('big ', 'apple'), ('big ', 'pear'), ('big ', 'peachs')]
正则表达式错在哪里
实际是在爬虫时候遇到这个问题
<img src="http://www.comicyu.com/Skin/Default/Item/newartick/imager/comicweixin.png" title="\u6f2b\u57df\u7f51\u5b98\u65b9\u5fae\u4fe1" alt="\u6f2b\u57df\u7f51\u5b98\u65b9\u5fae\u4fe1" /><img src="http://www.comicyu.com/Skin/Default/Item/newartick/imager/weixin.jpg">
比如这句话 ,我要怎么才能把上面红色部分取出来
re=r'src=".+?"(\.jpg|\.png)'
我这样试了不行
自己试出来了,这就就可以了
reg=r'src="(.+png|.+jpg)"'