w我现在用python 爬取网页内用要用到正则表达式,要爬的内容时这样的
是img中的 src内容
我用python写的正则是这样
links = re.findall('<a href=".*?".target=.*?>^[div]<img src="(.*?)".*?>.*?</a>')
可是却匹配到一些我不想要的 比如
怎么改一下正则才能不匹配这个带div标签的,谢谢了
试试
links = re.findall('<a href=".*?".target=.*?>\s*<img src="(.*?)".*?>\s*</a>')
试了一下还是会匹配到...
@大老虎打老虎: 改为
links = re.findall('<a href=".*?".target=[^>]+>\s*<img src="(.*?)"[^>]*>\s*</a>')
@dudu: 非常感谢 基本上都抓取正确了!
'<a href=".?".target=".?">\s<img src="(.?)".?>.?</a>'
用这个试试