关于正则表达式

-1

悬赏园豆：30 [已解决问题] 解决于 2018-02-27 15:03

w我现在用python 爬取网页内用要用到正则表达式,要爬的内容时这样的

是img中的 src内容

我用python写的正则是这样

links = re.findall('<a href=".*?".target=.*?>^[div]<img src="(.*?)".*?>.*?</a>')
可是却匹配到一些我不想要的 比如

怎么改一下正则才能不匹配这个带div标签的,谢谢了

正则表达式

大老虎打老虎 | 初学一级 | 园豆：172
提问于：2018-02-11 19:10

< >

最佳答案

试试

links = re.findall('<a href=".*?".target=.*?>\s*<img src="(.*?)".*?>\s*</a>')

收获园豆：30

dudu | 高人七级 |园豆：23933 | 2018-02-11 21:12

试了一下还是会匹配到...

大老虎打老虎 | 园豆：172 (初学一级) | 2018-02-12 14:44

@大老虎打老虎: 改为

links = re.findall('<a href=".*?".target=[^>]+>\s*<img src="(.*?)"[^>]*>\s*</a>')

dudu | 园豆：23933 (高人七级) | 2018-02-12 17:04

@dudu: 非常感谢基本上都抓取正确了!

大老虎打老虎 | 园豆：172 (初学一级) | 2018-02-27 15:02

其他回答(1)

'<a href=".?".target=".?">\s<img src="(.?)".?>.?</a>'

用这个试试

Mirck | 园豆：114 (初学一级) | 2018-02-12 18:57

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。

欢迎，请先 登录 或者 注册 。