首页新闻招聘找找看知识库

关于正则表达式

-1
悬赏园豆:30 [已解决问题] 解决于 2018-02-27 15:03

w我现在用python 爬取网页内用要用到正则表达式,要爬的内容时这样的

是img中的 src内容

我用python写的正则是这样

links = re.findall('<a href=".*?".target=.*?>^[div]<img src="(.*?)".*?>.*?</a>')
可是却匹配到一些我不想要的 比如

怎么改一下正则才能不匹配这个带div标签的,谢谢了
大老虎打老虎的主页 大老虎打老虎 | 初学一级 | 园豆:172
提问于:2018-02-11 19:10
< >
分享
最佳答案
0

试试

links = re.findall('<a href=".*?".target=.*?>\s*<img src="(.*?)".*?>\s*</a>')
收获园豆:30
dudu | 高人七级 |园豆:40436 | 2018-02-11 21:12

试了一下还是会匹配到...

大老虎打老虎 | 园豆:172 (初学一级) | 2018-02-12 14:44

@大老虎打老虎: 改为

links = re.findall('<a href=".*?".target=[^>]+>\s*<img src="(.*?)"[^>]*>\s*</a>')
dudu | 园豆:40436 (高人七级) | 2018-02-12 17:04

@dudu: 非常感谢  基本上都抓取正确了!

大老虎打老虎 | 园豆:172 (初学一级) | 2018-02-27 15:02
其他回答(1)
0

'<a href=".?".target=".?">\s<img src="(.?)".?>.?</a>'

用这个试试

Mirck | 园豆:149 (初学一级) | 2018-02-12 18:57
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册