<font color="#000000">
<img width="147" height="52"src="http://127.0.0.1:80/admin/../upload/pimg1054_1.png" alt="" />
<img width="147"height="52" src="admin/../upload/asffas_ad.jpg" alt="" />
</font>
大神, 用re正则, 怎么将img标签里边的 alt属性,width属性, 给去除掉啊?
万分感谢!!
Code Below:
import re
regex = r"(src|alt)=[\"](.*?)[\"]"
test_str = '<img width=\"147\" height=\"52\"src=\"http://127.0.0.1:80/admin/../upload/pimg1054_1.png\" alt=\"\" />'
subst = ""
result = re.sub(regex, subst, test_str, 0)
if result:
print(result)
# Result:
<img width="147" height="52" />
感谢大神指点,谢谢,万分感谢。
其实如果你用python正则的来搞网页爬取的话,完全可以借用一些其他模块,有点模块能够直接找出img,并且有去除属性功能
大神,不是搞爬取,是数据清理一下,
你的意思是把 alt ="XX" 这个里面的XX去掉吗?
– BUTTERAPPLE 6年前@BUTTERAPPLE: 不是, 是直接把alt这个属性给去掉.
– WrYcF 6年前