需要爬取小红书网站的图片,下面是API接口,返回第一页的数据:
api_url = r"https://www.xiaohongshu.com/web_api/sns/v3/search/note?keyword=baby&page=1&page_size=20"
你可以打开,但我打不开了,因为在写爬虫时,访问几次后,我被拉入黑名单了,大概?
于是我使用 “阿布云代理”,买了动态版代理隧道,
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host": proxyHost,
"port": proxyPort,
"user": proxyUser,
"pass": proxyPass,
}
proxies = {
"http": proxyMeta,
"https": proxyMeta,
}
resp = requests.get(targetUrl, proxies=proxies)
即我每次requests请求都是一个随机IP,能访问ip_url得出:
ip_url = "http://api.ipify.org?format=json"
但现在我需要的是能够访问小红书的数据接口啊,
api_url = r"https://www.xiaohongshu.com/web_api/sns/v3/search/note?keyword=baby&page=1&page_size=20"
resp4 = requests.get(api_url, proxies=proxies)
print(resp4.text)
输出如下:
{
"data": {},
"success": true
}
so? 有数据返回,但数据是空的???我一脸懵逼,如果不用阿布云代理的话,现在我IP已被封,会出现403 Forbidden。求问大佬,如何能通过 api_url 来获取小红书的数据接口??得用代理,多个IP,有然次数一多,会被封?用代理,我用阿布云,接收的数据却为空。help~~~
时间久远,忘了咋解决的了
已经解决
– 前程明亮 6年前怎么解决的,我也遇到了
– caipan 4年前