如何根据用户头条号ID爬取头条发帖量、阅读量、等信息?
例如:https://www.toutiao.com/c/user/106757695398/#mid=1663272402162695
import requests
import re
#简单写了几个
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36'
}
res = requests.get('https://www.toutiao.com/c/user/106757695398/', headers=headers)
a = re.findall('guanzhu:(.*?),', res.text, re.M)[0]
b = re.findall('fensi:(.*?),', res.text, re.M)[0]
c = re.findall('id:(.*?),', res.text, re.M)[0]
d = re.findall('name:(.*?),', res.text, re.M)[0]
print(f'关注人数{a}')
print(f'粉丝{b}')
print(f'用户ID{c}')
print(f'用户名{d}')
这个原理是模拟打开指定页面,爬取页面指定节点的值是吗?
headers的配置有什么作用吗?
@大da脸: 没什么用,你不加就算ide的ua他不允许你访问
@小小咸鱼YwY: 哦 就是起跨域的作用吧