今日头条的用户数据如何爬取？

悬赏园豆：5 [已解决问题] 解决于 2020-08-10 14:35

如何根据用户头条号ID爬取头条发帖量、阅读量、等信息？

例如：https://www.toutiao.com/c/user/106757695398/#mid=1663272402162695

大da脸 | 初学一级 | 园豆：55
提问于：2020-05-21 14:35

< >

最佳答案

import requests
import re
#简单写了几个
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36'
}
res = requests.get('https://www.toutiao.com/c/user/106757695398/', headers=headers)
a = re.findall('guanzhu:(.*?),', res.text, re.M)[0]
b = re.findall('fensi:(.*?),', res.text, re.M)[0]
c = re.findall('id:(.*?),', res.text, re.M)[0]
d = re.findall('name:(.*?),', res.text, re.M)[0]
print(f'关注人数{a}')
print(f'粉丝{b}')
print(f'用户ID{c}')
print(f'用户名{d}')

收获园豆：5

小小咸鱼YwY | 老鸟四级 |园豆：3312 | 2020-05-21 19:39

这个原理是模拟打开指定页面，爬取页面指定节点的值是吗？

大da脸 | 园豆：55 (初学一级) | 2020-05-22 08:18

headers的配置有什么作用吗？

大da脸 | 园豆：55 (初学一级) | 2020-05-22 08:19

@大da脸: 没什么用,你不加就算ide的ua他不允许你访问

小小咸鱼YwY | 园豆：3312 (老鸟四级) | 2020-05-22 15:50

@小小咸鱼YwY: 哦就是起跨域的作用吧

大da脸 | 园豆：55 (初学一级) | 2020-05-29 19:59

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。

欢迎，请先 登录 或者 注册 。

今日头条的用户数据如何爬取？

欢迎，请先登录或者注册。