首页 新闻 会员 周边 捐助

今日头条的用户数据如何爬取?

0
悬赏园豆:5 [已解决问题] 解决于 2020-08-10 14:35

如何根据用户头条号ID爬取头条发帖量、阅读量、等信息?

例如:https://www.toutiao.com/c/user/106757695398/#mid=1663272402162695

大da脸的主页 大da脸 | 初学一级 | 园豆:73
提问于:2020-05-21 14:35
< >
分享
最佳答案
0
import requests
import re
#简单写了几个
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36'
}
res = requests.get('https://www.toutiao.com/c/user/106757695398/', headers=headers)
a = re.findall('guanzhu:(.*?),', res.text, re.M)[0]
b = re.findall('fensi:(.*?),', res.text, re.M)[0]
c = re.findall('id:(.*?),', res.text, re.M)[0]
d = re.findall('name:(.*?),', res.text, re.M)[0]
print(f'关注人数{a}')
print(f'粉丝{b}')
print(f'用户ID{c}')
print(f'用户名{d}')
收获园豆:5
小小咸鱼YwY | 老鸟四级 |园豆:3312 | 2020-05-21 19:39

这个原理是模拟打开指定页面,爬取页面指定节点的值是吗?

大da脸 | 园豆:73 (初学一级) | 2020-05-22 08:18

headers的配置有什么作用吗?

大da脸 | 园豆:73 (初学一级) | 2020-05-22 08:19

@大da脸: 没什么用,你不加就算ide的ua他不允许你访问

小小咸鱼YwY | 园豆:3312 (老鸟四级) | 2020-05-22 15:50

@小小咸鱼YwY: 哦 就是起跨域的作用吧

大da脸 | 园豆:73 (初学一级) | 2020-05-29 19:59
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册