import requests
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36', 'Upgrade-Insecure-Requests':'1', 'Referer':'http://www.scxxb.com.cn/html/2019/gnxw_0716/705043.html', 'Content-Type':'text/html'}
req = requests.get('http://www.scxxb.com.cn/html/2019/gnxw_0716/705043.html',headers=headers)
print(req.text)
打印的就是一串JS..
试一下用chardet
import chardet
html = req.read()
decode_type= chardet.detect(html)
html = html.decode(decode_type['encoding'])
print(html)
看看是不是正常的html格式了
浏览器看到的是JS加载执行后的结果. 你用requests请求时js未执行, 所以看到的不一样.
可以用WebDriver+浏览器驱动去获取.
比如 selenium chromedriver Chrome
人家反爬了,需要先执行这一段js。