首页 新闻 会员 周边

[爬虫]网页源码与审查模式看到的代码顺序不一致

0
悬赏园豆:20 [待解决问题]

小白在爬www.99cws.com时发现网页源码中结点是乱序的,如下:

(上面是网页源码,为了观看方便,我提取出来保存在记事本)
而在审查模式中看到的却是这个样子:

在我看来,它似乎通过某种算法将结点顺序再排列了一次,不知道这是不是网页的渲染?
希望大神能指点一下我怎么去爬取这种网页。

伍田美的主页 伍田美 | 初学一级 | 园豆:182
提问于:2022-03-02 21:14
< >
分享
所有回答(1)
0

你跟着正序的方式 去实现就行了(细节自己想)。

这不算什么,记得那个快手是自定义字体,编码自定义(也就是你获取的到内容都是乱码)。

现在一些网站都是登录一个信息,没登录随机信息。

最狠的阿里的验证码,很难解。

建议:通常爬虫既没有技术含量(没有可玩性),还涉嫌违法,谨慎代码,另辟路径。学技术的同时务必学法。

花飘水流兮 | 园豆:13560 (专家六级) | 2022-03-04 02:06

我是用requests库去获取网站响应,获得的响应是和网站源码一致的。但是实际浏览网页中,网站出现的文字是将源码里的内容按书的内容排序好再显示。

(获取的响应)

(实际观看效果)
希望大神能给我个大概的方向让我自己去摸索解决这个问题。
谢谢您的建议!学爬虫是我个人的兴趣使然,爬取网站时我也会浏览网站robots.txt文件,不会做些违法的事情。

支持(0) 反对(0) 伍田美 | 园豆:182 (初学一级) | 2022-03-04 23:17
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册