[爬虫]网页源码与审查模式看到的代码顺序不一致

悬赏园豆：20 [待解决问题]

小白在爬www.99cws.com时发现网页源码中结点是乱序的，如下:

(上面是网页源码，为了观看方便，我提取出来保存在记事本)
而在审查模式中看到的却是这个样子：

在我看来，它似乎通过某种算法将结点顺序再排列了一次，不知道这是不是网页的渲染？
希望大神能指点一下我怎么去爬取这种网页。

爬虫

伍田美 | 初学一级 | 园豆：182
提问于：2022-03-02 21:14

< >

所有回答(1)

你跟着正序的方式去实现就行了（细节自己想）。

这不算什么，记得那个快手是自定义字体，编码自定义（也就是你获取的到内容都是乱码）。

现在一些网站都是登录一个信息，没登录随机信息。

最狠的阿里的验证码，很难解。

建议：通常爬虫既没有技术含量（没有可玩性），还涉嫌违法，谨慎代码，另辟路径。学技术的同时务必学法。

花飘水流兮 | 园豆：13775 (专家六级) | 2022-03-04 02:06

我是用requests库去获取网站响应，获得的响应是和网站源码一致的。但是实际浏览网页中，网站出现的文字是将源码里的内容按书的内容排序好再显示。

（获取的响应）

（实际观看效果）
希望大神能给我个大概的方向让我自己去摸索解决这个问题。
谢谢您的建议！学爬虫是我个人的兴趣使然，爬取网站时我也会浏览网站robots.txt文件，不会做些违法的事情。

支持(0) 反对(0) 伍田美 | 园豆：182 (初学一级) | 2022-03-04 23:17

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。