python爬虫，抓取到的数据少于网页中的原数据

[待解决问题]

用python抓亚马逊的商品评论，原数据量有16,000多个，但我抓取到15,000的数据量？有哪些可能的原因呢？

Abby*^o^* | 菜鸟二级 | 园豆：206
提问于：2017-07-26 09:17

< >

所有回答(2)

代码bug？特殊类型的数据跳过了？

notevar | 园豆：204 (菜鸟二级) | 2017-07-26 10:55

个人的看法：网页中商品的评论格式是固定的，既然可以抓到15,000的数据，就说明不是代码的问题。

支持(0) 反对(0) Abby*^o^* | 园豆：206 (菜鸟二级) | 2017-07-26 16:07

有些数据被服务器拒绝了

ycyzharry | 园豆：25692 (高人七级) | 2017-07-26 14:21

服务器会拒绝怎样的数据呀？

我刚接触scraper的相关知识，我初步的想法是这样的：抓取的数据中涉及到不同类型的数据如下：

`review_id` varchar(255) NOT NULL,
`review_date` varchar(255) DEFAULT NULL,
`title` text,
`ratings` double DEFAULT NULL,
`verified` int(11) DEFAULT NULL,
`comments_count` int(11) DEFAULT NULL,
`images_count` int(11) DEFAULT NULL,
`has_video` int(11) DEFAULT NULL,
`text` text,
`updated` datetime DEFAULT NULL,
PRIMARY KEY (`review_id`)

只要可以在一条商品评论中，可以抓取到上述的其中一条信息，就算是抓到这条数据了。

支持(0) 反对(0) Abby*^o^* | 园豆：206 (菜鸟二级) | 2017-07-26 16:18

清除回答草稿

您需要登录以后才能回答，未注册用户请先注册。

欢迎，请先 登录 或者 注册 。

python爬虫，抓取到的数据少于网页中的原数据

欢迎，请先登录或者注册。