首页 新闻 搜索 专区 学院

python爬虫,抓取到的数据少于网页中的原数据

0
[待解决问题]

用python抓亚马逊的商品评论,原数据量有16,000多个,但我抓取到15,000的数据量?有哪些可能的原因呢?

Abby*^o^*的主页 Abby*^o^* | 菜鸟二级 | 园豆:206
提问于:2017-07-26 09:17
< >
分享
所有回答(2)
0

代码bug?特殊类型的数据跳过了?

notevar | 园豆:204 (菜鸟二级) | 2017-07-26 10:55

个人的看法:网页中商品的评论格式是固定的,既然可以抓到15,000的数据,就说明不是代码的问题。

支持(0) 反对(0) Abby*^o^* | 园豆:206 (菜鸟二级) | 2017-07-26 16:07
0

有些数据被服务器拒绝了

ycyzharry | 园豆:23926 (高人七级) | 2017-07-26 14:21

服务器会拒绝怎样的数据呀?

我刚接触scraper的相关知识,我初步的想法是这样的:抓取的数据中涉及到不同类型的数据如下:

`review_id` varchar(255) NOT NULL,
`review_date` varchar(255) DEFAULT NULL,
`title` text,
`ratings` double DEFAULT NULL,
`verified` int(11) DEFAULT NULL,
`comments_count` int(11) DEFAULT NULL,
`images_count` int(11) DEFAULT NULL,
`has_video` int(11) DEFAULT NULL,
`text` text,
`updated` datetime DEFAULT NULL,
PRIMARY KEY (`review_id`)

只要可以在一条商品评论中,可以抓取到上述的其中一条信息,就算是抓到这条数据了。

支持(0) 反对(0) Abby*^o^* | 园豆:206 (菜鸟二级) | 2017-07-26 16:18
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册