用python抓亚马逊的商品评论,原数据量有16,000多个,但我抓取到15,000的数据量?有哪些可能的原因呢?
代码bug?特殊类型的数据跳过了?
个人的看法:网页中商品的评论格式是固定的,既然可以抓到15,000的数据,就说明不是代码的问题。
有些数据被服务器拒绝了
服务器会拒绝怎样的数据呀?
我刚接触scraper的相关知识,我初步的想法是这样的:抓取的数据中涉及到不同类型的数据如下:
`review_id` varchar(255) NOT NULL,
`review_date` varchar(255) DEFAULT NULL,
`title` text,
`ratings` double DEFAULT NULL,
`verified` int(11) DEFAULT NULL,
`comments_count` int(11) DEFAULT NULL,
`images_count` int(11) DEFAULT NULL,
`has_video` int(11) DEFAULT NULL,
`text` text,
`updated` datetime DEFAULT NULL,
PRIMARY KEY (`review_id`)
只要可以在一条商品评论中,可以抓取到上述的其中一条信息,就算是抓到这条数据了。