你好,关于这2点疑问:
那我们如何确信样本统计量与总体统计量之间的关系呢?
样本的选取是有各种方式的,适用不同的场景。通过样本统计的结果也有相应的方法去检验其置信区间和有效程度。
比如,如果通过样本的统计量来估计总体的统计量,一般不会只选一套样本,我们可以选取10套样本,根据各套样本的统计量的分析来估计总体的统计量,不会只根据一套样本就确定总体的统计量的。
就像你说的,凭什么随机选一套样本就能代替总体的统计量。
假设样本统计量可以用来估计总体的统计量,为什么又存在了非参数估计呢?
我觉得用样本统计量来估计总体的统计量,很多时候是因为总体的量太大,没法直接统计。
如果总体的量就不那么大,为什么还要用参数统计,直接统计总体的不是更好,更精确,所以有非参数的统计。
感谢指点!
关于第2点的问题:假设样本统计量可以用来估计总体的统计量,为什么又存在了非参数估计呢?
您的意思是,非参数估计和参数估计的适用条件,是以总体量的大小,来区分的? 那一般情况下,是否有个相对明确的量的界限,来区分说总体量是大,还是小呢?
@老笨啊: 您好,我是举个例子说明不一定非得用参数统计的方法,总量不大的时候没必通过抽样来分析。
这个总量其实没有明确的界限,根据处理能力来的。
比如我们个人做数据分析,只有一个台式机,那么几千万上亿的数据就得抽样分析了。
而对于大的互联网公司,比如google,阿里这些,几百亿数据分析不抽烟也没问题。