大家好,今天给大家介绍标准差。标准差在统计领域是一个重要概念,有些地方晦涩难懂,特别是样本标准差的分母为何是n-1,而不是n或n-2,接下来我会一一介绍并用计算机模拟难点。
什么是标准差?下面看两组数[28,29,30,31,32],[10,20,30,40,50],它们的平均数都是30。这两组数是一致的吗?实际上,这两组数离散程度有很大区别。
用numpy模块计算,两组数的标准差相差10倍
方差是实际值与期望值之差平方的平均值。方差,通俗点讲,就是和中心偏离的程度!用来衡量一批数据的波动大小(即这批数据偏离平均数的大小)并把它叫做这组数据的方差。记作S2。 在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。标准差就是方差的平方根。方差和标准差用于不同场合,方便计算。
(标准差英文解释)
方差公式
标准差公式
难点来了,总体标准差和样本标准差的公式是有区别的,如下图
样本标准差公式中,分母是n-1。
为何样本标准差的分母为何是n-1,而不是n或n-2?
我们用计算机建模,环境Anaconda(python2.7)
参数解释:
Sigma表示总体标准差
S表示样本标准差
ddofValue=0 表示样本标准差分母是n
ddofValue=1 表示样本标准差分母是n-1
ddofValue=2 表示样本标准差分母是n-2
算法思路:
1.模拟出一个总体(服从正态分布的1000个随机数)
2. 从总体中随机抽样(100个随机数)
3.分别算出总体和样本的标准差,然后相减得到distance差值
4.循环1000次试验,把1000个distance相加,得到total_distance
5.在步骤3中,分别对样本标准差的分母取n, n-1,n-2, 最终得到dict_modes
观察dict_modes,ddof1的绝对值最小3.8
ddof1=1 表示样本标准差分母是n-1
总结:s样本标准差的分母采用n-1更加接近真实的总体标准差。通过计算机模拟,我们证明了为什么样本标准差的分母n-1比较合适,而不是n或n-2。
源代码:
如果允许代码有任何问题,请反馈至邮箱231469242@qq.com
# -*- coding: utf-8 -*-
'''
为什么样本标准差的分母是n-1
'''
import random
import numpy as np
#试验次数
trial=1000
#正态分布总体大小
size_total=1000
#正态分布样本大小
size_sample=100
#分母状态
#ddofValue=0 表示样本标准差分母是n
#ddofValue=1 表示样本标准差分母是n-1
#ddofValue=2 表示样本标准差分母是n-2
list_ddofValues=[0,1,2]
#返回样本标准差和总体标准差的距离总和
def Total_distance(ddofValue):
#总体标准差 和样本标准差的差值
total_distance=0
for i in range(trial):
normal_values=list(np.random.normal(size=size_total))
#总体标准差
sigma=np.std(normal_values,ddof=0)
#随机抽样
sample=random.sample(normal_values,size_sample)
s=np.std(sample,ddof=ddofValue)
distance=sigma-s
total_distance+=distance
return total_distance
#选择更佳模型
def Dict_modes():
distance_ddof0=Total_distance(list_ddofValues[0])
distance_ddof1=Total_distance(list_ddofValues[1])
distance_ddof2=Total_distance(list_ddofValues[2])
dict_modes={}
dict_modes["ddof0"]=distance_ddof0
dict_modes["ddof1"]=distance_ddof1
dict_modes["ddof2"]=distance_ddof2
return dict_modes
dict_modes=Dict_modes()
print dict_modes
'''
for i in range(trial):
normal_values=list(np.random.normal(size=n))
#总体标准差
sigma=np.std(normal_values,ddof=0)
#plt.hist(normal_values)
#随机抽样
sample=random.sample(normal_values,100)
#plt.hist(sample)
s=np.std(sample,ddof=ddofValue)
distance=sigma-s
total_distance+=distance
print"when ddofValue is:",ddofValue
print"Distance:",total_distance
股票换手率怎么看?换手率高好还是低好?换手率选股技巧。中金网,“换手率”也称“周转率”,指在一定时间内市场中股票转手买卖的频率,是反映股票流通性强弱的指标之一。以样本总体的性质不同有不同的指标类型...
2020年9月14日蚂蚁庄园小课堂:“打呼噜”声越大代表睡眠质量越好吗?答案A:不是,可能是病;答案B:肯定是啊!打呼噜是正常现象,但是很多人都以为打呼噜越大声,说明睡眠质量越好。其实并非如此,严重打...
刘雯自曝没谈过恋爱引起众多单身女青年的关注,著名的女超模大表姐居然没有谈过恋爱,是工作太忙还是动心太难了呢?你认为年龄越大恋爱会越难吗?友谊长存小编带来介绍。 年龄越大恋爱会越难 随着年龄的增长,...
谈到恋爱越来越多的人觉得恋爱并没有那么容易。年龄越大,似乎谈恋爱要考虑的更多更不容易了。到了年纪也不能再只是考虑喜欢了。那么年龄越大恋爱会越难吗 年龄会对恋爱有影响吗。友谊长存带来相关介绍。 年龄...
说到显卡,A卡N卡、高等中档一类的,主要是按照显示芯片(GPU)分另外。那么除了GPU之外,影响显卡机能的因素尚有什么呢?许多小同伴必定知道,没错,就是显存。不外显存是怎么影响机能,在选购时又该留意些...
打呼噜声越大代表睡眠质量越好吗?不是,可能是病;肯定是啊。这是支付宝蚂蚁庄园2020年9月14日每日一题的题目。众所周知,很多人睡着后都会打呼噜,那么是否打呼噜的声音越大睡眠质量就越好呢?不知道的用户...