数据分析必须要掌握的10个统计量
2024-07-03 0
我是孙斌,毕业于北京理工大学数学系。我分享有关数据分析的知识,以了解更多有关数据分析的知识。
数据分析中需要学习的10个统计数据。
1模式
该众数代表总体中最常见的值。
例如,在某城市随机抽取9个家庭,得到每个家庭的月人均收入数据如下(单位:元)。
其中,数字1080出现了3次,出现频率最高,因此1080就是这个数据集的众数。
如果数据较多,可使用Excel的MODESNGL函数求众数。
2平均
平均值就是平均值。对数据集进行计数并除以数据个数得到的结果。
例如,对于前述的月收入数据,平均计算公式如下。
在Excel中,您可以使用AVERAGE函数求平均值公式。
3中位数
将总体中的个体数据按升序排列,中间的值为中位数。
例如,上面的月收入数据,按照下图升序排序后,中位数为1080。
如果数据个数为偶数,则中位数为中间两个数的平均数。
在Excel中,您可以使用MEDIAN函数来查找中位数。
4四分位数
将所有值从小到大排列并分成四等份。三个分界点的数值就是四分位数。
例如,上面的月收入数据按照升序排列如下图所示。
图中的箭头表示三个四分位数。
在Excel中,使用QUARTILEINC函数查找四分位数,如下图所示,找到了第一个四分位数。
第一个四分位数也称为下四分位数。要找到第二个四分位数,只需将第二个参数更改为2,如图所示。
第三四分位数也称为上四分位数。
5四分位数范围
四分位距,也称为四分位距,是上四分位数和下四分位数之间的差。
对于上述数据,第一个四分位数为960,第三个四分位数为1250,四分位数范围为1250–960290。
四分位数范围代表数据的中位数50%分散度。值越小,数据越集中,价值越高。
6极度贫困
极差表示数据集中最大值和最小值之间的差值。
对于上述数据,最大值为2000,最小值为750,因此范围为2000-7501250。
在Excel中,我们可以先使用max和min函数分别计算最大值和最小值,然后再做差。
7方差
离散度代表数据的波动性。假设有两组这样的数据,我们想要比较它们的离散度。
第1组:4、5、1、4、8、2、4
第2组:4、3、4、4、5、4、4
最直观的方法就是画折线图,如下图所示。
从图中可以看出,数据组1的波动性高于数据组2的波动性。
在Excel公式中,使用VARP函数可以轻松获得数据的方差。
8标准差
标准差是通过方差的平方根获得的。
有了方差,为什么我们需要标准差?
由于方差是在原始数据的基础上平方的,单位发生了变化,标准差的单位与原始数据相对应,所以在实际分析中更多地使用标准差。
在Excel中,可以使用公式STDEVP获得标准差。
9斜率系数
偏度是数据分布对称性的度量,如下图所示。
例如,学生考试成绩有以下三种形式。
正态:即正态分布,大部分学生成绩一般,有的学生成绩极高,有的学生成绩极低。
正偏差:大多数学生的考试成绩较低,少数学生成绩中等,甚至少数学生成绩特别高。
负面偏见:大多数学生的考试成绩很高,少数学生成绩一般,甚至更少的学生成绩特别低。
我们可以测量偏斜系数sk,当然不需要在Excel中使用SKEW函数公式来计算。
当????>0时,分布呈正偏态。
当????0时,分布是对称的。
当????
10峰度系数
峰度是数据分布平滑度的度量。例如,各种峰度的分布如下图所示。
例如,学生考试成绩有以下三种形式。
常态意味着大多数学生的考试成绩平均,有些学生成绩特别高,有些学生成绩特别低。
“顶尖”的分布模式意味着几乎所有学生的考试成绩都处于平均水平,几乎没有学生成绩特别高或特别低。
“又短又胖”的分布格局意味着,有的学生考试成绩一般,也有不少学生成绩极高或极低。
峰度系数可用于测量峰度、峰值峰度系数用K表示。在Excel中,可以使用KURT公式函数计算峰度系数。
当??
如果??>0,则分布密集且具有高峰值。
以上是数据分析中需要学习的10个统计数据。
本站文章均由用户上传或转载而来,该文章内容本站无法检测是否存在侵权,如果本文存在侵权,请联系邮箱:2287318951@qq.com告知,本站在7天内对其进行处理。