终于有人把工资拖后腿的原因找到了,此文把平均数、中位数和众数全讲明白了

有人统计过一家互联网公司的季度财报。结果显示,该公司职员的平均工资是其他同事的3 ~ 4倍。消息一出来,立刻引起了人们的热议。后来该公司传出传闻,公开报酬费用包括职员教育、福利费、税金缴纳、商业保险、年终奖,但没有让大众信服。人们关心的问题是:平均工资计算方法合理吗?

可以想象,如果把正式职工和世界首富的工资放在一起平均,普通人的工资几乎可以忽略不计。在一家企业里,20%的人占工资总额的80%。高收入者的比例很少,但对平均工资的影响很大。

平均工资只是经济领域的一个例子。在生活中,我们可以接触到各种数据,它们以不同的形式表达。处理数据集时,平均值可以很好地表示该数据集的平均水平,但如果通过削峰填补山谷,部分信息将丢失,只能反映整个要素的一个方面。

要想掌握数据的全貌,就要知道数据的属性和性质。对于数据集,我们首先要知道大部分数据落在哪里。也就是说,通常选择数据的“中间位置”,即反映数据集趋势的统计数据,以表示数据的中心。这里的测量方法有平均值、中位数、群众人数等。

01平均

平均值,也称为平均值,是统计学中定义一组最基本、最常用的数据特征的指标,用于描述数据的平均水平。计算平均值后,可以将所有数据相加,再除以数据数。例如,{1,2,3,4,5}的平均值为3。

平均值是描述数据集最有用的统计量,但并不总是衡量数据中心的最佳方法。最大的问题是,平均值对极端值(如偏离)敏感,受极低或高数值的影响很大。为了抵消这些影响,可以使用中端平均值。也就是说,可以放弃一些高和低的极端值,计算平均值。例如,在跳水比赛中,采用减去最高分和最低分的结束平均分数法。(威廉莎士比亚,潜水,潜水,潜水,潜水,潜水,潜水,潜水)。

02中值

中值描述了数据按大小顺序排列后位于中间位置的渠道数据的中间级别。如果有奇数,则中间值为中间值。如果是偶数,中间值通常采用两个中间值的平均值。适用于倾斜(不对称)数据测量。

03重水

重水是集合中最常出现的数字,描述了数据的一般水平。群众人数不一定是唯一的。数据集可能有多个重水,也可能没有重水。群众人数不仅适用于数字数据,也适用于非数字数据。例如,{苹果、苹果、苹果、香蕉、梨、梨}这个数据组没有平均值和中值,但有重水苹果。04群众数、中位数、平均关系

如果数据集的平均值、中值和中位数是相同的数字,则数据分布是对称的。但是,这种情况并不常见,如图2-1所示,数据通常是正斜率或负斜率。

图2-1群众数、中位数、平均关系

收入数据是典型的偏向数据,大多数人是工薪阶层或退休老人,亿万富翁只有少数。收入数据是图2-1中所示的正倾斜数据,大多数人的收入集中在左边,右边是代表几个人收入的长尾。这种分布不适合用平均值来描述。因为平均值对极端数据非常敏感,一两个亿万富翁提高了总人口的收入水平,收入平均值远高于人们认知的平均收入。

平均工资消除了大量低收入人群和少数巨额收入人群的差异。但是换成重水也不合适。因为低收入阶层占工资比率的大多数区间。统计工资时,合理的选择是统计中位数,这暴露了一半和另一半收入之间的分界线。(威廉莎士比亚,温斯顿,工资,工资,工资,工资,工资)。

当然,中间值并不是比平均值更好的统计量,但它更适合于工资统计。

引入统计的意义在于简化。例如,老师说子女的考试排名在班级中达到10%,你要认识到他的学习成绩不太好。学习要更加努力。(约翰f肯尼迪,教育)在这个过程中,你不需要知道关于考试本身的什么内容,也不需要知道孩子在考试中到底答对了多少题。排名可以知道孩子的学习水平。

但是,统计量的简化不可避免地导致部分信息丢失,优点也是缺点。很多现象不能用一个数字来解释。如果只用一个统计量来描述对象有限制,就要努力获得更多的数据和更多的细节。

作者:西城,某商业银行IT技术负责人,毕业于上海交通大学,在IT技术领域工作10多年,对技术发展、人工智能有独到见解,专注于智能运维(AIOps)、数据可视化、容量管理等领域。


请使用浏览器的分享功能分享到微信等