当前课程知识点:商业数据思维与实战 > 第四章 大数据时代的统计分析(上) > 4.3 统计分析方法专题Ⅰ > 4.3.2 数据的概况性度量
大家好
本讲我们主要学习
数据的概括性度量
通过图表
我们可以对数据分布的状况
有大致的了解
但如果想更进一步了解数据的特征
就需要利用一些概括性的度量指标
通常数据分布的特征
从三个方面进行测度和描述
一是分布的集中趋势
反映各数据向中心值靠拢的程度
二是分布的离散程度
反映各数据远离其中心值的趋势
三是分布的形状
反映数据分布的偏态和峰态
我们首先来看一下分布的集中趋势
集中趋势反映了数据中心点
所在的位置
不同的数据类型有不同的测度值
常用的有众数 均值
中位数和分位数
众数是一组数据中
出现次数最多的值
主要用于定性数据
例如我们在生活中常说
少数服从多数
那这个多数就是众数
它不受极端值的影响
均值是我们最为常用的测度值
它也是集中趋势中最重要的测度值
主要针对的是定量数据
但它的缺点
就是容易受到极端值的影响
接下来 我们看一下中位数
中位数是一组数据
从小到大排序以后位置居中的数
它把全部数据一分为二
是一个位置平均数
其特点也是不受极端值的影响
当数据偏斜程度较大时
可以考虑使用中位数
它能较为客观地反映数据的
平均水平
例如
我们在研究收入分配时就十分有用
与中位数类似的还有四分位数
十分位数和百分位数等等
它们分别是用3个点
9个点和99个点
将数据四等分 十等分和一百等分
在这里
我们先简单介绍一下四分位数
它是一组数据排序后
处于25%和75%位置上的值
四分位数通过三个点
将全部数据划分成四部分
每部分包含25%的数据
很显然中间的四分位数就是中位数
因此 通常所说的四分位数
是指处在25%位置上的数值
和处在75%位置上的数值
在绘制箱线图时就会用到四分位数
但仅仅知道数据的集中趋势还不够
我们还是要了解数据的离散情况
假设一个大型制造公司的采购代理
定期向两个不同的供应商订货
经过几个月的运营
发现两个供应商完成订单所需时间
都是10天
请问他们在按期交货方面
是否拥有相同的可信度
这就需要考察数据的离散程度了
离散程度
是数据分布的另外一个主要特征
它反映了各变量值
远离其中心值的程度
离散程度越大
集中趋势的测度值
对该数据的代表性也就越差
因此 离散程度
可以从另一个侧面
说明集中趋势测度值的代表程度
对于数值型数据来说
常用到的有方差 标准差 极差
离散系数 四分位数
其中 方差及标准差
是应用最广的离散程度的测度值
方差和标准差
是反映数据离散程度的绝对值
其数值的大小
会受到变量自身水平高低的影响
变量值绝对水平高时
离散程度的测度值自然也就越大
反之 离散程度的测度值
自然也就小
另一方面
标准差与方差是有计量单位的
采用不同计量单位
其离散程度的测度值也会不同
因此 对于平均水平不同
或计量单位不同的不同分组
进行比较的时候
我们就不能用标准差
直接进行离散程度的比较
例如 想比较两个班成绩离散程度
如果直接拿标准差来比较
是不合适的
因为要考虑到
两个班平均成绩是不相同的
因此 为了消除变量值水平高低
和计量单位的影响
可以通过计算离散系数来进行对比
离散系数有时候也被称为变异系数
它是一组数据的标准差
与其对应的平均数相比较
离散系数大
说明数据的离散程度就大
反之离散系数小
则说明数据的离散程度也小
了解了数据的集中趋势和离散程度
我们还需要知道
数据分布的形状是否对称
偏斜的程度以及分布的扁平程度等
偏态和峰态就是对分布形状的测度
当偏度系数为0时 是对称分布
当偏态系数大于0
我们称之为右偏分布
当偏态系数小于0
则称之为左偏分布
峰态系数是对数据分布
扁平程度的测度
峰态通常是与标准正态分布
相比较而言的
当峰态系数等于0时 峰态适中
峰态系数若小于0 则为扁平分布
峰态系数大于0 则为尖峰分布
最后 我们还需要了解一下
数据的标准化
在对数据进行标准化处理时
常常会用到标准分数
标准分数用于对变量的标准化处理
变量值与其平均数的离差
除以标准差后得到的值
称之为标准分数
标准化后的数据均值为0
标准差为1
那你可能会问
为什么要对数据进行标准化
计算标准分数又有什么用
具体来说
标准分数的作用体现在以下三方面
一是可以判断一组数据中
是否存在异常值
当计算出的标准分数的绝对值
大于3时
我们就可以认为该值是异常值
二是通过计算标准分数
可以度量某一个值
在一组数据中的相对位置
例如 标准分数计算后
得到的结果是1.2
则表明该变量值比均值
高出1.2倍标准差
三是通过标准分数
我们可以统一量纲
有的变量取值范围较大
有的变量取值范围较小
例如 企业销售收入
是几百万到几千万
而员工人数为几十人到几百人
无法直接进行比较和分析
在一些分析中
如因子分析中
常常是需要将数据标准化后
再进行分析的
本讲 我们主要学习了
数据的概括性度量
当我们描述数据分布特征时
可以从集中趋势 离散程度
分布的形状三方面对数据进行描述
本讲的知识点就介绍到这儿
谢谢大家
-1.1 数字和数字的产生
--测验1
-1.2 信息、信息技术和信息经济
--测验2
-1.3 数字经济及其特征、发展趋势
--测验3
-1.4 数据伦理
--测验4
-单元测验
-2.1 数据与数据思维
--2.1测验
-2.2 大数据时代的数据思维
--2.2测验
-单元测验
-3.1 大数据时代的商业模式变革
--3.1 测试
-3.2商业数据思维案例分析
-单元测试
-4.1 大数据时代下的统计分析
--4.1 测试
-4.2 数据分析基础
-4.3 统计分析方法专题Ⅰ
--4.3 测试
-单元测试
-5.1 统计分析方法专题Ⅱ
--5.1 测试
-5.2 文本分析
--评论语料
--5.2 测试
-结合从网络中已爬取的商业数据,讨论如何对其中的文本数据进行分析?
-单元测试
-6.1 商业选题
--6.1 测试
-6.2 数据提取
--6.2 测试
-单元测试
-7.1 数据预处理
--7.1 测试
-7.2 数据分析与挖掘
--7.2 测试
-基于对研究数据的预处理结果,讨论如何对其进行进一步的分析与挖掘?
-单元测试
-8.1 数据可视化
--8.1 测试
-8.2 报告撰写
--8.2 测试
-基于对数据不同阶段的处理结果,讨论如何对其进行可视化展示?
-单元测试
-期末考试