当前课程知识点:轻松学好统计学 > 项目三 统计数据整理与显示 > 3.3 案例样板间 > 案例3——为什么使用统计,从日常生活、工作谈一谈
为什么使用统计
我们在日常生活中多多少少都会使用数据:对生意人来说,每天的客户数量和销售额是最重要的数据;对学生来说,考试成绩的数据在升学问题上发挥着重要作用;对成年人来说,每年的定期健康检查中血压和血液成分的数据是他们很关心的,生活中与数据没有关系的人是不存在的。
但是,光是浏览原始数据(即单纯列举的数字)恐怕什么也弄不明白。确实,数据在一定意义上是体现“现实本身”的。但是,在“打眼一瞧什么也不明白”这一点上,“数据”也好,“现实”也罢,都有相同之处。
比如,表1-1。这是80位女大学生的身高数据(从哈佛大学校内刊登的200个数据中抽取的最初的80个)。
151 | 154 | 158 | 162 | 154 | 152 | 151 | 167 | 160 | 161 |
155 | 159 | 160 | 160 | 155 | 153 | 163 | 160 | 165 | 146 |
156 | 153 | 165 | 156 | 158 | 155 | 154 | 160 | 156 | 163 |
148 | 151 | 154 | 160 | 169 | 151 | 160 | 159 | 158 | 157 |
154 | 164 | 146 | 151 | 162 | 158 | 166 | 156 | 156 | 155 |
161 | 166 | 162 | 155 | 143 | 159 | 157 | 157 | 156 | 157 |
162 | 161 | 156 | 156 | 162 | 168 | 149 | 159 | 169 | 162 |
162 | 156 | 150 | 153 | 159 | 156 | 162 | 154 | 164 | 161 |
表1-180位女大学生身高(cm)数据
从这80个数字中能得到什么呢?
首先能确认“女学生的身高各不相同,数据参差不齐”。
作为“成年女性”的一部分,这些女大学生的身高数值是多种多样的。这“多种多样的数值”,用术语讲叫作“分布。分布的产生,是决定数值背后的某种“不确定性”作用的结果,除此别无其他。不确定性的结构会生参差不齐的身高数值。但是即使概括地说这些数据是“不确定的”,它们也有自己固有的“特征”和“特点”。这种固有的特征和特点叫作“分布的特性“。
那么,这些身高数据固有的特征和特点是什么呢?对于熟悉数据解析的人来说,即使是从列举的数值中也能抽取出很多的特征和特点。而普通人就只能看到简单的数字罗列。
所以,从这些原始数据,也就是“原始的现实”中,抽取出分布的特征和特点的手法就很有必要。这就是“统计”的手法。
统计学使用的方法叫作“压缩”。所谓压缩,是指“将作为数据列举的大量数字,以一定的基准进行整理,只抽取有意义的信息”。大致来说有如下两种手法:
①以图化捕捉其特征;
②以一个数字来代表特征。其代表数字叫作“统计量”。
1.2做直方图
现在,首先从手法①的图化开始解说压缩的方法。以原始数据作图,最流行的图就是“直方图”。简单来说就是“柱状图”。为此,首先需要做频数分布表。做法如下所述。
步骤1
找到数据中数值最大的(最大值)和最小的(最小值)。
步骤2
按最大值到最小值大致划分范围,将这个范围分成5~8个小范围(小区间)→这叫作“分组”。
步骤3
决定各组的代表数值。基本上选什么作为代表数值都可以,而一般选择间的数值的比较多→这叫作“组值”。
步骤4
数出各组中的数据数→这叫作“频数“。
步骤5
计算各组的频数占全体的比例→这叫作“相对频数”。相对频数相加等于1。
步骤6
计算这组的频数合计→这叫作“累计频数”。累计频数最终与全部数据一致。
让我们针对刚才的图1-1的数据,来按以上步骤操作吧(参照表1-2)。
表1-2 80位女大学生身高的“频数分布表”
分组 | 组值 | 频数 | 相对频数 | 累计频数 |
141~145 | 143 | 1 | 0.0125 | 1 |
146~150 | 148 | 6 | 0.075 | 7 |
151~155 | 153 | 19 | 0.2375 | 26 |
156~160 | 158 | 30 | 0.375 | 56 |
161~165 | 163 | 18 | 0.225 | 74 |
166~170 | 168 | 6 | 0.075 | 80 |
步骤1
最大值是169,最小值是143。
步骤2
在接近143的数字中选择140,接近169的数字中选择170,以140~170致范围,然后将这之间的数据进行分组。按照每5个数据(5cm刻度)正以划分为6个分组(参照表1-2的第1列)。
步骤3
选择中间的数值作为组值。例如,第一组的5个数据141、142、143、144、145中,选择中间的143。以同样方法从全部分组中选择出的代表值就是表1-2的第2列。
步骤4
数出各组中数据的总数(频数)(高效的做法是,逐一查找图1-1,在图1-2左外侧画“正”字)。各频数见表1-2的第3列。
步骤5
各频数除以全部数据数80,得出相对频数参照图1-2的第4列(确认下相加和是否为1)。
步骤6
将频数从上至下顺次合计,得出累计频数。参照图1的第5列(确认最后一行与全部数据数80是否相一致)。
这样,上述的频数分布表就做好了。然后我们再来看一下这几个问题。
首先,重要的一点是,制作这个频数分布表会使信息丢失。丢失的是什么呢?不用说,就是“原始数据的数值本身”了。
比如,请看表1-2中第4组的156~160—栏从频数上可以看出这里有30个数据,但这30个数据分别是什么数值,这个细节却丢失了。但是,我们付出这个代价的同时,也得到了珍贵的信息。请看一下频数。从身高低的分组按照顺序往下看,频数分别是1、6、19、30、18、6。从中可得出如下的数据特征。
特征1
身高不是平坦而均等(一样)地分布,在一个区域(具体来说是156~160的分组)中数据是集中的。
特征2
以集中的区域为基点,无论向低还是向高,都有同样的推移。也就是说,数据的分布以某处为轴左右对称。
这就是说,虽然成年女性的身高结构是由某种“不确定性”决定的,但它仍有自己的固有特征。如果列举的话会得出以下几点:
①不是什么数值都有可能;
②在某个身高(如158cm)周围集中;
③以此(如158cm)为基点,无论数值增大还是缩小,“数值的集中度减小这一点是相同的”。
这样的信息,仅靠观察原始数据无疑是不能发现的。也就是说,所谓压缩,虽然牺牲了数据的细节,但这种牺牲反而刻画出了数据分布和其背后的特征。
可以将这比作“说话的要点”。听一段完整的话,可能会不明确什么是重要的,于是要将话语细节中不是很重要的内容剪掉。这样“要点”就会浮现出来。大多数时候,我们想要知道的内容都不是“话语的全部”,而是“要点”。所谓压缩,可以理解为总结数据要点的操作。那么,频数分布表做好后,我们接下来再将它做成柱状图吧。顺序如下所述。
步骤1
在横轴上以等间距放置组值(频数分布表第2列的数)。
步骤2
在各组值上做柱形,柱的高度参照其组值所属分组的频数(频数分布表第3列)(有时也参照相对频数)。这样做成的柱状图叫作直方图。如图1-1就是根据表1-2的频数分布表做成的直方图。观察此直方图,可以看出刚才通过频数分布表明确的内容,也就是特征1和特征2变得更明显了—图1-2中中间的三根柱高,两侧低。也就是说,可以看出数据在158cm周围集中。另外也可看出数据呈近似左右对称性分布的特性。这里让我们明确一下此直方图的“解读法”。
图1 女大学生身高的“直方图”
比如,左数第4根柱在158上有频数30的高度。。这就表示156~160cm的女大学生有30人。但是,考虑到今后的数据处理,希望大家也能先了解一下下吗的解释。
“身高正好158cm的女大学生有30人”。这样的解释没有正确地反映现实,但请记住,我们想知道的不是“数据的整体”而是“数据的潜在特征”。所谓“特征”,是大致的东西,虽然上述说法多少有些杂乱,但无损我们的目的,以这样的思路思考就可以了。
直方图在今后本书对统计学的解说中常常扮演重要角色,请好好理解。
-1.1 项目导学
--情景导入动画
-1.2 知识点讲授
--知识点鸟瞰
-1.2.1 统计是什么
--统计是什么
--1.2.1 统计是什么--作业
-1.2.2 统计的前世今生
--统计学的前世今生
-1.2.2 统计的前世今生--作业
-1.2.3 掌握常用概念--统计的基石
--统计的基石(上)
--统计的基石(下)
-1.2.4 了解统计的几大方法---统计分析的利器
-1.2.5 “轻松统计学”还是“虐待统计学”
-1.2.5 “轻松统计学”还是“虐待统计学”--作业
-1.3 案例样板间
-1.4 知识拓展
--国务院第七次全国人口普查领导小组办公室负责人 就《全国人口普查条例》施行10周年答记者问
-1.5 沙场练兵
--1.5 沙场练兵--作业
-1.6 技能拔高
--技能拔高
-2.1 项目导学
-2.2 知识点讲授
--知识点鸟瞰
-2.2.1 统计数据的来源与类型
-2.2.1 统计数据的来源与类型--作业
-2.2.2 全面调查与非全面调查
-2.2.2 全面调查与非全面调查--作业
-2.2.3 重点调查与典型调查
-2.2.3 重点调查与典型调查--作业
-2.2.4 设计调查问卷
--设计调查问卷
-2.2.4 设计调查问卷--作业
-2.3 案例样板间
--案例3:国家“营改增”试点调查方案设计——陕西省某物流企业典型调查
-2.4 知识拓展
--知识拓展1:课程思政——1-2月份国民经济经受住了新冠肺炎疫情冲击
--课程思政——国务院第七次全国人口普查领导小组办公室负责人 就《全国人口普查条例》施行10周年答记者问
-2.5 沙场练兵
--2.5 沙场练兵--作业
-2.6 技能拔高
--技能拔高
-3.1 项目导学
--情境导入
-3.2 知识点讲授
--知识点鸟瞰
-3.2.1 统计分组
--统计分组
-3.2.1 统计分组--作业
-3.2.2 分配数列
--分配数列
-3.2.2 分配数列--作业
-3.2.3 读懂统计图表
--读懂统计图表
-3.2.3 读懂统计图表--作业
-3.2.4 Excel技能教与学
-3.3 案例样板间
--案例1-中国仍为世界最大的发展中国家——从购买力平价法视角评析
-3.4 知识拓展
--知识拓展3:我国人口平均预期寿命达到74.83岁——人口普查的结果
-3.5 沙场练兵
--3.5 沙场练兵--作业
-3.6 技能拔高
--技能拔高
-4.1 项目导学
--情境导入
-4.2 知识点讲授
--知识点鸟瞰
-4.2.1 认识总量指标
--认识总量指标
-4.2.1 认识总量指标--作业
-4.2.2 相对指标的含义与分类
-4.2.2 相对指标的含义与分类--作业
-4.2.3 强度相对指标
--强度相对指标
-4.2.3 强度相对指标--作业
-4.2.4 计划完成程度相对指标
-4.2.4 计划完成程度相对指标--作业
-4.2.5 总结相对指标
--总结相对指标
-4.2.5 总结相对指标--作业
-4.2.6 了解算术平均数
--了解算术平均数
-4.2.6 了解算术平均数--作业
-4.2.7 了解调和平均数
--了解调和平均数
-4.2.7 了解调和平均数--作业
-4.2.8 分清众数和中位数
--分清众数和中位数
-4.2.8 分清众数和中位数--作业
-4.2.9 平均差--均值的朋友1
-4.2.10 标准差(方差)--均值的朋友2
-4.2.11 离散系数--找差异
-4.2.12 Excel技能教与学
-4.3 案例样板间
--案例1——用真实数据说话:2014年全国科技经费投入统计公报
--案例3——一起读数据:北京市宏观经济及社会发展指标(居民收入与支出)
-4.4 知识拓展
--课程思政——2019年我国“三新”经济增加值相当于国内生产总值的比重为16.3%
--课程思政——关于“6亿人每个月的收入也就1000元”的数据解读——提高居民收入水平任重而道远
--课程思政——国家统计局城市司首席统计师孔鹏解读2020年5月份商品住宅销售价格变动情况统计数据
-4.5 沙场练兵
--4.5 沙场练兵--作业
-4.6 技能拔高
--技能拔高
-5.1 项目导学
--情境导入动画
-5.2 知识点讲授
--知识点鸟瞰
-5.2.1 时间数列含义与分类
-5.2.1 时间数列含义与分类--作业
-5.2.2 水平分析指标1--总量指标时间数列
-5.2.3 水平分析指标2--相对指标时间数列和平均指标时间数列
--时间数列——水平分析指标2相对指标时间数列和平均指标时间数列
-5.2.4 时间数列-- 速度分析指标(上)
-5.2.5 时间数列-- 速度分析指标(下)
-5.2.6 时间数列的因素分析
-5.2.6 时间数列的因素分析--作业
-5.2.7 Excel在时间数列中的运用
-5.3 案例样板间
--案例1——2017年1-8月全国固定电话年末用户数统计分析
--案例2——国家统计局城市司高级统计师绳国庆解读2018年6月份CPI和PPI数据
--课程思政——中华人民共和国2019年国民经济和社会发展统计公报
-5.4 知识拓展
--课程思政:十年巨变!2010—2019的中日GDP 对比分析
--课程思政——透过数据看规律:2020年4月份国民经济运行继续改善 主要指标呈现积极变化
--课程思政——“道路自信“的数据证明——统筹疫情防控和经济社会发展成效显著 3月份主要经济指标降幅明显收窄
-5.5 沙场练兵
--5.5 沙场练兵--作业
-5.6 技能拔高
--html
-6.1 项目导入
--情境导入动画
-6.2 知识点讲授
--html
--知识点鸟瞰
-6.2.1 相关与回归分析概论
-6.2.1 相关与回归分析概论--作业
-6.2.2 相关分析的种类和工具
-6.2.2 相关分析的种类和工具--作业
-6.2.3 一元线性相关
--一元线性相关
-6.2.3 一元线性相关--作业
-6.2.4 实证分析
--实证分析
-6.2.5 Excel在相关回归中的运用
-6.3 案例样板间
--案例1—— 描述性统计分析(以某高校财务管理、会计电算化专业学生成绩的总体情况)
-6.4 知识拓展
--知识拓展——陕西工商职业学院学生成绩与学习时间的实证分析对我们的启发
-6.5 沙场练兵
--6.5 沙场练兵--作业
-6.6 技能拔高
--技能拔高
-7.1 项目导入
--情境导入动画
-7.2 知识点讲授
--知识点鸟瞰
-7.2.1 认识统计指数
--认识统计指数
-7.2.1 认识统计指数--作业
-7.2.2 同度量因素
--同度量因素
-7.2.2 同度量因素--作业
-7.2.3 综合指数
--综合指数
-7.2.3 综合指数--作业
-7.2.4 平均指数
--平均指数
-7.2.4 平均指数--作业
-7.2.5 编制指数不混淆
--编制指数不混淆
-7.2.5 编制指数不混淆--作业
-7.2.6 指数体系与因素分析法
-7.2.6 指数体系与因素分析法--作业
-7.2.7 近距离看因素分析
-7.2.7 近距离看因素分析--作业
-7.2.8 聊聊CPI那些事
-7.2.8 聊聊CPI那些事--作业
-7.2.9 Excel在指数分析中的应用
-7.3 案例样板间
--案例1——2020年5月份CPI同比涨幅继续回落 PPI环比降幅收窄
--课程思政——2020中国生态小康指数95.2:大气污染治理进入攻坚期
--思政课堂: 国务院新闻办公室举行《第二次全国污染源普查公报》发布会
-7.4 知识拓展
--拓展1——2017年《世界幸福指数报告》(World Happiness Report 2017)
-7.5 沙场练兵
--7.5 沙场练兵--作业
-7.6 技能拔高
--技能拔高
-8.1 项目导入
--情境导入动画
-8.2 知识点讲授
--html
--知识点鸟瞰
-8.2.1 抽样推断概述
--抽样推断概述
-8.2.1 抽样推断概述--作业
-8.2.2 全及总体与样本总体、重复抽样与不重复抽样
-8.2.2 全及总体与样本总体、重复抽样与不重复抽样--作业
-8.2.3 误差与抽样误差
--误差与抽样误差
-8.2.3 误差与抽样误差--作业
-8.2.4 抽样平均误差
--抽样平均误差
-8.2.4 抽样平均误差--作业
-8.2.5 抽样极限误差
--抽样极限误差
-8.2.6 点估计
--点估计
-8.2.6 点估计--作业
-8.2.7 区间估计
--区间估计
-8.2.8 必要样本容量
--必要样本容量
-8.2.8 必要样本容量--作业
-8.2.9 抽样形式不混淆
--抽样形式不混淆
-8.2.9 抽样形式不混淆--作业
-8.2.10 Excel在抽样推断中的运用
-8.3 案例样板间
--案例1
--案例2
--案例3
-8.4 知识拓展
--拓展1
--拓展2
-8.5 沙场练兵
--8.5 沙场练兵--作业
-8.6 技能拔高
--技能拔高
-聊聊统计分析和之后的那些事情