当前课程知识点:轻松学好统计学 >  项目三 统计数据整理与显示 >  3.3 案例样板间 >  案例3——为什么使用统计,从日常生活、工作谈一谈

返回《轻松学好统计学》慕课在线视频课程列表

案例3——为什么使用统计,从日常生活、工作谈一谈资料文件与下载

案例3——为什么使用统计,从日常生活、工作谈一谈


为什么使用统计

    我们在日常生活中多多少少都会使用数据:对生意人来说,每天的客户数量和销售额是最重要的数据;对学生来说,考试成绩的数据在升学问题上发挥着重要作用;对成年人来说,每年的定期健康检查中血压和血液成分的数据是他们很关心的,生活中与数据没有关系的人是不存在的。

    但是,光是浏览原始数据(即单纯列举的数字)恐怕什么也弄不明白。确实,数据在一定意义上是体现“现实本身”的。但是,在“打眼一瞧什么也不明白”这一点上,“数据”也好,“现实”也罢,都有相同之处。

    比如,1-1。这是80位女大学生的身高数据(从哈佛大学校内刊登的200个数据中抽取的最初的80个)。

151

154

158

162

154

152

151

167

160

161

155

159

160

160

155

153

163

160

165

146

156

153

165

156

158

155

154

160

156

163

148

151

154

160

169

151

160

159

158

157

154

164

146

151

162

158

166

156

156

155

161

166

162

155

143

159

157

157

156

157

162

161

156

156

162

168

149

159

169

162

162

156

150

153

159

156

162

154

164

161

1-180位女大学生身高(cm)数据

从这80个数字中能得到什么呢?

首先能确认“女学生的身高各不相同,数据参差不齐”。

作为“成年女性”的一部分,这些女大学生的身高数值是多种多样的“多种多样的数值”,用术语讲叫作“分布。分布的产生,是决定数值背后的某种“不确定性”作用的结果,除此别无其他。不确定性的结构会生参差不齐的身高数值。但是即使概括地说这些数据是“不确定的”,它们也有自己固有的“特征”和“特点”。这种固有的特征和特点叫作“分布的特性“。

那么,这些身高数据固有的特征和特点是什么呢?对于熟悉数据解析的人来说,即使是从列举的数值中也能抽取出很多的特征和特点。而普通人就只能看到简单的数字罗列。

所以,从这些原始数据,也就是“原始的现实”中,抽取出分布的特征和特点的手法就很有必要。这就是“统计”的手法。

统计学使用的方法叫作“压缩”。所谓压缩,是指“将作为数据列举的大量数字,以一定的基准进行整理,只抽取有意义的信息”。大致来说有如下两种手法:

①以图化捕捉其特征;

②以一个数字来代表特征。其代表数字叫作“统计量”。

1.2做直方图

现在,首先从手法①的图化开始解说压缩的方法。以原始数据作图,最流行的图就是“直方图”。简单来说就是“柱状图”。为此,首先需要做频数分布表。做法如下所述。

步骤1

找到数据中数值最大的(最大值)和最小的(最小值)。

步骤2

按最大值到最小值大致划分范围,将这个范围分成5~8个小范围(小区间)→这叫作“分组”。

步骤3

决定各组的代表数值。基本上选什么作为代表数值都可以,而一般选择间的数值的比较多→这叫作“组值”。

步骤4

数出各组中的数据数→这叫作频数“。

步骤5

计算各组的频数占全体的比例→这叫作“相对频数”。相对频数相加等1。

步骤6

计算这组的频数合计→这叫作“累计频数”。累计频数最终与全部数据一致。

让我们针对刚才的图1-1的数据,来按以上步骤操作吧(参照表1-2)。

1-2  80位女大学生身高的“频数分布表”

分组

组值

频数

相对频数

累计频数

141~145

143

1

0.0125

1

146~150

148

6

0.075

7

151~155

153

19

0.2375

26

156~160

158

30

0.375

56

161~165

163

18

0.225

74

166~170

168

6

0.075

80

 

步骤1

最大值是169,最小值是143。

步骤2

在接近143的数字中选择140,接近169的数字中选择170,以140~170致范围,然后将这之间的数据进行分组。按照每5个数据(5cm刻度)正以划分为6个分组(参照表1-2的第1列)。

步骤3

选择中间的数值作为组值。例如,第一组的5个数据141、142、143144、145中,选择中间的143。以同样方法从全部分组中选择出的代表值就是1-2的第2列。

步骤4

数出各组中数据的总数(频数)(高效的做法是,逐一查找图1-1,在图1-2左外侧画“正”字)。各频数见1-2的第3列。

步骤5

各频数除以全部数据数80,得出相对频数参照图1-2的第4列(确认下相加和是否为1)。

步骤6

将频数从上至下顺次合计,得出累计频数。参照图1的第5列(确认最后一行与全部数据数80是否相一致)。

这样,上述的频数分布表就做好了。然后我们再来看一下这几个问题。

首先,重要的一点是,制作这个频数分布表会使信息丢失。丢失的是什么呢?不用说,就是“原始数据的数值本身”了。

比如,请看表1-2中第4组的156~160—栏从频数上可以看出这里有30个数据,但这30个数据分别是什么数值,这个细节却丢失了。但是,我们付出这个代价的同时,也得到了珍贵的信息。请看一下频数。从身高低的分组按照顺序往下看,频数分别是1、6、19、30、18、6。从中可得出如下的数据特征。

特征1

身高不是平坦而均等(一样)地分布,在一个区域(具体来说是156~160的分组)中数据是集中的。

特征2

以集中的区域为基点,无论向低还是向高,都有同样的推移。也就是说,数据的分布以某处为轴左右对称。

这就是说,虽然成年女性的身高结构是由某种“不确定性”决定的,但它仍有自己的固有特征。如果列举的话会得出以下几点:

①不是什么数值都有可能;

②在某个身高(如158cm)周围集中;

③以此(如158cm)为基点,无论数值增大还是缩小,“数值的集中度减小这一点是相同的”。

这样的信息,仅靠观察原始数据无疑是不能发现的。也就是说,所谓压缩,虽然牺牲了数据的细节,但这种牺牲反而刻画出了数据分布和其背后的特征。

可以将这比作“说话的要点”。听一段完整的话,可能会不明确什么是重要的,于是要将话语细节中不是很重要的内容剪掉。这样“要点”就会浮现出来。大多数时候,我们想要知道的内容都不是“话语的全部”,而是“要点”。所谓压缩,可以理解为总结数据要点的操作。那么,频数分布表做好后,我们接下来再将它做成柱状图吧。顺序如下所述。

步骤1

在横轴上以等间距放置组值(频数分布表第2列的数)。

步骤2

在各组值上做柱形,柱的高度参照其组值所属分组的频数(频数分布表第3列)(有时也参照相对频数)。这样做成的柱状图叫作直方图。如图1-1就是根据表1-2的频数分布表做成的直方图。观察此直方图,可以看出刚才通过频数分布表明确的内容,也就是特征1和特征2变得更明显了—图1-2中中间的三根柱高,两侧低。也就是说,可以看出数据在158cm周围集中。另外也可看出数据呈近似左右对称性分布的特性。这里让我们明确一下此直方图的“解读法”

1 女大学生身高的“直方图”

比如,左数第4根柱在158上有频数30的高度。。这就表示156~160cm的女大学生有30人。但是,考虑到今后的数据处理,希望大家也能先了解一下下吗的解释。

“身高正好158cm的女大学生有30人”。这样的解释没有正确地反映现实,但请记住,我们想知道的不是“数据的整体”而是“数据的潜在特征”。所谓“特征”,是大致的东西,虽然上述说法多少有些杂乱,但无损我们的目的,以这样的思路思考就可以了。

直方图在今后本书对统计学的解说中常常扮演重要角色,请好好理解。

 


下一节:知识拓展1:统计思政——第四次全国经济普查问答

返回《轻松学好统计学》慕课在线视频列表

轻松学好统计学课程列表:

项目一 走进统计学

-1.1 项目导学

--情景导入动画

-1.2 知识点讲授

--训练要求及学习指南

--知识点鸟瞰

-1.2.1 统计是什么

--统计是什么

--1.2.1 统计是什么--作业

-1.2.2 统计的前世今生

--统计学的前世今生

-1.2.2 统计的前世今生--作业

-1.2.3 掌握常用概念--统计的基石

--统计的基石(上)

--统计的基石(下)

-1.2.4 了解统计的几大方法---统计分析的利器

--了解统计的几大方法---统计分析的利器

-1.2.5 “轻松统计学”还是“虐待统计学”

--“轻松统计学”还是“虐待统计学”

-1.2.5 “轻松统计学”还是“虐待统计学”--作业

-1.3 案例样板间

--案例1:统计知识大作用——《红楼梦》作者考证趣事

--案例2:改变二战进程的统计学家

--案例3:沃尔玛运用统计数据的成功范例

-1.4 知识拓展

--知识拓展1:统计思政——中华人共和国统计局简介

--知识拓展2:谈谈统计与数学的区别

--一张图教你读懂2020政府报告

--国务院第七次全国人口普查领导小组办公室负责人 就《全国人口普查条例》施行10周年答记者问

-1.5 沙场练兵

--1.5 沙场练兵--作业

-1.6 技能拔高

--技能拔高

项目二 统计数据的采集

-2.1 项目导学

--训练要求及学习指南

-2.2 知识点讲授

--知识点鸟瞰

-2.2.1 统计数据的来源与类型

--统计数据的来源与类型

-2.2.1 统计数据的来源与类型--作业

-2.2.2 全面调查与非全面调查

--全面调查与非全面调查

-2.2.2 全面调查与非全面调查--作业

-2.2.3 重点调查与典型调查

--重点调查与典型调查

-2.2.3 重点调查与典型调查--作业

-2.2.4 设计调查问卷

--设计调查问卷

-2.2.4 设计调查问卷--作业

-2.3 案例样板间

--案例1:如何设计调查问卷

--案例2:统计调查方法在农业合作社中调研中的应用

--案例3:国家“营改增”试点调查方案设计——陕西省某物流企业典型调查

--来自中国人民银行的一份问卷调查

-2.4 知识拓展

--知识拓展2:大学生租房意愿调查表范例

--知识拓展1:课程思政——1-2月份国民经济经受住了新冠肺炎疫情冲击

--知识拓展3:“营改增”调查问卷

--课程思政——国务院第七次全国人口普查领导小组办公室负责人 就《全国人口普查条例》施行10周年答记者问

-2.5 沙场练兵

--2.5 沙场练兵--作业

-2.6 技能拔高

--技能拔高

项目三 统计数据整理与显示

-3.1 项目导学

--情境导入

-3.2 知识点讲授

--统计数据训练要求及学习指南

--知识点鸟瞰

-3.2.1 统计分组

--统计分组

-3.2.1 统计分组--作业

-3.2.2 分配数列

--分配数列

-3.2.2 分配数列--作业

-3.2.3 读懂统计图表

--读懂统计图表

-3.2.3 读懂统计图表--作业

-3.2.4 Excel技能教与学

--Excel技能教与学

-3.3 案例样板间

--案例1-中国仍为世界最大的发展中国家——从购买力平价法视角评析

--案例2——2010年第六次全国人口普查主要数据公报

--案例3——为什么使用统计,从日常生活、工作谈一谈

-3.4 知识拓展

--知识拓展1:统计思政——第四次全国经济普查问答

--知识拓展2:经济中的一些统计图

--知识拓展3:我国人口平均预期寿命达到74.83岁——人口普查的结果

-3.5 沙场练兵

--3.5 沙场练兵--作业

-3.6 技能拔高

--技能拔高

项目四 统计分析指标——静态分析指标

-4.1 项目导学

--情境导入

-4.2 知识点讲授

--训练要求及学习指南

--知识点鸟瞰

-4.2.1 认识总量指标

--认识总量指标

-4.2.1 认识总量指标--作业

-4.2.2 相对指标的含义与分类

--相对指标的含义与分类

-4.2.2 相对指标的含义与分类--作业

-4.2.3 强度相对指标

--强度相对指标

-4.2.3 强度相对指标--作业

-4.2.4 计划完成程度相对指标

--计划完成程度相对指标

-4.2.4 计划完成程度相对指标--作业

-4.2.5 总结相对指标

--总结相对指标

-4.2.5 总结相对指标--作业

-4.2.6 了解算术平均数

--了解算术平均数

-4.2.6 了解算术平均数--作业

-4.2.7 了解调和平均数

--了解调和平均数

-4.2.7 了解调和平均数--作业

-4.2.8 分清众数和中位数

--分清众数和中位数

-4.2.8 分清众数和中位数--作业

-4.2.9 平均差--均值的朋友1

--平均差--均值的朋友1

-4.2.10 标准差(方差)--均值的朋友2

--标准差(方差)--均值的朋友2

-4.2.11 离散系数--找差异

--离散系数--找差异

-4.2.12 Excel技能教与学

--Excel技能教与学

-4.3 案例样板间

--案例1——用真实数据说话:2014年全国科技经费投入统计公报

--案例2——第三次全国农业普查主要数据公报

--案例3——一起读数据:北京市宏观经济及社会发展指标(居民收入与支出)

-4.4 知识拓展

--课程思政——拓展1:2020年财政预算支出增加3.8%

--知识拓展——北京市人口统计分类1978-2016

--课程思政——2019年我国“三新”经济增加值相当于国内生产总值的比重为16.3%

--课程思政——关于“6亿人每个月的收入也就1000元”的数据解读——提高居民收入水平任重而道远

--课程思政——国家统计局城市司首席统计师孔鹏解读2020年5月份商品住宅销售价格变动情况统计数据

--课程思政——刘文华:能源供应充足 结构继续优化

-4.5 沙场练兵

--4.5 沙场练兵--作业

-4.6 技能拔高

--技能拔高

项目五 统计分析指标——动态分析数列

-5.1 项目导学

--情境导入动画

-5.2 知识点讲授

--训练要求及学习指南

--知识点鸟瞰

-5.2.1 时间数列含义与分类

--时间数列含义与分类

-5.2.1 时间数列含义与分类--作业

-5.2.2 水平分析指标1--总量指标时间数列

--总量指标时间数列-水平分析指标1

-5.2.3 水平分析指标2--相对指标时间数列和平均指标时间数列

--时间数列——水平分析指标2相对指标时间数列和平均指标时间数列

-5.2.4 时间数列-- 速度分析指标(上)

--速度分析指标(上)

-5.2.5 时间数列-- 速度分析指标(下)

--速度分析指标(下)

-5.2.6 时间数列的因素分析

--时间数列的因素分析

-5.2.6 时间数列的因素分析--作业

-5.2.7 Excel在时间数列中的运用

--Excel在时间数列中的运用

-5.3 案例样板间

--案例1——2017年1-8月全国固定电话年末用户数统计分析

--案例2——国家统计局城市司高级统计师绳国庆解读2018年6月份CPI和PPI数据

--课程思政——中华人民共和国2019年国民经济和社会发展统计公报

-5.4 知识拓展

--课程思政:十年巨变!2010—2019的中日GDP 对比分析

--课程思政——透过数据看规律:2020年4月份国民经济运行继续改善 主要指标呈现积极变化

--课程思政——“道路自信“的数据证明——统筹疫情防控和经济社会发展成效显著 3月份主要经济指标降幅明显收窄

-5.5 沙场练兵

--5.5 沙场练兵--作业

-5.6 技能拔高

--html

项目六 统计分析方法——相关与回归分析

-6.1 项目导入

--情境导入动画

-6.2 知识点讲授

--html

--知识点鸟瞰

-6.2.1 相关与回归分析概论

--相关与回归分析概论

-6.2.1 相关与回归分析概论--作业

-6.2.2 相关分析的种类和工具

--相关分析的种类和工具

-6.2.2 相关分析的种类和工具--作业

-6.2.3 一元线性相关

--一元线性相关

-6.2.3 一元线性相关--作业

-6.2.4 实证分析

--实证分析

-6.2.5 Excel在相关回归中的运用

--Excel在相关回归中的运用

-6.3 案例样板间

--案例1—— 描述性统计分析(以某高校财务管理、会计电算化专业学生成绩的总体情况)

--案例2——学习时间与学习成绩的研究背景

--案例3——基于主成分聚类分析法对果蔬营养成分的实证研究

-6.4 知识拓展

--知识拓展——陕西工商职业学院学生成绩与学习时间的实证分析对我们的启发

-6.5 沙场练兵

--6.5 沙场练兵--作业

-6.6 技能拔高

--技能拔高

-听钟南山院士谈健康与保健——聊聊相关与回归

项目七 统计分析指标——统计指数

-7.1 项目导入

--情境导入动画

-7.2 知识点讲授

--训练要求及学习指南

--知识点鸟瞰

-7.2.1 认识统计指数

--认识统计指数

-7.2.1 认识统计指数--作业

-7.2.2 同度量因素

--同度量因素

-7.2.2 同度量因素--作业

-7.2.3 综合指数

--综合指数

-7.2.3 综合指数--作业

-7.2.4 平均指数

--平均指数

-7.2.4 平均指数--作业

-7.2.5 编制指数不混淆

--编制指数不混淆

-7.2.5 编制指数不混淆--作业

-7.2.6 指数体系与因素分析法

--指数体系与因素分析法

-7.2.6 指数体系与因素分析法--作业

-7.2.7 近距离看因素分析

--近距离看因素分析(上)

--近距离看因素分析(下)

-7.2.7 近距离看因素分析--作业

-7.2.8 聊聊CPI那些事

--聊聊CPI那些事(上)

--聊聊CPI那些事(下)

-7.2.8 聊聊CPI那些事--作业

-7.2.9 Excel在指数分析中的应用

--Excel在指数分析中的应用

-7.3 案例样板间

--案例1——2020年5月份CPI同比涨幅继续回落 PPI环比降幅收窄

--课程思政——2020中国生态小康指数95.2:大气污染治理进入攻坚期

--思政课堂: 国务院新闻办公室举行《第二次全国污染源普查公报》发布会

-7.4 知识拓展

--拓展1——2017年《世界幸福指数报告》(World Happiness Report 2017)

--拓展2——股市大盘指数的由来

-7.5 沙场练兵

--7.5 沙场练兵--作业

-7.6 技能拔高

--技能拔高

项目八 抽样推断

-8.1 项目导入

--情境导入动画

-8.2 知识点讲授

--html

--知识点鸟瞰

-8.2.1 抽样推断概述

--抽样推断概述

-8.2.1 抽样推断概述--作业

-8.2.2 全及总体与样本总体、重复抽样与不重复抽样

--全及总体与样本总体、重复抽样与不重复抽样

-8.2.2 全及总体与样本总体、重复抽样与不重复抽样--作业

-8.2.3 误差与抽样误差

--误差与抽样误差

-8.2.3 误差与抽样误差--作业

-8.2.4 抽样平均误差

--抽样平均误差

-8.2.4 抽样平均误差--作业

-8.2.5 抽样极限误差

--抽样极限误差

-8.2.6 点估计

--点估计

-8.2.6 点估计--作业

-8.2.7 区间估计

--区间估计

-8.2.8 必要样本容量

--必要样本容量

-8.2.8 必要样本容量--作业

-8.2.9 抽样形式不混淆

--抽样形式不混淆

-8.2.9 抽样形式不混淆--作业

-8.2.10 Excel在抽样推断中的运用

--Excel在抽样推断中的运用

-8.3 案例样板间

--案例1

--案例2

--案例3

-8.4 知识拓展

--拓展1

--拓展2

-8.5 沙场练兵

--8.5 沙场练兵--作业

-8.6 技能拔高

--技能拔高

后记——统计分析与统计决策

-聊聊统计分析和之后的那些事情

--聊聊统计分析和之后的那些事情

--课程思政——统计人面对的一次大考

案例3——为什么使用统计,从日常生活、工作谈一谈笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。