当前课程知识点:基于R语言的社会统计分析 >  第二章:描述统计 >  2.2 变量的分类 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

信效度为保证数据的质量

我们首先需要明确

数据的基本类型有哪些

有同学

对统计学这个

充满了热情

上来就经常说我想算一些高深的算法

你没有希腊字母觉得很不爽啊

于是乎到变量的这个部分他们就

不是很注意啊就觉得很简单的内容

其实变量的类型

和高级统计方法的选择密不可分

这是非常非常重要的

所以每次你看到一个新的变量

你就应该具体的知道它是哪个

变量类型然后才能决定

与之相关的统计方法该怎么选择

那刚才已经提到变量了啊

有同学会说我都不知道你说的变量什么意思

你老提变量变量什么概念呢

我们这里呢稍微给它一个

具体的下一个定义

首先说数据的收集是以

变量为载体实现的

也就是说没有变量

你这个数据就

不知道以什么形式收集进来

然后变量的概念呢不难理解

如果我非常

严谨的说

它是指在样本

或总体研究对象中

取值可以改变的特征

以前我还看到一本

教材直接说说变量就是取值在

不断改变的量

有同学说说了跟白说一样

我们统计方法

最最核心的应用

就在于解释异质性

这异质性的英文叫variability

我们变量的英文是variable

我们收集数据

构建模型

我们一直都在努力的寻找

与某一异质性真正相关的因素

一般如果没有异质性的话我们根本就不好奇

那举一个例子

有的时候我们研究就说

同处于一个社会

为什么有的人会感到幸福有的人会感到不幸

同样坐在一个教室里头听着一个老师讲的课

为什么有的

学生成绩高为什么有的学生成绩又不太理想

还有呢比如说咱们说说说移民的情况说说流动人口的情况

为什么都是进入了一个新的社会

有的人融合的非常好

有的人呢却这么多年了

还活在自己的世界里

说我与世隔绝交不到新朋友

这些都是我们想解决的问题

也就是说我们一直

都在想为异质性寻求解释

那解释异质性载体就是变量

任何可以从研究对象上测量的特征

我们都可以称之为变量

变量呢

可以是任何事情它可以是性别

可以是收入

教育程度

它也可以是

体重

身高或者是血型

变量的取值呢它是以不同的

测量尺度的形式呈现的

统计方法选择呢

与这些测量尺度

紧密相关

所以这些测量尺度到底是什么呢

我们现在来具体的讲一讲

变量有很多很多种

划分的方式

首先我们比较粗的划分

变量就分为两大类

一个是定量型变量

一个是定性型变量

两大类定量和定性

有的人呢就习惯不同

有的人也喜欢把定性变量叫做

分类型变量categorical data

有些学社会科学同学

会另外修一门课叫做属性数据分析

这个属性数据说的也是定性型变量

然后我们现在说说

定量性变量是怎么回事啊

先来说定量性变量呢它的测量尺度

定量定量嘛是数值型的

它是以数值为载体的这种测量方式

那变量的取值

就代表了它的大小

典型的定量性变量呢

你们可以自己想想脑子里会有什么例子

典型的定量性变量有

比如说人口的数量

一个地区一个国家的人口数

年收入

还有一个人的教育年限

受了十年教育十二年教育还是二十年教育

一个家庭有多少子女

目前为止我们一般

家庭一两个孩子

这种变量的取值

实际上是采取了

定距尺度的形式

叫做interval scale

一说定距有点难理解了啊

定距的意思就是说它尺度的

每一个间隔都是相等的

只要你给出一个精确的测量单位

它就可以准确的计算出

两个计数之间的差值

比如说

十万和二十万之间差了十万

二十万和三十万之间也差了十万

十个人和二十个人之间差了十个人

二十个人和三十个人之间差了十个人

这个距离永远是定的

所以定距尺度呢通常是自然或是

物理单位作为计量尺度

这些自然单位呢包括元

钱数包括公斤

包括多少米包括摄氏度等等等等

这是比较好理解的

下面我们还可以

把定量变量进一步细分

定量变量底下又再

分为两种类型了

连续型变量和离散型

连续我们有的时候会说这个变量continuesd

离散是discrete

连续型的意思怎么定义

也就是说在某一个特定的区间里

这个变量的取值在

不断的变化具体来说呢

我们可以理解成我有一个区间

然后这个区间可以被我们无限的细分

我可以取到小数点后无数位

我收集了一个变量这个变量

在这个观测的取值是3.1415926

后面很多数啊

想取到小数点后几位就取到几位

那我们可以去试着去想象一下

哪些个变量是连续型变量

你可能直接映入眼帘的

有高度

我们

尤其小朋友啊每分每秒都在长

我长个的时候不是跳着长的

不是从一米一嘣一下长到了一米二

我是一个连续成长的过程

然后比如说重量

我们变胖变瘦的过程也是潜移默化的

一直在变化的一个过程

还有时间

一分一秒的流逝

所以时间也是一个特别典型的连续型变量

连续型变量

不难理解下面我们来看看什么是

离散型变量

严格来讲呢

如果说变量的可能取值

构成的是一个

不相连的数字集合

这种形式我们就管它叫离散型的

也就是说

变量的取值我们把它细分

细分到某一个单位以后

就分无可分了我们不能再分了

其实特别好理解比如说一棵树

比如说一个人

一个学校一个城市

你不能说有1.3个人

有1.7棵树

有十点几个学校

单位

到这步了以后再细分就不合逻辑了

这是离散型变量

我们严格来说呢

连续型变量

和离散型变量的统计方法是不一样的

用到的统计分布的基本知识也是不一样

但是在实际应用中

这个因为测量方法的限制

连续型和离散型变量的界限

往往是非常模糊的

怎么说呢

我们举例子

比如说年龄

说年龄的时候我们的年龄实际上

我们变老的过程是慢慢慢慢

一分一秒在变老一直连续的过程

但是我们记录的时候我们没有办法

详细到小数点后的十位二十位

于是乎我们经常用到的单位是

岁 对吧 几岁

你是三十岁四十岁

那实际上是一个连续的变量我们却以

离散的形式来呈现的

那相反

我们说年收入啊

一般的测量单位人民币是元

美金就是美元

它实际上是一个离散的概念啊

你的财富的积累是一块钱两块钱三块钱积累起来的

但却因为可以

这个钱尤其是有一些超级大富豪

他们钱可以多到百万千万

那当一个数取值

可以到百万千万的时候它看起来和连续型变量也差不多了

取值好像已经被无限细分了

那么如果我们说连续型和离散型

使用的统计方法不尽相同的话

我们该怎么样抉择

就是你明明这个实际操作起来界限又很模糊你又说

我们一定要选择不同的方法到底怎么选呢

这里我们要明确一点

我们选择统计分析方法的时候所讲的离散

一般是指定量性变量

只能取到很少的有限的几个值的情况

就当

虽然它是离散形式如果它能取到一百一千百万十万

可以不把它当做离散型变量使用

但当虽然是连续型的但它取值也很少

比如说到十到十二到十三就不能再往大了取了

只能取到很少的有限的几个值我不得不把它当做离散型处理

有很多例子

真正需要当做离散型变量处理的变量

比如说有家中孩子的数量

就一般情况下家里孩子再多

也多不过是个二十个了啊

这个生理条件所限

与之相关的姐妹的数量兄弟姐妹的数量

还有大多数人得奖的数量

应该有限的除非你太优异了神一般的存在

还有逃学的次数

这些都是比较

我们比较常见的

离散型变量

前面说的是离散型变量和离散型变量

都属于定量型变量

那下面呢我们来讲讲什么是

定性型变量

定性型变量又分了两支

分成了定序型和名义型

我们先来聊聊什么是

定序型英文定序型

变量叫ordinal data

ordinal data呢其实实际上是我们社会科学研究中

我个人认为

最为常见的变量

很多上过社会科学调查方法的体系都

知道一个概念叫李克特量表

有人叫李克量表有人叫李克特量表likert scale

它是一个被非常高频使用的量表

是解释了ordinal

形式定序变量的最好的例子

通常

我们受访者在回答一个问卷的时候

当尤其是你被问及某一个

陈述的看法你的态度的时候

我们会被要求从

1等于非常不同意

2等于同意

3等于无所谓同意不同意

4等于同意5等于非常同意

这样五个选项中做出选择

看似是有序的对吧

一二三四五

同意呢程度从非常不同意到非常同意

是有这么一个有序变化过程的

但我现在具体问你

一和二之间差了多远

二和三之间差了多远

你为什么选择非常不同意为什么选择同意

一和二之间的距离

和二和三之间的距离一样吗

你很难给我一个特别确定的

答案对吧

所以这个时候相对它是定序的

但是又不能确定

两个取值之间的距离是一定的

这就和定距变量有所区分了

这是定序变量的概念那和定序变量相对

你想想你平时遇到变量啊还有哪些

变量你刚才可能没有提到

名义型对吧

名义型呢这个nominal variable

社会学特别常见我们最最常用的

性别性别就是名义型的

男 女 我问问你男大还是女大啊

其实它只是归类上不同

然后还有比如说可乐的种类

我们有百事可乐可口可乐还有非常可乐啊它是不同的名义型变量

那社会学最常用的概念

民族的概念我们有五十六个民族

那美国的研究呢动不动就提种族的研究

我们有黑人白人西班牙裔啊很多种族

所以这是社会学常见的名义型变量

那名义型和定序型还有前面所讲的

定量型它用到的统计方法也非常不一样

刚才我们讲

离散型

如果你还记得离散型的概念的话

离散型它是说取值是有限的这么一个

一种变量那

严格意义上说所有的

定性型变量

也是离散型的因为它取值的数量是有限的

所以我们又可以把

定量型变量里的离散型变量

把定性型变量里的定序变量

名义变量这三种类型合在一起

广义的称之为离散型变量

然后下面我们再讲讲就是

定序变量的数量层面

我们说定序和名义型变量虽然都处于

定性型变量

跟绕口令一样都处于定性型变量

但是它们对数据的处理方法也是不一样的

定序型变量我们

如果让你理解的话你觉得它是更接近定量型还是

更接近名义型呢

其实这个时候处理也是比较模糊的

在实际应用中呢很多人

都认为因为

定序变量具有有序性那它与

实际上与定距尺度

更为接近

于是乎我就直接把它当做一个定量型变量

放到模型里或进行描述

因为它的每个取值区间呢确实是有大小之分的

如果我们把定序的这个意思忽略掉只看它分类的

不同又好像丢了点什么

所以有一些研究呢使用针对定序变量的特殊方法有一些就直接使用

这个根据你的研究问题的不同

是需要有所斟酌的

那有些研究呢将定序作为定距了以后呢发现

这样可以使用一些

更加高级更加强大更加无敌的统计方法

可能也可以得到一些非常有用的关于趋势的信息

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。