当前课程知识点:基于R语言的社会统计分析 > 第二章:描述统计 > 2.2 变量的分类 > Video
信效度为保证数据的质量
我们首先需要明确
数据的基本类型有哪些
有同学
对统计学这个
充满了热情
上来就经常说我想算一些高深的算法
你没有希腊字母觉得很不爽啊
于是乎到变量的这个部分他们就
不是很注意啊就觉得很简单的内容
其实变量的类型
和高级统计方法的选择密不可分
这是非常非常重要的
所以每次你看到一个新的变量
你就应该具体的知道它是哪个
变量类型然后才能决定
与之相关的统计方法该怎么选择
那刚才已经提到变量了啊
有同学会说我都不知道你说的变量什么意思
你老提变量变量什么概念呢
我们这里呢稍微给它一个
具体的下一个定义
首先说数据的收集是以
变量为载体实现的
也就是说没有变量
你这个数据就
不知道以什么形式收集进来
然后变量的概念呢不难理解
如果我非常
严谨的说
它是指在样本
或总体研究对象中
取值可以改变的特征
以前我还看到一本
教材直接说说变量就是取值在
不断改变的量
有同学说说了跟白说一样
我们统计方法
最最核心的应用
就在于解释异质性
这异质性的英文叫variability
我们变量的英文是variable
我们收集数据
构建模型
我们一直都在努力的寻找
与某一异质性真正相关的因素
一般如果没有异质性的话我们根本就不好奇
那举一个例子
有的时候我们研究就说
同处于一个社会
为什么有的人会感到幸福有的人会感到不幸
那
同样坐在一个教室里头听着一个老师讲的课
为什么有的
学生成绩高为什么有的学生成绩又不太理想
还有呢比如说咱们说说说移民的情况说说流动人口的情况
为什么都是进入了一个新的社会
有的人融合的非常好
有的人呢却这么多年了
还活在自己的世界里
说我与世隔绝交不到新朋友
这些都是我们想解决的问题
也就是说我们一直
都在想为异质性寻求解释
那解释异质性载体就是变量
任何可以从研究对象上测量的特征
我们都可以称之为变量
变量呢
可以是任何事情它可以是性别
可以是收入
教育程度
它也可以是
体重
身高或者是血型
变量的取值呢它是以不同的
测量尺度的形式呈现的
统计方法选择呢
与这些测量尺度
紧密相关
所以这些测量尺度到底是什么呢
我们现在来具体的讲一讲
变量有很多很多种
划分的方式
首先我们比较粗的划分
变量就分为两大类
一个是定量型变量
一个是定性型变量
两大类定量和定性
有的人呢就习惯不同
有的人也喜欢把定性变量叫做
分类型变量categorical data
有些学社会科学同学
会另外修一门课叫做属性数据分析
这个属性数据说的也是定性型变量
然后我们现在说说
定量性变量是怎么回事啊
先来说定量性变量呢它的测量尺度
定量定量嘛是数值型的
它是以数值为载体的这种测量方式
那变量的取值
就代表了它的大小
典型的定量性变量呢
你们可以自己想想脑子里会有什么例子
典型的定量性变量有
比如说人口的数量
一个地区一个国家的人口数
年收入
还有一个人的教育年限
受了十年教育十二年教育还是二十年教育
一个家庭有多少子女
目前为止我们一般
家庭一两个孩子
这种变量的取值
实际上是采取了
定距尺度的形式
叫做interval scale
一说定距有点难理解了啊
定距的意思就是说它尺度的
每一个间隔都是相等的
只要你给出一个精确的测量单位
它就可以准确的计算出
两个计数之间的差值
比如说
十万和二十万之间差了十万
二十万和三十万之间也差了十万
十个人和二十个人之间差了十个人
二十个人和三十个人之间差了十个人
这个距离永远是定的
所以定距尺度呢通常是自然或是
物理单位作为计量尺度
这些自然单位呢包括元
钱数包括公斤
包括多少米包括摄氏度等等等等
这是比较好理解的
下面我们还可以
把定量变量进一步细分
定量变量底下又再
分为两种类型了
连续型变量和离散型
连续我们有的时候会说这个变量continuesd
离散是discrete
连续型的意思怎么定义
也就是说在某一个特定的区间里
这个变量的取值在
不断的变化具体来说呢
我们可以理解成我有一个区间
然后这个区间可以被我们无限的细分
我可以取到小数点后无数位
我收集了一个变量这个变量
在这个观测的取值是3.1415926
后面很多数啊
想取到小数点后几位就取到几位
那我们可以去试着去想象一下
哪些个变量是连续型变量
你可能直接映入眼帘的
有高度
我们
尤其小朋友啊每分每秒都在长
我长个的时候不是跳着长的
不是从一米一嘣一下长到了一米二
我是一个连续成长的过程
然后比如说重量
我们变胖变瘦的过程也是潜移默化的
一直在变化的一个过程
还有时间
一分一秒的流逝
所以时间也是一个特别典型的连续型变量
连续型变量
不难理解下面我们来看看什么是
离散型变量
严格来讲呢
如果说变量的可能取值
构成的是一个
不相连的数字集合
这种形式我们就管它叫离散型的
也就是说
变量的取值我们把它细分
细分到某一个单位以后
就分无可分了我们不能再分了
其实特别好理解比如说一棵树
比如说一个人
一个学校一个城市
你不能说有1.3个人
有1.7棵树
有十点几个学校
单位
到这步了以后再细分就不合逻辑了
这是离散型变量
我们严格来说呢
连续型变量
和离散型变量的统计方法是不一样的
用到的统计分布的基本知识也是不一样
但是在实际应用中
这个因为测量方法的限制
连续型和离散型变量的界限
往往是非常模糊的
怎么说呢
我们举例子
比如说年龄
说年龄的时候我们的年龄实际上
我们变老的过程是慢慢慢慢
一分一秒在变老一直连续的过程
但是我们记录的时候我们没有办法
详细到小数点后的十位二十位
于是乎我们经常用到的单位是
岁 对吧 几岁
你是三十岁四十岁
那实际上是一个连续的变量我们却以
离散的形式来呈现的
那相反
我们说年收入啊
一般的测量单位人民币是元
美金就是美元
它实际上是一个离散的概念啊
你的财富的积累是一块钱两块钱三块钱积累起来的
但却因为可以
这个钱尤其是有一些超级大富豪
他们钱可以多到百万千万
那当一个数取值
可以到百万千万的时候它看起来和连续型变量也差不多了
取值好像已经被无限细分了
那么如果我们说连续型和离散型
使用的统计方法不尽相同的话
我们该怎么样抉择
就是你明明这个实际操作起来界限又很模糊你又说
我们一定要选择不同的方法到底怎么选呢
这里我们要明确一点
我们选择统计分析方法的时候所讲的离散
一般是指定量性变量
只能取到很少的有限的几个值的情况
就当
虽然它是离散形式如果它能取到一百一千百万十万
可以不把它当做离散型变量使用
但当虽然是连续型的但它取值也很少
比如说到十到十二到十三就不能再往大了取了
只能取到很少的有限的几个值我不得不把它当做离散型处理
有很多例子
真正需要当做离散型变量处理的变量
比如说有家中孩子的数量
就一般情况下家里孩子再多
也多不过是个二十个了啊
这个生理条件所限
与之相关的姐妹的数量兄弟姐妹的数量
还有大多数人得奖的数量
应该有限的除非你太优异了神一般的存在
还有逃学的次数
这些都是比较
我们比较常见的
离散型变量
前面说的是离散型变量和离散型变量
都属于定量型变量
那下面呢我们来讲讲什么是
定性型变量
定性型变量又分了两支
分成了定序型和名义型
我们先来聊聊什么是
定序型英文定序型
变量叫ordinal data
ordinal data呢其实实际上是我们社会科学研究中
我个人认为
最为常见的变量
很多上过社会科学调查方法的体系都
知道一个概念叫李克特量表
有人叫李克量表有人叫李克特量表likert scale
它是一个被非常高频使用的量表
是解释了ordinal
形式定序变量的最好的例子
通常
我们受访者在回答一个问卷的时候
当尤其是你被问及某一个
陈述的看法你的态度的时候
我们会被要求从
1等于非常不同意
2等于同意
3等于无所谓同意不同意
4等于同意5等于非常同意
这样五个选项中做出选择
看似是有序的对吧
一二三四五
同意呢程度从非常不同意到非常同意
是有这么一个有序变化过程的
但我现在具体问你
一和二之间差了多远
二和三之间差了多远
你为什么选择非常不同意为什么选择同意
一和二之间的距离
和二和三之间的距离一样吗
你很难给我一个特别确定的
答案对吧
所以这个时候相对它是定序的
但是又不能确定
两个取值之间的距离是一定的
这就和定距变量有所区分了
这是定序变量的概念那和定序变量相对
你想想你平时遇到变量啊还有哪些
变量你刚才可能没有提到
名义型对吧
名义型呢这个nominal variable
社会学特别常见我们最最常用的
性别性别就是名义型的
男 女 我问问你男大还是女大啊
其实它只是归类上不同
然后还有比如说可乐的种类
我们有百事可乐可口可乐还有非常可乐啊它是不同的名义型变量
那社会学最常用的概念
民族的概念我们有五十六个民族
那美国的研究呢动不动就提种族的研究
我们有黑人白人西班牙裔啊很多种族
所以这是社会学常见的名义型变量
那名义型和定序型还有前面所讲的
定量型它用到的统计方法也非常不一样
那
刚才我们讲
离散型
如果你还记得离散型的概念的话
离散型它是说取值是有限的这么一个
一种变量那
严格意义上说所有的
定性型变量
也是离散型的因为它取值的数量是有限的
所以我们又可以把
定量型变量里的离散型变量
把定性型变量里的定序变量
名义变量这三种类型合在一起
广义的称之为离散型变量
然后下面我们再讲讲就是
定序变量的数量层面
我们说定序和名义型变量虽然都处于
定性型变量
跟绕口令一样都处于定性型变量
但是它们对数据的处理方法也是不一样的
定序型变量我们
如果让你理解的话你觉得它是更接近定量型还是
更接近名义型呢
其实这个时候处理也是比较模糊的
在实际应用中呢很多人
都认为因为
定序变量具有有序性那它与
实际上与定距尺度
更为接近
于是乎我就直接把它当做一个定量型变量
放到模型里或进行描述
因为它的每个取值区间呢确实是有大小之分的
如果我们把定序的这个意思忽略掉只看它分类的
不同又好像丢了点什么
所以有一些研究呢使用针对定序变量的特殊方法有一些就直接使用
这个根据你的研究问题的不同
是需要有所斟酌的
那有些研究呢将定序作为定距了以后呢发现
这样可以使用一些
更加高级更加强大更加无敌的统计方法
可能也可以得到一些非常有用的关于趋势的信息
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video