当前课程知识点:社会研究方法 > 第五讲 概念化与测量 > 5.5 测量的信度 > 5.5 测量的信度-视频
无论我们采用单一指标
还是复合指标来测量一个概念
也无论我们采用的测量方式
是定量的连续的
还是类型化的区分
任何一个测量工具和方式的选择
都需要考虑我们的测量
是否真实准确地
反映了我们要测量的概念
这就涉及到
最终的测量结果是否是真实有效的
又是否是精确的
测量的结果
是否正是我们想要研究的概念
是否准确地反映了研究对象的特征
研究的结果是不是稳定的
还是说每一次测量的结果都是不一样的
也就是说要评价测量的质量
就需要考虑测量的信度和效度的问题
这里我们先谈一谈测量的信度
测量的信度所反映的是
测量的可靠性或者说一致性
也就是说采取同一个测量工具
对于同一个对象去进行测量
能够得到相一致的结果
信度对于一项社会研究来说
实际上是对于测量
或是研究结果的可重复性
或是可复制性的要求
信度的要求
其实是基于这样一个认识论的思路
也就是科学家们认为
对于任何一个研究对象
理论上都存在一个真实值
但是呢单次的测量
可能存在某种程度上的误差
因此我们对于某一个研究对象
采用某一个工具进行的单次测量
所得到的值X
就包括了真实值和测量误差
这两个部分
那么测量的信度
当然就是这种误差应当越小越好
如果每一次测量都得到不一样的值
那么我们就很难相信
这个测量的结果
比如我们通常会用秤
去测量一个人的体重
如果第一次测的结果是55公斤
第二次再测出来的结果是54.8公斤
那么这0.2公斤就是测量的误差
我们通常会觉得0.2公斤的误差
还是可以接受的
也就是说我们会觉得
这样一个秤还算是可信的
但如果说我们再测第三次
结果得到了53公斤这么一个结果
我们就可能会怀疑这个秤的质量
也就是说
由于每次测量结果之间的差异太大
这个秤的信度就大大的降低了
那么什么情况会导致测量的误差偏大呢
比如说我们在做问卷调查时
受访者对于问题的理解
可能是不一致的
比如如果我们的问题是
去问受访者对于政府信任的程度
那么一些受访者可能理解的
是对于中央政府的信任程度
另一些受访者
可能是泛泛地理解这个概念
另外一些人
可能更多的想的是对于地方政府
甚至是街道的信任程度
那么居民对于这个问题的回答
就有可能会出现比较大的误差
再比如我们如果调查收入信息
但是没有明确收入的范围
那么一些居民
可能就只填了自己的工资收入
而另一些居民可能填的是总收入
里面可能包括了年终奖啊
或者是股票投资之类的收入
那么这样测量出来的结果
当然也是误差比较大的
那还有一种情况
就是当我们用一组量表问题
来测量某一个概念的时候
可能每一个问题
不一定是测的同一个东西
那么这也可能
会导致整个量表的信度偏低
那么我们如何去评估一个测量工具
比如说前面提到的指标体系
或者是量表
是否具有信度呢
有几种常见的办法来去评价
第一种叫做重测信度
重测信度说白了
就是对于同一个测量工具
比如说量表
去对于同一个对象
在不同时间先后测量两次
然后呢
去对比这两次测量结果的相似程度
比如我们用同一个磅秤
来对同一个人的体重先后测量两次
就可以来对这个磅秤的信度
去进行一个评价
那么又比如
我们假设开发了一套研究居民
对于社区满意度的量表
那么我们也可以用这同一套量表
对于同样的一百位居民
先后进行两次调查
然后呢我们可以对比
这两次调查的测量结果之间
是否存在显著的差别
这种差别我们可以通过
两次测量结果的相关系数来评价
具体是这样的
我们可以分别计算
第一次和第二次测量的一百个人
满意度得分的方差和标准差
同时可以计算
这两次测量得分的协方差
协方差除以两次测量标准差的乘数
就是两次测量结果的相关系数
也就是重测信度
当然这个信度肯定是越高越好
所以呢我们会希望得到较高的相关系数
当然这种采用前测和后测的方法
来评价研究的信度有一个前提条件
也就是说第一次测量的结果
不会对研究对象
第二次来回答同样的问题产生影响
比如说如果居民在第一次回答
这套满意度问卷的时候
已经了解到了研究者
可能希望的研究结果
那么就有可能会在第二次回答问卷时
故意去选择研究者想要的答案
那么这时计算出来的重测信度
就不能很好的反应量表的实际情况
第二种测量的信度的方法
叫做副本信度
就是用两个平行的测量工具
再相距最短的时间内
对于同一组研究对象进行测量
然后对比这种测量结果之间的一致性程度
这种平行测量工具
有可能是同一套量表的两个副本
比如说我们在考试的时候
经常会采用的AB卷
就可以被看成
是同一个测量工具的两个副本
里面的题目或者是完全相同
只是顺序不同
或者是某一些问题
被替换成了其他类似的相当的问题
对这个一致性程度的评价
同样可以采取计算
两次测量结果的相关系数来去反映
当然在实际的研究中
我们要设计出一套完全相同的副本
还是比较困难的
那么第三种测量信度的方法
叫做内部一致性信度
其实就是为了考察
同一个量表中不同问题之间的一致性
比如说如果我们采用了
一组包含十个问题的量表
来测量居民的满意度
那么我们就需要考察
这十个问题所测量出的结果
是不是一致的
那么我们可以将这十个问题
随机分为两组
每组五个问题
比如我们可以按照单双号的方式
来区分这两组
然后我们去计算
这两组问题得分之间的相关系数
这种相关系数
被称为是折半信度或者是对分信度
那第四种评估测量信度的方法
叫做评分者信度
比如说我们在进行问卷调查时
通常会组织一个调查员队伍
去进行访谈式问卷
那么不同的调查员如何表述问卷中的问题
就有可能会影响到受访者
对于问题的理解
那么这个时候我们就可以评估一下
不同的调查员采用同一个问卷
对同一组受访者进行访问后
所得到的测量结果之间的一致性程度
那么这里我们来举一个
我们近期正在试图完成的一项研究
在这项研究中
我们想要对于城市的
某一些规划方案的文本
去评价他们的可实施性
当然因为规划方案呢
都是文本性的信息
我们又怎么去评价可实施性呢
或者说我们怎么去对比
哪一个规划方案更加具有可实施性
这里呢就需要我们去设计出
一套评价的指标体系
以及相应的评分规则
但是我们又怎么能去评价
这套编码以及评分规则
是具有信度的呢
那么一个办法
就是我们可以由一位研究者
按照这套编码规则
对于所有的规划文本去进行评分
然后再隔一段时间
比如说两三个月之后
再由这位研究者去做一次评价
那么这时我们就可以计算
两次测量之间的重测信度
当然我们知道第一次编码之后
研究者无论如何
都会留下一定程度的印象
从而影响第二次编码时的结果
当然我们可以说间隔的时间长一点
比如两三个月或者是更长的时间
也许就能比较好地
去消除这方面的影响
但其实还有另外一个办法
就是由多位研究者
同时对于所有的文本
去开展编码和打分的工作
最后呢我们可以去计算
不同的研究者
所测量出来的结果之间的相关系数
这个就是评分者信度
-1.1 什么是社会研究
-1.2 什么是社会科学研究
-1.3 社会科学研究的出发点
-1.4 社会科学研究的核心
-1.5 社会科学研究的不同类型
-1.6 研究效度:评价研究的质量
-1.7 社会科学研究的伦理规范
-第一讲测试 理解社会科学研究
-2.1 研究设计的作用
-2.2 理论及因果关系
-2.3 基于变量的语言体系
-2.4 研究对象与分析单元
-2.5 研究的时间维度
-2.6 如何撰写研究计划书
-第二讲测试 研究设计
-3.1 研究问题的不同形式
-3.2 什么是好的研究问题
-3.3 研究问题与论证的逻辑
-3.4 选题从哪里来
-3.5 如何进行文献检索
-3.6 如何进行文献综述
-3.7 如何陈述研究选题
-第三讲测试 研究选题
-4.1 导言:研究方案设计
-4.2 研究策略选择I:检验因果效应
-4.3 研究策略选择II:因果机制与理论创新
--4.3 研究策略选择II:因果机制与理论创新(上)-视频
--4.3 研究策略选择II:因果机制与理论创新(下)-视频
-4.4 理解定量研究:基本过程和要点
-4.5 理解定性研究I:不同的范式基础
-4.6 理解定性研究II:基于建构主义的质性研究
-第四讲测试 研究策略
-5.1 导言:什么是概念化与测量
-5.2 从概念到变量:测量的基本过程
-5.3 测量的层次与方式
-5.4 概念的复合测量:指标体系与量表
-5.5 测量的信度
-5.6 测量的效度
-第五讲测试 概念化与测量
-6.1 导言:什么是抽样
-6.2 概率抽样:基本原理
-6.3 概率抽样:评估抽样误差
-6.4 概率抽样:抽样框的重要性
-6.5 概率抽样:基本形式
-6.6 概率抽样:几种特殊形式
-6.7 非概率抽样:基本原理与主要形式
-第六讲测试 抽样
-7.1 导言:什么是调查问卷?
-7.2 从研究问题到调查问卷
-7.3 确定问卷的结构
-7.4 选择提问的形式
-7.5 问题设计的注意事项
-7.6 问卷发放的不同形式
-7.7 问卷调查实施中的注意事项
-第七讲测试 问卷调查
-8.1 导言:什么是田野调查
-8.2 田野调查:基本过程
-8.3 田野调查中的数据收集
-8.4 观察:基本类型和要点
-8.5 定性访谈:基本类型与过程
-8.6 半结构式访谈:准备与实施
-第八讲测试 田野调查:观察与访谈