当前课程知识点:职业伦理 > 第三章 科研伦理 > 3.3 科研不端行为的种类之二 > 修饰数据、滥用统计方法
再一个就是修饰数据
就是这个实验也做了
他也没有改数据
但是他会把一些数据删掉
省略了一些数据
这个典型的人物叫密里根
密立根是诺奖获得者
就是发现电子的科学家
他曾经有个油滴实验
当年刚开始发现电子是用水滴做实验
后来他的学生有一个idea 有个想法
咱们用油滴做实验
最后取得了成功
因此也获得诺贝尔奖
他做了一共有140个实验数据
但是在他发表论文的时候
只用了90多个数据
剔除了41个不听话的数据
这也属于不是严重的不端行为
这也属于一种不诚实的行为
那么应该怎么做呢
有人说科学家他知道哪些是噪音
他根据自己的经验是允许剔除一些数据的
但是从规范上来讲
如果你要剔除这些数据
在发表的时候应该说明
我为什么
我做了多少数据
我剔除了多少数据
这些数据我是根据什么把它剔除掉的
要说明
这样的话就没问题了
修饰数据的手段是非常的多
刚才还说了另一个
干脆加在这一起说了吧
这还有一个 因为署名权我怕一会忘了
在密里根在发表成果的时候
这个idea是他的博士后提出来的
但是他发表成果的时候
没有让他博士后署名
那么这涉及到署名不当的行为
好 咱们看看修饰数据的手段
一个实验结果不支持自己的假说
但没有如实报告这一结果
第二是通过删除部分的奇异数据
使结果看起来比实际的更好
第三 刻意设计一种实验或者试验
以获得支持性结果
或者规避可能产生的不利结果
他说这怎么可能
我再举一个例子
比如说药物试验
这个药物他要卖出去
他可能所有人都要用
比如说癌症药物所有都用
但是他的实验人群
他选取的只是男性 成人和白人
那么这个药物出来以后
它是不是符合其他不同的种族 性别和年龄
常常我们中国人说吃西药以后
觉得反应很大 有副作用
我个人的经验的认为 我没做实验
可能这种药物是根据西方人
西方人体格大
他们对的药量和我们小体格所用的药量是不同的
所以我们吃完以后
会觉得有点不同的一些反应
不良的反应
那么社会的问卷调查 取样差异
社会调查问卷也是一种试验
它的样本不同得出的结果是完全不同的
比如有学生做了一个关于电动车
社会电动车的一些使用污染和问题
他跑到清华大学去发问卷
发了问卷以后
我是专家我在评论
我说你怎么在清华大学
你的典型的样本是在城乡结合部
因为市内的人通常会都有汽车
而城乡结合部是那一些外来的人口
他们不愿意购置汽车
价格比较高
通常会使用电动车
这些高发人群是在那
你为什么不在那发问卷
你在校园里面发问卷
他就规避了很多
有可能产生不利结果的一些样本
那么在历史学中
辉格史也是一种修饰学说
辉格史 学过历史的人都知道
英国有一个辉格党
在辉格党执政的时候
他们要写历史的时候
会选择一些有利于辉格党的一些史料
他并没有造假
他只是选取对他有利的
对他不利的他就不写在书里边
在我们中国呢
我们的一些抗战史的时候
我们试想一下
中国共产党和国民党所写的抗战史能一样吗
不一样吧
所以我们在抗战史里头
在我早期看的那个抗战史里头
好多战役都没有出现
中条山战役就在我们家乡发生的
打光了三个军 国民党
但是我居然不知道
有很多长沙保卫战 岳阳保卫战等等一些
我们看不到
台湾的教材我没有看过
我想他们也会尽量的选取对国民党有利的
一些抗战的一些史实
而会削弱中共抗战的这么一些历史
我们把它叫辉格史
辉格史也是做伪
真正的史学研究还是要实事求是
以史料为基础
再举个例子
贝尔实验室的有个人叫舍恩
01年发的文章
03年04年出的事
他在science和nature上发了几篇文章
结果别人一看他这个图
几篇文章的图拿出来以后极其相似
所以发生这样的概率很低
所以作假总会被人发现的
所以一看这人就同时间做不出来
就调查发现他就是做假了
这著名的实验室
世界上著名的几个实验室
美国的贝尔实验室
英国的卡文迪许实验室
这是出了很多诺贝尔奖获得者的实验室
你们以后将来留学要去这样大实验室
大科学家培养大科学家
在国内你就跟着院士做研究生
在国外国家实验室 诺贝尔奖获得者
跟着他们去做
第四个就是滥用统计方法
统计学我们现在用的比较多
自然科学是经验科学
我们要做大量数据以后
我们要做一个归纳 统计
要使用统计方法
但是常常会因为统计方法运用不当
出现了修饰数据的这种谬误
统计方法能将大量不规则的无意义的数据
变成有意义的有规则的数据
他可能把这些无序变成有序 凸显出来
滥用统计方法它主要目的是夸大研究的结果
或者满足一种社会的情绪
先说咱们社会福利的被平均现象
什么叫社会福利
根据我们的统计数据
全国居民可支配收入的增加远高于GDP
那就是说(收入增长)有10% 11%每年不等
最多的时候能到13%
假如说你每年居民可支配收入
各个城市区域是不一样的
如果居民可支配收入的年均增长是10%的话
你家的财富几年会翻一番
根据72定律 7年左右翻一番
也就是如果你的增长率是1%
72年就会翻一番
就这么个概念
但是大家觉得没有啊
家里是好像富裕了一点
但是没有那么夸张吧
10年翻一番
我倒是看着房价翻了好几番
财富可没翻
那么这种数据和我们的感知上的不一致
是政府造假了吗
数据造假了吗
不否认有人造假
东北 长春还有什么什么
数据造假非常严重
这几年挤水分 GDP造假
但是我们假定还是诚实的
假定这些数据是真的
那为什么会出现这种情况
被平均呢
也就是说在什么地方可以用平均
什么时候不能平均
在大量的物理学 生物学和社会学
这个现象是符合幂律分布
它不是正态分布
一会儿我给大家看个图 幂律分布
比方说中国前1%富裕人口所占有的财富
是社会总财富的14%
顶尖的科学家 顶尖的成果
他们的被引用率
1%的这些顶尖成果的被引用率是占到了17%
也是幂律分布 对吧
它不是平均的
有些论文可能一次引用都没有
符合这个幂律分布
那么我们在研究社会现象的时候
就不能根据平均数
根据这个就扭曲了
这个国际 欧盟 联合国都是有要求的
在反映社会现象的时候不能用平均数
要用什么呢
中位数
举个例子 中位数和平均数相差有多大
有一个村子
10户人家
有一家姓张
他家财富有一千万
存款一千万 财富一千万
周边还有九户邻居穷光蛋
什么也没有 没有存款 是零
那么它平均下来是多少
张家有钱一千万
九个邻居穷光蛋
平均起来算一算
个个都是张百万
大家说这个村子是百万富村
富裕的是吧
按中位数呢
这个是穷村子 对不对
搞理工科大家知道中位数和平均数了
这就是被平均现象
这就是我们为什么对他们公布的数据不信任
再举一个例子
经济密度和经济质量
这几年我们还要产业升级 产业转型等等
要提高经济质量
深圳是提升经济质量的排头兵
我们有几个指标
一个是地均的产出
一个是全要素生产率
还有投资的密度 资本密度等等
我就只说一个
就说咱们那个
这个准确说法叫土地贡献率
土地贡献率就是单位土地的产出
就相当农业中的亩产
深圳政府工作报告说了 市长说了
我们的产业质量明显提升
单位土地的产出是全国排在第一位的
我就看了这个数据
我就去看了一下他怎么算出来的
GDP叫规模
GDP总量不能反映质量
要通过人均GDP地均GDP来反映质量
他怎么算的呢
他用深圳市的GDP的总量
除以深圳市的地域面积
深圳市的地域面积是1900多平方公里
我们就简单说它是2000平方公里
这两千平方地域面积是不是个常数啊
GDP一个规模 一个总量
除以一个常数
它还不就是GDP吗
它的量纲没有发生变化
它怎么能够变成从规模变成质量了
错的吧
正确的办法是什么
不能除以区域面积
水域 生态用地 居住用地是不能产出的
你要这么公摊
和新疆就不公平
新疆那么多的沙漠
能跟你这么比
它再努力 按经营面积说
它也追不上深圳啊
分母应该是什么
应该是GDP除以产业用地面积
这才叫土地贡献率
明白吧
但是你看我们的政府工作报告上都是这样
他就觉得好好好
这也就是我们滥用数学吧
不光是统计学
滥用了数学
非常简单
但是你要不留意
你是看不出来的
这是土地产出幂律分布
所以你看这个是我们的各行业
这是我做的一个课题
给深圳市做的一个产业导向目录的时候
做调研分析
土地贡献率
这个是离散平均值
那么这个是中位数
是吧
差距非常大
所以我们要建议用中位数
-1.1 概念辨析:道德与伦理
--作业:下列关于伦理和道德的描述正确的是
-1.2 常识性道德的局限
--常识性道德的局限
--作业:常识性道德有哪些局限
-1.3 常识性道德的局限:伦理电影解析
-1.4 道德理论:美德伦理学、功利主义
--作业:美德伦理学的主要观点
-1.5 道德理论:义务论、自然权利理论
-2.1 思想实验
--思想实验
--讨论:电车难题
-2.2 伦理原则之一
--行善原则
--作业:以下哪条符合行善原则
-2.3 伦理原则之二
--不伤害原则
-2.4 伦理原则之三
--作业:效益原则
-2.5 伦理原则之四
--自主原则
--作业:请举若干现实中违反自主原则的例子,并加以分析
-2.6 伦理原则之五
--其他几种原则
-3.1 基本概念
--基本概念
--作业
-3.2 科研不端行为的种类之一
-3.3 科研不端行为的种类之二
--作业
-3.4 科研不端行为的种类之三
--作业
-4.1 科技的概念、科技的两面性、科技角色的转换
--科技最重要的作用是什么
-4.2 科技伦理的概念及案例
-4.3 相关研究的困境(以无人驾驶的伦理问题为例)
-4.4 人工智能:机器人伦理
--人工智能伦理
-4.5 生物科技与生命伦理
-4.6 技术的发展与应用、技术被滥用的案例
--举例说明其它技术被滥用的案例,并讨论其中涉及的科技伦理。
--对未来技术发展可能面临的科技伦理问题的思考
-5.1 工程伦理基本概念
--工程伦理基本概念
--作业
-5.2 应对伦理问题的基本框架
--作业
-5.3 工程风险与伦理敏感性
-5.4 工程的规范与原则
--工程的规范与原则
-5.5 伦理情境中的方法
--伦理情境中的方法
-6.1 导引
--导引
-6.2 多重关系举例之一
--多重关系举例之一
-6.3 多重关系举例之二
--多重关系举例之二
-6.4 多重关系举例之三
--多重关系举例之三
-6.5 多重关系的界定与评估、界限侵犯与界限跨越
--哪些关系会影响职场关系?
-6.6 胜任力和专业责任感
-7.1 社会固化与不平等:网络反馈与贫困陷阱(Immobility and Inequality: Network Feedback and Poverty Traps)
-7.2 连接,但是群体性孤独(Connected, but Alone Together)
--连接,但是群体性孤独(Connected, but Alone Together)
--网络自我的三种新状态
-7.3 福格行为模型(Hooked: Fogg's Behavior Model)
--福格行为模型(Hooked: Fogg's Behavior Model)
--解释Fogg Behavior Model
-7.4 数字时代的对话力量(The Power of talk in a Digital Age)