当前课程知识点:大数据技术与应用 > 杨保华:区块链与数据科学 > 区块链确保数据真实性 > 区块链确保数据真实性
那从另外一个角度来看
我们讲计算机网络技术
和数据科学越来越重要
我们今天可以说人类的文明
是构建在互联网技术之上的
到2018年的1月截止
全球的互联网用户
已经突破了40亿人
这就意味着说
一多半的人都在使用互联网
那么互联网现在每天传输的这个
新增的这个数据量
达到了2.5E18次方字节
而且这个数字还在增加
目前全球前10的互联网公司
它们的总市值加起来
已经超过了3万亿美金
如果按GDP来看的话
那这个市值实际上是
可以作为全球第四大国家
那可以说网络技术
还有数据科技
给我们的生活带来了
非常非常多的便利
但是我们也要看到
科技始终是把双刃剑
我们也要意识到
现代科技的发展
在网络和数据方面
也出现了一些困境
以今天的眼光来看
互联网作为现代的信息基础设施
它的困境主要体现在三个方面
首先第一个
互联网它其实并不可靠
我们知道互联网早期
它的设计原则之一
就是尽力而为
这意味着说互联网并不能保证
通信能够可靠的抵达
更不要说保证通信的
真实性和安全性
第二条互联网
其实并不保证公平性
它是一个典型的
一个不对等的一个设计
无论是web典型的CS一个模型
还是像我们现在
像社交网络里面
这样大V的模型
它都是一个不对等的一个设计
那最后一条也是最为重要的
那也是现在挑战最多的
就是互联网从根子上
它缺乏信任的机制
它无法有效的确保数据安全
这就造成了
今天一个很尴尬的一个现状
一方面我们有大量的数据
一方面我们又没法
很好的利用这些数据
反而会受到一些数据安全事故
数据泄露风险 数据作假
等等方面的一些困扰
那互联网作为信息基础设施
它已经出现了很大的问题
那这些问题到底该怎么去解决呢
我想我们是幸运的
分布式帐本
它正好是带来了一些
新的一些启发的思路
为我们信息基础设施演化
它提供了一种可行的一种方向
那么作为新一代的信息基础设施
分布式帐本它可以有效的实现
数据的最终的价值
对比互联网
我们讲互联网只是帮助你
去方便的传递了数据
但是数据的传递是不可靠的
它无法实现数据的价值
而分布式帐本
因为它提供的所有的这些服务
是防篡改的 是可追溯的
它最终可以实现更多的数据价值
那我们相信分布式帐本科技
它不断的演化下去
它将促使数据的多方的协作形态
最终产生变革
那它核心的形式
我们预计应该是通过
它所支持的这个智能合约
为多方的这种合作
包括数据的交换
包括数据的协同
提供更多的可信的一个支撑
当然虽然作为这个
很有希望的新一代的
信息基础设施
我们已经看到了
不远的未来有一些曙光
但是前方仍然
还有很多的一个挑战
在这里也欢迎大家
能够一起参与进来
推动帐本科技
推动数据科学的
进一步的一个发展
那接下来我们来看数据科学
它目前面临的一些问题
我们知道数据科学领域
它所涉及的问题有很多
那在这里面我们认为
有如下的三个挑战
是非常基本 也是非常重要的
第一个是数据如何产生
它在产生的过程中
怎么能够去确保它的真实性
第二个问题是数据产生之后
它必然要涉及到
数据的交换和流通
那么在交换和流通的过程中
我们怎么确保数据的安全性
还有它的隐私的保护
最后一个数据进行交换
数据进行处理
最终的目标还是要实现价值
那么数据的价值
到底该怎么进行有效的衡量
最终怎么进行体现
那可以说这三个问题
就直接决定了整个数据科学
未来发展的重要的方向
那第一个问题数据的真实性
那古语说得好
失之毫厘 谬以千里
我们讲一个虚假的数据
它不仅不会产生任何价值
它反而很多时候
它是带来重大的损失
根据IBM在2016年的
一份报告中统计
全球每年因为坏的数据
(英文)
造成的经济损失超过3万亿美金
那1999年的9月23日
美国的火星
气候探测者号飞船坠毁
造成超过1亿美金的经济损失
事后调查是因为这个飞船
在两种组件中
采用了不同的统计单位
造成了两种数据的不一致
数据缺乏真实性
不仅仅会带来巨大的经济损失
有些时候它也会
甚至会危及人们的生命安全
我们知道在2008年
曾经出现过奶制品的污染事件
在2018年曾经出现过
问题疫苗事件
那这样的事件你事后调查
原因可能有多方面的
但是其中很重要的一点
都是因为在整个生产过程中
存在着作假
事后去调查的时候
发现说在整个生产过程中
很多环节它的数据
无法保证它的真实性
无法去追溯
那么数据的真实性该如何体现呢
那这里面我们总结有两点
第一点是要未篡改
数据一旦产生之后
它不应该被恶意的进行篡改
第二点是可追溯
那数据产生之后 是谁产生的
它中间经历了什么样的一个环节
这些都应该是可以被追溯的
那我们怎么解决
防篡改的这样一个问题
那仍然我们还是要借用
计算机科学中非常重要的手段
数字摘要
那数字摘要某种意义上
我们可以把它类比成一个
数字内容的一个指纹
比如说我们有一个网站
我们对这个网站计算它的摘要
我们可以得到这样一串指纹
那如果这个网站
它的内容被人恶意篡改了
那我们再次计算它的这个摘要
会发现两个摘要是不一致的
从而我们会及时的发现说
这个网站被未授权的篡改了
那么计算数字摘要的这些算法
有一个很好听的名字
我们叫哈希算法
它有四个特点
缩信息 不可逆 少碰撞 难推测
缩信息
无论你是多大量的信息
比如说像一个完整的网站
它的信息很大对吧
但是我们对它进行计算之后
它的摘要的这个长度是定长的
这意味着说我们发生了一次
从大量信息到定长信息的
这样一个映射
在这个过程中
信息是发生了丢失的
所以我们叫缩信息
第二点不可逆
我给定一个网站的内容
我计算数字摘要
这个过程是相对容易的
但是我给定数字摘要
要反推它的内容
这个是不可能的 那为什么呢
那我想刚才缩信息这点
大家可以看出
信息在这个过程中
是发生了丢失的
所以它是不可反推回去的
再一点要少碰撞
两个不同的原始信息
它们在计算数字摘要的时候
如果得到的内容是一致的
那我想数字摘要的意义
可能也就没那么大了
所以我们一定要避免它发生碰撞
几乎不可能有碰撞
再一个是难推测
我给出了满足一定规则的哈希值
我也没法去推测出
它的原始内容该是什么样子的
比如说我要求我的这个哈希值
以六个零开头
那么你也很难
马上就能给出一个原始内容
让它的计算结果就正好是
哈希值是六个零
那如果你要解决这个问题
你只能进行穷举的一个尝试
目前广泛应用的这个哈希算法
是SHA-2算法
它实际上是发明于2001年
也已经是快20年的时间了
那么新一代的哈希算法
也在不断的探讨
那么在这里大家也要注意到说
这个数字摘要它不是加密技术
因为它的信息是发生过丢失的
那么加密
我们可以通过一些手段再解密
我们可以把信息还原回来
所以摘要跟加密是两码事情
那么我们可以看到
如果对于一个原始的信息
我们计算了它的数字摘要之后
我们可以利用这个数字摘要
有效的保护这个原始的信息
但是如果数字摘要本身
被人篡改了之后
那怎么办呢
这是一个非常非常有趣的问题
那这个问题的答案
我们实际上最后是求助于
非对称的加密算法
我们知道现代密码学
有两个很基础的门类
那第一个研究的是
所谓的对称加密算法
第二个是非对称加密算法
那么两者的唯一的区别
就在于说它的加密的密钥
和解密的密钥是否一致
对称加密
加密密钥和解密密钥
是完全一致的
它的加密的过程
速度往往是很快
典型的代表算法
比如说像1998年
发明的AES算法
因为它的加密密钥
和解密密钥是一致的
那意味着说
如果双方要通过对称加密
对信息进行保护的话
那需要提前的
把这个密钥进行交换
那另外一类
更为灵活的这个加密算法
是非对称加密算法
它的密钥是不同的
一般我们分为公钥和私钥
公钥我们是把它公开出去
所有人都可以获得
私钥只能是个人所应有
那大家注意
在非对称加密算法中
密钥分为公钥和私钥
但是我们并不意味着
公钥一定是用来解密的
私钥一定是用来加密的
那有些时候
我们也可以用公钥来进行加密
私钥进行解密
会产生一些非常有意思的特性
那么非对称加密
它的速度相对比较慢
但是它有一个很好的一个优点
恰好弥补了对称加密的一个不足
那就是它无需提前交换密钥
典型的代表算法
包括像1977年
当时就发明了RSA算法
今天仍然十分流行
还有1985年提出的
基于椭圆曲线的这个算法
那么有一些场景中
我们也利用对称加密
和非对称加密这两种手段
我们兼顾它们两者的优点
比如说像大家上网使用AGPS
它就是利用非对称加密
先进行协商
协商了对称的密钥之后
该利用对称的加密
进行快速的高性能的一个保护
那么非对称加密
我们刚才提到说
它的密钥不同 公钥和私钥
而且两者是一一对应的
那意味着是说
我用任何的一个密钥
比如说公钥或者是私钥
对一段数据进行加密
如果我想解密的话
我只能用对应的私钥
或者是公钥来进行解密
那这样一个特性
就非常好的解决了
这个追溯性的问题
因为一段数据
只要是使用某一段
这个私钥进行加密的
而且那它必然能用
对应的这个公钥进行解密
那反之如果我能用对应的公钥
成功的把这段信息解密的话
那我可以认为说
对这个信息加密者
必定是它的私钥的拥有者
那我们结合数字摘要
还有刚才讲到的非对称加密
这两种技术手段
我们就可以设计出
最终的这个数字签名的一个机制
它的原理也非常简单
我们对数据首先进行摘要
然后我们对这个摘要的结果
利用私钥进行加密
任何人接受到这个数据之后
它在拿到这个
私钥加密的一个结果
它可以很快的利用公钥
去进行验证
一旦验证通过之后
它可以认定说这个数据
第一是没有被篡改过
因为一旦被篡改过
你摘要值是肯定是匹配不上的
那第二点是说它的来源
一定是私钥的拥有者来源
所以解决这个
可以追溯的这个问题
那数字签名技术大家可以看出
它实际上类比于
我们现实生活中
就像这个签章一样对吧
它非常的有用
那在区块链系统中
也大量的使用了这个数字摘要
还有非对称加密
以及数字签名等等这些技术
那有同学可能提出新的疑问
那你说这个有了数据之后
我们可以解决它的真实性问题
但是如果我数据的产生过程本身
就是错误的 就是虚假的
那你怎么来保证呢
那这个问题
也是一个非常有意义的问题
那我们讲这个问题
它是指如何从物理源头
来确保数据的真实性
那目前来看主要有这样几种思路
那第一种思路
我们将这个物理世界中
这样的一个资源
我们想办法给它打上一个
比较难篡改的一个标识
比如说利用这个资源的物理参数
或者我们给它加一定的标记
再或者我们让它随身携带
一定的这个标签
那这儿有两个很好的案例
来分享给大家
第一个案例
是Everledger公司做出的
他们要解决了一个事
也非常简单
要做一个叫钻石的溯源
那我们知道这个钻石
它本身包括它的尺寸
包括它的折光率
包括它的切割角度等等
大约有十几种
甚至几十种这样的参数
这些参数实际上
我们如果对每颗钻石
我们记录下来之后
它就可以作为这个钻石
唯一的一个标识
因为很难你再找到另外一颗钻石
恰好这十几种参数
都跟这个钻石是一模一样的
所以我们讲到这个钻石
它在这个案例里面
实际上它是自带了这样一个
难篡改的一个标识
那第二个案例
是纸贵科技公司做出的
他们解决的是甘肃天然水的
一个当地产的非常好的
这样非常好的一种苹果
那这个苹果之前在市场上
很多人进行仿冒
都号称自己也是
甘肃天水产的一个苹果
那如果你按照传统的方法
你在这个苹果箱子里
比如说我们贴上标签
那这个标签是可以被伪造的
对不对
他们想了一种
非常巧妙的一个思路
他们让这个标签
就生长在这个苹果表面
这样一下子从源头
就解决了这个数据真实性的问题
其他的苹果你没有这个标签
你就无法去篡改去伪冒
说你也是这种苹果
另外一方面在物联网领域
每天有大量的数据在产生
那物联网领域的数据
它的采集也有很多
有效的保护的手段
比如说现在有一些传感器
在研究这个
如何实现可信的传感器
我确保这个传感器
不会被黑客攻破
那再比如说像我们现在
有所谓的智能电表
我可以一个是我防止被别人盗电
第二个我可以通过分析
我得出你用电的这个规律
是不是正常
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接