当前课程知识点:大数据管理与挖掘 >  第5章 大数据隐私 >  5.1 隐私保护技术 >  5.1 隐私保护技术

返回《大数据管理与挖掘》慕课在线视频课程列表

5.1 隐私保护技术在线视频

下一节:5.2 隐私保护技术的应用

返回《大数据管理与挖掘》慕课在线视频列表

5.1 隐私保护技术课程教案、知识点、字幕

大家好

我是西安工程大学

管理学院的邵景峰教授

我们来今天主要讲第五章内容

大数据隐私

我们主要讲第一节 隐私保护技术

隐私保护技术发展背景的具体而言

就随着我们大数据发展实现的

在我们大数据中

巨大的数据量甚至说巨大的数字痕迹

已成为当前工业界与学术界的研究热点

然而

大数据技术发展无法避开的事实

就是我们隐私问题

而大数据的大规模与高速性带来了实时性问题

及分析过当中出现的一些相关隐私问题

使得我们传统的一些加密和密码锁技术

遇到了很大的瓶颈和难点

因此在我们大数据环境下如何保护数据隐私

甚至说保护数据中的隐私信息

有着它独特的意义

我们大数据的类型里面

我们原始的原生态的数字化数据

而这些数据自然产生出的各种符合计算机的

存储处理的一些相关数据

或说存储系统

它包含了各种各样的数据

或者说脏数据等等

比方说这里面的电子邮件

与我们的文本信息的一些脏数据

具体信息系统中

还有我们GPS中的位置数据等等

它们所存在的各种元数据的一些脏数据等等

在这过程当中

尤其是我们的商业事务数据和移动数据

在整个连接过程当中

也产生各种不利于我们分析的一些数据

或隐藏在数据中的一些原始数据等等

这给我们的数据挖掘和分析带来了很大的难处

原生数字化数据的隐私担忧来源于

我们该类数据的过度性收集

和我们的数据融合

过度性收集往往与我们收集的初衷相背离

比如说这里面的爬虫技术所收集的网页数据

它初衷是为了提升我们网络的访问速度

而过度的收集我们数据后进行分析

可以来挖掘网络用户的行为

或者说他们的各种各样的隐私信息等等

接着我给大家说一下

大数据类型里面的一切保护隐私信息

这里面包括原声模拟化数据

这类数据是由物理世界特征而演化而来的

包括通过碰撞传感器

最终成为可以访问的数字化格式

包括我们的手机呼叫的音频 视频 个人健康数据

然而个人健康数据里面包括

我们的心跳 呼吸与步速等等

还有里面包括我们的环境监测视频

超声波检测也叫影像

化学与生物样本

可佩戴设备的监控等模拟化数据等

原始模拟化数据的隐私信息需求

主要源自于我们这类数据的物理世界主要特征

比方说通过通过调整分辨率 对比率

我们的测光精度三个参数

可以提高我们的视频监控的清晰度

使人们能够清晰地识别到几公里以外的门窗结构

然而

我们的门窗内部个人的活动也不可避免的

会被发现或被监视

接下来我给大家解释一下我们隐私一些特征

隐私最明显主要有三个特征

第一个就是我们的隐私的主体是人

第二个是隐私的客体是个人事务与个人信息

第三个隐私内容是主体

不愿意被跟踪或泄露的事实或各种行为

具体的类别包括以下方面

根据来源不同

我们可以分为监视带来的隐私

携带带来的隐私 还有歧视带来的隐私

针对不同的对象

我们可以分为数据的隐私

查询的隐私和分布的隐私

而隐私问题则存在三大特点

尤其是我们2015年科学杂志上发布的

关于隐私问题的一个专刊中提到了

我们的隐私信息是我们信息时代

所必须解决的一个问题

而且这种隐私信息分布了三个特征

第一个就是我们的不确定性

第二个就是我们的情境相关性

第三就是隐私偏好的可塑性

在这个过程中

大数据的处理框架下面

如何对隐私数据进行处理

在这里面最主要是我们通过

大数据存在的隐私风险问题进行解决

由此需要引入大数据的一些处理框架

而这个框架主要包括数据收集

当然

数据的收集包括数据公开的数据

和私有数据的收集

而第二叫做我们数据集成与融合

而这里面主要包括处理数据之间的冗余

不一致 相互拷贝关系等等问题

第三个就是数据的分析

从数字化与模拟化数据中

抽取或者学习得到有价值的模型和规则

第四个就是我们的数据解释

主要是通过可视化数据源

通过展示数据的分析结果

而进行解释

以上四个步骤就存在

被盗用或被破坏的数据隐私的风险问题

由此数据收集步骤当中

如果个人数据被不可信的第三方所收集

那么导致个人隐私有可能被泄露

或者卖给恶意攻击者

比方说不可信的位置

服务信息等被用户所收集

这时候用户的敏感信息

可能被容易泄露

当然数据收集和融合过程当中

还存在着不可信以外的

各种服务攻击

在这里面

可以包括无加密的索引

记录连接攻击等等

在数据分析过程中存在频繁模式

支持度的攻击 分类与聚类攻击 特征攻击等等

数据解释过当中还存在前景知识攻击

通过数据泄露和数据的数据挖掘之间的关系

把这种依赖关系可以汲取

以下主要介绍一下我们数据收集 集成

处理以及数据分析过当中充斥着一些隐私问题

比方说我们医疗就医记录

购物与服务记录

网站检索记录

手机通话记录和手机位置信息记录等等

都是获取用户信息的一些渠道

用户个人信息被收集时

用户通常是不知道的

或者说很少有机会去思考

或认同自己的数据被用来干什么

是谁收集了自己的信息

是谁收集了自己的数据

是谁二次使用了自己的数据

用户也许不知道

这样的话

这些信息由谁来负责

自己的数据是否存在网上被恶意传播

自己的数据什么时候被销毁

什么时候被泄露都是隐私的一些表现现象

针对我们的隐私技术

2011年四月纽约时报上报道

苹果公司通过苹果手机上的IOS系统

无线跟踪并收集了用户的地理位置信息

而这些位置信息通常包含了用户的一些敏感信息

此外谷歌公司也曾因为

通过cookie来跟踪用户的搜索记录

进而披露用户的网上行为模式

政治倾向以及消费行为等等

被美国联邦委员会罚款2250万元

如此

在用户不知情的情况下

隐私风险被泄露的情况现象非常巨大

针对这类风险问题

主要是由于缺乏规范与法律的保护

为了不危害用户的隐私信息

因此在收集个人数据之前必须得到用户的许可

用户有权知道自己的数据是否被共享

误用恶意被传播或者是销毁等等

这些权利的实施需要政府出台

或者加强相关法律的保护措施

对用户的个人隐私数据起到一个保护和约束的作用

集成和融合所带来的一些风险

尤其是我们大数据隐私过程当中

集成和融合通常采用链接操作

使多个异构数据源

汇聚在一起

并且识别出相应的实体

小数据源通常能够反映出用户的某个活动

比方说接受的医疗 购买的商品

搜索的网站 手机留下的各种位置信息

社交网站的互动信息以及政治活动等等

融合不同的小数据

可以更好的服务于数据分析与管理

在我们的零售商通过的集成数据方面

它在集成线上线下以及销售目录数据库以后

可以获得更多的消费者的个人描述信息

预测消费者的购物偏好等等

而且在我们具体信息服务方面

信息服务商它集成不同路段上的传感器数据

可以得到更好的道路规划与道路线路

然而

多个数据源的集成与融合

几乎能够推理出各种所需要的各种敏感信息

无形中给个人的隐私的保护带来各种挑战

而我们的集成和融合所被带来的风险方面

匿名和模糊化是集成中最常用的隐私保护技术

该技术通常比较适合于小型且单一的数据源

保护数据的效果比较理想

但针对复杂大数据即使利用匿名或者模糊化技术

将个人敏感信息进行保护

但时攻击者拥有其他信息的或有隐私的数据源时

就可以利用链接攻击匿名之间的数据源进行攻击

直至有可能重新识别出

匿名以后的个人敏感信息

从而造成个人隐私泄露

针对我们的整个过程中数据之间的处理

和泄漏问题的解决

尤其是我们个人的一些医疗记录信息等的处理

我们可以从这个例子来入手

通过我们隐私技术的研究风险

所带来的风险方面

我给大家解释一下

大数据分析的最大障碍是数据隐私问题

在某种程度上数据收集并不可怕

可怕的是用户的行为

可以通过大数据分析所被预测出来

大数据环境下的个性化推荐系统

使用我们的电子商务活动

甚至电商网站

可以根据用户的兴趣特点和购买行为

向用户推荐有兴趣的或感兴趣的商品或者信息

然而

用户的商品购买信息以及行为模式

很可能被商务网站所挖掘出来

进而导致我们的隐私信息的泄露

由此大数据分析带来的隐私问题

主要来源自于以下三个方面

第一个就是新型计算框架

第二个高性能算法

第三个更加复杂的分析模型

针对大数据管理过程中所面临的隐私问题和风险

现在展开大数据隐私相关技术的一些分析

这里面首先一个就是说我们匿名化技术

模糊化技术是指隐私或者模糊数据以及模糊数据源

该技术一般采用

抑制 泛化 剖析 切片 分析等操作匿名化数据

第二就是我们的数据加密技术

大数据隐私管理通常以云平台为依托

在云平台下实现隐私管理的首要问题

存储 加密数据上的计算以及通信的安全性

数据加密技术正好满足了这一要求

接着给大家解释差分隐私技术

它是一种由数学理论支撑的

新型的强健的隐私保护技术

无论是匿名技术还是加密技术

二者都是针对当前的外部攻击

来设计启发式保护方法

而对新的工具需要重新制定保护方法

在大数据环境中

这两类方法就由于缺乏很强的数学基础

来定义数据隐私性

以及损失而不具有普遍性的问题

差分隐私技术刚好弥补了这一空白

差分隐私技术的研究主要集中在数据发布

数据挖掘与机器学习和查询处理等方面

数据发布典型的工作主要包括

一维或者说多维直方图的信息发布方法

流数据发布 图数据发布以及空间数据发布

数据挖掘和机器学习近期的研究

主要包括频繁模式的挖掘

回归分析以及分布等等

而查询处理工作主要包括范围计数查询

基于矩阵机制的批量查询

以及基于低秩机制的批量查询等

从以上的研究可以看出

差分隐私已成为目前隐私保护技术的研究热点

学术界认为差分隐私技术与大数据

具有天然的匹配性

这其中的根本原因在于

大数据的大规模性和多样性

使得在数据集中添加或者删除某个数据时

对整体数的影响比较小

这一特质与差分隐私定义相吻合

由此

隐私信息检索技术的我们可以产生了

在这里面隐私信息检索技术

通常用于外包数据时的查询安全

用户可以在不可信的服务平台上查询

任意数据不被泄露被查询数据的敏感信息

由此通过隐私检索的技术

我们可以来实现以下两类的分析

第一个就是基于信息论的检索方法

该方法来把所有的数据传输到客户端

允许其在本地来进行解码

另一方面

由于传输代价问题这种技术目前不太适合大数据

其二是基于硬件的可计算的检索方法

这种方法目前比较常用

常用基于DNA序列的匹配

基于内容的图像检索以及位置隐私查询等等

基于可计算框架分别依据

二次剩余假设同题的难解性与伪随机代码等

实现了各种不同的隐私信息检索方法

比方说这里面的方法一些提取和

我们隐私技术的解密等等

然而 该方法却存在效率低

而且信息泄露的危险

这就是我们主要讲的隐私保护方面的内容

大数据管理与挖掘课程列表:

第1章 课程概述

-第1章 教学目标

--第1章 教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章 作业

--第1章 作业

-第1章 讨论

--第1章 讨论

第2章 大数据融合

-第2章 教学目标

--第2章 教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

--2.6 小结

-第2章 作业

--第2章 作业

-第2章 讨论

--第2章 讨论

第3章 大数据存储

-第3章 教学目标

--第3章 教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

--3.4 小结

-第3章 作业

--第3章 作业

-第3章 讨论

--第3章 讨论

第4章 大数据分析

-第4章 教学目标

--第4章 教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

--4.5 小结

-第4章 作业

--第4章 作业

-第4章 讨论

--第4章 讨论

第5章 大数据隐私

-第5章 教学目标

--第5章 教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

--5.4 小结

-第5章 作业

--第5章 作业

-第5章 讨论

--第5章 讨论

第6章 大数据管理系统

-第6章 教学目标

--第6章 教学目标

-6.1 云计算 大数据基础平台与支撑技术

--6.1 云计算 大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

--6.4 小结

-第6章 作业

--第6章 作业

-第6章 讨论

--第6章 讨论

第7章 数据回归方法

-第7章 教学目标

--第7章 教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

--7.6 小结

-第7章 作业

--第7章 作业

-第7章 讨论

--第7章 讨论

第8章 分类方法

-第8章 教学目标

--第8章 教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻(KNN)

--8.2 K-近邻(KNN)

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机(SVM)

--8.7 支持向量机(SVM)

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

--8.10 小结

-第8章 作业

--第8章 作业

-第8章 讨论

--第8章 讨论

第9章 聚类方法

-第9章 教学目标

--第9章 教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值(FCM)方法

--9.5 模糊C-均值(FCM)方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

--9.9 小结

-第9章 作业

--第9章 作业

-第9章 讨论

--第9章 讨论

第10章 预测方法

-第10章 教学目标

--第10章 教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

--10.5 小结

-第10章 作业

--第10章 作业

-第10章 讨论

--第10章 讨论

第11章 诊断方法

-第11章 教学目标

--第十一章 教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

--11.7 小结

-第11章 作业

--第11章 作业

第12章 大数据技术应用

-第12章 教学目标

--第12章 教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章 作业

--第12章 作业

-第12章 讨论

--第12章 讨论

5.1 隐私保护技术笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。