当前课程知识点:大数据技术与应用 > 彭元:网络安全与大数据 > 大数据平台安全 > 大数据平台安全
下面我们讲述第四节
大数据平台安全
我们利用大数据安全平台
做了很多安全的应用
那么当然我们对大数据平台
自身的安全性也要关注
我们还是从风险分析说起
风险分析方面
我们可以从三个方面讲
第一个Who是谁要攻击我们
第二个How
他会采用怎样的方式
攻击哪些目标
第三What
他的目的是什么他要取得什么
首先Who大概两个角度
第一商业角度
我们可能被竞争对手攻击
也可能被一些脚本小子无意攻击
也可能被一些APT组织
进行高级的攻击
第二个从位置角度看
攻击者可能是外面的人
比如一些匿名者
比如我们前员工
还有可能来自于内部
比如我们现在的员工
或者我们大数据平台的用户
或者我们的管理员
然后是What
那大数据平台存储的都是数据
所以他的攻击目的就是这些数据
大数据平台会存储哪些数据呢
我们以这些金融银行为例
它会存储所有的交易数据
销售数据还有客户数据
那这些其实都是
非常宝贵的商业机密
下面是方式
其实Hadoop它并没有什么特殊的
只不过是安装起来复杂
有很多的接口而已
它也会有传统的
基于Web的基于系统的风险
我们从四个讲述Hadoop的安全风险
第一个用户接口
第二个管理接口
第三个发行版
第四个外部接口问题
我们首先看用户接口
Apache Hue是Hadoop的
一个流行的用户接口
它支持Pig的提交脚本任务
支持Hive数据的修改查询
还有一些其他的用户接口
比如Spark Storm等用户接口等等
那这个Hue在2.6.1的版本上面
被暴出存在XSS漏洞
这XSS漏洞的全称是跨站脚本攻击
它的风险会
它的风险包括数据泄漏
和身份泄漏等等
下面是它的一个漏洞的源码所在
可以看到它对URL的哈希
没有做充分的过滤
于是造成了基于DOM的XSS
那这个图片就是
这种XSS的一种这种XSS的一种典型的攻击效果的展示
然后下面是这个Payload
可以看到非常的简单
通过一个URL在后面
加上我们的这个特征
就会造成这种XSS攻击
那么如何入侵这个Apache Hue
首先我们通过(04:11)端
找出指定的Hue安装版本
说到这个…要向大家介绍一下
它是一个搜索引擎
但它搜索的不是普通数据
而是暴露在
互联网中的服务器信息设备信息
包括各种监控设备
路由器设备等等
而我们通过谷歌等社会工程学
找出访问Hue的目标用户
然后发送我们刚才的
那样一个XSS的Payload
以劫持这个目标用户
到这里我们就可以
等待这些用户上钩
而获取到这些目标用户的权限
然后管理员接口
Hadoop的管理员接口
比较流行的有(05:03)
还有等等一些其他组件的接口
包括Zookeeper和Kafka
那这个Ambari它是一个
用于管理Hadoop集群的平台
本身这个Ambari只是用在内网
但是我们通过…搜索
还是可以发现很多
暴露在公网上面的Ambari接口
而且它的
它有一个问题是
普通用户也可以登陆这个Ambari
然后它曾经暴出过
这个目录浏览漏洞
在1.5.0版本和2.0.2版本
都有这个漏洞
大家可以搜索
这个CVE-2015-1775这个编号
来查询这个漏洞的细节
下面是它的这个Payload
通过在这个URL里面的参数
传送一些敏感的目录和文件
可以造成这个SSRF
可以看到服务器里面的
日志目录和文件
那么我们如何入侵这个Ambari呢
首先也是通过(06:26)
找出这些目标版本的系统
找出这个Ambari1.5.0-2.0.2的
这个目标版本
然后劫持管理员账户
这里可以用我们
刚才的Hue的这个XSS漏洞
然后利用这个CVE-2015-1775漏洞
登录Ambari
然后获取这个内网的权限
也就是管理员权限
下面是Apache Ranger
那这个Ranger本身
就有这个慢速攻击的漏洞
用户通过一个普通PC
使用这个慢速攻击工具
就可以很容易的造成
这个Ranger的瘫痪
然后同样也是普通用户
也可以登录Ranger
然后它也曾经暴出
这个访问控制缺失的问题
然后它也有一个XSS漏洞
下面是它的Payload
通过这个UA字段
这个UA字段
就是我们在HTTP请求中
我们使用的这个浏览器说明
在这个字段里面
我们可以添加一些特征
而这个字段是很容易伪造的
所以如何来入侵Ranger
它大致步骤第一也是通过(07:53)
找出这些目标版本的系统
Apache Ranger0.4的系统
然后劫持标准的Hadoop账户
在登录Ranger
这时候你是一个低权限
然后通过CVE-2015-0266
这个漏洞进行管理员提权
然后编辑账户权限和访问策略
第三个问题是Hadoop的发行版问题
Hadoop的发行版非常之多
比如开源的Apache社区的Hadoop
还有cloudera的Apache Hadoop
还有各商业发行版
比如这个亚马逊 IBM 微软 因特尔
都有自己的商业发行版
那Hadoop发行版之所以这么多
是因为Apache Hadoop
完全遵从Apache开源协议
任何组织或是个人
都可以将其做修改
用于商业和其他目的等等
那么Hadoop发行版的一个问题
就是它的更新非常慢
首先是厂商多久
会发布一个新版本呢
一般是大版本一年小版本三个月
补丁只要一到两个月
那你在做这个发行版升级的时候
可能很多其他的组件已经过期了
那厂商发行后
到企业部署这个新版本
又需要一定的时间
差不多是半年到一年
企业才会部署一个新版本
那这个时候
又会有多少个组件过去
又会有多少的安全问题呢
这个图是Apache Hadoop组件的
一个发布历史的
可以看到Hadoop
在2014年4月发布了2.1版本
2014年的12月发布了2.2版本
2015年的7月发布了2.3版本
2016年的3月发布了2.4版本
随着Hadoop的更新
各大组件比如Spark
Hbase Kafka Ambari
也都进行了自己的更新和发布
所以这么多组件的更新和发布
也会带来更多的安全问题
那组件到底有哪些安全问题
首先是安全漏洞
它肯定面临一些基础的库漏洞
比如Java php rupy自身的漏洞
还可能Hadoop组件的业务漏洞
比如我们前面说到的
Hue Ambari Ranger
都有一些不同的漏洞
第二个问题是默认的密码问题
因为Hadoop的安装非常的复杂
我们很多时候会忘记修改密码
像SSH密码Mysql密码
甚至我们会忘记(织)密码
也是空密码
那第三个Hadoop组件的
默认配置也会有一些问题
首先它没有这个网络层的隔离
没有这些访问控制
第二它没有HTTP层的隔离
可能会造成点击劫持
会话管理等漏洞
第三部署的时候
我们会打开一些调试开关
最后忘了关闭
比如这个Hue(11:49)的调试开关
默认就是打开的
那从一个漏洞
发现到这个企业部署更新
需要经过哪些步骤呢
比如这个Apache组件Ambari漏洞
发现以后Apache需要打补丁
Apache是Hadoop需要打补丁做升级
然后是厂商的发行版需要升级
最后才是企业的部署升级
那么在漏洞发现过程中
这个漏洞可能被完全的公开
也可能被负责任的披露
这种方式不同
也会造成漏洞的影响和危害不同
那下面更复杂的一个场景
是底层的基础库的漏洞
比如这个jQuery的漏洞发现
我们需要在jQuery上打补丁
然后像Django打补丁
需要Hue进行升级
然后是厂商的发行版升级
然后是用户的部署升级
同样也有这个漏洞
披露方式的不同
造成这个危害和影响不同
第四个问题Hadoop的
一些外部接口非常丰富
首先它自身就有超过
25个Apache的APP或者模块
同时每个厂商的发行版
都会有特定的APP或者接口
然后它还有很多其他的监控组件
比如说Ganglia Splunk等等
它还有权限提供组件
需要暴露接口
像基于LDAP的基于Kerberos的
基于OAuth的权限控制
然后还有些其他的运用或者模块
又会暴露出更多的这种外部接口
那么前面讲了这么多
Hadoop相关的安全风险
我们该如何防护呢
首先我们要做充分的
网络访问控制限制
第二我们要做
充分的用户权限管理
比如我们有省际用户管理员用户
操作用户数据用户等等
然后我们要针对所有的外部连接
建一个Checklist
监控每一个链接所开启的端口
所执行的任务
最后我们对所有的这些漏洞
比如的典型的Web漏洞
我们要做充分的专业的渗透测试
以发现Web安全风险
还有组件自身的漏洞
我们要做一个Checklist
我们使用了哪些组件
然后持续的监控CVE
看这些漏洞看这些组件
是否有新的漏洞
然后是发行版的漏洞
我们需要在发行版
集成后做充分的测试
我们需要让提供商
为我们的发行版漏洞做保证
下面这就是第四小节
我们的Hadoop
我们的大数据安全平台
自身的安全问题
最后是一个总结
在第一节中我们
介绍了网络安全的一些背景知识
向大家展示了个人的风险
企业面临的风险
以及传统安全设备
安全产品对这些风险的检测
所遇到的问题
第二张我们向大家介绍这个(英文)
这个Hadoop这样的
大数据安全分析平台
第三个我们向大家介绍了
基于这些分析平台
可以做到的哪些大数据安全应用
比如态势感知 威胁情报
攻击溯源和行为识别
第四我们向大家介绍了
大数据平台自身的安全性问题
从用户接口管理员接口发行版问题
和外部接口分别做了阐述
那我今天的分享就到此结束
谢谢大家
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接