当前课程知识点:机器学习概论 >  第三章 决策树学习(II)和贝叶斯学习 >  3.1 下午茶时间:勒索软件 >  下午茶时间:勒索软件

返回《机器学习概论》慕课在线视频课程列表

下午茶时间:勒索软件在线视频

下一节:后剪枝

返回《机器学习概论》慕课在线视频列表

下午茶时间:勒索软件课程教案、知识点、字幕

上课铃声已经响了 表示我们今天会是一个很开心的 很好的开端

我们继续欢迎大家来到我们机器学习概论课的课堂

因为我们今天的内容还比较多

所以我们今天的下午茶时间的内容会简单一点

相对没有太多跟同学分享、讨论的地方

而是跟大家分享一些有趣的东西

这个是叫做Dangerous Ransomware

大家谁知道是Ransomware或者大家看到这个题目

觉得可能是什么意思 有多少同学觉得可能有点概念

如果不是很清楚的话 看到这个就大概知道了

其实我们今天要讨论的是关于勒索软件

勒索系统的这个事情 其实它是一种敲诈勒索式的病毒

你可以认为 主要的有两种类型 一种就是把你的电脑锁住了

比如说我不小心开了 用邮件点开了附件

或者在网上访问了某些链接 然后就运行起来一些程序

这个程序带来的结果就是你的整个电脑被锁住

然后你的整个没有办法访问 怎么解决

基本上这个时候如果你能够去找一些计算机修理商

如果他技术比较高的话 有可能还能够帮你修复一下

或者系统应该是没办法了 但是有可能其中通过用别的办法

把你硬盘上的数据可以帮你找回来 有一些办法取出来

所以这种会非常的麻烦 但是对一些计算机高手或修理的高手来说

还是能够解决的 因此它的危害性比第二种情况要稍微弱一点

那第二种情况是什么样 它是叫做data locker

其实它锁的是数据 你的系统貌似还能够打开

但是其中你的文件和数据已经被加密了

这个加密的办法 通常大家是用2048或者4096位的

RSA的算法来加密的 这个就很恐怖了

这个它已经复杂到了没有办法解密的程度

那么这个带来的危害非常的强 给大家看一看这个例子

这个是其中一个已经被病毒感染了的系统的一个截图

幸好不是来自于我的电脑 是在网上找到的

会看到当时是2015年的4月份 在23点11分被搞定的

然后其中还有一个最后通牒的时间

一般来说是会一周之内或者72小时之内必须得响应

这个响应是怎么做呢 它会给你一个网址 然后让你付钱

所以叫做勒索软件 然后这种敲诈勒索 如果不付钱

如果在规定时间内不付钱 那么数据就被丢掉了

这个事情影响还挺深 算是一种相对比较新的病毒是在

2013年左右的时候 被人们开始关注的

这个差不多是在2014年的时候就发现已经在Android系统上

已经有各种出现了 它不止是在PC机上 手机上也不能幸免

有人会觉得可能苹果系统 ios操作系统稍微会更安全一点

因为它的限制非常多 但是这个也未能幸免于难

因为在2016年的3月份就有人会发现苹果的ios系统

也已经发现了相关的变种 所以似乎我们现在从大的来说

如果我们自己不加以保护的话

其实你是完全暴露在各种威胁之下的

这个Ransomware它的程序曾经有报道一些统计数据

比如说2015年的时候 人们就曾经发现有75万台机器电脑

受到了影响 然后其中有十七万九千多 接近18万台的机器

是被密码 加密勒索的形式受感染的 所以这个事实上是

很大的一个产业链了 很有趣 不算很有趣吧 很郁闷的消息是

在2015年 有一个Cyber Security Summit 就是关于网络空间虚拟空间安全的高峰会上

会发现美国FBI一个人员 他曾经在上面发言说

这个Ransomware做的非常好 以至于我们必须诚实地说

如果你被感染了 那唯一的办法就是掏钱好了

就没有任何其他的可行的办法 这件事其实影响很大

比如说曾经在2016年的2月份的时候 曾经出现过一个医院

这个是在美国应该是洛杉矶的一个医院 他们就曾经中了招

这个中招带来的后果非常严重 就是所有的医生

对于医院里面的所有的历史数据完全无法访问

就关于病人的历史记录 大家知道对于这种诊疗的过程

如果没有任何历史记录可以查 甚至可能这个历史记录

还包括各种化验的结果 所有的数据 都已经被加密了 那是非常恐怖

基本上医院就属于瘫痪的状态了 据说当时报道出来说

这个医院被敲诈勒索说要有360万美元

相当于360万美元的比特币来付钱

但是后来我们并不知道医院到底付没付钱

如果付了也是很恐怖的一件事 那如果没付钱

那就是一个极大的不可挽回的损失 大概很多事情都得从头再来

并不止是医院 比如说我们还知道当时在3月份的时候

甚至连警察局也被攻克了 这个是在美国麻省的一个警察局

他们当时也是会发现很可能是因为其中有一个用户

他在运行了打开了这种勒索软件 对 这个软件很麻烦的一件事情是

它并不是只是攻陷了自己这一台电脑的数据

而是很可能整个局域网内的所有的电脑都会受到影响

局域网内所有电脑 所有数据都被加密了

这个影响其实是最恐怖了 最麻烦的 所以当时而且已知的是

这个警察局的负责人 的确是付了550美元来把这个数据解密

那怎么样保护 基本上刚才我们说了一旦中招

基本上没有别的办法了 至少现在的技术

以及短期内我们看不到可以解决的办法

因此能做的只有事先的预防 这个预防当然就是行为习惯上面

比如说把你的文件时不时地都要备份一下

所以不知道会不会我们今天下课之后 大家回宿舍的第一件事

是去找一些硬盘 把自己电脑 手机上的数据先备份

但这个的确是一个好习惯 不管是不是为了应对这种勒索软件

其实你平常的作业 文档 还有服务器其实都应该有

非常好的数据备份的习惯 我们往年曾经出现过

有同学最后提交作业的时候 在最后一天说老师我的电脑被偷了

所以交不了作业了 那也是很悲惨的事情 所以所有的东西

重要的事情要经常有备份的习惯 还有不要太好奇

不要看到陌生的邮件上面的附件就打开 或者看一个网站的链接

觉得很好奇的 你不知道是什么 然后就去打开

往往把自己置于风险之下 还有经常打补丁 这种比较好的习惯

如果你经常多访问你自己受信任的网站

而且是从收藏夹这样的地方去访问

因为你会发现你自己即使是很熟的网站 你在输入的时候

也经常会有typos会有错误 而这个时候输错90%的情况下

它可能会被引导到某一个奇怪的网站上面去

而找不到这个网站的情况比较少 现在域名的这种

已经在很大程度上被攻陷了 当然这个是从这个角度来讲

其实从我们机器学习的角度上来讲也是可以有一些作为的

我们曾经做过一些工作 就是预防式的

比如说在电子邮件或者在你访问一个网站的时候

这个是运行在服务器端 当你访问这个软件的时候

这个数据加载出来的时候 我们当时做的是那种钓鱼网站

比如说是一个银行的系统 假装它是中国工商银行

你会看到它从logo 到它的那个字体非常的像

整个风格就是仿造官方网站来做的 然后它的域名就有一点点差别

比如说原来是com 或者你现在在底下加了一些别的一个域名

或者是搞了一些其他的 前面加了一个小数字

或者把i变成了l什么 让你不太看得清楚的这样的东西

这个信息给出来之后 当时有一些工作是说

我们可以用机器学习的办法 抽出各种特征 这个特征 比如说域名

然后比如说还有你的logo图案的颜色 配色方案 以及它的风格

从风格的角度来去做怀疑的 疑似的检测

甚至当然你如果有用户行为 到底人们是从哪开始访问这个的

是从收藏夹 还是从搜索引擎 还是从你自己用户输入的

这种都会有不同的风险 你提出不同的特征

就可以设计一个机器学习的方法 通过机器学习的算法来去做预警

比如说你可以给用户预警 这个应该是一个钓鱼网站

或者它有可能是很潜在的风险比较高

所以这样的事情其实我们会看到很多浏览器已经在做这样的事了

但是电子邮件服务器做的还不是那么多

现在很多是把它和那个垃圾过滤类似的做一做

但是针对病毒这种信息的检测 还做的不是特别多

因此感兴趣的同学 其实也可以讨论一下

我们是不是有一些办法能够在用户点击之前 就会有一些提示

那么更大程度的帮助用户在那之前 保护用户不要受到后面的影响

这样的敲诈勒索软件 并不是离我们很遥远

比如说这个界面大家应该看上去很熟

这个其实是来自清华的信息中心给大家的一个当时的邮件

是在2016年3月22号 就是三年以前的3月份

当时题目就是近期频发加密勒索类病毒事件的安全警示

然后也提到过说校内外出现了多起以勒索为目的的这种办法

而且同样目前除了支付赎金 还没有高效的解锁的办法

当时这个是2016年 接下来会看一下其实是2018年

就是去年的3月份 去年3月1号

还是我们清华的信息化工作办公室一样发出了通知

提醒所有的同学们 说新型的勒索病毒叫Globelmposter在网上传播

还是一样的 如果被勒索了 那除了付钱没有其他的选择

当然你要么就信息损失了 但是问题在于这个可能影响的

不是你一台电脑 而是你整个课题组或者整个宿舍区域

甚至整个局域网的信息 是个很麻烦的事

很奇怪 所以会发现每年都是二三月份的时候

这个勒索病毒就开始发现了 也因此是这是为什么

我要在今天的这堂课上 跟大家在下午茶分享时间提到这件事

就是因为我们现在仍然是到了三月份 大家一定要多加小心

而且并不是危言耸人 就是在五天之前 就是在2019年

今天是3月15号 在3月10号的时候 我们在网上有看到

这个不是我们清华的 而是我们在有人提到的

有这种信息安全公司提到的公告

是发现了同样的名字Globelmposter它是3.0变种

已经开始席卷国内的医院 然后会发现多个省份的医院大规模爆发

有可能会有全国爆发的趋势 然后一样也是勒索的软件

这批变种它的状态是病毒加密以后 文件后缀名改为*4444什么的

然后一样是要付钱的 所以这个大家一定要有所小心

所以该备份的数据要备份 然后不要太好奇 不要打开附件和链接

不要随便的打开 心里可以有一根弦

如果还感兴趣的同学可以想想看 在我们这个课程也许大实验上面

是不是考虑去做这种钓鱼信息的发现或者是钓鱼信息勒索

这种病毒信息的发现的这种保护 可能也是一个很好的题目

但是难点在于你怎么样收集相关的数据

但是网上应该是会有一些相关数据的考虑的

好 这个是我们今天的下午茶时间跟大家的分享

接下来我们课程的第一个部分给大家来继续讨论我们上周的

有一点关于决策树学习的剪枝的其他的方法 先简单的回顾一下

我们上周提到了决策树学习的避免过拟合的办法

其实有两大类 第一类就是前剪枝 第二叫做后剪枝

前剪枝的意思就是你其实这个树还没长完 我就提前停止了

但是对于提前停止来说最大的问题在于

我们不知道到底什么时候应该停止 我是现在就停

还是再构建一层再停等等 当时我们上堂课跟大家提到过

这个有一部分办法 你去根据自己还留存的样本量

如果你现在到了这一步之后

你剩下还分不出来这些样本量不是那么大了 它已经少于5%了

或者不到几个数据了 那就不要再继续做下去了

因为据统计的分析有可能已经没有太大的意义了

那么另外的后剪枝的办法 我们其实提到过有一种办法

大的思路是说我们去把树构建完 构建完了之后

我们一步一步的去剪 剪到一定程度上 看到性能有升高了

提高了 我们就停 到底怎么样去选择

到底什么样时候我们应该停呢

其中有一类办法是用统计的方法 统计式的剪枝

这个我们上节课没有介绍 我们这节课也不会介绍

我们会放到其中会给大家讲 假设检验的时候

刚好会涉及到相关的内容 所以我们那个时候会跟大家讨论

怎么样去统计检验的方法来去做剪枝

机器学习概论课程列表:

第一章 绪论

-1.1 课程介绍

--课程介绍(1)

--课程介绍(2)

-1.2 机器学习的背景

--机器学习的背景

-1.3 什么是机器学习

--什么是机器学习

-1.4 机器学习系统设计

--机器学习系统设计(1)

--机器学习系统设计(2)

-第一章作业

-第一章课件

第二章 决策树学习(I)

-2.1 决策树的基本概念

--决策树的基本概念

-2.2 决策树的实例和发展历史

--决策树的实例和发展历史

-2.3 经典决策树算法ID3

--经典决策树算法ID3(1)

--经典决策树算法ID3(2)

--经典决策树算法ID3(3)

-2.4 过拟合和前剪枝

--过拟合和前剪枝

-第二章作业

-第二章课件

第三章 决策树学习(II)和贝叶斯学习

-3.1 下午茶时间:勒索软件

--下午茶时间:勒索软件

-3.2 后剪枝

--后剪枝

-3.3 决策树的改进和归纳学习假设

--决策树的改进和归纳学习假设

-3.4 贝叶斯学习的背景

--贝叶斯学习的背景

-3.5 极大似然假设、朴素贝叶斯和最小描述长度

--极大似然假设、朴素贝叶斯和最小描述长度

-第三章作业

-第三章课件

第四章 马尔可夫模型和隐马尔可夫模型

-4.1 下午茶时间:微博的垃圾检测

--下午茶时间:微博的垃圾检测

-4.2 马尔可夫模型

--马尔可夫模型

-4.3 隐马尔可夫模型

--隐马尔可夫模型

-4.4 评估问题

--评估问题(1)

--评估问题(2)

-4.5 解码问题

--解码问题

-4.6 隐马尔可夫模型的应用

--隐马尔可夫模型的应用

-第四章课件

-第四章作业

第五章 假设检验

-5.1 下午茶时间:图灵奖

--下午茶时间:图灵奖(1)

--下午茶时间:图灵奖(2)

-5.2 假设评估

--假设评估(1)

--假设评估(2)

--假设评估(3)

-5.3 置信度和置信区间

--置信度和置信区间(1)

--置信度和置信区间(2)

--置信度和置信区间(3)

-5.4 有限数据下的比较

--有限数据下的比较

-第五章课件

-第五章作业

第六章 基于实例的学习

-6.1 下午茶时间:黑洞照片

--下午茶时间:黑洞照片

-6.2 基于实例的学习的基本概念

--基于实例的学习的基本概念

-6.3 最近邻算法

--最近邻算法

-6.4 K邻近算法

--K近邻算法

-6.5 KD树

--KD树

-6.6 距离加权的K近邻算法

--距离加权的K近邻算法

-第六章课件

-第六章考试

第七章 支持向量机(I)

-7.1 支持向量机的背景

--支持向量机的背景

-7.2 线性支持向量机

--线性支持向量机(1)

--线性支持向量机(2)

--线性支持向量机(3)

--线性支持向量机(4)

--线性支持向量机(5)

-第七章课件

-第七章作业

第八章 支持向量机(II)和无监督学习

-8.1 核函数支持向量机

--核函数支持向量机:向量空间

--核函数支持向量机:核函数(1)

--核函数支持向量机:核函数(2)

-8.4 支持向量机总结

--支持向量机总结

-8.5 无监督学习简介

--无监督学习简介(1)

--无监督学习简介(2)

-8.6 层次聚类

--层次聚类

-8.7 K-means聚类和K-medoids聚类

--K-means聚类和K-medoids聚类

-第八章课件

-第八章作业

下午茶时间:勒索软件笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。