当前课程知识点:机器学习概论 > 第一章 绪论 > 1.2 机器学习的背景 > 机器学习的背景
我们机器学习概论的介绍
那么首先我们来看一看机器学习本身它的应用场景
都有哪些呢
我们先从一些具体例子来看
第一个常用的应用场景是数据挖掘
请大家注意一下我说的话
机器学习的常用的应用场景之一是数据挖掘
我们一会儿还会再提到这句话
那么这个数据挖掘有很多种不同的东西
但其中经常有一部分是我们要利用一些历史数据
来去帮我们做一些决策 给大家举一些例子
比如说第一个例子经常用到的是
我们把它叫做商业智能
商业商务智能里面不知道大家有没有观察过
我们在很多超市非常多的超市里面
如果你看到宝洁公司的各种产品 洗发水什么的
他经常是在开放货架的
你眼睛能够看到的货架这一层的这一层或者上下浮动的范围
偶尔有 很少有他的商品会放到了最底下一层
或者特别高也不太够的着的地方
除非说整面货架都是这个产品 这个是有意设计的
它既利用了一些商业上的经验
同时也经过了一些数据的
在数据挖掘和分析的基础上积累下来的经验
因为会发现 非常大规模的数据会发现
人们发现了这样准则就是当你走在超市里面
销售量比较好的就是你的人的视线
所容易平行触及的那部分商品相对而言
他们的销售量销量会大一点以及你上下的范围
还有就是我以前很喜欢逛超市的时候
我看沃尔玛很好 看到的是什么
你知道其实超市的商品的摆放和分类
是一个很重要的一个东西
有的是按照家电是一类 食品是一类 然后等等这些是一类
你有没有发现有的超市比如说沃尔玛
我是我最早发现现在越来越多
可能在20年之前我会看到在沃尔玛超市里面
卖微波炉的地方会放着微波炉手套
它其实是属于完全不同的品类
在他自己微波手套的那一部分就是厨具相关的一些部分还有
但在这里它一定会有
甚至有的时候我会发现在微波炉的这附近
它会放着微波炉爆米花 这个是商品之间的关联性
而这个关联性怎么样挖掘出来
一部分是靠人工经验
但当你的商品非常多的时候
这样的关联性可以通过数据挖掘
就是用一些机器学习的算法和方法
来帮我们挖掘出它背后的规律来
还有常用的机器学习常用的在数据挖掘领域上应该是
大家有时候经常时不时的收到一些优惠券
优惠券的低级的发放方法是全市所有的人
我所有的用户都给这个优惠券 或者搞活动
但是 还有有一些智能的优惠券的发放方法是
我看到你半个月之前买了一箱牛奶
这一箱牛奶是12盒
然后现在理论上讲你应该已经喝完了
那么你应该重复购买了 怎么还没买
你是不是到别的地方去买了
好 我这个时候定向给你发一个小额优惠券
告诉你说 如果你这个时候正只剩两盒牛奶
一看我有一个买牛奶的五块钱的优惠券
我正好要买牛奶了 正好就顺便买一个
这个关联关系也是可以靠机器学习的方法
来在数据中挖掘出来的
还有特别常用的应用场景
这个也是数据挖掘里面特别重要的一个场景
就是信用卡的风险分析
我们有时候看到我们把它简化的一个问题是
比如说在某一个时刻这个用户他在t0这个时刻
他已经持有信用卡九年了然后他有收入
还有一些贷款 贷款其实也包括你信用卡借贷的行为
然后你有家里有房子
然后还会有一些违规的贷款上面的违规的行为
比如说借钱没还或者是不良记录
然后或者比如说该还款的时候没还款
发现这个时候已经有三次该还款的时候还没还款
这个时候用户到底是不是一个有价值的用户
还不知道 下一个时刻你会发现还是同一个人
他的借的钱更多了 他有没有收入你不知道了
也许失业了 也许钱降低了不知道
然后他还款的时间到期没及时还又多了一次
还不知道是吗 那么下一个到了某一个环节
可能到某一tn这个时刻 发现贷款更多了
然后他的行为各种不良记录又多了
这个时候可能积累到一定程度
经过系列的分析和机器学习的算法的这种分析
最后说不行了 他不是一个有价值的客户
所以可能会降低额度 或者审批不通过等等
各种手段 跟大家举一个特别实际的例子
很好玩 就是有两个我自己身上发生的例子
大约在差不多20年之前
那个时候我们的移动通讯网络还没那么好用
而且出国漫游会非常贵
然后那个时候我先生他要去美国出差
要出差一段时间 然后索性就弄了一个美国的手机号
然后他就把他的手机留在这里了
然后某一天他就坐飞机去了
那个应该是他毕业之后的第一次出国的旅行
然后他自己去的
然后但信用卡其实已经有一段时间
然后有一天半夜的时候大概半夜2点的时候
我接到了我先生的手机响
那时候还没有那么多骚扰电话 我就一接电话
说是建行的信用卡中心然后问我是不是我先生
我说不是 那个是我先生问他有什么事
大半夜的 他说我们发现在信用卡上
有一个比较大额的支出的刷卡记录在国外
问这个是不是盗刷
我想了想 看了看时间半夜2点
我说没关系 他去美国出差应该是下了飞机租了车
好 那边说你确定吗 我说确定好 然后就挂了电话
大概又过了一个小时 同样电话又来了
又是同一个人又打电话说您真的确定没有盗刷吗
因为又有一个比较大额的美元的支出
我看了看时间说过了一个小时 我说没事
他应该是住到酒店了 然后我就很开心
你看在你沟通不方便的时候 有人替我打电话告诉我
你老公他下飞机了 你老公已经到酒店了
所以很方便 但是你知道吗
背后能做到这一点 是因为信用卡的中心它有一个提示
就是自动的提示 不是人在那天天登记
盯着每一个记录是他们后台会有一个机器学习的系统
不管他是用的简单的规则系统
还是复杂的更复杂的学习算法
总之会有一个系统会有一个风险提示
说这个交易可能有风险 然后才会触发了人工操作
还有一个例子是我曾经在水木上面曾经有一个团购版
有一段时间我曾经很热衷于参加团购
大概也有十多年的时间了
有段时间快到中秋节了
有人在组织中秋节的云南鲜花月饼团购
然后我就参加了 后来团购的人他后来发了一个通知
在截止日期的时候 在团购版面上发了一个通知
说我收到了一个银行的提示
然后说我的这张卡暂时不能用了
是因为监测到我在短时间内有大量的小额的收入
有点洗钱的嫌疑 而且是来自不同账号的小额的收入
所以大家用别的方式就给我交钱或者现场交钱
我一听觉得很好玩
这个其实也是一个信用卡的这种风险提示的
背后的机器学习的算法在做这样的事情
所以你会看到在我们的生活中
其实机器学习算法它已经起到了很多作用
可能是我们平常在你上这课之前你还没有体会到的而已
除了数据挖掘这样的应用场景之外
还有什么情况下会用到机器学习的方法呢
比如说一些和个性化有关的这样的一些程序
比如说我们第一个类型 垃圾邮件过滤
这个是每个人我们其实都会用到的
然后有的时候我相信你一定会在一定的情况下
会抱怨说怎么回事把重要的EMAIL就放到垃圾邮件里面
我经常每年会收到 有同学让我写推荐信的时候
我都告诉他你得给我一个清单
并且告诉我说你什么时候交了申请
因为每年都会有同学有一些信是收不到的
因为被垃圾过滤了
甚至有朋友说他有一次是被另外一个好朋友绝交了
是因为一年前对方跟他发了一封很重要的信
他一直没有收到过
但不知道是真的没有收到还是被扔到垃圾箱了
因为已经不可考了
但是如果不过滤又不行
有时候你会看到怎么这个信送到我这儿了
怎么这个还没有被过滤掉 会觉得这个系统很弱智
所以这个很好玩 垃圾邮件过滤
我们会在后面的某一堂课里面
作为一个下午茶时间稍微讨论一下这个问题
它是机器学习算法最先应用的领域之一
还有比如说我们有一些和用户个性化相关的东西
比如说这个是当年的水木的版面 曾经有过这样的功能
叫做来版面的人常去的其它版面
比如说我上面这个是Movie版 那么他经常去的
你看看电影的人还经常对NetResource感兴趣
而且经常去Graduate版 细细想来有一些有趣的东西
这些研究生们相对而言可能看得比较多一点
然后还有病毒 经常感兴趣病毒版
以及找工作和相亲 很好玩
还有这个是另外的一个完全不同的版面
顺便一个小的tips 大家不要把它念成Texs或者是LaTexs
这样就有一点点不那么专业了
因为它并不是一个英文词 大家写论文会用到是Tex或者LaTex
然后还有你们可能说差别好大 对吗
没关系 我们看一看Movie版和MovieClub版
他们的常去的其它版面也有很大的差别
比如说MovieClub版 他们会经常去指环王、DVD
PopMusic等等这些版面
而不是去找工作相亲Graduate等等这样的版面
所以它其实你看上去很接近
但其实人群有很不同的分析
这个也会涉及到一些用户兴趣相关的东西
在这个背后机器学习的算法大有用武之地
然后还有比如说电子商务里面推荐
微博上面 我只是以微博举例 比如它会推荐你可能感兴趣的人
甚至他会告诉你说我们是同事我们是同学等等这样的
还有就是你有十个间接关注人等等这些都是feature
都是我们说的特征 你靠的这些特征
然后给你做了推荐它是最初级的推荐的解释
你还看它有猜你喜欢 比如说他给你推荐了某一个ID
是因为你的好友某某某他们都关注了这个人
你关注的人中甲乙丙丁等等这些也关注了这个人
这是个性化的推荐 做到这个完全靠机器学习的系统算法
还有我曾经发现过在亚马逊上发现这本书
数学在科学和社会中的作用 这书看起来好像一般
但很神奇的是我为什么对它感兴趣
因为他的作品是冯诺依曼 这个我就特别有兴趣了
然后看完之后发现 系统上给我推荐了别的书
数学的建筑这也很有趣非常好
生活中的魔法数学也还好 数学家独白
怎么购买了这个的书的顾客也浏览了 寻找前世之旅
阴阳师物语 它其实还是机器学习系统 是个性化推荐
这个推荐是基于大规模的数据
有可能因为那段时间它是一个流行的畅销书
甭管买了什么书的人都看这本书 畅销书嘛 看到多一点
所以 它显得好像跟别的同现都很多
但是这个也是告诉我们机器学习的算法
是有它的能力限制的 每一个方法都有自己的不足之处
所以我们去利用方法的时候
你一定要去看它的优点在哪里和它的缺点在哪里
第三类应用背景是一些我们没办法手工去做的事情
或者是我们不想用手工去做的事情
比如说人脸识别然后比如说语音识别
手写识别 这个你人能做但是你不想做 对吧
你拿了一篇文章 然后你如果能很快的把它扫描下来
或者你在听一个语音 你听了一段录音
你想把它转成文字记笔记 这些都是我们希望人不好做
那这个怎么办呢 我让机器来做
机器学习的算法可以在其中有用武之地
再比如说自动驾驶 自动驾驶的鼻祖比较早
在CMU他们当时有一个在三十年前的ALVINN这个系统
当时就很轰动 他们是设计了自动驾驶
你会看到的人其实都没有操作
他们当时是在高速公路上就开了70迈每小时的速度
这在当时是非常重要的技术
然后用的是什么 这是他们当时给出来的原理图
用了神经网络 然后会有一些会有30×20的sensor
然后中间神经网络隐层 然后输出会有30个不同的动作
左转弯右转弯急转弯刹车踩油门等等这样的
差不多分解成30多个动作差不多了
-1.1 课程介绍
--课程介绍(1)
--课程介绍(2)
-1.2 机器学习的背景
--机器学习的背景
-1.3 什么是机器学习
--什么是机器学习
-1.4 机器学习系统设计
-第一章作业
-2.1 决策树的基本概念
--决策树的基本概念
-2.2 决策树的实例和发展历史
-2.3 经典决策树算法ID3
-2.4 过拟合和前剪枝
--过拟合和前剪枝
-第二章作业
-3.1 下午茶时间:勒索软件
-3.2 后剪枝
--后剪枝
-3.3 决策树的改进和归纳学习假设
-3.4 贝叶斯学习的背景
--贝叶斯学习的背景
-3.5 极大似然假设、朴素贝叶斯和最小描述长度
-第三章作业
-4.1 下午茶时间:微博的垃圾检测
-4.2 马尔可夫模型
--马尔可夫模型
-4.3 隐马尔可夫模型
--隐马尔可夫模型
-4.4 评估问题
--评估问题(1)
--评估问题(2)
-4.5 解码问题
--解码问题
-4.6 隐马尔可夫模型的应用
-第四章作业
-5.1 下午茶时间:图灵奖
-5.2 假设评估
--假设评估(1)
--假设评估(2)
--假设评估(3)
-5.3 置信度和置信区间
-5.4 有限数据下的比较
--有限数据下的比较
-第五章作业
-6.1 下午茶时间:黑洞照片
-6.2 基于实例的学习的基本概念
-6.3 最近邻算法
--最近邻算法
-6.4 K邻近算法
--K近邻算法
-6.5 KD树
--KD树
-6.6 距离加权的K近邻算法
-第六章考试
-7.1 支持向量机的背景
--支持向量机的背景
-7.2 线性支持向量机
-第七章作业
-8.1 核函数支持向量机
-8.4 支持向量机总结
--支持向量机总结
-8.5 无监督学习简介
-8.6 层次聚类
--层次聚类
-8.7 K-means聚类和K-medoids聚类
-第八章作业


