机器学习潜客挖掘模型慕课视频播放-大数据技术与应用-MOOC慕课视频教程-柠檬大学

最后一部分就是这个

在座的同学可能比较关心的

机器学习潜客挖掘模型

首先看一下什么叫潜客挖掘

这个潜客是怎么定义的呢

潜客就是那些

还没有成为你的客户

但是很有可能成为你的客户的人

这群人是很重要的

因为所有的商家面临的问题

都是要扩大自己客户的规模

对吧

从哪里找到这些人

怎么更好的塑造他们

让他成为自己的客户

这件事情也很难做

为什么呢

因为你没有数据嘛

可能你线下开了一个店

如果在线下开了店

就是你自己是不知道

比如说你在朝阳区开了一个店

你是不知道周边的客户

都是什么样的

没有他们的数据对吧

你最多知道他们住在哪里

但是他们的偏好你是不知道的

我卖自行车的

我不知道哪些人

就回到最开始那张图

那个图是怎么生成的对吧

这一百万的十万的潜在的人群

是怎么样计算出来他的RY的

如果是其他的公司

是计算不出来的

但是因为是阿里有这样的数据

有三点几亿人

在淘宝上的购买的行为

所以我们是可以对所有的

潜在的消费者做分析

给他打分对吧

这里面就是有一个量级的差别

就是商家自有客户

行业客户和全网人群的差别

商家自有的客户指的是

就是已经成为他客户的

比如有一些淘宝店

比较大的

可能是有几十万的客户

甚至上百万的客户

这些人的话

其实他是有很多信息的

就是说你买了他的东西

他发货给你是吧

他知道你的姓名住址手机什么

他都知道

他有自己的发订单的时候

会保存下来

但是有更多的人

就是几千万人的级别

是行业的客户

比如说我是卖自行车的

那我的店里面

可能只积累了十万人

但是可能这个行业有一千万人

是对自行车感兴趣的

但是我不知道这一千万人

在什么位置对吧

如果我是广撒网的话

大家可以想象一下

这个营销成本有多大

假如说你发一个传单是一块钱

对吧

我现在要发一千万的传单

是一千万块钱

但问题是如果我广撒网的话

这一千万

就行业是一千万人

全网是假如说3.5亿

那实际上3.5亿中

有3.4亿人是对自行车不感兴趣的

也就是有1/35的人

是对自行车感兴趣的

所以如果我这一千万的传单

都发出去

我实际上是有34/35的钱

是浪费掉的对吧

这个是难以接受的

但是如果我能够从全网中

把这一千万人中抓出来

那我针对这一千万人去发传单

那效果没有一块钱浪费

最理想的情况下的情况下

可能会收到比较好的效果

对所以这里面有量级的区别

就是商家自有客户

可能是几十万人的规模

而行业客户是几千万人的规模

全网人口可能是几亿量级的规模

所以这个潜客挖掘是非常重要的

而且是可能是事关这个

事关生死的一件事情

那这个问题就来了

潜客挖掘技术哪家强

我自己给阿里打了85分吧

这个因为我在Facebook

Google都待过，比较了一下

这几家的数据

还有它的模型能力

但是这85分是这样打的

就是为什么阿里能打85分

其实模型只占到了3分

然后计算能力只占到了2分

然后还有80分实际上是数据

所以说今天即便我把阿里

所有的秘密都告诉大家

我只能给大家3分

因为数学模型只有3分

计算能力是什么呢

就是阿里是有自己的

云计算的平台的

叫阿里云

实际上我们是

可以同时做五千台机器

组成一个集群

进行运算

这在世界上应该排到第三

或者排到第三点五

第一个应该是谷歌或者是亚马逊

第二个是亚马逊或者谷歌

第三个有可能是阿里

有可能是美国的中央情报局

或者什么

也有可能他们有这个量级

但是阿里至少能排到第四的

所以有这样的计算能力

其实我们是可以做很多事情的

就是你没有这个能力的话

其实你的数据是没法处理的

你处理完

可能需要三十天的时间

或者是你根本就没法处理

有这个能力之后

我们可以在30分钟之内

就形成一个模型

然后迅速的投放到线上去做实验

模型那块真的只有3分

就是你读了

大家都是硕士

我就不说了

就是而数据呢有80分

所以这个数据的意义是很重要的

但是如果只有数据的话

其实也是零分

因为你需要一定的模型

和计算能力

这个数据的价值能够发掘出来

然后这里面

这一页是一个

其实就是一个潜客挖掘系统架构

这个其实没什么秘密

很多家的架构应该都差不多

就是我们一个N-Model的

这样一个模型

简单说是个闭环

我们通过数据生成一些种子人群

然后把这些人群打包

这里面有一个叫集成模型

ensemble

然后有一套算法

去把这些人集合在

比如说这些模型可以是GBDT

对吧

可以是LR 可以是神经网络模型

可以是其他的

比如说朴素贝叶斯模型等等

就N个比较弱的Model

然后我们集中在一起

形成一个比较强的一个Model

这个Model呢

我们去做实际的投放

做AB test

什么叫AB test呢

就是对比实验

比如说我们有一个旧的模型

一个新的模型

我们放在实验

做测试

一个可能会比另外一个好一些

对吧

那么我们认为第一个模型的效果

就会比第二个模型好

然后通过这种多轮的实验呢

我们就有一种这种

就是可以得到一些训练的

新的训练样本

比如说点击模型里面

我们通过收集实际的点击数据

对吧

我们用这些实际点击的数据

作为新的训练样本放到模型里

进行重新训练

然后得到一个更优化的模型

然后这个模型我们

再做进一步的组合

然后胜任更好的模型

然后得到更多的数据

然后做这样的循环

这个模型和普通的机器学习模型

不一样的地方就是最下面那个框

就是你是需要把商家的策略

这不是一个全自动的

他实际上需要把一些商家的知识

能够灌输进去

就是商家嘛

他自己做很多实验

他真的是自己花钱做一些投放

他之前已经积累了很多经验

这些经验我们不应该放弃

应该让它能够和机器的这些知识

机器的这些实验

这种体系能够融合在一起

这写的比较抽象

其实我们用的模型举三个例子吧

就是一个叫逻辑回归

一个叫GBDT 一个叫遗忘模型

就是前两个模型

结合数据源都能看到

第三个模型是我们搞的一个

比较复杂的一个模型

后面可以举一些图表的例子

前两个模型

其实在做特征工程

就是我们很多的数据

不断的去尝试

得到一些更好的一些feature

把这些feature放在这些模型里面去

然后看一下最终的效果

是什么样的

我们发现这个

其实很多针对LR模型

就已经可以做到一个85分的

可以做到80分的一个模型

然后GBDT可能会做到85

GBDT他这个叫Gradient Boosting Decision Tree

他的性能是比较稳定的

多数情况下

可以得到比较好的效果

最后一个模型是一个遗忘模型

这个是我们有点创新的模型

就是考虑到品牌这样一个因素

就是其实一个用户

他可能平时买了一个东西

他可能记不住是在哪个店买的

可能也记不住

是哪一个具体的商品

但是他可能会记住的是这个品牌

比如说我买了一个

宏基的一个显示器对吧

那个具体的型号什么EX68什么

我都忘了

然后在哪家店什么什么旗舰店

我也忘了

但是我可能记住的是这个品牌

而且对于品牌的记忆

可能是比较长久的

但是呢对品牌记忆是有衰减的

比如说我昨天

这个品牌给我的印象之后

可能过了三天之后

这个印象就衰减了一半

过了一个星期之后

可能就衰减到了10%

对我们把这样一个

衰减的因素考虑进去呢

这其中的一个子模型吧

就是坐标轴我都给删掉了

然后大概就是说

刚才我说那个

就是他对这个品牌印象

和品牌交互的这样一个程度

实际上是随时间是有衰减的

然后我们就是可以通过

一些比较简单的公式进行拟合

比如说下面是一种公式

但是这个效果非常好

我们做了实际的投放

这个CTR就叫Click To Rate

指的是展现了

广告的平均一百人中

有多少人做了点击

这个CTR越高

就代表你的相关性越好

CTR越低

代表你的相关性越差

所以这个相关性

可以是一个很好的指标

用来衡量你的模型的好坏

然后我们这个CTR

这个量级不知道大家有没有概念

就是一般来说

展示广告CTR的百分之零点几

零点五这样的级别

搜索广告可以到百分之几

然后我们这里面

其实这个展示广告

已经做的很好了

有2%的CTR

我们就是使用这样的

一个模型之后

我们的CTR从2%

提升到了12%

就是12%这个是很难想象的

就是在搜索广告里面

很多时候没有这样的点击率

但是我们使用一些

就是这样一些遗忘模型

包括前面PPT一些综合的模型

把CTR提升了六倍

这是第六部分

主要是通过机器学习

这样一种方法

然后讲的比较粗了

然后来提高

我们的潜客挖掘的效率

通过我们的数据

80分的数据

加上3分的模型

加上2分的计算能力

然后我们就可以达到85分

通过这85分呢

我们可以把这个行业

最优质的客户挖掘出来

然后告诉商家说

告诉我说

应该针对这一百万人

到五道口去打广告

然后可以得到最优的效果

OK 其实我觉得如果

如果这节课只用一个图的话

我可能会讲一下这个图

就是数据是最重要的

在营销里面

其实很多时候

模型和计算能力

只是一个把更多的数据

应用上的一个手段

大数据本身就是这样

这节课里面

我也通过六个不同的方面

给大家介绍了一下

在阿里巴巴比较常用的

对用户进行分析

就是商业进行分析

对潜客进行挖掘的一些

常用的一些方法

大数据技术与应用课程列表：

李国杰：面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰：面向大数据的数据科学--课后习题

吴甘沙：大数据分析师的卓越之道

-数据思维方式的改变

-数据的假设与采集

-数据的准备

-数据的分析

-数据的解释与验证

-吴甘沙：大数据分析师的卓越之道——课后习题

董飞：硅谷公司的大数据实战分析

-个人介绍

-硅谷热门公司

-大数据简介

-大数据平台系统

-工业实践

-结尾

--结尾

-董飞：硅谷公司的大数据实战分析--课后习题

杨光信：数据系统架构

-数据系统架构历史

-从sql到nosql

-数据库系统实现变革

-负载融合

-数据系统架构成本

-杨光信：数据系统架构——课后习题

时磊：大数据网络可视化

-什么是可视化

-网络可视化

-大数据带来的新挑战

-大数据网络可视化的若干案例

-时磊：大数据网络可视化—— 课后习题

彭元：网络安全与大数据

-网络安全概述

-大数据安全分析平台

-大数据安全应用

-大数据平台安全

-彭元：网络安全与大数据——课后习题

钟义信：“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

-隐性智慧，显性智慧

-人工智能：能与不能

-人工智能的技术现状

-机制主义人工智能模型

-信息转换和智能创生定律

-人工智能与大数据

-钟义信：“人工智能与大数据”的创新研究——课后习题

吴军：数据为王和机器智能的时代

-什么是机器智能

-大数据的重要性及特点

-大数据中的因果关系与关键技术

-大数据与机器智能

-大数据思维

-讲座问答环节

-吴军：数据为王和机器智能的时代——课后习题

苏中：从大数据到认知计算

-大数据概述

-大数据相关新趋势

-大数据技术创新1

-大数据技术创新2

-大数据技术创新3

-大数据商业价值和前景

-大数据机遇和挑战

-苏中：从大数据到认知计算——课后习题

王新锐：金融大数据的法律实践

-金融大数据概述

-用户个人信息分类

-金融大数据法律框架

-实际案例和业界实践

-核心风险点

-王新锐：金融大数据的法律实践——课后习题

刘鹏：互联网变现与计算广告

-互联网与商业化

-大数据与计算广告

-计算广告介绍

-数据交易

-刘鹏：互联网变现与计算广告——课后习题

杨保华：区块链与数据科学

-从记账技术到区块链

-区块链确保数据真实性

-区块链确保数据安全性

-区块链衡量数据价值

-区块链的应用和总结

-杨保华：区块链与数据科学——课后习题

杨紫陌：个性化内容推荐

-个性化推荐系统

-推荐系统的召回与排序

-智能制作之个性化海报

-线上推荐系统其它要素

-杨紫陌：个性化内容推荐——课后习题

陆祁：用户行为大数据

-个人介绍及用户理解背景

-用户理解与用户画像

-案例1：用户属性识别

-案例2：自然人识别

-案例3：WOI与社交关系识别

-陆祁：用户行为大数据——课后习题

阳任科：大数据与AI的内容分析

-内容智能生态——数据、算法、应用

-大数据在内容分析的应用

-IP价值评估系统

-爱奇艺的剧本评估

-爱奇艺的智能评分

-阳任科：大数据与AI的内容分析——课后习题

王栋：美团外卖的大数据应用

-外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

-案例分析：智能营销场景的用户画像

-案例分析：智能助手场景的菜品画像

-王栋：美团外卖的大数据应用——课后习题

赵楠：商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

-美团旅行业务的用户画像构建

-用户画像的应用案例

-住宿需求预测问题

-营销补贴策略建模

-赵楠：商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧：美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

-互联网金融科技

-数据智能的三个案例

-技术展望

-陈彧：美团点评金融服务的大数据与人工智能——课后习题

毛波：阿里全息大数据构建与应用

-数据的进化历程

-阿里DMP平台介绍

-核心技术及案例

-数据应用

-毛波：阿里全息大数据构建与应用——课后习题

韩定一：在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一：在线营销中的竞价机制与数据价值——课后习题

龚笔宏：大数据在工业界中的经典案例分享

-竞价排名搜索

-主要技术问题

-点击率预测概述

-点击率预测实践

-龚笔宏：大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华：即时配送中的人工智能

-即时配送业务的背景及挑战

-案例1：订单分配策略

-案例2：供需平衡策略

-未来展望

-郝井华：即时配送中的人工智能——课后习题

[补充] 陈辉：数据驱动营销

-什么是数据驱动营销

-LTV留存分析

-RFM会员体系

-消费者微群画像

-渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-陈辉：数据驱动营销——课后习题

[补充] 艾小缤：大数据评价体系在金融、征信领域的创新

-金融大数据时代

-大数据客观信用

-我国的金融环境

-客观信用的实践

-应用案例与成果

-艾小缤：大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇：大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

机器学习潜客挖掘模型在线视频

机器学习潜客挖掘模型课程教案、知识点、字幕