当前课程知识点:大数据技术与应用 > [补充] 陈辉:数据驱动营销 > 机器学习潜客挖掘模型 > 机器学习潜客挖掘模型
最后一部分就是这个
在座的同学可能比较关心的
机器学习潜客挖掘模型
首先看一下什么叫潜客挖掘
这个潜客是怎么定义的呢
潜客就是那些
还没有成为你的客户
但是很有可能成为你的客户的人
这群人是很重要的
因为所有的商家面临的问题
都是要扩大自己客户的规模
对吧
从哪里找到这些人
怎么更好的塑造他们
让他成为自己的客户
这件事情也很难做
为什么呢
因为你没有数据嘛
可能你线下开了一个店
如果在线下开了店
就是你自己是不知道
比如说你在朝阳区开了一个店
你是不知道周边的客户
都是什么样的
没有他们的数据 对吧
你最多知道他们住在哪里
但是他们的偏好你是不知道的
我卖自行车的
我不知道哪些人
就回到最开始那张图
那个图是怎么生成的对吧
这一百万的 十万的潜在的人群
是怎么样计算出来他的RY的
如果是其他的公司
是计算不出来的
但是因为是阿里有这样的数据
有三点几亿人
在淘宝上的购买的行为
所以我们是可以对所有的
潜在的消费者做分析
给他打分对吧
这里面就是有一个量级的差别
就是商家自有客户
行业客户和全网人群的差别
商家自有的客户指的是
就是已经成为他客户的
比如有一些淘宝店
比较大的
可能是有几十万的客户
甚至上百万的客户
这些人的话
其实他是有很多信息的
就是说你买了他的东西
他发货给你是吧
他知道你的姓名 住址 手机什么
他都知道
他有自己的发订单的时候
会保存下来
但是有更多的人
就是几千万人的级别
是行业的客户
比如说我是卖自行车的
那我的店里面
可能只积累了十万人
但是可能这个行业有一千万人
是对自行车感兴趣的
但是我不知道这一千万人
在什么位置 对吧
如果我是广撒网的话
大家可以想象一下
这个营销成本有多大
假如说你发一个传单是一块钱
对吧
我现在要发一千万的传单
是一千万块钱
但问题是如果我广撒网的话
这一千万
就行业是一千万人
全网是假如说3.5亿
那实际上3.5亿中
有3.4亿人是对自行车不感兴趣的
也就是有1/35的人
是对自行车感兴趣的
所以如果我这一千万的传单
都发出去
我实际上是有34/35的钱
是浪费掉的 对吧
这个是难以接受的
但是如果我能够从全网中
把这一千万人中抓出来
那我针对这一千万人去发传单
那效果没有一块钱浪费
最理想的情况下的情况下
可能会收到比较好的效果
对 所以这里面有量级的区别
就是商家自有客户
可能是几十万人的规模
而行业客户是几千万人的规模
全网人口可能是几亿量级的规模
所以这个潜客挖掘是非常重要的
而且是可能是事关这个
事关生死的一件事情
那这个问题就来了
潜客挖掘技术哪家强
我自己给阿里打了85分吧
这个因为我在Facebook
Google都待过,比较了一下
这几家的数据
还有它的模型能力
但是这85分是这样打的
就是为什么阿里能打85分
其实模型只占到了3分
然后计算能力只占到了2分
然后还有80分实际上是数据
所以说今天即便我把阿里
所有的秘密都告诉大家
我只能给大家3分
因为数学模型只有3分
计算能力是什么呢
就是阿里是有自己的
云计算的平台的
叫阿里云
实际上我们是
可以同时做五千台机器
组成一个集群
进行运算
这在世界上应该排到第三
或者排到第三点五
第一个应该是谷歌或者是亚马逊
第二个是亚马逊或者谷歌
第三个有可能是阿里
有可能是美国的中央情报局
或者什么
也有可能他们有这个量级
但是阿里至少能排到第四的
所以有这样的计算能力
其实我们是可以做很多事情的
就是你没有这个能力的话
其实你的数据是没法处理的
你处理完
可能需要三十天的时间
或者是你根本就没法处理
有这个能力之后
我们可以在30分钟之内
就形成一个模型
然后迅速的投放到线上去做实验
模型那块真的只有3分
就是你读了
大家都是硕士
我就不说了
就是而数据呢有80分
所以这个数据的意义是很重要的
但是如果只有数据的话
其实也是零分
因为你需要一定的模型
和计算能力
这个数据的价值能够发掘出来
然后这里面
这一页是一个
其实就是一个潜客挖掘系统架构
这个其实没什么秘密
很多家的架构应该都差不多
就是我们一个N-Model的
这样一个模型
简单说是个闭环
我们通过数据生成一些种子人群
然后把这些人群打包
这里面有一个叫集成模型
ensemble
然后有一套算法
去把这些人集合在
比如说这些模型可以是GBDT
对吧
可以是LR 可以是神经网络模型
可以是其他的
比如说朴素贝叶斯模型等等
就N个比较弱的Model
然后我们集中在一起
形成一个比较强的一个Model
这个Model呢
我们去做实际的投放
做AB test
什么叫AB test呢
就是对比实验
比如说我们有一个旧的模型
一个新的模型
我们放在实验
做测试
一个可能会比另外一个好一些
对吧
那么我们认为第一个模型的效果
就会比第二个模型好
然后通过这种多轮的实验呢
我们就有一种这种
就是可以得到一些训练的
新的训练样本
比如说点击模型里面
我们通过收集实际的点击数据
对吧
我们用这些实际点击的数据
作为新的训练样本放到模型里
进行重新训练
然后得到一个更优化的模型
然后这个模型我们
再做进一步的组合
然后胜任更好的模型
然后得到更多的数据
然后做这样的循环
这个模型和普通的机器学习模型
不一样的地方就是最下面那个框
就是你是需要把商家的策略
这不是一个全自动的
他实际上需要把一些商家的知识
能够灌输进去
就是商家嘛
他自己做很多实验
他真的是自己花钱做一些投放
他之前已经积累了很多经验
这些经验我们不应该放弃
应该让它能够和机器的这些知识
机器的这些实验
这种体系能够融合在一起
这写的比较抽象
其实我们用的模型举三个例子吧
就是一个叫逻辑回归
一个叫GBDT 一个叫遗忘模型
就是前两个模型
结合数据源都能看到
第三个模型是我们搞的一个
比较复杂的一个模型
后面可以举一些图表的例子
前两个模型
其实在做特征工程
就是我们很多的数据
不断的去尝试
得到一些更好的一些feature
把这些feature放在这些模型里面去
然后看一下最终的效果
是什么样的
我们发现这个
其实很多针对LR模型
就已经可以做到一个85分的
可以做到80分的一个模型
然后GBDT可能会做到85
GBDT他这个叫Gradient Boosting Decision Tree
他的性能是比较稳定的
多数情况下
可以得到比较好的效果
最后一个模型是一个遗忘模型
这个是我们有点创新的模型
就是考虑到品牌这样一个因素
就是其实一个用户
他可能平时买了一个东西
他可能记不住是在哪个店买的
可能也记不住
是哪一个具体的商品
但是他可能会记住的是这个品牌
比如说我买了一个
宏基的一个显示器对吧
那个具体的型号什么EX68什么
我都忘了
然后在哪家店什么什么旗舰店
我也忘了
但是我可能记住的是这个品牌
而且对于品牌的记忆
可能是比较长久的
但是呢对品牌记忆是有衰减的
比如说我昨天
这个品牌给我的印象之后
可能过了三天之后
这个印象就衰减了一半
过了一个星期之后
可能就衰减到了10%
对 我们把这样一个
衰减的因素考虑进去呢
这其中的一个子模型吧
就是坐标轴我都给删掉了
然后大概就是说
刚才我说那个
就是他对这个品牌印象
和品牌交互的这样一个程度
实际上是随时间是有衰减的
然后我们就是可以通过
一些比较简单的公式进行拟合
比如说下面是一种公式
但是这个效果非常好
我们做了实际的投放
这个CTR就叫Click To Rate
指的是展现了
广告的平均一百人中
有多少人做了点击
这个CTR越高
就代表你的相关性越好
CTR越低
代表你的相关性越差
所以这个相关性
可以是一个很好的指标
用来衡量你的模型的好坏
然后我们这个CTR
这个量级不知道大家有没有概念
就是一般来说
展示广告CTR的百分之零点几
零点五这样的级别
搜索广告可以到百分之几
然后我们这里面
其实这个展示广告
已经做的很好了
有2%的CTR
我们就是使用这样的
一个模型之后
我们的CTR从2%
提升到了12%
就是12%这个是很难想象的
就是在搜索广告里面
很多时候没有这样的点击率
但是我们使用一些
就是这样一些遗忘模型
包括前面PPT一些综合的模型
把CTR提升了六倍
这是第六部分
主要是通过机器学习
这样一种方法
然后讲的比较粗了
然后来提高
我们的潜客挖掘的效率
通过我们的数据
80分的数据
加上3分的模型
加上2分的计算能力
然后我们就可以达到85分
通过这85分呢
我们可以把这个行业
最优质的客户挖掘出来
然后告诉商家说
告诉我说
应该针对这一百万人
到五道口去打广告
然后可以得到最优的效果
OK 其实我觉得如果
如果这节课只用一个图的话
我可能会讲一下这个图
就是数据是最重要的
在营销里面
其实很多时候
模型和计算能力
只是一个把更多的数据
应用上的一个手段
大数据本身就是这样
这节课里面
我也通过六个不同的方面
给大家介绍了一下
在阿里巴巴比较常用的
对用户进行分析
就是商业进行分析
对潜客进行挖掘的一些
常用的一些方法
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接