当前课程知识点:大数据技术与应用 > 刘鹏:互联网变现与计算广告 > 数据交易 > 数据交易
我们再说一点有意思的东西
关于数据交易
讲讲数据交易
数据交易很有意思的一个问题
我个人也是对这个特别感兴趣
那么咱们国内
有两个这个数据交易的
这个交易所
一个是贵阳交易所
一个是长江交易所
我也关注了他们做的事情
我觉得很好就是说
让大家认识到数据的价值
并且想办法用商业化的方式
来运作数据
因为如果你不以商业化方式
来运作呢
其实很难这个数据用起来
可是我又看到
他们在交易机制上的一些设计
或者说他们对数据交易的理解
坦率的讲呢
就是跟我认为的一些
大家state of art状态呢
我觉得有一点距离
就是说数据交易应该是什么样的
它关键的问题和障碍都在哪儿
不是说现在广告市场
对数据交易的认识就完善了
差的很远
可以很肯定的说
有很多问题没解决
那么这些问题是什么呢
我把它总结成三个定律
这是我 也是我的看法
我跟一些业界的人交流过
特别像跟talking data
我跟他交流的比较多
其他的人好像没有太多兴趣
交流这些技术层面的东西
有的是我个人的认识
有的确实是市场上的问题
第一个定律呢
我认为行为的数据
只能交易不能交换或者共享
为什么这么说呢
这个听完我前面一部分的
那个讲座内容
我相信大家这个问题很好理解
因为数据变成钱太容易了
就是行为数据变成钱
这个在广告
至少在广告市场
它的通路是很顺畅的
所以你能够设想说
现在有人在呼吁说
百度是不是把数据拿出来
大家共享一下
那你还不如说问问李彦宏
能不能把那个帐户里的钱
直接打给一部分给你
是吧
这两个问题的本质是一样的
所以数据的共享
是不可能发生的
这是我个人的观点
但是你会看到数据共享
在有些层面是发生的
发生的情况呢我认为是两种
一种是发生在子公司和母公司之间
就是它本身是有
你比如说搜狗跟腾讯
是有数据共享的
这是我很清楚的知道
那是因为人家都是
这个子公司和母公司
接近控股的状态
它是有更高层次的利益交换
才会产生数据层次上的
共享和交换 是吧
另外政府的数据是个例外
政府的数据呢
因为没有直接的盈利的变现的需求
它是一个
它的数据希望拿出来
给大家来用 是吧
可是我仍然觉得
政府的数据
如果简单的拿出来共享
也不见得是个好的模式
还是要用商业化的手段
把它做成那种转移支付的办法
当然这里头问题很多 是吧
我没有时间展开说
总之我的第一个观点
就是数据是不能共享的
只有交易
交换也很难
交换因为
就是一定是作价的交换嘛
可以这么说
那作价交换本质上就是交易
大家可以有不同观点
关于第二个问题
数据交易该怎么做
这个数据交易该怎么做呢
问题就很多了
我看到过像这个
这个上海电信做的数据交易
也看到过像贵阳长江
做的数据交易
坦率的讲呢
我觉得他们的数据交易呢
有一个最大的问题
其实在我们的广告的数据交易里
已经碰到过这个问题
并且部分的解决了
是什么问题呢
低层次的要求
这个过程大家不管了
就是附着在广告交易过程中
做数据交易这个流程
我们先不去管它
首先这个数据交易呢
跟其他的交易不一样
我必须要实现部分的交易
才会有真正的市场
这是什么意思呢
比如说我知道全国
每一个人的男女
然后你打成一个包
拿出来卖
有没有人买呢
可能有人买
但买的人会非常少
因为比如说我就在华东的五省
投广告 那么我买其他省的
这个男女
买了对我都是成本了
你可能觉得平均一个人
平均下来很便宜
但是我平均下来就很贵了
是吧
这样就使得大量的需求方都会
你这个价格就无法接受
是吧
当然在广告里呢
其实这个数据交易
比这个还近了一步
不仅仅是部分交易
而且是按效果交易
就比如说你在exchange上
你买了data
买了这个男女的标签
买完了以后
我去bid这个广告位
我win impression我才交钱
我不win impression我是不交钱的
那么这实际上呢
也是我们讲的
把定价权或者是某些权利
向需求方转移的一个过程
不要小看这件事儿
我认为在将来的任何一个行业里
如果你能做到需求
定价权向需求方的转移
那么你这个行业就有机会做大了
否则它的成长速度就会很慢
那么这里的
这个具体的过程
我们不说了
但是基本上来说
按照部分的数据来交易
并且按照效果来交易
这个是我们在广告市场里
摸索数据交易
得到的一些
有很多教训
但是现在大家的共识是这样
也就是说不能说这数据
上海电信我是打过一些交道的
就是他们卖data的东西
他卖了一年
我觉得今年他也卖不下去了
为什么卖不下去
他的意思就是我这数据很值钱
我打一个包给你
然后很多人用了呢
就是我只能用一部分
那么整个对我来说就没用了
并且呢也许我今年呢
我这个系统还在开发呢
我这个 这个晃两晃
今年就过去了
这个数据我根本就没用
也交了一份钱
这些问题表面上看起来
上海电信占了便宜
但实际上它是吃了大亏
因为它没有把需求做起来
没有让真正的这个
neat market
一点一点的把它填起来
更谈不上将来用竞价的方式
去获得更高的收益
这是第二个问题
第三个问题最有意思
怎么给数据定价
这个问题呢坦率的讲呢
广告市场也没解决好
有解决的方案
但是解决的不好
解决的不好呢
就是我们有一个data exchange
叫BlueKai
这个BlueKai呢
四亿美金卖给了Oracle
它数据交易规模很大
可是它不怎么挣钱
他大概也就大几千万美金的营收
我们对这个事儿都很纳闷
说实话
但是后来仔细讨论
从今年开始我也是深入的
研究了这个事儿
我觉得那个数据的交易
好像跟那个流量交易是不一样的
它反而有点像那个
就是你比如说你
你知道一个人是男是女 是吧
那么这个信息
你是可以卖给很多人的
对吧
但是你卖给一个人
卖给两个人
卖给十个人
你会发现它不一样了
你卖给十个人以后
这个数据就贬值了
就是好比说这个意思吧
我们说这儿有一块地
是吧
这个地底下呢
有的这个瓷砖底下有金子
有的底下没金子
有个人就有一个藏宝图
知道这块瓷砖下有金子
这个藏宝图就是他的data
那么他把这个藏宝图给你
OK 你愿意拿很高的价钱来买
因为你把这个金子挖走了
是吧
你收益很高
但是呢如果你
咱们每屋
每个人都知道这个藏宝图
会发生什么情况
会发生一个很有意思的状态
就是大家都知道这块地下有金子
那么大家先来抢这块地
对吧
大家先把这个地价抬的很高
这个地价在广告交易里
是什么
就是那个impression那个价格
所以如果每个人都知道
这个impression后面是一个母亲
那么这十个DSP都知道
我就都出一个高价去bid这个流量
这样就是让那个流量的价格
就抬高了
它数据价值就向流量价值
发生了转移
这会有这个微妙的因素
但是我们没有从理论上
或者从数据上分析它的影响
我觉得这个影响是很大的
那么我个人的设想呢
将来数据交易
应该是一种就是限量的
因为它跟流量最大的不同
就是流量本身是限量的
一个impression就只能一个人投
不可能把三个广告摞那儿投
是吧
它永远只能投一个
可是数据可以卖给很多人
卖给很多人
你会发现卖的越多
越不值钱 是吧
这个 我觉得是有这个趋势
理论上影响有多大不知道
那么能不能把它量限下来
就是比如说这个人是母亲
我只在一定的时间段
我只卖给
只让总共产生三次impression
或者产生五次impression
这样的话呢
有可能能解决这个问题
并且这有一个巨大的好处
就是这样的话
有可能让数据交易
也变成一种竞价的方式
这个母亲的信息
我只给三个人用
那给哪三个人用呢
你们自己来竞价吧
最后竞价那个
排的比较高的那三个人
我给你用了
这一旦说这个数据交易
能够变成竞价的方式
并且是在这么细的力度上竞价
注意先是前提是
我们能够部分交易
整体交易竞价也没有意义
整体交易那个就本身需求
就很少
部分交易的基础上
如果能做竞价
我觉得这个市场
才能真正的把它的market
给打开
这些问题呢当然都是我
就是瞎想
也是跟业界朋友一些交流
总之告诉大家
数据交易本身
数据定价和交易本身
特别有意思的问题
而且有可能激发一个巨大的market
而且这些问题在工业界
都没有解决
所以大家将来呢
如果从事大数据呢
这是一个很有意思的点
大数据呢我最后再说一点
我尽量是跟大家说一些
有意思的东西
隐私问题
隐私问题我到哪儿都说
现在我每次这个报告
都说隐私问题
为什么
我发现没有人明白这件事儿
包括他们做数据交易的
就像上海电信或者说
这个交易所还好
因为他们卖的
就是行为数据
并不见得很多
这个隐私问题呢
你会跟这个运营商的人聊呢
他会提一个词
叫做脱敏是吧
有没有人听过脱敏这个词
脱敏是什么意思呢
就是我们这儿对应的第一条
这个PII
这个personal identifiable information
有些信息是你绝对不能用的
因为信息一旦被人知道了以后
它会可以直接reach到
那个用户
什么样的信息是这样的呢
比如说电话
说 我知道你号
我就打给你了 是吧
还有这个家庭住址email
包括身份证号姓名
这都叫做PII
就是可以定位一个人的信息
这种信息呢
在我们原则里
很早就有这个A29的这个原则
是不能使用的
那么很多这个做数据的人
理解的这个脱敏
就是把PII去掉
那么我今天要告诉大家的是
PII去掉解决问题吗
必须要做
但是不解决问题
为什么不解决问题呢
我们看下边那个例子
有时候你看到一张表
比如说你看到你们单位的工资表
是吧
工资表呢
假设这个会计把前面的
姓名 电话都给抹掉了
就剩那后面几栏
但是有他的这个岁数比如说
有他的这个部门
家庭住址
那么你想在公司这个范围内
你对你熟的人
你看这几栏
你一看就知道是谁
对吧
所以这种信息呢
就单拿一栏呢
都没办法定位一个人
但是一组放在一块呢
对于熟人来说
对于不熟的人是没用的
对熟人来说呢
它可以清楚的定位一个用户
这种现在叫Quasi-identifier
有半定位的这个域
那Quasi-identifier
他一旦看出来这一行是你的
你后面如果再有隐私信息
比如说有你的工资
那他当然他一下就了解了
这个人挣多少钱
是吧
那隐私就泄露了
这个的意思是告诉大家什么呢
我们真正care的隐私问题
是什么
希望大家能够
听完我这个讲座
能准确的了解
隐私的顾虑
在于熟人之间的隐私
不在于陌生人之间
我们最在乎的
并不是说有人把那个数据库
给黑了
然后把那东西
八毛钱一条就往外卖
是吧
这件事儿呢
在今天看来
不是我们最大的顾虑
我们最大的顾虑是
有一些对你有所背景调查的人
然后在一些环境里
能够把你的信息定位出来
从而去了解你更多的隐私信息
这个事情是我们真正的顾虑
所以脱敏能解决这个问题吗
脱敏是不能解决的
而且这个问题
是根本就无法避免的
为什么说无法避免呢
就是对互联网的用户来说
他的行为呢有个
比前面那个
就是会计那张表
还要麻烦的一个事儿
它那个行为是极为稀疏的
曾经有一个例子呢
前两年微博上传的一个例子
就是也是咱们清华的一位同学
是这个王珞丹的粉丝
他呢看那个王珞丹的微博
他是王珞丹的粉丝
很多王珞丹的背景信息
他都知道的
调研过
他看那个王珞丹发的微博
一条一条看
仔细的分析呢
就分析出这个王珞丹住哪儿
哪个小区
是哪栋楼几层
分析的很准确
那么这事儿难不难呢
如果你有一些背景信息的调查
再加上一些数据的支撑
其实一点儿都不难
有一个最生动的例子
就是NetFlix推荐比赛
这个比赛很有名
因为它奖金很高
是100万美元第一名
这个奖金呢
被我们当时雅虎一个同事给得了
开发lab的一个同事
他出了一个事儿
就是有一个人
想对这个比赛感兴趣
然后在那个数据库里看
也是特别凑巧呢
他看到一条记录
就按刚才咱们说的逻辑
他发现这条记录
是他一个同事的
因为那个就太清楚了
比前面讲那个
会计的表还清楚
是这个人什么
看过什么电影
同时给过多少分
你想你都有这种经历
你跟你的熟悉的人呢
你们会经常讨论说
什么电影好看
评价如何 是吧
但是没有 咱们这个屋子来说
或者说咱们整个清华大学来说
很难找到两个人
看电影的记录是一样的
不太可能有的
那么你熟的人你只要那一条
你如果有功夫
一条一条记录扫下来
你一定能把你那些朋友
都定位出来
这事儿没有困难的
这是成本高
但成本对于这种场景
就是说我是要不计代价的
去找到某一个人的隐私的数据
对这种场景的成本不是顾虑
当然这个case
他不是要特意找那个人
他是正好碰到那儿
这也是凑巧
正好碰到
他就把这个数据拿给他同事看了
那凑巧的是
它里边有一些什么隐私数据
就是这个同事还有一些影片
是没有跟他沟通过的
就是俩人聊天没聊过
那些片子全部是同性恋影片
当然这就说明呢
至少说这个同事
是不希望自己看同性恋影片
这件事儿
被其他人知道的
这是他的隐私范围内的事情
那不管他自己
对同性恋的态度如何
这是 咱们也不去做猜测
所以他很恼火
他就把这个NetFlix
给告上了法庭
那么NetFlix一看这个事儿呢
结论是什么
没法解决
就是我们现在数据交易
如果是很系列的data
面临的这个问题
是不好解决的
所以大家要把它上升到一些
比较模糊的tag去解决
当然这件事情不能解决呢
并不是说一定不能解决
也有数学家在研究这个
比较前沿的问题
所谓differential privacy
怎么从数学的
就是这件事儿从数学上
还没描述清楚呢
到底影响有多大
但是就是告诉大家这个例子
在互联网的稀疏的data面前
在熟人的这样一个前提条件下
隐私就在行为数据里
是很容易被破解的
那么它的真正的风险在哪儿呢
比如说咱们是电信
把它数据拿出来
原始的data
上海电信就是在卖裸data
他卖过一年
他的风险在哪儿呢
假设我有一个人
不计代价的
在这儿一条一条看
假设我跟上海的某一个
副市长有仇
我把他的data
我能不能找出来呢
我觉得是一定能找出来的
找出来这个副市长
有没有贪腐行为啊
也不见得发现不了
是吧
你可以想象这背后的这个
就是人家目的不是说
了解每一个上海市民
都要干什么
人家就是盯着一个人的
在这种情况下不计代价
所以这种情况下
这个隐私的风险是巨大的
说到这儿呢
并不是说我有什么好方法
这个问题大家是前沿的一些
这个专家在研究
总之是告诉大家呢
要有这个认识
隐私的真正的顾虑是熟人之间的
不是陌生人之间的
陌生人之间
人家去 也不能说是熟人吧
至少就是说他关心你的这种人
这个关心有可能是正面
有可能是负面的
这种人对你的隐私风险的
影响是最大的
在这种情况下呢
由于他可以不计成本
并且由于互联网的行为数据
本身是极为稀疏的
基本没有任何
两个人一样
所以他的风险是很大的
而这种风险呢在今天来看
是被低估的
因为没有出现哪个副市长
因为这事儿被抓起来
但是将来他一旦出事儿
他一定是有大事儿会产生
总之我的一个判断呢
隐私现在来看呢
是大数据头上的一个
达摩克里斯之剑
它跟安全问题一样
不出事儿没人重视
一出事儿以后
才能推着这个市场往前走
我讲的问题就这么多
前面一部分呢
因为咱们时间比较仓促
我大概告诉大家一个观点
就是你要想了解数据的变现
和数据的交易
那了解计算广告
是一个必不可或缺的环节
甚至说是最重要的环节
因为所有的数据使用的历史
和产品发展的历史
在广告行业里
它是走过一条完整的路径的
这里面有很多的教训
有很多的经验
如果你每一个行业
都从头走过的话
其实是没有必要的
那么后面一部分
就涉及到数据本身
当然也是从我的一些经验来
就是从广告行业来看
数据的交易本身是有基础的
数据的变现和交易
都是有市场基础的
并且有它的价值所在的
但是数据交易本身
有很多问题
有的是在广告市场里
已经得到了验证和解决的
有的是我们在广告市场发现问题
但没有解决的
还有一些就像隐私问题
我们现在呢
对它没有好的办法
但是这个问题
大家基本上认识清楚了
熟人隐私的问题
这个稀疏行为的问题
这些都很有意思
就是今天借这个机会吧
我希望就是说以计算广告
作为一个引子
从这一点大家可以去了解一下
整个行为数据的使用
加工交易的整个这个发展过程
将来这个
这一定是咱们大数据市场里
非常非常重要的一块
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接