当前课程知识点:大数据技术与应用 > 吴甘沙:大数据分析师的卓越之道 > 数据的解释与验证 > 数据的解释与验证
我们刚才讲了分析了以后
最后就是怎么来对数据分析
进行解释 进行验证
传统上我们是说
我们做数据分析的人
一定要掌握四个东西
合起来叫做STEM
Science Technology Engineering Mathematics
为什么我们现在强调STEAM
增加了一个字就是A
A是什么呢
A是Art
我们现在数据分析师
也需要有一些艺术素养
你比如说
你可以把你的分析的结果
以一种更美观的方式
更艺术化的方式呈现出来
像这一张图
但是我想强调的Art
并不只是这么一个视觉的艺术
Art还是一个语言的艺术
我们说我们数据分析最终
是需要一种讲故事的方式
把它呈现出来
这里面需要讲故事的能力
我举两个例子
一个是数据分析当中
非常经典的啤酒加尿布
这么一个例子
另外一个呢是魔球这么一个例子
啤酒加尿布就是传言
是一个巨大的一个超市
有的说是沃尔玛
有的说是另外一个超市
那么他们发现把啤酒和尿布
放在一起的时候
做这么一种商品的组合的时候
它能够得到更好的销量
但是他通过一种非常好的
story telling的方式讲了出来
他说这时候正好是在放世界杯
那很多这个年轻的爸爸
他要看球需要啤酒
同时呢他家里面的孩子
所以呢他又买了尿布
通过这样一种商品组合
能够更好的去提升销量
这就是一个非常好的故事
我可以告诉大家
这个故事是编出来的
并不存在
但是这个故事很好的把这么一种
做组合分析的这样一种想法
传播了开来
让更多的人愿意
去把数据分析应用到
他的实际的商业环境里面去
它符合了story telling的几个原则
我们经常说三个D
一个D叫做Drama
它有一定的戏剧性在里面
因为啤酒和尿布是不相干的东西
另外一个D是Detail
它又有一定细节
它编出来这么一个故事
它又有第三个D就是Dialog
它在呈现这个故事当中
让人有一种身临其境
有一种对话的感觉
所以你好的数据分析
你需要这种story telling
把它呈现出来
魔球也是一样
它讲述了一个
一个经理棒球俱乐部的经理
怎么能够利用数据分析
然后不花很多钱
就能够提升他的棒球队的成绩
他也是通过一种很好的方式
呈现了出来
包括请了像Brad Pitt
这样很有名的人
拍了一场电影
把这个想法很好的呈现了出来
但事实是什么呢
事实是他把一半的钱
花在了数据分析上
而另外一半的钱
还是花在请球探上面
因为很多球员的一些
非主观 非客观的一些因素
像他的意志力 抗压性
是没办法通过数据体现出来的
所以他也需要球探
来帮助做这个分析
但在这个故事里面
球探的角色被弱化了
因为他需要能够更好的
把这种戏剧性呈现出来
它最终起到的效果是非常大的
那么这里面还是强调的
就是你story telling
虽然是有技术可循
但这里面的核心
还是你的一个idea
就像TED讲的
你这是一个idea worth spreading
一定是要有一个很好的
值得传播的这么一个想法
我给大家举几个不好的案例
他这个idea本身是有问题的
你比如说第一个案例就是Target
美国的另外一家连锁的
这么一个零售的巨头
那么他这个故事呢是说
我根据一个消费者
她购买的东西
我预测到这个消费者怀孕了
然后他打电话给这个少女的父亲
这父亲就很恼火是舞吧
他根本不知道这事情
后面呢这父亲
又向Target来道歉
确实这个少女怀孕了
从某个角度上面来说
这是一个很好的故事
但是从另外一个角度上面来说
他事实上体现了你这个数据分析
可能是会cross the line
侵犯到人的隐私和尊严
所以它本身可能不是一个很好的
值得传播的idea
第二就是Facebook
大家可以看这个图
它通过一些就是传统的
一个AB测试
我们说验
我们说evaluation
它有一种随机对照实验
那在现在的互联网时代呢
用AB测试是一个很好的
做随机对照实验的方式
它通过这种随机对照实验
来去看给不同的用户来
push不同的内容
来看他的情绪变化
而在媒体上面
他就变成了一种Facebook
对用户进行情绪控制的
这样一种实验
这事实上是另外一个
不值得传播的idea
第三就是Uber
Uber对一些数据的分析
他发现不同城市一夜情
发生的这样一种情况
午夜的时候
通过Uber到这个地方
过了几个小时以后
又通过Uber走了
那它却是一个很好的数据分析的
一个场景
但是它spread出来的idea
事实上不一定是很好的
所以呢我们强调就是
在数据分析完了以后
你怎么来做这个story telling
这是一个非常值得去深究的
值得去学习的一个art
那么我们刚才说了整整的
这个数据分析的这么一个循环
它是不是够了呢
我觉得还未必
在我们大数据的场景下面
我们可能还要考虑一些
新的一些问题
比如说我们有没有一个地方
能够把不同的数据分析师
他做的一些案例
能够document下来
这样一些documented pages
能够帮助其他的数据分析师
能够极大的把他的能力提升起来
又比如说我们传统的分析
是所谓的归纳
我从数据当中能够归纳出
一些规律出来
但我们知道
另外一种方法论是什么
是演绎
通过一些普通的一些规律
然后呢能够推知出
一些特定情况下的一些情景
那么这样一种演绎
可能要通过仿真
或者模拟的这种方式
自动化所有一位老师
叫王飞跃老师
他现在有个理论叫做平行世界
这个平行世界是跟物理世界
平行的一个世界
而这里面所有的发生
都是通过模拟和仿真来实现的
如果说某一个事件
还没有发生
或者说它不太可能发生
它发生的概率太低
你可以通过模拟的方式
你比如说在一个
一个城市的区域
发生某种恐怖袭击的情况下
那我怎么来做人员的疏散
怎么来做相应的一些措施
那可以通过模拟来完成
所以呢我们并不是说
只是做归纳
有时候也需要做演绎
那么这就是我的最后一页slides
我们的整体的一个思想是说
现在我们大数据前面几年
都在考虑基础设施的问题
考虑怎么能够把更多的数据
采集下来 存下来进行处理
而现在呢是要从数据当中
获得价值的时候
那需要我们分析师呢
要与时俱进
需要改变我们的思维方式
需要提高我们的技术素养
提高我们的
丰富我们的分析能力和分析工具
再一次强调
希望大家能够以批判式的眼光
去看我讲的每一个技术
然后呢能够相应的
找到很好的资源
能够真正的去理解
去融汇 然后呢把你变成一个
真正适应
这个时代的大数据分析师
好 谢谢大家
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接