当前课程知识点:大数据技术与应用 > 陆祁:用户行为大数据 > 案例1:用户属性识别 > 案例1:用户属性识别
我接下来会具体讲一下
一些具体的案例
这样可能大家会更好理解的
去理解刚刚说的这样的一个流程
我在这边选的就是三个典型的案例呢
他其实是逐一往上的
我们最常见 用的最多的是
用户的一些属性的一些识别
这个其实就是我们把它认为是
一个设备级的标签
比如说你用你的手机访问
那你手机的各种行为
在通过它的一个挖掘之后我们会给你
设备级的用户去打上不同的标签
那这一层的标签的挖掘
使我们可能占比达到60%的一个工作
都会在这里面
这里面可能会碰到各种各样的一些
标签识别的这样一些问题
这一块会在第一个案例当中
重点做一些分析
然后第二块呢
我们会讲一下自然人的识别
这个地方就考虑到不同设备之间
他可能会有就是说你跨端使用的情况
比如说像
你的手机和你的电脑和你的Pad
怎么样去建立说知道它其实背后
是同一个用户
我们去做这样一个关联的识别
这个其实在我们的实际应用当中
比如说把用户的完整的
他的一个使用的行为路径给挖掘出来
再去做一些定向的投放
然后去完整地去了解这个用户的
全部的他的兴趣偏好等等
都是有非常重要的一些作用
然后第三块呢
是在这个人的基础上继续再往外扩展
我们去探索他经常所处的一个网络环境
或者说用户出现的一些地方
然后我们去研究他的一些社交的关系
他的家庭的结构
他身边的人是什么样子的人
他的朋友是什么样子的人
用这个去研究出
不同用户之间的一个关系
那比如说这种场景的一个产出
可能会在他的一个比如说兴趣的推荐
他的关系的一些识别上面
经常会被用到
首先第一块呢是用户属性的识别
这里面的识别呢
就是我们会碰到
就是两大类吧
就是一类是有标签的识别
就相当于是说
我已经有一些用户填写
或者告知的一些数据
然后我们通过这小量的一些标签
我们想给每一个设备
去打上类似的标签
比如说有一部分用户在站内
是注册填写了他的一些
年龄性别的属性
那大多数的用户
还可能是处于一种匿名的状态
或者说不确定这样一个状态
我们试图去用挖掘的方式
去学习和推算出每一个设备
它的一些年龄性别的一个属性
然后另外的一种case呢
就说我们可能会碰到是说
我们觉得有商业价值的这些标签
他在实际情况下我们是获取不到
他的标签或者标签特别少
比如说家里孩子的一些标签
或者中学生大学生的标签
或者说你的消费水平
因为用户来的时候
他可能不会直接告诉你说
我是一个消费能力高还是低
这样的不同的用户
那没有标签和少量标签
或者是单标签
单标签的意思就是说
比如说我要去分析这个人
是学生还是不是学生
或者是说
我们可能只有其中一类的标签
但是没有就是
其他的就不是学生的这样一些标签
我们需要去 比如说
在做分类的时候
我们可能只能拿到其中的一种情况
或者是说这个标签特别少
所以就是我们会把这个
整个的识别的话分成两块
有标签的识别和下面这种标签
比较缺失的一些情况的一些处理
这个我们会分两拍来说
先说一下
我们经常会碰到有标签的识别
可能会觉得说有标签的话
那就是做一个简单的分类就可以了
但其实说真的是有数据了之后
它就是一个万能的一些处理了吗
其实我们在实际的应用当中
会碰到各种各样的问题
比如说标签数据的来源
它可能是非常多种多样的
像这边列举了一些常见的case
比如说它来自注册
来自修改 或者说
第三方的交换
或者是他的一些实名认证等等等等
各种来源我们都可能会收集到
用户的一些标签
那这些标签可能有一些互斥
或者说有一些数据不准
他的一个数据质量
需要我们去做一些评定
所以我们可能会去一些
比如说帐号的一些清洗
或者异常设备的一些处理
最常见的是第一步的一些
预处理的作用
但是即使是在处理完之后
我们仍然会碰到经常会有比如说
像多值标签比如像年龄的话
他可能有不同来源
他告诉你说
有的告诉你我是一个
比如说十九到二十四岁的这样一段
有的来源说他是一个三十岁以上的
或者是四十岁以上的或者十八岁
有的时候用户喜欢比如说Default
他会 就是乱填一个数字
像这样的情况
在我们的数据当中也经常会发现
那像那种case的话
那我们这些标签是否还能使用呢
然后 所以那这一部分的话
其实也需要说
我们去做一些算法上的设计
做数据的一个清理和选取
这里我们用到的其实是一个
威尔逊区间
它是一个比较常用的
一个投票的一个算法
就比如说一共有80个人投票
有60个人说他是属于某一种情况
还有一种投票
它可能是投票源比较少
它可能8个人投
6个人觉得说是某一种情况
那像这种不同情况下
我们到底觉得说哪一种投票质量
得到的数据是更好一些的呢
所以就是威尔逊区间
它就是 其实是做一个随分布的
一个置信区间
用这个区间的宽窄来去界定说
我哪一个可信度会更高一些
这样的话我们会把比如说
不同的标签 多标签的
这样不同的一些case
我们会选取它标签最集中 标签字段
然后进行一个威尔逊区间的一个计算
通常我们都会是用它的一个下限的
一个置信区间来代表它的一个分数
然后最终用这样的一个方式
我们去选择出相对来说
数据集中且可信的这样的一些标签
在所有的数据当中去清洗出
你的高质量的标签
这个是你接下来去做
分类问题的一个基础
你只有标签你是准的情况下
你后面去做的所有的分类
去做模型才是有意义的
这个是在标签这一层的时候
我们会碰到的问题
然后再说一下
下面其实简单说
它就是一个从特征到模型
这样的一个处理的过程
那这边的特征呢
我列的只是有代表性的几类吧
其实每一个类别当中的特征
我们其实会开发出各种各样维度
不同力度 不同时间跨度的
一些特征拿进去去实验
就是比如说像有一些特别小的特征
就比如说像最近看到的
比如说像
做比如说防沉迷的
一些识别的情况下
我看到有一些公司拿通过
他屏幕上点击的力度的大小
他都能拿去做
比如说男女性别的一个判别
因为其实你的每一个细小的动作
你的习惯都反映出
你的一个行为的一个偏好
我可能大力去点
或者手速特别快
它代表了你的
你的体力 你的年龄段
或者是说你的性别
或者是说你平时的一些行为的偏好
其实用非常小的一些
行为的一些统计数据
都可以变成一个
非常有效的一些行为的特征
会加到你的模型当中去
当然这个也取决于
说你要做什么样的一些统计分析
像我们这里的话
比如说做男女性别
或者是说做一些身份的识别等等
都是通过非常小的特征
也会往里面加
然后比如说一些视频他的偏好
时长 他的搜索词
他出没的地方等等
其实都是用这些不同维度的一个数据
去反映出这个人
平时的一个生活的状态
然后放到这个模型当中去
去做实验
当然这里我也说了有的特征
可能区分度想想也会比较高
比如说像我们在APP上面
比如说你使用的皮肤
像这么小的一个行为操作
它可能就已经反映出
它其实是一个非常女性化的一个皮肤
那它可能是偏男性向的一个选择等等
像这种非常小的特征
那他在模型当中是否
有效呢 它是否加进去会有提升呢
这个地方其实我们加特征的时候
它需要去考虑它实际的一个区分度
区分度是我们会首选需要去考虑的
第二我们还要考虑
像特征在整个模型当中的覆盖度
如果它只有非常少量的样本
能够覆盖到那个特征的话
那其实这些特征加到你的模型
其实收益也是非常有限的
所以像这种特征的一些
选取和它的一些评估方式
是我们非常看中的
这个是在做的时候
需要非常非常地注意
假如说你已经建立了
比较完善的特征库的情况下
然后你再去走不同的模型
然后在这个基础上
可以再做进一步的一个优化和提升
比如说像现在的标签的话
它是一个分类的模型
那可能最简单 最常用的
你用LR就可以了
它可以 比如说接受
大规模的这些特征的输入
然后去做一个简单的分类
他也能达到一定的一个效果
但是这个模型的迭代
它可能在不同的阶段
你需要考虑的东西不一样
比如说像LR的
它简单是简单但是它很多特征
都需要你人工去一维一维的试
那它可能是
一些单力度的一些特征的效果
能在这个模型当中去体现
但比如说你不同模型的
特征的一些交叉组合
像LR就很难去做
你只能说人去理解了
再逐个往里面去加
这么说吧
比如说喜欢看岳云鹏
或者说喜欢看岳云鹏相声
或者说岳云鹏喜剧电影
像这样的一些组合特征
他可能反映出来的是
更细力度的一些特征
那如果你觉得说
这个组合对你的区分有效的话
那你可能会人工的去把这种组合
去做出来加到你的模型当中
它也能做进一步的提升
但是这种特征的组合和泛化
就非常地耗人力
那所以就是在FM这种模型当中
他就可以做到是
两两之间的一些特征组合
能够反映到它的这个模型当中去
它可以做到自动的去交叉去提取
去把这种特征给输进去
再往下的去的话就是
两两之间的交叉能够做进去
那你比如说你做一些深度的网络
然后wide deep之类的
它可以把更深层的一些交叉的
组合的一些结构
能够体现在你的模型当中
然后它可能还可以
比如说结合一些数的模型去不断去试
它在每一种调优的过程当中
对最终的这个模型的一个区分的准度
会有逐步逐步地提升
这个我们也在实践当中
去验证了这一些
这个东西你在线上会用
最终是不是你线下效果
最好的那个版本是不一定的
因为你的数据量非常大
你还要考虑你的运行的
一个效率和实际的一个收益
是什么样子的
那这个就是可能
学术和商用不一样的地方
那你最终可能会去选择说
一个稳定且效果是能够接受
且它能例行化之后
它的能够高效去运行的一些模型
是真正会我们用到线上的一个版本
但是线下
我们可能还去不断地去尝试
进一步的一些模型的
一个深度的迭代去优化
那从效果上来说
通常在标签识别这个问题上
其实加特征
如果你找到一些覆盖度不错
且区分度很高的一些特征的话
他的特征的这个效果的提升
可能是比你这个模型的提升
会来得更直接更明显
当然模型会在这个基础上
再进一步去做优化
去做提升 也是能够在
最终的结果当中去看得到的
说到这个属性识别的地方
我也可以插一句
有的时候我们会觉得说属性识别
它就是一个简单的分类问题
但是在我们的实际操作当中
其实也有的时候不完全是这个样子
我举个例子比如说像
比如说男女性别
那你可能就是一个很明确的
一个二分类的问题
你是男还是是个女
但是我们比如说像年龄
年龄的预测的时候
其实就是我们会讨论说
这个到底是属于一个回归的问题呢
它还是是一个分类的问题
我们可能在商用的里面
就是说 不需要说我
准确地预测这个设备后面
你是个22岁的人
还是是一个25岁的人
就是具体的某一个岁不是那么准确
但我们比如说商用里面经常会有
比如说有一个一个的年龄段
来表示这个人的年龄
大概是属于哪一个区块
比如说18岁以下的
或者19到24岁
或者25到30岁这样一档一档
然后它大致划分了比如说
青年 中年 然后老年等等等等
它大概划分了一些常用的年龄段
它划分段之后呢
你也可以认为它是一个分类问题
其实它这个分类问题
其实跟我们平时认为的男和女
是不一样的
其实它的这个类别的标签
其实它是有比较的
就是说它是有大小的概念在里面的
如果你纯粹就是把它
做成一个分类问题的话
那你可能在最终的效果上
会有他的一个影响
就比如说我把一个
第二段年龄的用户
如果是错判成第三段年龄
那他可能只是在边界上有一些出入
比如说这个人24岁
然后因为他的行为
可能跟第二第三段
都比较像 他错分第三段
25到30岁的这一档次
可能影响并没有这么大
但如果说我把这个第二段的人
就判成了
比如说50岁以上的一个人
这样一个很大跨度的一个错误
在你的简单的分类模型当中
它认为这两个是一样的
但这个真的它的实际的一个
错误的性质还是有差别的
像这种
它的类别有顺序性
但是它的只采性
它的分类的话
那它这个效果可能并没有
真正的能做到最好
所以在这种问题上
我们会有很多版的改进
比如说把回归和分类去做一些结合
或者是说把你这个分类的模型的
它的一个惩罚函数做一些修改
比如说对它的一个判断错误的
离它的目标的距离考虑进去
然后如果是做回归的话
就是还有一个问题是
回归它可能只是告诉你
预测的一个它拟合出来一个值
但是它是没有执行度的
在做分类问题的时候我们在实际的
使用当中我们有一个执行度的概念
就相当于说
你认为他是比如说是第二段
他是一个有多大概率
他是属于第二段
那他在使用的时候可以做一些筛选
但如果是回归的话
他可能是你预测出某一个岁数
你也不知道到底是一个大概率的
还是一个小概率的事件
就是在这种使用上
我们会去考虑是说把这两者做结合
做一些投票
或者是修改这样子的一些尝试
所以就是在做分类的问题的话
我们可能还需要
去结合实际的业务场景去考虑
你的这个分类
到底怎么样做是真正好的
尤其是在做多分类的时候
你的分段或者说你的类别越多
你的准确率数值上也会差异很大
所以就是你需要具体去研究
你的比如说
分类的问题是出在哪些地方
然后再去做一些针对性的一些优化
这个我就是往外稍微做扩展一些
然后就是在标签的这个识别上面的话
我们还会碰到一些实际的问题
他并不是说我做一个分类
做完识别了
这个标签之后它就完全是可用的
像在大数据上你去做标签的时候
你还要实际考虑
它这个标签和实际的情况是不是相符
比如说你这个样本的获取
它可能是一个有偏的
比如说你在考虑说
收集用户的年龄性别的时候
可能你的用户群体的
它的倾向性就是年轻人会去注册
会经常去知道怎么样去做
互联网相关的这些
比如说注册登录这样相关的事情
老年人他就不会去做填写
他可能就是来访问
那这样的情况下
他可能造成你
数据的标签本身就会有偏
你的样本当中
可能是完全缺失老龄段
或者是说非常非常少
离真实的情况差别很大
那像这种情况下
也会使你的整个模型
对预测的话有比较大的影响
会使得你的预测的效果上
也会是说某一些段少的可怜
或者说根本就找不到那些段的人
那这种情况下我们怎么办呢
那我们这种情况下是会去
从第三方的一些参考的数据去做
做一些综合的参考
就是去融合出相对可信的一些
分布的一个符合人口学的一些
分布的一个参考
用这个去来做一个
训练数据的一个样本的
调权的这样一个作用
用这个数据调完权
能够自动化的产生调权的比例
然后去指导这个模型
使得你最终的出来的预估的
比如说全网站的这个人的一个
比如说年龄性别的分布
是比较符合客观事实的
而不会受你的这个标签的分布
都是比如说集中在年轻人的数据上
老年人就一点都没有
这个肯定是偏离实际情况的
像这种的在实际应用当中
也是非常非常重要的
然后另外呢
就是说我们在每天的预测当中
还会遇到的问题
比如说像这些标签的抖动
比如说你今天的这些行为
判出来 比如说你是一个女生
然后可能过两天
比如说你的行为
比如说你看了一些男性题材的剧
或者是怎么样怎么样的一些行为
可能又把你判成一个男的
那这样子的话
你的标签这个抖动的话
那会使得你这个效果也没有办法
是一个肯定的一个效果
所以在这种标签的产出上
还需要比如说考虑像一些多天投票
等等这些修正的这样一个机制在里面
保证你这个效果
这个标签是真正的是长期可用的
这大概说的就是有标签的一些识别
我后面再简单讲一下
就是前面说的
那些无标签的这样的样本的
一些学习会是怎么样做处理
其实他主要是在
第一步会不太一样
就是 比如说你有单标签
比如说你有儿童的标签
但是你没有谁不是儿童这样的标签
那你去把它做成二分类的时候
就没有办法去构建你这个模型了
那这种比较常见的解决方案呢
就是做一些PU learning
就比如说你有一部分的
你的正样本
然后你会去把
比如说随机找的一部分样本
你先拿进来做你的负样本
做一个简单的模型的训练
在你的这个随机的数据当中
你插一些你的正样本进去
然后用这个呢去表示说
你训练出来的这个模型
如果对这部分数据去做预测的时候
大概知道他应该把这个权重划到多少
你大概可以做一个简单的区分
然后用 就是第一版训练出来的模型
就是对原来找的这个
随机的这个负样本
进行一次判别之后
你能去把它清洗出更大概率
更置信的副样本出来
用这样的置信的负样本
再和你原来的正样本
再去进行下一轮的迭代
去做一些就是分类模型
然后逐渐逐渐地清洗
然后可以把这样的一个单样本
或者少样本的这样一个问题
像滚雪球一样的
然后把它变成一个
比较靠谱可信的
这样的一个分类问题
这个是解决这种无标签
或者少标签 单标签的这样的
一些解决方案的一个简单的介绍
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接