案例1：用户属性识别慕课视频播放-大数据技术与应用-MOOC慕课视频教程-柠檬大学

我接下来会具体讲一下

一些具体的案例

这样可能大家会更好理解的

去理解刚刚说的这样的一个流程

我在这边选的就是三个典型的案例呢

他其实是逐一往上的

我们最常见用的最多的是

用户的一些属性的一些识别

这个其实就是我们把它认为是

一个设备级的标签

比如说你用你的手机访问

那你手机的各种行为

在通过它的一个挖掘之后我们会给你

设备级的用户去打上不同的标签

那这一层的标签的挖掘

使我们可能占比达到60%的一个工作

都会在这里面

这里面可能会碰到各种各样的一些

标签识别的这样一些问题

这一块会在第一个案例当中

重点做一些分析

然后第二块呢

我们会讲一下自然人的识别

这个地方就考虑到不同设备之间

他可能会有就是说你跨端使用的情况

比如说像

你的手机和你的电脑和你的Pad

怎么样去建立说知道它其实背后

是同一个用户

我们去做这样一个关联的识别

这个其实在我们的实际应用当中

比如说把用户的完整的

他的一个使用的行为路径给挖掘出来

再去做一些定向的投放

然后去完整地去了解这个用户的

全部的他的兴趣偏好等等

都是有非常重要的一些作用

然后第三块呢

是在这个人的基础上继续再往外扩展

我们去探索他经常所处的一个网络环境

或者说用户出现的一些地方

然后我们去研究他的一些社交的关系

他的家庭的结构

他身边的人是什么样子的人

他的朋友是什么样子的人

用这个去研究出

不同用户之间的一个关系

那比如说这种场景的一个产出

可能会在他的一个比如说兴趣的推荐

他的关系的一些识别上面

经常会被用到

首先第一块呢是用户属性的识别

这里面的识别呢

就是我们会碰到

就是两大类吧

就是一类是有标签的识别

就相当于是说

我已经有一些用户填写

或者告知的一些数据

然后我们通过这小量的一些标签

我们想给每一个设备

去打上类似的标签

比如说有一部分用户在站内

是注册填写了他的一些

年龄性别的属性

那大多数的用户

还可能是处于一种匿名的状态

或者说不确定这样一个状态

我们试图去用挖掘的方式

去学习和推算出每一个设备

它的一些年龄性别的一个属性

然后另外的一种case呢

就说我们可能会碰到是说

我们觉得有商业价值的这些标签

他在实际情况下我们是获取不到

他的标签或者标签特别少

比如说家里孩子的一些标签

或者中学生大学生的标签

或者说你的消费水平

因为用户来的时候

他可能不会直接告诉你说

我是一个消费能力高还是低

这样的不同的用户

那没有标签和少量标签

或者是单标签

单标签的意思就是说

比如说我要去分析这个人

是学生还是不是学生

或者是说

我们可能只有其中一类的标签

但是没有就是

其他的就不是学生的这样一些标签

我们需要去比如说

在做分类的时候

我们可能只能拿到其中的一种情况

或者是说这个标签特别少

所以就是我们会把这个

整个的识别的话分成两块

有标签的识别和下面这种标签

比较缺失的一些情况的一些处理

这个我们会分两拍来说

先说一下

我们经常会碰到有标签的识别

可能会觉得说有标签的话

那就是做一个简单的分类就可以了

但其实说真的是有数据了之后

它就是一个万能的一些处理了吗

其实我们在实际的应用当中

会碰到各种各样的问题

比如说标签数据的来源

它可能是非常多种多样的

像这边列举了一些常见的case

比如说它来自注册

来自修改或者说

第三方的交换

或者是他的一些实名认证等等等等

各种来源我们都可能会收集到

用户的一些标签

那这些标签可能有一些互斥

或者说有一些数据不准

他的一个数据质量

需要我们去做一些评定

所以我们可能会去一些

比如说帐号的一些清洗

或者异常设备的一些处理

最常见的是第一步的一些

预处理的作用

但是即使是在处理完之后

我们仍然会碰到经常会有比如说

像多值标签比如像年龄的话

他可能有不同来源

他告诉你说

有的告诉你我是一个

比如说十九到二十四岁的这样一段

有的来源说他是一个三十岁以上的

或者是四十岁以上的或者十八岁

有的时候用户喜欢比如说Default

他会就是乱填一个数字

像这样的情况

在我们的数据当中也经常会发现

那像那种case的话

那我们这些标签是否还能使用呢

然后所以那这一部分的话

其实也需要说

我们去做一些算法上的设计

做数据的一个清理和选取

这里我们用到的其实是一个

威尔逊区间

它是一个比较常用的

一个投票的一个算法

就比如说一共有80个人投票

有60个人说他是属于某一种情况

还有一种投票

它可能是投票源比较少

它可能8个人投

6个人觉得说是某一种情况

那像这种不同情况下

我们到底觉得说哪一种投票质量

得到的数据是更好一些的呢

所以就是威尔逊区间

它就是其实是做一个随分布的

一个置信区间

用这个区间的宽窄来去界定说

我哪一个可信度会更高一些

这样的话我们会把比如说

不同的标签多标签的

这样不同的一些case

我们会选取它标签最集中标签字段

然后进行一个威尔逊区间的一个计算

通常我们都会是用它的一个下限的

一个置信区间来代表它的一个分数

然后最终用这样的一个方式

我们去选择出相对来说

数据集中且可信的这样的一些标签

在所有的数据当中去清洗出

你的高质量的标签

这个是你接下来去做

分类问题的一个基础

你只有标签你是准的情况下

你后面去做的所有的分类

去做模型才是有意义的

这个是在标签这一层的时候

我们会碰到的问题

然后再说一下

下面其实简单说

它就是一个从特征到模型

这样的一个处理的过程

那这边的特征呢

我列的只是有代表性的几类吧

其实每一个类别当中的特征

我们其实会开发出各种各样维度

不同力度不同时间跨度的

一些特征拿进去去实验

就是比如说像有一些特别小的特征

就比如说像最近看到的

比如说像

做比如说防沉迷的

一些识别的情况下

我看到有一些公司拿通过

他屏幕上点击的力度的大小

他都能拿去做

比如说男女性别的一个判别

因为其实你的每一个细小的动作

你的习惯都反映出

你的一个行为的一个偏好

我可能大力去点

或者手速特别快

它代表了你的

你的体力你的年龄段

或者是说你的性别

或者是说你平时的一些行为的偏好

其实用非常小的一些

行为的一些统计数据

都可以变成一个

非常有效的一些行为的特征

会加到你的模型当中去

当然这个也取决于

说你要做什么样的一些统计分析

像我们这里的话

比如说做男女性别

或者是说做一些身份的识别等等

都是通过非常小的特征

也会往里面加

然后比如说一些视频他的偏好

时长他的搜索词

他出没的地方等等

其实都是用这些不同维度的一个数据

去反映出这个人

平时的一个生活的状态

然后放到这个模型当中去

去做实验

当然这里我也说了有的特征

可能区分度想想也会比较高

比如说像我们在APP上面

比如说你使用的皮肤

像这么小的一个行为操作

它可能就已经反映出

它其实是一个非常女性化的一个皮肤

那它可能是偏男性向的一个选择等等

像这种非常小的特征

那他在模型当中是否

有效呢它是否加进去会有提升呢

这个地方其实我们加特征的时候

它需要去考虑它实际的一个区分度

区分度是我们会首选需要去考虑的

第二我们还要考虑

像特征在整个模型当中的覆盖度

如果它只有非常少量的样本

能够覆盖到那个特征的话

那其实这些特征加到你的模型

其实收益也是非常有限的

所以像这种特征的一些

选取和它的一些评估方式

是我们非常看中的

这个是在做的时候

需要非常非常地注意

假如说你已经建立了

比较完善的特征库的情况下

然后你再去走不同的模型

然后在这个基础上

可以再做进一步的一个优化和提升

比如说像现在的标签的话

它是一个分类的模型

那可能最简单最常用的

你用LR就可以了

它可以比如说接受

大规模的这些特征的输入

然后去做一个简单的分类

他也能达到一定的一个效果

但是这个模型的迭代

它可能在不同的阶段

你需要考虑的东西不一样

比如说像LR的

它简单是简单但是它很多特征

都需要你人工去一维一维的试

那它可能是

一些单力度的一些特征的效果

能在这个模型当中去体现

但比如说你不同模型的

特征的一些交叉组合

像LR就很难去做

你只能说人去理解了

再逐个往里面去加

这么说吧

比如说喜欢看岳云鹏

或者说喜欢看岳云鹏相声

或者说岳云鹏喜剧电影

像这样的一些组合特征

他可能反映出来的是

更细力度的一些特征

那如果你觉得说

这个组合对你的区分有效的话

那你可能会人工的去把这种组合

去做出来加到你的模型当中

它也能做进一步的提升

但是这种特征的组合和泛化

就非常地耗人力

那所以就是在FM这种模型当中

他就可以做到是

两两之间的一些特征组合

能够反映到它的这个模型当中去

它可以做到自动的去交叉去提取

去把这种特征给输进去

再往下的去的话就是

两两之间的交叉能够做进去

那你比如说你做一些深度的网络

然后wide deep之类的

它可以把更深层的一些交叉的

组合的一些结构

能够体现在你的模型当中

然后它可能还可以

比如说结合一些数的模型去不断去试

它在每一种调优的过程当中

对最终的这个模型的一个区分的准度

会有逐步逐步地提升

这个我们也在实践当中

去验证了这一些

这个东西你在线上会用

最终是不是你线下效果

最好的那个版本是不一定的

因为你的数据量非常大

你还要考虑你的运行的

一个效率和实际的一个收益

是什么样子的

那这个就是可能

学术和商用不一样的地方

那你最终可能会去选择说

一个稳定且效果是能够接受

且它能例行化之后

它的能够高效去运行的一些模型

是真正会我们用到线上的一个版本

但是线下

我们可能还去不断地去尝试

进一步的一些模型的

一个深度的迭代去优化

那从效果上来说

通常在标签识别这个问题上

其实加特征

如果你找到一些覆盖度不错

且区分度很高的一些特征的话

他的特征的这个效果的提升

可能是比你这个模型的提升

会来得更直接更明显

当然模型会在这个基础上

再进一步去做优化

去做提升也是能够在

最终的结果当中去看得到的

说到这个属性识别的地方

我也可以插一句

有的时候我们会觉得说属性识别

它就是一个简单的分类问题

但是在我们的实际操作当中

其实也有的时候不完全是这个样子

我举个例子比如说像

比如说男女性别

那你可能就是一个很明确的

一个二分类的问题

你是男还是是个女

但是我们比如说像年龄

年龄的预测的时候

其实就是我们会讨论说

这个到底是属于一个回归的问题呢

它还是是一个分类的问题

我们可能在商用的里面

就是说不需要说我

准确地预测这个设备后面

你是个22岁的人

还是是一个25岁的人

就是具体的某一个岁不是那么准确

但我们比如说商用里面经常会有

比如说有一个一个的年龄段

来表示这个人的年龄

大概是属于哪一个区块

比如说18岁以下的

或者19到24岁

或者25到30岁这样一档一档

然后它大致划分了比如说

青年中年然后老年等等等等

它大概划分了一些常用的年龄段

它划分段之后呢

你也可以认为它是一个分类问题

其实它这个分类问题

其实跟我们平时认为的男和女

是不一样的

其实它的这个类别的标签

其实它是有比较的

就是说它是有大小的概念在里面的

如果你纯粹就是把它

做成一个分类问题的话

那你可能在最终的效果上

会有他的一个影响

就比如说我把一个

第二段年龄的用户

如果是错判成第三段年龄

那他可能只是在边界上有一些出入

比如说这个人24岁

然后因为他的行为

可能跟第二第三段

都比较像他错分第三段

25到30岁的这一档次

可能影响并没有这么大

但如果说我把这个第二段的人

就判成了

比如说50岁以上的一个人

这样一个很大跨度的一个错误

在你的简单的分类模型当中

它认为这两个是一样的

但这个真的它的实际的一个

错误的性质还是有差别的

像这种

它的类别有顺序性

但是它的只采性

它的分类的话

那它这个效果可能并没有

真正的能做到最好

所以在这种问题上

我们会有很多版的改进

比如说把回归和分类去做一些结合

或者是说把你这个分类的模型的

它的一个惩罚函数做一些修改

比如说对它的一个判断错误的

离它的目标的距离考虑进去

然后如果是做回归的话

就是还有一个问题是

回归它可能只是告诉你

预测的一个它拟合出来一个值

但是它是没有执行度的

在做分类问题的时候我们在实际的

使用当中我们有一个执行度的概念

就相当于说

你认为他是比如说是第二段

他是一个有多大概率

他是属于第二段

那他在使用的时候可以做一些筛选

但如果是回归的话

他可能是你预测出某一个岁数

你也不知道到底是一个大概率的

还是一个小概率的事件

就是在这种使用上

我们会去考虑是说把这两者做结合

做一些投票

或者是修改这样子的一些尝试

所以就是在做分类的问题的话

我们可能还需要

去结合实际的业务场景去考虑

你的这个分类

到底怎么样做是真正好的

尤其是在做多分类的时候

你的分段或者说你的类别越多

你的准确率数值上也会差异很大

所以就是你需要具体去研究

你的比如说

分类的问题是出在哪些地方

然后再去做一些针对性的一些优化

这个我就是往外稍微做扩展一些

然后就是在标签的这个识别上面的话

我们还会碰到一些实际的问题

他并不是说我做一个分类

做完识别了

这个标签之后它就完全是可用的

像在大数据上你去做标签的时候

你还要实际考虑

它这个标签和实际的情况是不是相符

比如说你这个样本的获取

它可能是一个有偏的

比如说你在考虑说

收集用户的年龄性别的时候

可能你的用户群体的

它的倾向性就是年轻人会去注册

会经常去知道怎么样去做

互联网相关的这些

比如说注册登录这样相关的事情

老年人他就不会去做填写

他可能就是来访问

那这样的情况下

他可能造成你

数据的标签本身就会有偏

你的样本当中

可能是完全缺失老龄段

或者是说非常非常少

离真实的情况差别很大

那像这种情况下

也会使你的整个模型

对预测的话有比较大的影响

会使得你的预测的效果上

也会是说某一些段少的可怜

或者说根本就找不到那些段的人

那这种情况下我们怎么办呢

那我们这种情况下是会去

从第三方的一些参考的数据去做

做一些综合的参考

就是去融合出相对可信的一些

分布的一个符合人口学的一些

分布的一个参考

用这个去来做一个

训练数据的一个样本的

调权的这样一个作用

用这个数据调完权

能够自动化的产生调权的比例

然后去指导这个模型

使得你最终的出来的预估的

比如说全网站的这个人的一个

比如说年龄性别的分布

是比较符合客观事实的

而不会受你的这个标签的分布

都是比如说集中在年轻人的数据上

老年人就一点都没有

这个肯定是偏离实际情况的

像这种的在实际应用当中

也是非常非常重要的

然后另外呢

就是说我们在每天的预测当中

还会遇到的问题

比如说像这些标签的抖动

比如说你今天的这些行为

判出来比如说你是一个女生

然后可能过两天

比如说你的行为

比如说你看了一些男性题材的剧

或者是怎么样怎么样的一些行为

可能又把你判成一个男的

那这样子的话

你的标签这个抖动的话

那会使得你这个效果也没有办法

是一个肯定的一个效果

所以在这种标签的产出上

还需要比如说考虑像一些多天投票

等等这些修正的这样一个机制在里面

保证你这个效果

这个标签是真正的是长期可用的

这大概说的就是有标签的一些识别

我后面再简单讲一下

就是前面说的

那些无标签的这样的样本的

一些学习会是怎么样做处理

其实他主要是在

第一步会不太一样

就是比如说你有单标签

比如说你有儿童的标签

但是你没有谁不是儿童这样的标签

那你去把它做成二分类的时候

就没有办法去构建你这个模型了

那这种比较常见的解决方案呢

就是做一些PU learning

就比如说你有一部分的

你的正样本

然后你会去把

比如说随机找的一部分样本

你先拿进来做你的负样本

做一个简单的模型的训练

在你的这个随机的数据当中

你插一些你的正样本进去

然后用这个呢去表示说

你训练出来的这个模型

如果对这部分数据去做预测的时候

大概知道他应该把这个权重划到多少

你大概可以做一个简单的区分

然后用就是第一版训练出来的模型

就是对原来找的这个

随机的这个负样本

进行一次判别之后

你能去把它清洗出更大概率

更置信的副样本出来

用这样的置信的负样本

再和你原来的正样本

再去进行下一轮的迭代

去做一些就是分类模型

然后逐渐逐渐地清洗

然后可以把这样的一个单样本

或者少样本的这样一个问题

像滚雪球一样的

然后把它变成一个

比较靠谱可信的

这样的一个分类问题

这个是解决这种无标签

或者少标签单标签的这样的

一些解决方案的一个简单的介绍

大数据技术与应用课程列表：

李国杰：面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰：面向大数据的数据科学--课后习题

吴甘沙：大数据分析师的卓越之道

-数据思维方式的改变

-数据的假设与采集

-数据的准备

-数据的分析

-数据的解释与验证

-吴甘沙：大数据分析师的卓越之道——课后习题

董飞：硅谷公司的大数据实战分析

-个人介绍

-硅谷热门公司

-大数据简介

-大数据平台系统

-工业实践

-结尾

--结尾

-董飞：硅谷公司的大数据实战分析--课后习题

杨光信：数据系统架构

-数据系统架构历史

-从sql到nosql

-数据库系统实现变革

-负载融合

-数据系统架构成本

-杨光信：数据系统架构——课后习题

时磊：大数据网络可视化

-什么是可视化

-网络可视化

-大数据带来的新挑战

-大数据网络可视化的若干案例

-时磊：大数据网络可视化—— 课后习题

彭元：网络安全与大数据

-网络安全概述

-大数据安全分析平台

-大数据安全应用

-大数据平台安全

-彭元：网络安全与大数据——课后习题

钟义信：“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

-隐性智慧，显性智慧

-人工智能：能与不能

-人工智能的技术现状

-机制主义人工智能模型

-信息转换和智能创生定律

-人工智能与大数据

-钟义信：“人工智能与大数据”的创新研究——课后习题

吴军：数据为王和机器智能的时代

-什么是机器智能

-大数据的重要性及特点

-大数据中的因果关系与关键技术

-大数据与机器智能

-大数据思维

-讲座问答环节

-吴军：数据为王和机器智能的时代——课后习题

苏中：从大数据到认知计算

-大数据概述

-大数据相关新趋势

-大数据技术创新1

-大数据技术创新2

-大数据技术创新3

-大数据商业价值和前景

-大数据机遇和挑战

-苏中：从大数据到认知计算——课后习题

王新锐：金融大数据的法律实践

-金融大数据概述

-用户个人信息分类

-金融大数据法律框架

-实际案例和业界实践

-核心风险点

-王新锐：金融大数据的法律实践——课后习题

刘鹏：互联网变现与计算广告

-互联网与商业化

-大数据与计算广告

-计算广告介绍

-数据交易

-刘鹏：互联网变现与计算广告——课后习题

杨保华：区块链与数据科学

-从记账技术到区块链

-区块链确保数据真实性

-区块链确保数据安全性

-区块链衡量数据价值

-区块链的应用和总结

-杨保华：区块链与数据科学——课后习题

杨紫陌：个性化内容推荐

-个性化推荐系统

-推荐系统的召回与排序

-智能制作之个性化海报

-线上推荐系统其它要素

-杨紫陌：个性化内容推荐——课后习题

陆祁：用户行为大数据

-个人介绍及用户理解背景

-用户理解与用户画像

-案例1：用户属性识别

-案例2：自然人识别

-案例3：WOI与社交关系识别

-陆祁：用户行为大数据——课后习题

阳任科：大数据与AI的内容分析

-内容智能生态——数据、算法、应用

-大数据在内容分析的应用

-IP价值评估系统

-爱奇艺的剧本评估

-爱奇艺的智能评分

-阳任科：大数据与AI的内容分析——课后习题

王栋：美团外卖的大数据应用

-外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

-案例分析：智能营销场景的用户画像

-案例分析：智能助手场景的菜品画像

-王栋：美团外卖的大数据应用——课后习题

赵楠：商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

-美团旅行业务的用户画像构建

-用户画像的应用案例

-住宿需求预测问题

-营销补贴策略建模

-赵楠：商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧：美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

-互联网金融科技

-数据智能的三个案例

-技术展望

-陈彧：美团点评金融服务的大数据与人工智能——课后习题

毛波：阿里全息大数据构建与应用

-数据的进化历程

-阿里DMP平台介绍

-核心技术及案例

-数据应用

-毛波：阿里全息大数据构建与应用——课后习题

韩定一：在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一：在线营销中的竞价机制与数据价值——课后习题

龚笔宏：大数据在工业界中的经典案例分享

-竞价排名搜索

-主要技术问题

-点击率预测概述

-点击率预测实践

-龚笔宏：大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华：即时配送中的人工智能

-即时配送业务的背景及挑战

-案例1：订单分配策略

-案例2：供需平衡策略

-未来展望

-郝井华：即时配送中的人工智能——课后习题

[补充] 陈辉：数据驱动营销

-什么是数据驱动营销

-LTV留存分析

-RFM会员体系

-消费者微群画像

-渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-陈辉：数据驱动营销——课后习题

[补充] 艾小缤：大数据评价体系在金融、征信领域的创新

-金融大数据时代

-大数据客观信用

-我国的金融环境

-客观信用的实践

-应用案例与成果

-艾小缤：大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇：大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

案例1：用户属性识别在线视频

案例1：用户属性识别课程教案、知识点、字幕