当前课程知识点:大数据技术与应用 > 阳任科:大数据与AI的内容分析 > 爱奇艺的剧本评估 > 爱奇艺的剧本评估
可能上面大概的介绍一下
这个系统
实际上说白了
可能大家更想听的
是其中一些比较细节的
你像基础点怎么做
其实我是预备
给大家做两个基础点的分享
一个叫人名识别
一个叫情绪分析
但这块可能由于我们的内容太多了
我把情绪分析那块给砍掉了
可能就是讲点人名识别
其实说到人名识别这是一个
老生常谈的话题
大家可以看到
这是NER领域一个非常经典的
可能存在的时间比较长
但是我们这块会存在一些
比较特殊的场景 比如说
我们供应的人名识别
用一些新兴的影料
或者评论相关的
一些口语化的东西
而且的话句式一般都比较规范
或者比较口语化
而且他的人名一般都比较常规
比如说某某人
前面会是一些百家姓等等
或者是一些带身份
比如说某某老师
某某医生 等等
实际上这种人名是非常常规的
是比较好识别的
那么剧本和小说不一样
它首先属于带一点艺术的范畴
确实会很自由
可能还会有一些很自由的发挥
不同人的写作风格也不一样
人名是很任性的
我这里写的是任性
特别是大家喜欢看一些玄幻
和看一些修仙小说
某某有些什么昵称
像某某真人
像某某天尊
或者是有些什么昵称
就发现命名是很随意的
是很难被识别出来的
而且因此就是说
我们在训练语调
其实也存在一点困难
比如说我们要识别通用
场景的人名的话
我们拿一些新兴的影料
我们拿它做一些标注
或者做训练集
这样就搞定了
大家知道 我们做中文自然语言处理
最困难的一件事情 可能就是
训练语调和标注的这样的事情
这个事是很困难的
做剧本和小说分析
这个问题是翻倍的
我们甚至不能用一些新兴的影料
可能只能把它作为一个参考
然后我稍微带大家介绍一下
我们用的模型吧
首先我们是用深度模型
和非深度模型相结合的方式
甚至用
有监督和非监督相结合的方式
来做这个事情
比如说我们用了很近的
BiLSTM+CRF
就是双向长短记忆神经网络
像我们的CRF模型 这一块的话
比如说很进来的是分成三层
最下面那一层是做了一个WordEmbedding
就把字、字节进行编码
然后在预训练语言中
他的字或者词
他的上下的语境
来表示他的那个Embedding-Encoding
会产生一定的影响
也就是说 我们会用一些向量的距离
来表示一个语音之间相似的程度
说白了 就是用一个向量来表示一个词或者字
那么这个向量是怎么得到的
我们会用训练语聊来进行训练
这个训练语料中词语上下文语气
或者它最后的编码
会存在很大的一个这样的干扰
不能叫干扰
会有很大的影响
那么这样的话
如果一个上下文
都比较类似语气这样的词
实际上他们的距离是比较接近的
这个叫把对字或者对词进行编码
编码完以后
我们会网上输入到一个BiLSTM
这样的一个双向神经网络
然后让它进行学习
很多时候我们在最上面
会建一个CRF层
那么这个CRF层作用就是
我们会主要是建模
标签序列这样一些条件概率
这怎么理解
比如说一个姓字
一个人的姓后面
通常不会接一个地点相关的名字
比如说你后面绝对不会接
清华大学 绝对不会接
比如说清华后面
绝对不会接一个人名
基本上就是这样
CRF层主要是用来建模
标签序列条件干的
但是不排除一些bad case
当然这种概率是很低的
我们会把这个模型给筛掉
那么我们会看到
这是一个很经典的神经网络模型
BiLSTM+CRF
他这个模型在英文领域
人名识别率效果是非常好的
但是在中文这边效果稍微次一点
这是有原因的
比如说在中文语料这一方面
最现实的问题就是什么
就是分词
如果你分词错了
你在第一层做Word Embedding的时候
那你就错了
错误不停的会往上进行传递
包括神经网络
可能深度还比较深度
再往后 那它基本就歇菜了
所以说这是重要特殊的业务场景
首先要做分词
所以一般情况下
我们在工业上
我们一般做好不对词进行分词
我们直接对字进行做Word Embedding
那么这样也会存在一定的问题
对字做Word Embedding的话
首先它里面的训练量会加大
这是第一个
我们的训练集训练速度会变慢
另一方面就是说
实际上它丢失了一些信息
丢失了一些词的信息
比如说当一个上和一个海
经常出现了时候
他觉得一般都会以上海
北和京出现的时候
他们一般读的是北京
但是如果你用字输入的时候
这种词重要的信息就丢失了
这样也是一个弊端
总体来说 用字的话效果还是好一点
至少避免了分词这样一个错误
实际上继续刚刚说的这个问题
又用到另一个网络叫latticeLSTM
这个网络结构
是跟BiLSTM+CRF是非常类似的
我们可以看到右边这一块
这和示意图画的这些原先带C
可能就是我们左边这个网络
但是它多了一个东西
多了个什么东西
它多了个叫网格的东西
什么叫网格
下面我们可以看到
下面这些框框它叫网格
这个信息是什么呢
就是说
他仍然是以字作为编码
他的网络结构仍然是BiLSTM+CRF
但是
它会把一些词语的信息带进去
它是怎么做的
我们会基于一些预先
建设好的一些
比较完美这样一个词典
它会对词典做匹配
它会把相关的词给提出来
比如说我们到了那个市
我们的网络在一层往下走
走到市
走到南京市这个地方
它会再往前去匹配
把我们词典里面
以市结尾那几个可以组成词的
那些词给挑出来
这个可以叫南京
比如说到市的南京市
它觉得如果还有一个京市的话
它也会挑出来
但一般没有是吧
南京市
它会把这个词挑出来
把这个词同样它会做Embedding
然后做一个补充的信息
传到相似的一个网络
到后面这一块
还有个例子
比如说桥这一个
在桥这个地方
比如说网络已经到这一步了
它会发现它有两个词
比如说大桥它是一个词
还有个叫长江大桥
它也是一个词
它会把这两个词也会做Embedding
然后做一个额外补充的信息
输入到这个网络
但是可能大家会发现
比如说它为什么不会把江大桥
作为一个词说
因为那个字典里面没有江大桥
假如说 南京市长真的叫江大桥
那它也会把江大桥放在里面
但是它会计算这个概率
那江大桥在这个词
它会计算后面的那个语境信息
比如说后面是谁在吃饭
它想的是江大桥概率大一点
假如说是南京长江大桥后面通车的
它会觉得
肯定这一块应该分的是长江大桥
而不是南京市长江大桥
实际上它多了一个信息
它把成词的信息也作为编码
输入到网络
我们可以看到 实际上它是补充我们以字编码
这样一个缺点
所以说在中文领域这一块
那个latticeLSTM这个效果是比较好的
当然这个效果只是相对的好
相对BiLSTM+CRF
我们可以直观上也可以感受到
因为它多了一个信息
这两个是我们用到深度的一个模型
实际上这一块也是存在问题的
为什么这样说呢
就是说用深度模型会存在两个问题
一个就是训练语调的问题
我们需要找一些
比较合适的一些训练语调
另外一个问题就是做标注的问题
做标注的程度
依赖程度是非常非常高的
如果你标注说的不好
你这个效果是很差的
但是的话
我们会发现
这种剧本跟我们的小说
实际上它是有业务特点的
怎么说呢
首先它是一个长文本
相对于新闻来说
或者相对于评论来说
它的文本长度非常非常长
它是一个长文本
那么
在这个长文本里面的一些人名
一般情况下它会重现
它绝对不会是只出现这一次
我们结合这样的业务特点
实际上我们还用了被监督一个方法
叫镜子发现
你会发现
这种比深度的高大上的方法
效果更好一点
可能也是这样的一些业务原因
所以我今天可能在后面
我还会分享另外一个案例
不一定要追求非常高的技术
或者这个技术本身
有多么多么牛逼
实际上一些比较通常的一些
我们以前在大数据之前
用到一些数据上的模型
或者是一些传统模型
实际上在不同业务场景
不见得比深度模型差
我们第一次topic的字幕
可能跟大家分享推荐的时候
我不知道 他有没有讲一些这样的事
实际上在推荐领域
也会有这样的一些例子
说一些非深度的一些模型
不见得比深度模型差
比如说我们新词发现
新词发现这一块的话
他有两个重要的信息
首先这个信息熵表示
一个词的左边和右边的熵
熵是一个物理学的概念
可能大家在学校
对这些东西已经非常熟悉了
它表示一个信息的丰富的程度
那么在我们的文本里面
表达就是语境丰富的程度
一般情况下
一个词语如果是成词的话
它的左右语气越丰富
那么它是一个词语概率就越大
那么还有一个叫互信息
互信息表示什么
表示一个词内部聚合的程度
那么互信息越高
表示这个词
两个字之间
它的聚合度越大
那么它成词的概率也就越大
这两个指标是非常重要的
当然我们也做一些特征工程
一些方面的处理
比如说我们会把一些书跟剧本
作为单位
做一些对相关参数做一些归一化的处理等等
我们会对整个的一些数据进行分析
设计一些阈值等等
我们还会一些特征方面非常细节的事情
我在这里总结了一下就是说
各个模型之间的优点和缺点
我们可以看到
咱们的分词工具这一块
在这里也用到爱奇艺内部
或者是外部的一些
开源这样一些工具
那么可以看到
它的优点也是很明显
它很直接 可直接调用
它速度是非常非常快的
但是它的缺点也很明显
实际上它是讲究一个通用性
所以它在特定的领域
它的实验效果是比较低的
新词发现这一块的话
它的优点就是
它可以能够最大程度
利用小说 人名复现这样的特点
我们通常情况下我们会缺少训练语料
实际上它是一种非精度的方法
所以说我们通常缺乏训练语料
我们是可以用这个方式来做的
而且相比于一些学习方法
它可以更容易出一些非常规的一些人名
比如说一些修仙或者玄幻小说
里面这样的一些人名或者昵称等等
或者用外国翻译过来的一些名字
它很容易抽取出这样一些名字
当然它也一样有缺点
缺点就是
它不太适应比较响亮的
这样一个文本
比如说像那种单句或者评论
不太适合这样的一个场景
同时还容易识别出一些习惯用语
比如说像笑了一下
就是说呀 等等
这些词它的成词概率是很高的
你可能会把这些概率很高的(end ground)
错误的给识别出来了
那么的话 就是它的缺点就是
识别速度是很慢的
因为它是会对全部的
语料进行计算
计算一些
从概率统计上进行计算
所以说它是会反复迭代进行计算
这个训练速度
识别速度是很慢的
相对来说慢一点
然后我们可以看到
两个深度模型
像BiLSTM+CRF
当然我们都可以选择
用字作为单位进行编码
这样我们可以避免一个分词
带来的一个误差 比如说我们用分词工具
可能第一把就错的
然后我们也可以
同时利用到一些左右语境 这样的信息
那我们latticeLSTM就不用说了
它除了能够具备我们的
BiLSTM+CRF模型的优点以外
同时它还把分词作为一个软性的特征
串联到我们字向量里面
这样在一定程度上
也是利用了一些分词的结果
当然他们的缺点也很明显
比如说这两个深度的模型
都有一个共同的缺点
就是说对语料的依赖性很高
它的预测速度比较慢
同时我们的latticeLSTM我们可以看到
虽然它会把一些
词的信息带到里面
但是我可以看到词典的质量是很关键的
如果我们词典质量不好
效果不好
比如说我们把江大桥放到里面
可能江大桥就被识别出来了
这块是非常非常重要的这块
我们把这个《潜伏》 《红楼梦》
好像不是特别新鲜
和《诛仙》这几个小说
我们都摘出来一些片断
跟大家做一个例子
我们可以看到
用分词工具和BiLSTM
或者两个深度模型
这样我们就能发现
它的一些效果在这个地方
我们可以看到对于《潜伏》来说
这样一部小说
可能它比较特别
它可能人物都比较常规
都是一些跟百家姓比较相关的
所以我们的分词工具是比较好的
因为说实话
这个分词我们用
爱奇艺的内部的工具
实际上它有个功能叫做
也是有一个NER识别功能
它的底层模型
我跟他们交流过
他们直接用的比较经典的
Hanlp模型和CRF模型
实际上它也是用的
实体识别的模型
所以相对来说
它能够提取一些这种人名
当然实际上它讲究通用性
或者之前那两个人名
就是对一些比较常规一些人名识别
效果是比较的
但是我们可以看到
对一些《红楼梦》
《红楼梦》里面
比如说像这种凤姐 薛姨妈
这种非常见的人名
实际上它效果是比较差的
特别像《诛仙》
这种修仙的小说
基本上它的效果是非常差的
BiLSTM+CRF我们可以看到
我们性能发现我们的效果是最好的
这里好像有一些是标绿色的
这标绿色的表示
我们其他几个模型发现
我们新词发现这个模型
是没有发现一些人名
比如说像周亚夫 汤四毛等等
他为什么会这么喜欢
因为我们的新词发现
实际上是基于概率统计
这样知识来做的
那么这些人名相对来说
是比较打酱油的一些人名
非常非常配的一个配角
可能这一块的话
他的出现率是非常非常低
所以这一块的话
新词发现是发现不了的
但是我们可以发现
凤姐 金桂 妙玉一样
这种非常多的人名
这一块的话可能有
标注和训练语调的原因
像我们深度模型是很难发现的
所以说我们的深度模型
它能识别出一些
边缘的一些小角色
这一块的话
它从基于概念统计来说
由于一些指标比较差
所以他不能被识别
但是深度学习基于标注来做的
它也能识别出这样的
但是新词发现它的特点是
能发现一些非常怪的一些人名
但是我们可以看到现在发现的话
它也会存在一些bad case
首先它会存在一些错判
比如说它会把微微一笑弄了一下
看了一眼
明显看的是一些动作短语
但有些动作短语经常在文中反复出现
它的成词概率是非常非常高
所以他们会误判成人名
而且它还会漏判
就是刚才我说了
比较边缘的一些人
如果这个人像吴声像文利子新
这样一些角色
他会判定为一些非人名
刚才我说的
这些人物都是一些配角
都是一些比较边缘的配角
出现了那种概率是比较低
所以说这种新词发现识别不了
所以说我们基于
各个模型的优点和缺点
咱们最后最好是
融合两个深度的模型
这样我们信息和发现非精度一个方法
当然我们融合我们也做一些工作
比如说我们做业务层的过滤
我们做的一个算法的融合
我们算法层上面还会有两层
最后把各个算法一个效果进行融合
最后得到这样一个结果
我们可以看到
拿我们的分词工具
我们一个综合融合模型
得了有效的对比
我们可以看到
我们的效果实际上是很显著的
我们拿一些小说进行测试
其实我们的准确率
大概在97%左右
我们的召回率是在90%左右
但是这个是可以调的
但如果你希望把召回率进一步提高
我们可以把准确率降低一点
实际上 降低一点也没有太大的问题
为什么说呢
我们对剧本和小说来说
我们只要识别出很主要的人物就行了
那些边缘的打酱油的角色
识别错了也没什么太大的关系
因为我们最后输入到我们算法的时候
这部分人物是不会我们算法拿来利用的
我在前面说过
我们会对人物进行分析
我们不可能像一部《红楼梦》
有成百个人物
我们不可能把成百个人物做细
这样是没有任何意义的
我们可能只会分析一些最主要的人物
来评价他的一个剧本质量
那么在这种情况下
咱们的准确率稍微低点是没有关系
那些配角被漏掉
也是没有什么问题
但是只是这么一说
但是我会把效果这样说
我们的准确率 识别率还是挺高的
可以说对主要人物的识别率
达到了99%以上
我们不敢说百分之百
因为这样好像不是特别的客观
毕竟我们的测试集是有限的
至少达到99%以上
当然的话
我们后续的话
还会有一些比较多的拓展性的工作
比如说我们会把小说和剧本
做一些主要的语料
我们会对一些词进行提取
来扩充咱们的词典
如果我们把词典扩充好了
我们深度模型一把就出来了
第二个思路就是
实际上我们会存在缺点
可能大家对这个事情不是特别了解
实际上在小说中
或者是剧本中 有个非常普遍的现象
就是一人多名
比如说像郭靖 他叫郭靖
他也叫靖哥哥
她叫黄蓉 她还叫蓉儿
这种情况下
一般的话我们会把她判断是两个人
这样是很尴尬的
包括现在实际上
我做业务
这个问题可能大家都存在这种习惯
像咱们已经做到第一把
咱们怎么做的 咱们就是说
会把应该像一人多名化
虽然他是两个名字
但是可能经常跟他有交集
比较紧密的哪些人
是比较相似的
我们会把这个人
构建一个这样特征
比如说他是跟谁经常在互动
他的经常接触这样的武侠小说
他应用到这样的像武器
他的武功呀
比如说郭靖和靖哥哥
都说在用降龙十八掌
他经常跟黄蓉交集比较多
或者他经常住在相同的地方
我们会做一些特征的处理
我们会识别出这两个人是同一个人
但是这种一样会bad case
但至少我们会在一定程度上
解决这个问题
但现在这个问题
还没有特别很完美的完整的解决
我觉得我们爱奇艺是做得比较好的
上面讲的比较多的
实际上还想跟大家分享一个
跟那种情绪识别
这一块叫情感识别
可能基于篇幅的原因可能就没有
我把整个都去掉了
因为时间太长
所以我可以大概说一下
我们的情感识别
可能跟通常的情感识别
可能还缺的比较大
通常做情感识别
比如说你会对一条评论
或者一条弹幕下
你会判断这是正向还是负向
或者中性
这样在我们这里的话
可能远远不止这些
首先我们的情感
需要分得比较细的地方
比如说我们会喜怒哀惊恐等等
我们会分成七种情绪
咱们是一个回归模型
我们会有它的一个程度
并且我们还有一个综合的情况这是第一个
第二个我们会对人物进行判别
而不是对整个一段话
比如说在一段话里面
有张三把李四打了一顿
这里面出现两个人物
张三可能他的情绪是高兴
因为他比较爽
他把别人打了
那李四可能就比较惨了
他的情绪识别可能就比较悲伤
所以我们是对目标人物进行情绪识别
还不是单纯对一句话进行识别
这是第二个
第三个就是在剧本里面
我会看到一个人物的情绪
他可能有延续性
他对上面很多喜欢的话
是对他的情绪是有影响的
比如说可能一个这样的场景
两个人同时在桥上
在往下跳
如果前面是被人在追杀
他们跳下去是比较惊慌
如果两个人是在做游戏
跳下去那可能就是惊讶
情绪是不一样的
可能受前面的干扰
比方说这块是跟通常
情感识别的话
差别是比较大的
受篇幅的原因
我就不在这里展开给大家讲了
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接