当前课程知识点:机器学习概论 > 第四章 马尔可夫模型和隐马尔可夫模型 > 4.1 下午茶时间:微博的垃圾检测 > 下午茶时间:微博的垃圾检测
欢迎大家继续来上我们的机器学习概论课程
今天我们的咖啡时间跟前两周的模式略有不同
我们今天来一起讨论一个问题 要讨论什么问题呢
我们把它叫做微博上面的垃圾的检测
我们看到现在有非常多的微博客的服务
就是我们中文有微博 有各种微博
然后什么新浪微博腾讯微博等等
然后在国外有特别著名的Twitter
然后等等有非常多的微博
好第一我们先看看这个问题
当我跟大家说我们要做讨论的内容是
微博上面的垃圾检测的时候
可能大家要想想什么问题 什么叫做微博上面的垃圾
有同学可以举出例子来 比如说你可以以微博为例
你是不是能够给它一个定义
如果不好给定义的话
是不是能够给他一个比较好的分类法
就是以举例说明的类型说
什么样的你觉得这个应该是微博客上面微博上面的垃圾
我们如果有同学想到的话就可以提一提
其实我们这是某一年的期末考试题
你期末考试题就是假设要让你做一个微博上的垃圾的检测
首先让你回答第一个问题 什么是微博上面的垃圾的检测
或者说请你给出例子来 限定一下范围
你要解决的是什么问题 什么样的问题你认为是微薄上的垃圾
有同学想到的就可以提 不一定很完整
你哪怕想到一种类型就可以提到一种
你觉得很重要的 请讲
对 指发微博的目的不是给别人看的
目的是干什么呢
第二类就是刚才同学们提到的广告 非常麻烦的广告
比如说特价机票 你看其实我中间隐掉了一点点
你会发现它的ID不完全一样 然后地址也不一样
内蒙广东山东什么的特价机票
然后内容大的差不多
然后url的链接地址是一样的
第三类是这种推广 推广的和广告还略有不同
推广是一些活动的推广
有的时候甚至是这种微博平台上的这样推广
比如说有微博派福的活动 它不算是广告不算是那种垃圾
但它是一个非常多的信息的骚扰
其实你会看到它也是指的起到了同样的url
以及这种818招行卡旅游 这个其实更难一些
它的话题一样 但是它的内容不一样
它的中间的描述的文字是不同的 然后他的url其实是一样的
然后前面的这部分代码也是不完全一样的
然后还有圈粉的 就是希望主动想要用来圈粉
用来增加流量加好友的 比如说粉我一下会怎么样
等等这样的就是希望要求
我们这里列出来的是主要的几个大类四个大类
但并不是所有的类型 从刚才的这些例子来说
我们就可以进入第二个问题
如果你已经对我们要检测什么样的垃圾有概念了之后
下一个问题是你觉得有哪些特征可以帮助你来解决这个问题
什么样的特征会帮助你来找垃圾
很好 就是它的内容的重复的内容
好 还有吗
群发 就是你的 比如说你@的人
或者是ID
我们统一用ID来去描述 有多少个被@的ID
还有呢
对 关于用户的信息 比如说他有多少个关注者
还有吗
发的时间 这个是你觉得大概怎么用呢
OK 所以其实应该是他发的频率对吧
还有没有觉得其他有用的
大家可以想想这个环境
因为我们这个问题的定义是说他是在微博上面
所以一定你可以有一些微博上面特定的信息
比如说刚才有同学提到过上面关注者
这个就是微博上面特别独特的一些特征
还包括是ID @了多少人的这种ID这个都是特别好
还有什么在微博这个平台上面我们用的比较多的东西
点赞数非常好 就是我们有多少likes(点赞)
大家想想看我之前给出来的那个例子上面
还有哪些你一眼看上去就会觉得它应该是有用的
是否包含链接就是他的url
我们刚才看到有一些我们最后的那个例子
其实它连文本都不一样 对吗
但是总得有一些一样的东西
图片是吧 好 有多少个图片
非正常的字符
差不太多了 还有一个挺重要的大家没有提到
推文话题是微博上面一个特别重要的一个特征
是我们特别需要会看到的
我们刚才说它的文本的内容其实都有很大的差别
但是它有一样的推文话题
然后推文话题用来标识它是同一主题的内容
然后他的url都是一个特别明显的特征
经过这些特征了之后我们再问一个问题
就在这些特征上面他们应该包括哪些种不同类型
你可以把这些特征分成哪些种不同的类型
这个肯定是可以有很多种不同的区分的思路的
其中一种思路你可以说文本类的特征和非文本类的特征
比如说推文话题你也可以认为它是一种文本类
因为它表达出来是一个关键词
然后那么从是否文本类的是 然后还有内容它也是
这是文本类 其他的不是 就你这个特殊字符也可以认为是文本类的
其他不是了 其他可能是一些这种数数的计数类的
还有url是另外一种 所以你看我们有三种
从是否文本类和计数类的这种方式
你会看到它有三种不同的类型的特征
还可以有一种描述是说另外一种分类方法是
你可以说它是和微博的内容有关的
还是和这个内容的发布者有关的或者是它的元信息有关的
其中这个就也是三类
其中比如说推文话题 url和内容
然后还有有没有用特殊字符 有没有图片 这是和博文本身有关的
还有一类是和用户有关的 就是用户他的ID是多少
刚才的他@了多少人也是和他的文本有关的
然后用户自己他的关注者 就是发布者的信息
这是第二类的信息
第三类的信息是他的另外一些行为上的信息
比如说他在一定的频率内 就是发表的频率是什么样的
然后有多少人点赞他 这是行为上的一些信息
你看我们可以用微博的内容就是微博本身的信息
用户本身的信息以及行为上的信息又是另外一种分类方法
当你区分出这些的时候有什么用呢
因为下一步你就可以去判断一下信息获取的难度
因为不同来源的信息不同类型的信息
就意味着你可能要从不同的地方去获取
比如说如果是文本类的你和这一条微博出来就可以了
但如果是用户有关的 你需要除了知道这条微博内容之外
你还得知道微博的发布者是谁
然后再去看一看他的发布者的好友的关系
要跳到它的属性的界面上去看一下
有多少人他有多少个好友 哪怕对你抓数据来说你就要多走一步
更进一步的 如果你想看的是他发文章的频率的话
你就需要看到说我要抓这个数据
我得不止看到这个人的个人属性的个人介绍的界面
你还得进入到这个人的实际的界面
去抓他的历史上发过的文章 你才知道它的发布的频率
因此不同类型的特征会有不同类型的特征带来的难度
以及你需要对应后面要做的操作就是不一样的
我们今天的下午茶时间的讨论暂时就到这里为止
因为其实再接下来你要做的事情是去想
就是我要怎么获取这些数据 我们刚才已经讨论过了
你可能要获取三种页面的信息
一个是他当前的信息 他的个人属性页
以及他的历史的信息页等等
解决了怎么样获取数据之后你还要解决在这种情况
我用什么算法 才涉及到说算法的问题
最后你还需要涉及一个问题是我怎么评价
我用什么指标来评价我找的好不好
把这几步全都做完
你的就这一个问题的机器学习系统的设计才算设计好了
所以我们反复的从第一堂课就跟大家介绍
我们希望大家从机器学习概论课上学到的知识是
机器学习不简单就等于算法 你要涉及到问题的理解
问题的定义 数据的获取 数据的处理 然后特征的抽取
以及你的算法的设计 以及怎么样做评价
我们后面还会有更多的讨论的内容讨论前面的这些步骤
我们课程上会以考虑问题和讨论算法和评价为主
-1.1 课程介绍
--课程介绍(1)
--课程介绍(2)
-1.2 机器学习的背景
--机器学习的背景
-1.3 什么是机器学习
--什么是机器学习
-1.4 机器学习系统设计
-第一章作业
-2.1 决策树的基本概念
--决策树的基本概念
-2.2 决策树的实例和发展历史
-2.3 经典决策树算法ID3
-2.4 过拟合和前剪枝
--过拟合和前剪枝
-第二章作业
-3.1 下午茶时间:勒索软件
-3.2 后剪枝
--后剪枝
-3.3 决策树的改进和归纳学习假设
-3.4 贝叶斯学习的背景
--贝叶斯学习的背景
-3.5 极大似然假设、朴素贝叶斯和最小描述长度
-第三章作业
-4.1 下午茶时间:微博的垃圾检测
-4.2 马尔可夫模型
--马尔可夫模型
-4.3 隐马尔可夫模型
--隐马尔可夫模型
-4.4 评估问题
--评估问题(1)
--评估问题(2)
-4.5 解码问题
--解码问题
-4.6 隐马尔可夫模型的应用
-第四章作业
-5.1 下午茶时间:图灵奖
-5.2 假设评估
--假设评估(1)
--假设评估(2)
--假设评估(3)
-5.3 置信度和置信区间
-5.4 有限数据下的比较
--有限数据下的比较
-第五章作业
-6.1 下午茶时间:黑洞照片
-6.2 基于实例的学习的基本概念
-6.3 最近邻算法
--最近邻算法
-6.4 K邻近算法
--K近邻算法
-6.5 KD树
--KD树
-6.6 距离加权的K近邻算法
-第六章考试
-7.1 支持向量机的背景
--支持向量机的背景
-7.2 线性支持向量机
-第七章作业
-8.1 核函数支持向量机
-8.4 支持向量机总结
--支持向量机总结
-8.5 无监督学习简介
-8.6 层次聚类
--层次聚类
-8.7 K-means聚类和K-medoids聚类
-第八章作业


