当前课程知识点:计算机文化基础 > 第10课:从信息为王到选择为王 > 实践:Aminer学术搜索 > Aminer介绍
大家好我叫张晋
是清华大学计算机系博士三年级的学生
今天非常荣幸
可以向大家介绍一下
我们实验室开发的一个系统
它的名字叫Aminer
然后这个系统
主要是一个面向研究者
的学术研究网络
搜索与挖掘系统
那这个系统是由清华大学
我的导师也就是清华大学唐洁老师的团队
自主研发的一个系统
那Aminer呢
它是融合了数据挖掘
社会网络分析
语义搜索等相关技术
通过抽取和集成
学术论文
研究者语义信息
建立起研究者互相之间的社会网络
提供有效地语义搜索与挖掘服务
比如说包括专家发现
会议分析
关系推断
个人信息搜索
研究兴趣分析
学术能力评价
审稿人推荐等的功能
我们的系统自从
2006年上线以来
已经从全球范围内
搜集了大概七千多万篇学术论文
以及三千多万个研究者的信息
并且吸引了
来自220多个国家
总共六百万个独立IP的访问
目前我们的系统
被公认为
是世界上最有代表性的
学术研究网络搜索与挖掘系统之一
我们已经为全球最大的学术期刊出版社
Elsevier
提供了审稿人服务
并且为数据挖掘顶会KDD
提供了专家信息查询服务
我们的系统在国内也为
中国自然基金委
以及中国国家科技部
提供了专家搜索与评审人推荐等功能
那现在我就来简单介绍一下
我们系统的一些核心功能
首先你作为一个初级研究者
你可能对某一个研究领域比较感兴趣
比如说
你现在对
Data Mining这个领域感兴趣
那么你可以在我们的系统中
输入Data Mining这样的关键词
点击搜索按钮以后
我们的系统可以为你
推荐出Data Mining这个领域的一些
比较权威的专家
比如说来自于美国UIUC大学的
韩家炜老师
以及也是同样来自于美国的Philip教授
那除此之外
如果说你是一个本科生
你希望在读研究生
的时候能够出国深造
你可能希望寻找一些
导师
而你自己会对导师有一些
有一些倾向性的选择
比如说你希望去加拿大留学
你可以用Location这个条件进行过滤
选择加拿大
可以看到我们为你推荐的第一个老师
是来自于加拿大的Jian Pei老师
或者说你可能对老师的性别
有所倾向
你可以用性别进行过滤
比如说你选择女性老师
那我们就可以推荐出
Data Mining领域的女性老师
大家注意到有一些老师的
头像并没有呈现出来
这因为我们在集成的时候
有些老师的主页并没有找到
所以说
并不是每一个老师的头像都是全的
那除此之外你可以看到
在我们系统的右边
会为你呈现出有关Data Mining
这样一个概念的
知识解释
同时呢还罗列出了
有关Data Mining的一些上位词
也就是说我们为你解释了
Data Mining
可能是来自于哪一个
更高级的领域
比如说Data Mining是属于
Artificial intelligence
然后我们还推荐了一些
相关的概念
比如说Data cleansing
还有Distributed computing
这些都是Data Mining的一些相关的研究领域
同样在底下还为你推荐了
中文的类似的
知识扩展
你可能注意到我们的系统是以英文为主
这是因为
基本上比较权威的老师
他们发表的论文
都是面向国际化的
都是发表在国际顶级的会议或期刊上
以英文论文的形式呈现出来
所以说用英文来搜索
能搜索到更加准确的信息
好这时候你可能对
韩家炜老师比较感兴趣
你可以点击他的姓名
进入他的一个个人主页描述
在这个主页上
你可以看到有关他的一些基本信息
再往下你可以看到
我们为他挖掘的一些研究兴趣
比如说Data Mining
Information Extraction
Data Analysis
Machine Learning 和Text Mining
你可以在这里
只选择某一个领域
比如说你把其他的关键词都擦掉
只剩下Text Mining
你也可以看到Text Mining
随时间变化的一个趋势
你就可以发现
大概在2000年之前
韩老师做过一段时间的Text Mining
然后在2008年左右之后
到现在
又把比较多的精力
放在了Text Mining 之上
在左边你可以看到一个雷达图
鼠标移到上面
就可以显示这个雷达图上
关于各个指标的一些具体值
这个雷达图其实从不同的角度
反映了一个研究者的
学术能力
比如说Citation number
比如说H-Index
他主要反映了
别人对当前
这个研究者的一个引用情况
而Diversity
他主要反映了这个研究者
与其他一些
研究机构的合作情况
是否多样性
假如说一个人它
跟不同的研究团队进行合作
那么他的
Diversity的值就比较高
那在右边
我们为你呈现的
当前这个研究者
它的个人合作网络的一个情况
这里不同的颜色
反映了不同的关系类型
比如说红色
反映了与当前研究者是老师的关系
那橙色反映的是当前研究者的学生
绿色反映只是一般的合作关系
点击左边的一个标签
我们会为你推荐与当前研究者
相关或者叫相似的一些研究者
因为我们猜测
你可能同样对这些相似的研究者
也会感兴趣
再往下你可以看到
当前研究者发表的所有论文
这里可以按照年
进行查找
也可以按照引用次数进行查找
那对于一篇论文
你可以点击它
进入到这个论文的详细页面
在这里你可以看到
这个论文的PDF文件
你还可以对它进行下载
如果你是登录用户的话
你可以对它打分
然后加一些tag
或者收藏等功能
那回到研究者个人主页
在论文的上方有一个about标签
在这里我们提供了当前这个研究者的
详细个人信息
比如说
他的传真
他的Email
他的地址
他的个人主页
你可以通过这些信息
联系到当前的研究者
那还有他的一个个人简介的详细描述
再往下有他的教育背景
和工作经验
这两块内容
是我们融合了
LinkedIn的数据
自动将它识别
并集成进来的
在Paper的下面
有Lecture
这一块内容是我们融合了
Video Lecture的内容
在Video Lecture上的
所有报告的视频
都集成到了我们的系统中
再往下一个标签是Patent
是我们融合了来自
USPTO的
专利数据源
把当前研究者在
USPTO中的专利信息
也集成到了我们的系统中
这就是有关我们的系统如何
根据一个关键词
查找相关的专家
并且深入到这个
专家的个人主页
以及他发表的论文
专家的个人合作网络
等方面的介绍
那接下来我会为同学们
展示另外两个比较有趣的功能
首先你可以回到我们的主页
拉到系统的最下端
你可以看到
有一个Organization Rank
和Conference Rank的功能
通过这两个功能
你可以查找你感兴趣领域的
Organization的排名
以及Conference
或Journal 的排名
比如说你点击Organization Rank
你可以看到
这些机构的总体排名
然后如果你对某一个领域感兴趣
你也可以选择Data Mining
Database这个领域
点击以后你就会看到
所有的机构排名
我们这里还对机构进行了分类
比如说你可以只关心
大学排名
你会点击University
这里就只列出了
有关大学的排名
那在这上你还可以根据自己感兴趣的指标
比如说Paper number
First Paper number
Citation number 等
进行重排名
同样你可以只关心
一些研究机构
或者是一些公司的排名
大家注意到这里的类别
我们目前只作了
有关计算机领域的一个分类
那么我们将来
会把它扩展到一个全领域上的分类
同样的你可以点击
Conference Rank
在这里你也可以
对某一个感兴趣的领域
查看它上面的
相关会议和杂志的排名
比如说Data Mining领域
权威会议KDD
以及权威杂志TKDE
就排在比较靠前的位置
好以上就是有关
Aminer的核心功能的一些介绍
希望能对大家有所帮助
谢谢大家
-由一个短片引出......
-梳理IT产业大脉络(上)
-梳理IT产业大脉络(下)
-你的第一门计算机入门课
--课程介绍及要求
-实践:图像处理入门
--实践小作业要求
--操作前的几点准备
-第1课习题作业
-第1课导学帖
--第1课导学帖
-现代计算机为什么是电子数字的?
-二进制与十进制有什么区别?
--了解二进制
-为什么莱布尼兹没有认识到二进制的重要性?
--与、或、非
-从ENIAC到现代通用计算机
--新材料带来新发展
-摩尔定律会失效吗?
--摩尔定律失效
-讲座:计算机世界中的巨无霸
-参观:感受世界巨无霸(太湖之光)
--神威太湖之光简介
--探秘神威太湖之光
-参观补充:走进济南国家超算中心
--走进国家超算中心
-实践:我的计算机有多快?
-第2课习题作业
-第2课导学帖
--第2课导学帖
-数码相机是如何“计算”出一张数字照片?
--如何拍摄彩色照片
-认识图像数字化过程中的采样和量化
--采样和量化
-计算机是如何感知声音波形的?
--声音量化三要素
-换一种思路来数字化文本信息
--字符集的发展历程
-实践:常用网络资源下载
--常见下载方法介绍
--常见文件类型下载
- 第3课习题作业
-第3课导学帖
--第3课导学帖
-软件解决的目标是什么?
--软件的目的是什么
-我们使用的软件是怎么来的?
--软件是怎么来的1
--软件是怎么来的2
-操作系统拥有什么样的神力?
--操作系统的演变1
--操作系统的演变2
--CPU的管理调度
--虚拟存储技术
-访谈:如何成功研发一款手机APP
-实践:如何利用注册表进行系统优化
--注册表概述
--注册表与信息安全
-第4课习题作业
-第4课导学帖
--第4课导学帖
-数字存储前言
--梳理数字存储历史
--磁、光存储介质
--半导体存储介质
-怎样在存储介质上表示1和0?
-怎样从存储介质读取1和0?
-如何找到所需的数据?
-实践:文章排版基本技能
--引言
--中文输入
--图文混排
--页面设置
--利用表格布局标题
--分栏和首字下沉
--设置页眉与页脚
--设置插图润色排版
--LaTeX入门
-第5课习题作业
-第5课导学帖
--第5课导学帖
-演示文稿制作准备
--操作前的几个概念
--实践前的环境准备
-制作演示文稿
--设置超链接按钮
--设置超链接文本
-作品赏析
-第6课习题作业
-第6课导学帖
--第6课导学帖
-联网目的和资源共享模式的变迁
--资源共享模式
--异构网互联
-物联网连入互联网
--互联网与因特网
-访谈:PC在智能穿戴生态系统中的定位
--对话联想(上)
--对话联想(下)
-参观:联想创新中心掠影
--探秘联想创新中心
-第7课习题作业
-第7课导学帖
--第7课导学帖
-从网络组织来描述计算机网络
--计算机网络的定义
--网络软件
-从功能角度来认识计算机网络
--网络体系结构
--IPv4(上)
--IPv4(下)
--IPv6
-实践:网络不通怎么办
--网络连接
-第8课习题作业
-第8课导学帖
--第8课导学帖
-认识图像传感器
--认识图像传感器
--图像传感器的应用
--图像传感器的市场
-图像传感器的应用
--在汽车中的应用1
--在汽车中的应用2
--物联网中的应用
-了解图像传感器技术
--图像传感器的技术
-图像传感器的挑战
--问题与挑战
-讲座:如何在大数据中精准生活
--走进大数据
--生活中的大数据
-实践:HTML入门实践
--HTML作业要求
--HTML基本标记
--综合样例(上)
--综合样例(下)
-第9课习题作业
-第9课导学帖
--第9课导学帖
-认识搜索引擎
--这就是搜索引擎
-信息检索背后的关键技术
--海量数据的获取
--搜索结果排名
-搜索引擎的未来
--情境感知的搜索
--社会化搜索
--智能搜索
-实践:Aminer学术搜索
--Aminer介绍
-第10课习题作业
-第10课导学帖
--第10课导学帖
-信息安全的基本要求
--早期的计算机安全
-新型的网络攻击有哪些
--信息泄露
--移动安全
-未知攻 焉知防
--未知攻焉知防
--未知攻焉知防2
--信息加密
--安全防范原则
-实践:Excel实践
--实例操作
--实例操作2
--实例操作3
--绘制图表
-第11课习题作业
-第11课导学帖
--第11课导学帖
-回顾与展望
--回顾与展望1
--回顾与展望2
--回顾与展望3
--回顾与展望4
-什么是计算
--什么是计算
-访谈:信息技术交叉应用
--对话风投专家1
--对话风投专家2
--对话风投专家3
-嘉宾分享:闲谈数字产业创新
-第12课习题作业
-第12课导学帖
--第12课导学帖