
课程围绕在大数据时代下,对大数据人才的迫切需求及技术要求,重点帮助学生们通过课程学习,掌握的大数据思维、大数据存储、大数据处理、大数据分析和大数据应用等五项技术展开教学。核心内容涵盖学术界技术前沿(依托国家自然科学基金、国家重点研发计划项目和国外高校专家资源),并体现工业界最新技术实践(依托企事业项目、知名企业技术专家资源)。课程结合工业界场景设计了多项大数据实践作业考核,提高课程挑战性,促使学生掌握大数据系统设计、开发和验证能力,进而具备解决领域的复杂工程问题的素质。
开设学校:北京邮电大学;学科:工学、
课程围绕在大数据时代下,对大数据人才的迫切需求及技术要求,重点帮助学生们通过课程学习,掌握的大数据思维、大数据存储、大数据处理、大数据分析和大数据应用等五项技术展开教学。核心内容涵盖学术界技术前沿(依托国家自然科学基金、国家重点研发计划项目和国外高校专家资源),并体现工业界最新技术实践(依托企事业项目、知名企业技术专家资源)。课程结合工业界场景设计了多项大数据实践作业考核,提高课程挑战性,促使学生掌握大数据系统设计、开发和验证能力,进而具备解决领域的复杂工程问题的素质。
-1.1 大数据概述
-一、概述
-2.1 HDFS相关概念
-2.2 HDFS体系结构
-2.3 HDFS关键技术
-二、分布式文件系统HDFS
-3.1 Hbase的基本原理
-3.2 Hbase的数据模型
-3.3 Hbase的实现原理
-3.4 Hbase的访问方式
-三、HBASE数据库
-4.1 MapReduce相关
-4.2 MapReduce编程模型
-4.3 MapReduce示例
-4.4 MapReduce内部原理
-四、大数据处理MapReduce
-5.1 Spark简介
-5.2 Spark框架
-5.3 RDD概念理解
-5.4 RDD的转换与操作
-5.5 Scala语言
-5.6 Spark SQL简介
-五、大数据处理框架Spark
-6.1 Apache Kylin出现背景
-6.2 OLAP多维分析概念
-6.3 Apache Kylin概述
-6.4 Apache Kylin的Cube立方体
-6.5 Apache Kylin分析流程
-六、数据仓库与Kylin
-7.1 图的基本概念
-7.2 图计算简介及挑战
-7.3 并行图计算模型
-7.4 典型图计算框架
-7.5 Spark GraphX介绍及计算实例
-七、图计算
-8.1 数据挖掘简介
-8.2 数据挖掘基本任务
-8.3 数据挖掘典型算法
-8.4 数据挖掘应用
-八、数据挖掘应用
长期从事大数据与云计算、人工智能服务领域的科研与教学工作。在国内外期刊会议累计发表知识图谱、自然语言处理、深度学习、大数据及云计算方向SCI和EI检索论文102篇。申请国家发明专利申请88项,累计授权23项。起草发布国家及行业标准22项。申请计算机软件著作权登记44项。 开展数据与知识双驱动下的深度学习模型算法研究、大数据中台系统研发、企业级大数据及AI系统落地应用,以及相应的学科建设和人才培养。2018年获得北京邮电大学首届“优秀研究生育人导师”称号。 研究生主要培养方向: 1)知识图谱及自然语言处理算法研究: 基于深度学习的自然语言处理,知识图谱及图神经网络,基于知识图谱的自然语言理解、信息检索、多轮对话、多模态语义处理的算法模型研究;以及人工智能技术在新兴交叉领域(金融科技、医疗健康等领域)研究,以及算法模型应用实践。 2)企业级大数据中台技术研发: 面向互联网、电信、金融、医疗、科技服务业等行业,开展跨域大数据集成、大数据治理、大数据混合计算(混合交易/分析处理HTAP、实时计算)、大数据分析与挖掘、大数据可视化技术的研究及实践。
北京邮电大学托举人才(2019-2022年),在国际知名期刊和国际会议上发表论文60余篇, 2012年以第一完成人身份研究公有云平台资源调度机制的成果被20余家国际知名媒体报道,包括: o BBC News o The Register o Communications of the ACM o ACM TechNews 2012年 IEEE CCIS 大会最佳论文奖 2013年IEEE MASS 大会最佳Poster第二名
2002年中科院计算技术研究所博士毕业,承担本科(10年)和研究生(6年)课程各1门,多年从事面向复杂网络数据集的智能信息处理研究,负责和主研多项国家自然科学基金、国家科技支撑计划、国家高技术研究发展计划、国家重点基础研究发展计划项目,同时承担了电信社会网络分析、科技文献可视分析、数据密集型计算等方面的横向课题。在复杂网络、数据挖掘、海量数据并行处理、可视分析、电信客户关系管理等方面发表近百篇论文。