大数据不论在研究还是工程领域都是热点之一,算法是大数据管理与计算的核心主题。本课程试图简要介绍大数据计算中涉及到的基本算法设计方法。适用于大数据研究与开发人员,也适用于数据科学爱好者。
开设学校:哈尔滨工业大学;学科:计算机、
大数据不论在研究还是工程领域都是热点之一,算法是大数据管理与计算的核心主题。本课程试图简要介绍大数据计算中涉及到的基本算法设计方法。适用于大数据研究与开发人员,也适用于数据科学爱好者。
-1.1大数据的定义与特点
-1.2 大数据算法-求解大数据上计算问题的过程
-1.2 大数据算法-大数据算法的定义
-1.2 大数据算法-大数据算法的特点与难点
-1.3 大数据算法设计与分析
-第一讲 讨论
--html
-2.1 亚线性算法的定义
-2.2 水库抽样—空间亚线性算法
-2.3 平面图直径—时间亚线性计算算法
-2.4 全0数组判定—时间亚线性判定算法
-3.1 数据流中频繁元素-基础知识
-3.1 数据流中频繁元素-算法与分析
-3.2 生成树权重(一)
-3.2 生成树权重(二)
-3.3 数组有序性判定
-4.1 外存存储结构与外存算法
-4.2 外存排序算法(一)
-4.2 外存排序算法(二)[可选学]
-4.3 外存查找树
-5.1 B树(一)
--919EE86F7DC69FF19C33DC5901307461
-5.1 B树(二)
--393761AC056F5D359C33DC5901307461
-5.2 KD树
--32820C1B37FEFE1A9C33DC5901307461
-6.1 表排序及其应用
--393BAACF1778A3F39C33DC5901307461
-6.2 时间前向处理方法
--27FDEFA7B413E3B99C33DC5901307461
-6.3 缩图法
--1AE1736EA167AE489C33DC5901307461
-7.1 MapReduce概述
--7DF309FABAA7FB4D9C33DC5901307461
-7.2 字数统计
--36936788DF4A1B9C9C33DC5901307461
-7.3 平均数计算
--2F8D75D290C0FDF79C33DC5901307461
-7.4 单词共现矩阵的计算
--FF5FF0F21EE4EF1F9C33DC5901307461
-8.1 连接算法
--A8F0B6548A7E028D9C33DC5901307461
-8.2 图算法(一)
--1994FB2CCFBF6B8F9C33DC5901307461
-8.3 图算法(二)
--877BEE132EF027549C33DC5901307461
- 9.1 基于迭代处理平台的并行算法
--96F9CE2D80A738199C33DC5901307461
- 9.2 基于图处理平台的并行算法
--19306DE431ACDD879C33DC5901307461
- 10.1 众包的定义
--4FA025B31EBDF0229C33DC5901307461
- 10.2 众包的实例
--8B68EC38515A21519C33DC5901307461
- 10.3 众包的要素
--Video
- 10.4 众包算法例析
王宏志博士,2008年于哈尔滨工业大学计算机软件与理论专业获得博士学位,美国加州大学欧文分校博士后。现任软件与理论学科副教授,博士生导师。研究方向为大数据管理、Web数据管理与挖掘、数据质量管理和图数据管理。发表学术论文140余篇,出版中文学术专著《XML查询处理》和英文专著《Innovative Techniques and Applications of Entity Resolution》,撰写3篇专著章节,拥有3项软件著作权,完成经典教材《算法导论(第三版)》最后5章的翻译,其论文被SCI/EI检索60余次,他人引用300余次,其中5篇论文发表于顶级国际会议上。获得微软学者(亚太地区40人获奖)、中国优秀数据库工程师(全国10人获奖)、IBM博士英才(大中华区8人获奖)等称号,“海量数据计算的理论和技术”获得黑龙江省自然科学奖1项,其博士论文“XML数据查询处理技术的研究”获得哈尔