当前课程知识点:数据挖掘 > 第4章 数据仓库和OLAP > 4.3 数据仓库实现 > 4.3 数据仓库实现
在完成数据仓库模型设计后
可以创建数据仓库
数据仓库系统是一个信息提供平台
从业务处理系统获得数据
并主要以星型模型和
雪花模型进行数据组织
为用户提供把信息加以归纳整理
并及时提供给用户
是数据仓库的根本任务
因此
数据仓库的建设是一个工程
是一个过程
微软公司的SQL Server
可以实现数据仓库
使用SQL Server
实现数据仓库的步骤如下
1 创建Analysis Services项目
2 定义数据源
3 定义数据视图
4 定义多维数据集
下面通过实例
来说明使用SQL Server创建数据仓库
点击文件
新建
新建项目
选择多维和数据挖掘项目
输入项目名称
点击确定
在右侧解决资源管理器中
选择新建数据源
点击新建
此处服务器名选择
sqlserver中连接的服务器名
可以点击右键属性查看
复制
粘贴到此处
数据库选择sqlserver自带的数据库
下一步
模拟信息 使用服务账户
确定数据源名称
数据源创建完成
之后创建数据源视图
点击下一步
在创建数据源视图时
需要在源数据库中
指定我们所需要的表或者视图
在本例中我们选择表
点击下一步
确定名称 最后完成
可以在创建好的数据源视图中
看到这5张表的关系
很显然是一个雪花型模型
之后对表名做出友好的命名操作
取一个简单的名字
看起来更加简洁一些
之后是维度的设计
点击下一步
使用现有表
这里的主表选择Date表
键列选择默认
点击下一步
选择维度属性
注意在维度设计器中
我们对应的Date表中有属性名称
启用浏览和属性类型可供操作
每一个属性都会有一个属性类型
选择完成之后
点击下一步
最后完成
我们可以右键选择浏览数据
对比一下数据库中的源数据来理解
之后是多维数据集的创建
选择新建多维数据集
使用现有表
InternetSales
作为视图中的表
度量值只选择我们所需要的度量值
点击下一步
最后完成
数据源视图中
可以看到事实表和其它维度表之间
存在着直接或者间接的关系
由于在创建多维数据集时
选择的事实表
只有相关的外键关联到这些维度表
默认情况下
为维度创建了部分的维度属性
我们可以通过拖拽的方式
继续为这些维度添加新的维度属性
再来看这三个维度
Due Date Order Date和Ship Date
最后我们可以部署到
本机查看创建好的多维数据集
-1.1 数据分析与数据挖掘
-1.2 分析与挖掘的数据类型
-1.3 数据分析与数据挖掘的方法
-1.4 数据分析与数据挖掘使用的技术
-1.5 应用场景及存在的问题
-第1章 作业1
-第1章 作业2
-2.1 数据的属性
-- 2.1 数据的属性
-2.2 数据的基本统计描述
-2.3 数据的相似性和相异性
-第2章 作业1
-第2章 作业2
-3.1 数据存在的问题
--数据存在的问题
-3.2 数据清理
--3.2 数据清理
--数据清理
-3.3 数据集成
--3.3 数据集成
--数据集成
-3.4 数据归约
--3.4 数据规约
--数据归约
-3.5 数据变换与数据离散化
-第3章 作业1
-第3章 作业2
-4.1 数据仓库基本概念
--数据仓库基本概念
-4.2 数据仓库设计
--数据仓库设计
-4.3 数据仓库实现
--数据仓库实现
-4.4 联机分析处理
--联机分析处理
-4.5 元数据模型
--元数据模型
-第4章 作业1
-第4章 作业2
-5.1 回归分析的基本概念
-5.2 一元线性回归
--一元线性回归
-5.3 多元线性回归
--多元线性回归
-5.4 多项式回归
--多项式回归
-第5章 作业1
-第5章 作业2
-6.1 概述
--频繁模式概述
-6.2 Apriori算法
-6.3 FP-growth算法
-6.4 压缩频繁项集
--压缩频繁项集
-6.5 关联模式评估
--关联模式评估
-第6章 作业1
-第6章 作业2
-7.1 分类概述
--7.1 分类概述
--分类概述
-7.2 决策树
--决策树
-7.3 朴素贝叶斯分类
--朴素贝叶斯分类
-7.4 惰性学习法
-7.5 神经网络
--神经网络
-7.6 分类模型的评估
--分类模型的评估
-第7章 第一部分作业2(研究生班级)
-第7章 第二部分作业2
-第7章 第二部分作业1
-8.1 聚类概述
--8.1 聚类概述
--聚类概述
-8.2 基于划分的聚类
--基于划分的聚类
-8.3 基于层次的聚类
--基于层次的聚类
-8.4 基于密度的聚类
--基于密度的聚类
-8.5 基于网格的聚类
--基于网格的聚类
-第8章 作业1
-第8章 作业2
-9.1 离群点定义与类型
-9.2 离群点检测
--离群点检测
-第9章 作业1
-第9章 作业2