当前课程知识点:多媒体技术基础 > 第七章 多媒体同步与数据封装 > 7.1 多媒体数据及其时域特征的表示 > 7.1 多媒体数据及其时域特征的表示
同学们好
欢迎大家学习
多媒体技术基础课程
这一章
我们学习多媒体同步和数据封装
那么多媒体同步
是一个
跟时间相关的这样一个概念
我们一般指的是多媒体对象
它的时序关系
广义的多媒体同步
还包括媒体对象
它们之间的空间内容之间的关系
那么数据分装指的是
多媒体数据
在进行传输和存储之前
如何对它进行包装
包装的目的是为了让它适应
相应的传输和存储的要求
那么对多媒体数据
在封装的同时
要考虑它的同步关系的封装
所以说这也是我们把多媒体同步
和数据分装放为一个章节
来介绍的原因
多媒体同步与数据封装
所涉及到的主要问题
我们可以来看一下
它其实涉及到的就是两方面的问题
一个是如何表述
多媒体数据的时域特征
再有就是
如何在处理多媒体数据的过程中
来维持不破坏这样一个时域特征
也就是说保证它的同步
那么在处理的时候
包括所有针对于多媒体数据的
各种技术上的处理
我们在进行
持续特征维持的时候
所基于的机制
我们把它一般叫做同步机制
那么这一章所涉及到的内容
有多媒体数据及其时域特征的表示
连续媒体同步的基本方法
分布式多媒体系统中的同步
广播应用的传输层协议
宽带应用的传输层协议
这是我们这一章
包含的主要的内容
那么我们来看
多媒体数据
及其时域特征的表示
那么多媒体数据
我们依据时间关系来看
可以把它划分为
实时媒体数据
和静态媒体数据
那么实时媒体数据
我们一般也可以称为
是连续媒体数据
它是具有严格时间关系的数据
像音频视频
就是属于这一类
实时媒体数据
那么这一类媒体数据
它的逻辑数据单元之间
是有时序关系的
存在着固定的时间关系
那么我们看下面这张图
这就是H262码流中
它的逻辑数据单元之间的
不同划分
以及不同划分结果
对应的逻辑数据单元之间的
固定时间关系
这个图中展示了4种不同的
逻辑数据单元的划分方式
那么可以以一个场景
作为一个 LDU单元
也可以把一个场景中的
一个一个的帧
作为一个基本的LDU单元
那么也可以把一帧画面
再进一步的划分成条带
那么以每一个条带
作为一个逻辑数据单元来对待
那么也可以把每一个条带
进一步划分成宏块
那么以宏块作为一个一个的逻辑数据单元
那么无论是哪一种划分方式
LDU之间
是有相应固定的时间关系的
那么这是实时
媒体数据
静态媒体数据
就是
它没有任何时间关系
要求的这一类的数据
就是除了音视频之外的
媒体数据
一般我们都称为静态媒体数据
像静止图像
文本 图形
或者一般的数据
都是属于这一类的
媒体数据
那么可以按照获取的方式
来对数据进行划分
那么这样就可以分成
获取型的数据
和合成型的数据
获取行的数据
是由
某种设备在采集的时候
直接获得的这一类的数据
比方说
是我们用摄像机来拍摄一段视频
那么这段视频
就是属于获取型的数据
那么我们用一段录音的采集设备
采集一段录音
那么这段音频就是
属于获取型的数据
合成数据是由计算机生成的数据
那么不同的数据类型
它的时间敏感性是不一样的
那么实时型的媒体
它对时间的敏感度会更高一些
那么实时型的媒体
它可以是获取型的媒体
比方说音视频
那么它也可能是合成的
这种类型的媒体
像动画
那么静态媒体
它对时间的敏感性
相对比较低
那么也可能是获取型的媒体数据
像我们拍的照片
那么也可能是
也可能是合成型的
像文本图形这一类的数据
多媒体数据内部的约束关系
我们来讨论一下
那么多媒体数据
是由内容上相互关联的媒体类型
构成的一种符合的数据
那么它里面的媒体类型很多
我们很清楚这一类的数据
它所包含的媒体类型
之间是相互有关联的
不是独立的
所以说媒体之间
存在着互相制约的这样一个关系
那么我们对多媒体数据
媒体类型之间
所存在的这种
相对的约束关系
来做一个分类总结
那么它的约束关系
就包括了内容约束
空域的约束
还有时域的约束
那么我们重点后面要讨论的是
时域约束关系的保证问题
那么内容约束指的是
在我们在用不同的媒体对象
来表示同一内容的时候
那么不同的这种表现形式
内容和表现形式之间
所具有的这种约束关系
我们把它叫做是内容约束关系
内容约束关系
它定义了媒体对象
与各种数据的一个相关性
那么我们看一下一个简单的例子
就是电子表格
我们可视化之后得到的图形
那么它跟对应的数据之间
是具有内容约束关系的
比方说由相同的一组数据
我们用不同的方式进行图示画
比方说
是画出各种这个图表
那么这些图表跟这一组数据之间
具有内容约束的
这样子的一个约束关系
那么在自动更新的时候
是有相应的依赖关系的
我们只能够对数据进行编辑
那么数据更新了就会出发
它相对的
相关的视角的更新
也就是说我们数据更新了
然后对应的那些图示
那些图表
就会自动的跟着要进行更新
但是我们不能够反过来做
数据的所有视角的更新
都是基于数据来自动生成的
那么数据的所有视角
是不能够进行直接编辑的
内容约束的实现一般是基于所
使用的原数据
与数据媒体之间的转换原则来进行的
那么具体的这些转换工具
有公共的数据结构
公共的对象接口
空间约束
我们也把它叫做是部级关系
它指的是不同媒体对象
在输出设备上的空间位置关系
那么定义了输出设备中
某一个确定时间点
媒体对象
它的空间的布局关系
那么生成的多媒体文档
就被称为是结构化的文档
在ISO里头定义了相应的
办公室文档结构
ODA这样子的一个标准
那么在ODA中
定义了逻辑文档结构
以及布局结构
用逻辑文档结构
来表示内容的组织方式
用布局结构来表示
数据之间的空间关系
时间约束指的是
媒体对象
在时间上的相互依赖关系
主要表现在两个方面
那么一方面是连续媒体对象内部
各个逻辑数据单元之间的
相互时间关系
再有一个就是
各媒体对象之间的
相对的时间关系
也就是说
它所对应的两类
时间约束
一类指的是媒体对象内
逻辑数据单元之间的约束
一类是媒体对象之间的
相对时间关系的约束
按确定关系的时间
我们可以分成实施同步
和综合同步两种同步
那么实时同步
是信息获取过程中
建立起来的同步关系
比方说
是口唇同步
指针同步
都是属于这一类的实时同步
那么在生成数据的时候
这个同步关系就已经确定了
综合同步是分别获取不同的信息后
我们在人为的指定
它们之间的同步关系
那么可以是事先来指定
也可以是在系统运行的过程中
来指定他们之间的相对约束关系
对于时间同步中的流内同步
我们来做一个理解
那么流内同步
维护了连续媒体对象内部的
各个逻辑单元之间的
相对时间关系
我们现在看到的图中
展示的是一个视频序列
它帧和帧之间的逻辑
数据单元之间的
流内同步关系
比方说
是我们以每秒钟
25帧的帧率
来采集一段视频序列
那么我们看到
那么两帧之间
就是相隔是40毫秒
这是一个固定的
帧和帧之间的
这样一个间隔
那么如果我们以每一帧
作为一个逻辑数据单元的话
那么这个逻辑数据单元之间的
相对时间关系就是
在采集的时候就已经确定了
那么我们在后续
对这样一个视频
进行处理的时候
那么就要保证
这个LDO之间的逻辑关系
不被破坏
流间同步
是保持媒体对象间的
相对关系的这样一个同步
那么我们看下面
这个图中给出来的场景
在这个场景中
有音频
有视频
还有图片
还有动画
那么这些媒体对象之间
在时间轴上
给出了相对的一个时间关系
我们看一下
音频和视频是同时出现
然后在音视频结束之后
紧跟着是展示了展示了三个图片
这三个图片的展示时间是相同的
在第三个图片结束之后
紧跟着是有一段动画
在动画的播放过程中
有相应的一段半音
那么这些媒体对象之间的
相对时间关系
那么我们通过这样子的一个
时间轴
那么使他们之间的关系
就确定下来了
那么媒体对象之间的
这些相对时间关系
就是我们所说的流间同步
如果对这样一个多媒体
这个场景
我们在设计的时候
按照这种方式
确定了这些媒体对象之间的
相对时间关系
那么我们对这一类媒体
进行一个传输也好
处理也好
那么在接收端
我们要按照这样一个
媒体对象的相对关系
来还原这样一个媒体
多媒体数据的构成
那么多媒体数据
是一个符合数据
刚才我们说了
它还包含着一个同步的概念在里面
所以说对于多媒体数据来说
它的构成
我们可以
按照现在这个图示
所给的这样一个关系
来进行理解
就是多媒体数据它包含两个成分
一个是成分数据
一个是同步规范数据
那么成分数据
就是我们通常所说的
媒体类型数据文本
图形
音频
视频
以及相应的一些动画文字数据
这都是属于多媒体数据中的
重要组成部分
我们把它叫做成分数据
那么除了这一部分数据之外
我们描述一个多媒体数据的时候
还要给出就是这些媒体之间的
一个相对约束关系
那么这就是它们的同步规范部分
那么所以说
多媒体数据
是由成分数据
和同步规范数据
两部分构成的
那么同步规范
它指出了
多媒体数据之间的
同步约束关系
它包含两个部分
一个是同步数据的描述
一个是同步容器
那么同步描述数据
它表示媒体内部
和媒体之间的时间约束关系
那也就是说
通过同步描述数据
把这些媒体类型之间的
时间约束关系
给用数据来描述出来
那么同步容限给出来的是
约束关系所允许的偏差范围
所以说同步规范
它由这样两个部分来组成
为了有效的表示
多媒体数据的时域特征
那么我们首先要对
多媒体的场景
进行一个时域场景的抽象
那么对于时域场景抽象了之后
我们才能够对这个数据
对这样子的一个场景进行数据的描述
那么抽象之后
我们还要给他相应的一个
同步容限的表征
那么时域场景
是由若干个时域事件构成的
这样子的一个模型
每个事件都与多媒体数据
在时域上的
相对行为
是有一个对应关系
也就是说每个事件
都跟多媒体数据
在时域中
发生的某个行为相对应
比方说
我们在进行媒体播放的时候
可以进行暂停
可以进行重新播放
这些行为
对应的就是
我们可以用时域事件来描述
那么对于这个时域事件
可以有确定性的时域事件
和非确定性时域事件之分
那么确定性的时域事件
指的是
这个事件的发生时间是固定的
在整个时域场景中
它的位置是固定的
那么不确定性的时域事件
指的是这个事件
在多媒体场景中
它的发生时间是不确定的
如果是由确定性时域事件
构成的时域场景
那么我们就把它叫做是
确定性的时域场景
包含不确定性时域事件的场景
我们又把它叫做
是非确定性的时域场景
那么我们看这个图示
左边这张图展示的是
确定性时域场景
在这个时域场景中
所有的媒体对象
它所处的时间位置都是确知的
那么我们看在这个图中
包含有图片
有音频对象
还有文本对象
那么在这儿途中的S代表的是
播放
就是播放的起始点E代表的是
播放的终止
P代表的是暂停
R代表的是恢复
所以说我们看一下在A图中
S E都是确定的
也就是说播放的起始和终止
都是确定的
所以说这构成的时域场景
是属于确定性时域场景
B图给出来的是一个非确定性场景
因为在这个场景中
包含了非确定性事件
那么我们看一下这个音频对象
它在什么时候播放
什么时候暂停
以及什么时候恢复
P和R这两个点是不确定的
那么在用户使用的时候
这两个事件
才会有确定的时间
所以说这个场景
是一个非确定性的时域场景
那么我们在处理时域场景的时候
确定性时域场景的处理
相对容易一些
非确定性时域场景的处理起来要麻烦
我们看一下
对于时间场景的抽象
就是时域时间模型
时间模型是对抽象出来的时域场景
进行数据描述的
这么一个数据模型
那么它由基本部件
和部件的使用规则
两个部分组成
我们在进行计算机场景建模的时候
就是要依据时间模型
来为时域场景进行建模
同一个时域场景
我们可以用不同的时间模型
来进行描述
那么它对应的
同步描述数据
肯定也就是不一样的
时域定义方案指的是
在计算机内部
为时域场景建模
那么并对模型进行形式化的描述
这样一个方法
我们把它叫做是时域定义方案
也就是说对于时域场景进行建模
并通过形式化的语言
进行描述的这样一个方法
我们把它称为时域定义方案
那么它是由时间模型
和形式语言构成的
那么我们在对时域场景
进行建模的时候
在研究
用什么样的一种数据模型
来描述时域场景
那么我们希望
有一个很好的评估的框架
那么时间参考框架
就是这么一个非常好的这样一个基础
它是我们研究多媒体同步的
一个重要的基础
那么它能够帮助我们实现
对现有的时域模型
进行对比
进行分析
进行综合
那么基于它
我们可以设计出更好的时间模型
我们来看一下时间参考框架
那么它包含三个部分
多媒体场景
时域定义方案
还有同步机制
那么多媒体场景
是对于时域场景的一个抽象
那么它是对多媒体的
这样一个场景做抽象
那么其中它的重要组成部分
是时域场景
就是对于时域进行一个时空抽象
那么时域定义方案
它是把时域场景
转化为
同步描述数据的一个机制
那么它包括
时间模型和形式语言
两个部分
时间模型
是用于描述时域关系
建立的这样一个模型
那么它由三个部分来组成
一个是基本的时间单位
一个是关联信息
还有时间表示技术
那么基本的时间单位
一般我们可以设定
比方说时刻
或者是时间间隔
作为我们进行实际模型使用的一个
基本的单位
那么关联信息
指的是
时间单位之间的关系
比方说
是某个时刻
他们之间
具有什么样的一个先后关系
A在B之前
还是A和B是一个同时发生的
这样一个时刻
那么通过关联信息来进行描述
那么时间表示技术是运行时
事件与时间轴的对应关系
形式语言是属于时域定义方案中
的语法部分
用来进行同步数据的描述
给出来同步规范
那么同步机制是基于同步规范
保证运行时
不违反同步规范的重要
机理
基于同步机制
要完成流内同步
及流间同步的任务
刚才我们也看到了
同步数据中
多媒体数据中
包括
成分数据和同步规范两大部分
那么同步规范
又包括同步描述数据和同步容限
所以说同步容限
是多媒体数据中的
一个重要的组成部分
那么我们对同步容限做一个了解
多媒体信息
在网络进行传输的时候
会受到网络带宽的影响
多媒体信息在网络传输的时候
会受到网络传输状况的影响
那么带宽会波动
处理的时候CPU抢占会需要时间
那么在接收端
需要有相应的缓存
那么这些因素都会影响
多媒体事件
它们的同步关系
多媒体系统实际运行的时候
会出现事件之间的偏差
那么这个偏差
如果超出一定的范围
就会影响到多媒体
还原的质量
所以说
多媒体容限
是用来对同步机制
服务质量的要求
所以说同步容限指的是
对同步机制
服务质量的一个要求
它给出了
用户对偏差的一个许可范围
那么用户对于
时间同步的要求
是有区别的
比方说
是对于对象内的偏差
那么允许的范围会小
那么对象间的偏差
允许的范围会大
那么对象内的偏差
指的是
同一媒体对象的
时域事件之间的偏差关系
比方说
是一段视频序列
那么图像之间
有30毫秒的这样一个不连续
那么对音频来说
比方说有一毫秒的间断
这都是属于对象内的一个偏差
那么对象之间的偏差
指的是不同媒体对象的
时域事件之间的偏差
我们用户对于对象之间的
偏差的容许度会更大一些
我们这个图中
给出了这个事件之间的偏差
原始的时域场景
半音和图像之间
是具有严格的同步关系的
但是经过网络的传输
我们在接收端可能还原的
这样一个时域场景
可能半音和视频之间
就出现了偏差
那么如果偏差
超出了用户
它的偏差要求的话
那么就是属于
质量不符合要求
那么对于不同媒体之间的
事件之间的偏差
以及媒体内部的偏差
那么我们有相应的一个许可要求范围
这张表给出来了
具体的许可范围
我们看一下对于音频来说
这个纯同步的要求是
要不能够超过±80个毫秒
如果超出了这样一个偏差的话
那么就认为破坏了
纯同步的
这样一个质量要求
-1.1 概述
--1.1 概述
-第一章 作业
--第一章 作业
-2.1 光和彩色
--2.1 光和彩色
-2.2 视觉特性
--2.2 视觉特性
-2.3 扫描
--2.3 扫描
-2.4 模拟彩色电视信号
-2.5 数字电视信号
-第二章 作业
--第二章 作业
-3.1 信息熵理论
-3.2 率失真理论
-3.3 预测编码
--3.3 预测编码
-3.4 序列图像中运动矢量的估计
-3.5 具有运动补偿的帧间预测
-3.6 正交变换编码
-3.7 子带编码
--3.7 子带编码
-3.8 量化编码
--3.8 量化编码
-3.9 熵编码
--3.9 熵编码
-第三章 作业
--第三章 作业
-4.1 基于帧的视频编码
-4.2 视频压缩编码国际标准
-4.3 H.264/AVC
-4.4 H.265/HEVC
-4.5 基于率失真优化的编码模式选择
-4.6 恒定速率编码器的速率控制
-4.7 压缩编码算法性能的评价
-第四章 作业
--第四章 作业
-5.1 概述
--5.1 概述
-5.2 人的听觉特性
-5.3 音频信号编码方法
-第五章 作业
--第五章 作业
-6.1 多媒体传输对网络的要求
-6.2 网络对多媒体信息传输的支持
-第六章 作业
--第六章 作业
-7.1 多媒体数据及其时域特征的表示
-7.2 分布式多媒体系统中的同步
-7.3 连续媒体同步的基本方法
-7.4 广播应用的传输层协议
-7.5 宽带应用的传输层协议
-第七章 作业
--第七章 作业