当前课程知识点:移动通信原理 > 第四章 信源编码与数据压缩 > 4.1 语音压缩编码 > 4.1 语音压缩编码
同学们大家好
今天我们介绍第四章
信源编码与数据压缩
那么这一章的内容
我们主要给大家讲一讲
信源 业务源
这种信源 一些典型的信源如何来进行
编码和数据压缩的基本原理
那么从这一章开始
我们按照信息处理的基本流程
从发送到接收
一步一步来给大家介绍
信号在移动通讯当中传输的一个基本流程
那么这一章的内容我们分五个部分
第一部分先给大家介绍
语音压缩编码的基本原理
然后我们介绍一下
移动通信当中典型的语音编码技术
第三部分我们讲一下
图像压缩编码的基本原理
第四部分我们介绍一下
我们国家一些音视频的标准
最后我们做一下总结
我们先看语音压缩编码
语音信源是一种典型连续信源
那所谓的语音压缩编码
就是对语音信号来进行数字化
来把它的冗余信息去除掉
然后变成数字编码数
变成数字编码以后
在信道当中传输
语音压缩编码
按照它的实现形式可以划分为三类
也就是波形编码
参量编码和混合编码
那么其中相波形编码
我们是针对云信号的波形来进行
抽样 量化和编码
那么对于参量编码而言
它其实不是直接对语音信号的波形
也就对语音样值来进行压缩编码
而是
我们研究发音的机制
那么我们把人的语音当中
产生语音的这些参数
来进行压缩和编码
所以我们称它为是参量编码
那么一般来讲
波形编码它的语音质量比较高
但是编码比特速率也大
所以一般只应用于
公共电话交换网络
也就是我们所谓的固定电话网络
参量编码
它的语音压缩质量比较差
它不能应用于骨干通信网
只能适用一些特殊的通讯网
比如说军事或者保密通信
但是参量编码
它的编码压缩效率比较高
编码比特率比较低
为了能够结合这两者的优点
人们也研究第三种编码
也就是混合编码
其实混合编码
它的性能是介于前两者之间
目前我们主要应用于移动通信系统当中
下面我们先来分别分析一下这些编码
它们的理论性能
首先我们先看看波形编码
它的一些性能估计
按照经典信息论当中的基本原理
我们知道
语音信源是一种连续信源
那么连续信源
我们在压缩的时候必然是有失真的
我们考虑把语音信源
建模为一种有记忆的信源模型
那我们可以用率失真函数
来衡量这种有损信源编码
它的压缩极限
对于语音信源而言
假如说我们把它近似为
就把它近似看作是一个高斯信源
但是是有记忆的
它的率失真函数
就这二维函数
我们可以把它
定义为这样的一个公式
大家看在公式当中2分之1log 以2为底
σ方除以D
这个σ方
我们认为它就是语音的样值
信号的功率
其实就是语音样值的信号功率
那这个D
就是我们量化的
量化噪声的功率
这是噪声功率
所以σ方除以D
这就表征了量化的信噪比
那这个ρ表示的是相关系数
也就是相邻两个语音信源
样值之间的相关性
所以整体上来讲
如果我们把语音信源看作是一个高斯信源
那我们就可以用这样的一个率失真函数
去衡量它的压缩极限
这个率失真函数是经典信息论当中
用于评估有损信源压缩的
一个理论极限的指标
它是一个下限
也就说我们压缩数据率
必然要大于等于
率失真函数
那我们可以把
量化的信噪比σ方除以D
取不同的取值来计算它的压缩极限
大家看下面表这就是计算的结果
第一行这对应的是
量化信噪比
那么高可以取到35dB
低可以取到17的B
中间这一行
就是我们计算出来的理论极限
也就一个语音样值我们所对应的
压缩比特数据
比特数目
R(D)函数
我们看这个规律可以看得到
信噪比越高
那么R(D)函数越大
信噪比越低
R(D)函数越小
因为这样从公式上就能看到
因为对数函数本身就是一个单调函数
最后一行就是第三行
对应的是压缩倍数
压缩倍数
我们是把R(D)函数
就是理论极限的压缩率和PCM进行比较
因为大家知道
语音信源典型的压缩方法
我们用PCM 就是抽样量化编码
PCM编码
它采用的是A律或者μ律编码
一个样值
那么我们用8bit来表示
所以与PCM相比
它能压缩多少倍
我们把这个压缩倍数列到第三行
一般来讲
在公共电话交换网络
也就是固定电话网络当中
PSTN网络里面
我们要求语音压缩的量化信噪比
是有基本参考值的
我们要求这个参考值
要大于等于26dB
从这个表上来看大家可以看到
相当于是在25到28之间
在这个地方是26dB
那么它所对应的
压缩倍数大概在3倍左右
也就是说
如果我们对于PSTN网络
相对于现在普遍采用的PCM编码而言
理论上我们可以压缩到三点几倍
那么上面这个结论
我们还可以进一步再做
再考虑一下其它的冗余
因为前面的这个结论是压缩三点几倍
这个是我们假设语音信源是高斯信源
我们把语音信源假设为高斯信源
是一种保守的估计
实际的语音信源其实是非高斯的
那么我们如果
考虑它的信源统计特性的修正
那么同时
我们再考虑到语音信源
其实它是具有
是一种有记忆性质
它可以建模两状态的马尔可夫链模型
一般来讲我们可以降价
也就是说语音信源
它其实有两个状态
一个状态
我们称为是ON
另外一个状态
我们称为是OFF
就一般我们称这样的模型叫做是
ON-OFF模型
ON的意思是说
在这个状态当中
那么语音样值它是有意义的
OFF指的是说
我们这个语音信源或者语音信号当中
其实都是无意义的噪声
或者说是无意义的一些脉冲
那我们考虑到语音信源的特征
还能够进一步提高它的压缩率
一般情况下
我们看到理论极限
大概可以压缩到4倍
这就是对于波形信源的理论极限
现在我们在实际电信通信网络当中
语音压缩的
普遍采用的标准是
差分PCM也就是所谓的DPCM
它相对PCM而言已经可以压缩2倍
因为PCM是64Kbps
DPCM可以降低一半
到32Kbps
进一步
理论极限上
实际应用当中
现在已经能够压缩到四分之一
也就是16Kbps
这已经达到波形编码的极限
下面我们再来看第二类编码
也就是参量编码
参量编码和我们刚才分析的
波形编码极限是不一样的
那么参量编码
它主要是来分析人的发音机制
比如说大家看我在这说话
我在这说话
我为什么能说话
那从人的发音机制上来看
其实是因为我们有胸腔
其实是因为我们有胸腔
有腹腔腹部肌肉驱动
然后我们声带和喉管
它就可以建模为一个滤波器
那我拿激励源去冲击那个滤波器
那我就说出话
那么实际上
我们从语音的发音机理上来看
我们可以把人的语音
划分为最小的单位
最小的单位称为是音素
这个音素
它比我们在学外语当中
比如说说英文
英语里面有音标
比这音标的单位还小
那么经过语言学家的研究
比如说我们以英语为例
英语当中音素大概量级在128到256
这是最小的语音发音的单位了
那么按照通常人讲话的速率
一秒钟大概要平均发送10个音素
我们根据信息熵公式来计算
假设所有这些音素
128个到256个都是等概率的
这样的话能够算出来
信息量的上下界
假如说是256个音素
那一秒钟所
编码的信息量是80bps
那如果说128个音素
那就是70bps
大家可以看到这个数据速率是非常低的
那我们可以计算出来压缩比
与64Kbps的PCM编码速率相比
那它的压缩倍数
可以做到800到900倍
这是很大的一个压缩倍数
虽然我们看到上面这种压缩比例很大
但是不意味着说
参量编码
参量编码就
它的性能很好
实际上
参量编码采用上面这种压缩方法以后
我们在压缩回放以后
我们听语音采用参量编码的语音
基本上已经丧失了人说话的这种个性特征
你听得就像机器人说话
或者说
机械式的那种机械语音
因此参量编码
只能够保证我们听懂
但是失去语音的特点
或者是
自然度
那么正因为有上述的缺陷
因此我们在实际系统当中得考虑
把前面这两种编码组合起来
那么发挥它们的优势
避免它们的缺陷
这就是混合编码
一般来讲混合编码的设计
它是以参量编码为主
然后适当地考虑人的个性化特征
引用一些波形编码的技术
这样组合起来
既能够达到一定的语音质量
又能够降低我的编码速率
所以混合编码主要应用于移动通信系统当中
我们下面再给大家归纳一下
在数字通信当中的语音编码
我们如何衡量这些编码方案或者编码标准
它的性能
主要衡量指标
那么对于混合编码
或者一般的语音编码而言
我们衡量编码技术的主要参量
有以下四个
第一个就是数据比特率
我们一般用比特每秒来表示
第二个就是语音质量
语音质量
我们经常会用主观或者客观
标准来衡量它们
主观标准我们主要打分
就用MOS评分来衡量
第三个就是算法复杂度
一般我们用数字信号处理的
复杂度来衡量
它们单位是一秒钟能执行
百万条指令的数据量
执行量 指令量
我们就用MIPS来衡量
第四个就时延
时延的话
那么主要就是看你压缩和恢复
就语音的信源编码和信源译码
所对应的时间是多少
下面我们分别来分析
我们先看数据比特率
一般来讲数据比特率
它与编码的复杂度或者时延之间
是一个反比例的关系
那么数据比特率
越低那压缩率就越高
但是
复杂度
复杂度也越高
复杂度也越高
并且
语音质量总是有所下降
那么第二个我们就看语音质量
语音质量
为了评估语音信号的质量
我们常用的度量
主要是从
主观评估和客观评估两个角度
来分析
那么对于客观评估来讲
我们主要用信噪比
误码率 误帧率等等来评估
相对应于语音信号
我们通常
误码率要求是要小于10的-2
或者最好应当是在10的-3次方
误码率
那么相对应地 信噪比
我们希望它应当在7dB
7dB左右
能够达到10的-3的误码率
这就是客观度量的基本指标
但是只有客观评估
还有对语音质量的评价是不够充分的
人们经过大量的测试和分析发现
有时候信噪比已经很高
语音 这误码率也很低
但是人耳朵听起来
总觉得不太舒服
也就说
人的主观体验和实际的误码率
或者测量指标之间不完全匹配
考虑到人的主观体验
我们除了用客观度量评价之外
也常用主观度量来评价
主观评判的基本方法
我们称为是MOS评分
所以MOS
就指的是平均分
Mean of score
它的含义是说
就我们可以
请一组评判专家来打分
对每一个人
我们都播放一段原声
然后再播放一段压缩解压之后的语音
然后让每个人听一遍原声
再听一遍恢复的语音
看和原声之间的差异有多大
然后打分
这个分值
我们取值为5分制
这1到5分
1分是最差的
5分是最好的
然后我们把一组专家的评分
最后加权平均
这就是语音质量的最终平均结果
这就是所谓的我们的MOS评分的含义
那么对于MOS评分来讲
一般来说
3.5分以上
或者说我们到4分左右
就能够
假如说语音质量达到4分左右
那我们就可以
进入公共电话交换网络
作为固定通信网络的基本编码
如果说是三点几分以上 3.2分以上
那我们就可以加入
移动通信网络
作为移动通信网络当中的编码标准
3分以下语音质量比较差
不在商用通信系统当中来使用
那么下面我们再来看
第三个和第四个标准
就复杂度和处理时延
对于语音业务而言
这是一种典型的实时性业务
所谓实时性业务它要求
从发端到收端
端到端的时延
必须受限
一般我们要求
对于语音业务而言
那么它的端到端的时延不能够超过
200ms
或者严格一点讲
甚至我们希望不够超过150ms
请大家注意我们这讲是端到端
端到端就是
比如说我举个例子
我拿着个手机打电话
那从你主叫到被叫
中间不管你经过多少次转接或者是处理
那么从主到被
主叫到被叫之间的
所有处理和编码时延加起来
不能超过200ms或者150ms
那么这个要求是
对于实时性话音业务比较的苛刻要求
那么其实端到端时延一般包含两部分时延
一部分时延
就是我们的编解码时延
编解码
就语音编解码
那我们需要时延
还有一部分时延
其实应当是网络的时延
也就是网络传输
我们也需要时延
总共加起来不能超过
那么只有一些极个别的特例才允许
那就已经不是我们在
大规模商用系统当中的代表性业务
比如说到我们要打卫星电话
海事卫星电话
因为卫星信号从地球表面
地面到天上
然后再下来
这一上一下
其实这个时延已经很大了
就不能满足200ms的最大时延约束
但大多数地面通讯系统
或者不管是固定的通信系统
还是无线通信系统
我们都得要求它们的时延满足约束
在时延约束的条件下
我们希望编解码
语音信源的编解码时延也要尽量地短
但是
一般来讲
时延和编译码算法的复杂度
它是一个反向的关系
关联关系
你要求处理时间短
复杂度一般就低
如果复杂度高的话
那处理时间就会大
所以这是一对矛盾
只能够在实际编码
编解码算法设计当中尽量进行折衷
那么我们可以把上面的四类指标
针对不同的标准
我们做一下列举
大家看胶片上
我们列举了一些典型的
语音编码的一些标志
比如代表性的
像最经典的语音编码方案叫PCM
它的编码速率是64K
这是比较高的
但是它的复杂度MIPS是很低的
时延几乎是零
那么它的语音质量很好
4分以上 4.3分
因此我们在电话通信网络当中
就是固定通信网络当中
我们可以主要采用PCM
那么还有它的一些改进
比如说ADPCM
ADPCM的编码速率可以降一半
但它的复杂度
就比原来的PCM高一倍
这是一个一般性的规律
如果我们的编码速率
减半
就减到原来的二分之一
那么它的复杂度
我们用一秒钟能够
执行一百万条指令的次数
我们来衡量它的复杂度
那复杂度要提升多少呢
是10倍
这是个一般性的规律
那么更低的大家看
有自适应的子带编码
那它编码速率降到原来的四分之一
那它的复杂度就要提升100倍
依此类推
那也就是说
我这编码速率越低
复杂度越高
那显然随着编码速率的降低
复杂度是非常惊人地增长
好在现在我们在移动通信系统当中
像大家的手机当中我们都
广泛地集成了数字信号处理芯片
就是DSP
那么靠IC技术的急速发展
我们现有的移动通信系统芯片
的处理力还是足够的
可以支持
很复杂的这种语音编解码的算法
而提高
就尽量保证我们编解码的时延满足要求
-1.1 前言
--1.1 前言
-1.2 移动通信发展的回顾
-1.3 第四代移动通信技术
-1.4 第五代移动通信技术
-1.5 未来移动通信技术
-第一章 作业
--第一章 作业
-2.1 移动信道的特点
-2.2 三类主要快衰落
-2.3 传播类型与信道模型的定量分析
-2.4 无线信道模型
-第二章 作业
--第二章 作业
-3.1 多址技术的基本概念
-3.2 移动通信中的典型多址接入方式
-3.3 码分多址CDMA中的地址码
-3.4 伪随机序列(PN)和扩频码的理论基础与分析
-第三章 作业
--第三章 作业
-4.1 语音压缩编码
-4.2 移动通信中的语音编码
-4.3 图像压缩编码
-4.4 我国音视频标准
-第四章 作业
--第四章 作业
-5.1 概述
--5.1 概述
-5.2 保密学的基本原理
-5.3 GSM系统的鉴权与加密
-5.4 IS-95系统的鉴权与加密
-5.5 3G系统的信息安全
-5.6 B3G与4G系统的信息安全
-第五章 作业
--第五章 作业
-6.1 移动通信系统的物理模型
-6.2 调制/调解的基本功能与要求
-6.3 MSK/GMSK调制
-6.4 π/4-DQPSK调制
-6.5 3π/8-8PSK调制
-6.6 用于CDMA的调制方式
-6.7 MQAM调制
-第六章 作业
--第六章 作业
-7.1 信道编码的基本概念
-7.2 线性分组码
-7.3 卷积码
--7.3 卷积码
-7.4 级联码
--7.4 级联码
-7.5 Turbo码
-7.6 交织编码
--7.6 交织编码
-7.7 ARQ与HARQ简介
-7.8 信道编码理论上的潜在能力与最大编码增益
-7.9 GSM系统的信道编码
-7.10 IS-95系统中的信道编码
-7.11 CDMA2000系统的信道编码
-7.12 WCDMA系统的信道编码
-第七章 作业
--第七章 作业
-8.1 分集技术的基本原理
-8.2 RAKE接收与多径分集
-8.3 均衡技术
--8.3 均衡技术
-8.4 增强技术与应用
-第八章 作业
--第八章 作业
-9.1 多用户检测的基本原理
-9.2 最优多用户检测技术
-9.3 线性多用户检测技术
-9.4 干扰抵消多用户检测器
-第九章 作业
--第九章 作业
-10.1 OFDM基本原理
-10.2 OFDM中的信道估计
-10.3 OFDM中的同步技术
-10.4 峰平比(PAPR)抑制
-第十章 作业
--第十章 作业
-11.1 多天线信息论简介
-11.2 空时块编码(STBC)
-11.3 分层时空码
-11.4 空时格码(STTC)
-11.5 空时预编码
-11.6 MIMO技术在宽带移动通信系统中的应用
-第十一章 作业
--第十一章 作业
-12.1 引言
--12.1 引言
-12.2 多功率控制原理
-12.3 功率控制在移动通信中的应用
-12.4 无限资源的最优分配
-12.5 速率自适应
-第十二章 作业
--第十二章 作业
-13.1 标准化进程
-13.2 HSPA系统
-13.3 EVDO系统
-13.4 LTE系统
-13.5 WiMax系统
-第十三章 作业
--第十三章 作业
-14.1 TDD原理
-14.2 TD-SCDMA
-14.3 UTRA TDD
-14.4 TD-HSPA
-第十四章 作业
--第十四章 作业
-15.1 移动网络的概念与特点
-15.2 从GSM/GPRS至WCDMA网络演讲
-15.3 第三代(3G)移动通信与3GPP网络
-15.4 从IS-95至CDMA2000网络演讲
-15.5 B3G与4G移动通信网络
-第十五章 作业
--第十五章 作业
-16.1 移动通信中的业务类型
-16.2 呼叫建立与接续
-16.3 移动性管理
-16.4 无线资源管理RRM
-16.5 跨层优化
-第十六章 作业
--第十六章 作业