当前课程知识点:多媒体技术基础 > 第五章 音频数据的压缩编码 > 5.2 人的听觉特性 > 5.2 人的听觉特性
同学们好
下面我们来学习人的听觉特性
那么在对前面这个
视频压缩编码技术介绍之前
我们首先讨论了人的视觉特性
我们在介绍音频压缩编码的时候
也要了解我们人的听觉特性
那么对于声音信号来说
它有三个重要的描述的物理量
声音的幅度
频率和相位
那么对应我们人对声音感觉
就有三个对应的特征
或者叫三个我们的感觉特性
一个是响度
音调和音色
那么声音信号的幅度大小
会影响我们感觉的声音的强度
或者叫响度
那么声音信号的频率的高低
决定了我们所感觉的
音频信号的音调的高低
它的相位特征
以及斜波频率成分的特性
决定了我们所感受到的
声音的音色
那么我们人的耳朵
对于声音频率的感受范围
我们一般认为是20~20K赫兹
当然这个频率范围
是随着人的年龄的增长
是会有变化的
那么比方说是
60岁左右的人
感受到的频率成分的上限
不会超过10K赫兹
那么我们对声音强度的感受范围
一般是在0~120个db
超出这个范围
要么是我们听不到
或者是我们人的耳朵
感受到刺痛或者是受伤
那么我们来看一下
我们人的耳朵
对声音强度的感觉
那么人的耳朵
对声音强度的生理感觉是跟声音
信号的实际强度大小
是一个对数的关系
也就是非线性关系
那么我们看
上面这个图
在这张图里面
横轴是声音信号的声压强度
纵轴是我们听觉感觉的强度
那么我们看到
它们两者之间是一个非线性的关系
由于我们的感觉强度
和实际的声音强度之间
是大体上成对数关系
所以我们在描述声音强度的时候
通常会用声压级
和声强级的概念
那么声压级
我们看用SPL来表示
它是等于20倍的logP比P0
那么这个里面的P0就是
基准的声压
如果用声强来描述的话
那么就有声强级的概念
SIL等于10倍的log
I÷I0
那么这个I0是表示基准的声强
我们看人的耳朵
对声音频率的感觉
我们人的耳朵
对不同频率的感觉
敏感度是不一样的
主观上感觉的声音强弱
我们是用响度级来描述
那么它的单位是方
那么这个方这个单位
是以1K的唇音
作为基准来得到的
也就是说我们以1K频率的纯音
作为一个度量的基础
那么假设我们现在要确定某一个声音
它的响度级
那么就通过跟1K声音的响度做比较
我们调整1K声音的声强
让1K声音的声强
听起来跟要确定的声音的强度
是一致的
那么这个时候
一K声音的强度是多少
那么就作为
我们要确定的那个声音的响度级
所以说在这个图里面
我们看到有很多曲线
那么这些曲线对应的就是
在同一个响度级上的
不同频率
不同强度的
这个信号
所得到的结果
那么我们来看
对一个100赫兹
50db声压级的这样子的一个音频信号
我们人的耳朵
对它强度的感觉是
跟1K赫兹20db的纯音是一样的
所以说它的响度级
就确定为20方
那么通过这个曲线
我们看到我们人的耳朵
对不同频率的敏感程度
是不一样的
那么这些曲线
我们把它叫做等响度曲线
等响度曲线
都是属于下凹的这样一个曲线
那么在我们人的耳朵
能够听到的频率范围内
我们最敏感的频段是在
2K到4K这样子的一个范围区间
那么这个范围期间
正好对应的是我们人的
声音的频率范围
所以说我们人的耳朵
对我们自己的说话声音
是最敏感的
那么在等响度曲线里面
最下面一条蓝色的曲线
描绘出了我们人的耳朵的听觉域特性
那么也就是说
我们人的耳朵
对于这些频率能够感受到的
最低的
声压级是由蓝色的曲线给出来的
那么在低于蓝色的曲线的这些
声压级我们是听不到的
所以说这条曲线叫闻域曲线
或者叫听域曲线
那么根据我们人耳的
这样一个听力特性
我们在对音频进行压缩编码的时候
可以把我们人的耳朵
听不到的那些频率成分
可以去除
那么最上面的一条红色的曲线
表示的是痛阈曲线
那么说明
当声压级
超过红色曲线所描述的
强度的时候
我们人的耳朵是会受损伤的
下面我们来看一下
我们人的耳朵的
一个重要的特性
就是掩蔽特性
那么掩闭特性指的是
一种较强的声音的附近
相对较弱的声音是
不能被我们人耳所感受到的
也就是说
在一个强音附近的弱音
会被掩蔽掉
使得我们耳朵感受不到
那么这是我们人耳的
一个重要的特性
而且我们后续所介绍的
压缩编码技术中
充分利用了
我们人耳的这样的一个特性
那么掩蔽特性
是一个较为复杂的心理和生理现象
掩蔽的程度
是跟两个频率
它的相关性有关系的
也就是说这两个频率挨得越近
那么他们的掩蔽性能
或者是他们的掩蔽就会越强
那么具体来看
掩蔽效应又分为频域掩蔽效应
和时域掩蔽效应两种
我们先来看一下频域掩蔽效应
那么频域掩蔽效应
指的是
两个同时发生
或者是同时出现的声音
或者是两个同时出现的纯音
那么较弱的那个纯音
会被较强的纯音所遮蔽掉
那也就是说
弱的信号
会被跟它相近的
频率上的相近
指的是频率上相近
那么较弱的信号
会被跟它相近频率的
较强的那个频率信号所掩蔽
我们人耳就听不到
那么频域掩蔽也叫同时掩蔽
它一般指的两个声音频率
是同时发生
那么频率越相近
掩蔽效应就越强
在高频一端
随着两个频率的偏离程度越大
那么掩蔽效果会缓慢的减弱
那么在低频端
随着两个频率偏离的程度加大
它的掩蔽效应会急剧的减弱
那么从这张图中
我们就能够看到
那么这个图中
给出了一个声音掩蔽的示意图
假设中间最高的信号
在它的周围
有另外相对强度比较弱的
其他的这些频率信号
那么跟它是同时出现的
那么这个时候
频率处于1K的
这样子的一个频率的
60db强度的
这样一个音频信号
它会掩蔽掉它周边的
强度比它弱的
其他的这些频率成分
那么在这儿我们看一下
有这样子一条曲线
那么这条曲线描绘出来的就是
这样子的1K的这样一个强音
它对周围频率的一个掩蔽特性
那么只要处于这条曲线之内的
其他的频率成分
那么都会被这个强音所掩蔽掉
那么这就是我们人耳的
这样一个掩蔽特性
好
我们再来看一下
时域掩蔽特性
那么时域掩蔽特性
说的是两个声音信号
在时间上先后出现
它们之间强音
对弱音的一个掩蔽特性
那么时域掩蔽效应
又分为超前掩蔽
同时掩蔽和之后掩蔽
那么它对应的是
在时间上相邻发生的两个声音
先发生的对后发生的掩蔽
以及后发生的对先发生的
这个声音的掩蔽
那么超前掩蔽指的是
一个声音被它前面
先它之前发生的这个声音
所掩蔽掉
那么滞后掩蔽
指的是一个声音
被它后面发生的声音所掩蔽
在我们这张图里面
给出了对应的示意
那么我们会看到
超前掩蔽的时间范围会比较短
之后掩蔽它的掩蔽效应
消失会比较慢
中间对应的是
同时掩蔽所对应的时间范围
那么我们可以看
两个例子
在右边这两张图里面
左边的这张是
前向掩蔽的一个示意
那么我们看到
两个强度不同的声音先后出现
那么我们人的耳朵能够听到的
只是最先出现的强音
强音对弱音产生了掩蔽
那么右边这张图
给出来的是
滞后掩蔽的这样一个演示
我们看到
先出现的声音强度比较弱
后出现的声音强度比较强
那么我们人的耳朵
能够听到的是后出现的强音
那么实现了滞后掩蔽
为了很好地描述
我们人耳的掩蔽效应特点
我们定义了临界频带的这样一个概念
那么临界频带这个概念指的是
当噪声掩蔽纯音的时候
起作用的是以这个纯音为中心的
一个频带内的噪声信号
所以说在这个频带内的噪声功率
等于在噪声中
刚刚能够听到的
这个纯音的功率的时候
那么这个频带
我们把它称为听觉的临界频带
所以说我们用临界频带
来描述我们人的掩蔽特性
在我们能够听到的频率范围内
20赫兹到16K赫兹范围
一般我们认为
存在着24个临界频带
那么临界频带的单位
一般我们用巴克来表示
一个巴克指的就是一个临界频带的带宽
那么它跟频率之间的关系
我们这个地方给出了
这样一个公式的描述
我们在20赫兹到16K赫兹之间
划分出24个临界频带
那么临界频带的编号
Z跟频率之间的关系
我们这儿给出了
它们之间的对应的关系
-1.1 概述
--1.1 概述
-第一章 作业
--第一章 作业
-2.1 光和彩色
--2.1 光和彩色
-2.2 视觉特性
--2.2 视觉特性
-2.3 扫描
--2.3 扫描
-2.4 模拟彩色电视信号
-2.5 数字电视信号
-第二章 作业
--第二章 作业
-3.1 信息熵理论
-3.2 率失真理论
-3.3 预测编码
--3.3 预测编码
-3.4 序列图像中运动矢量的估计
-3.5 具有运动补偿的帧间预测
-3.6 正交变换编码
-3.7 子带编码
--3.7 子带编码
-3.8 量化编码
--3.8 量化编码
-3.9 熵编码
--3.9 熵编码
-第三章 作业
--第三章 作业
-4.1 基于帧的视频编码
-4.2 视频压缩编码国际标准
-4.3 H.264/AVC
-4.4 H.265/HEVC
-4.5 基于率失真优化的编码模式选择
-4.6 恒定速率编码器的速率控制
-4.7 压缩编码算法性能的评价
-第四章 作业
--第四章 作业
-5.1 概述
--5.1 概述
-5.2 人的听觉特性
-5.3 音频信号编码方法
-第五章 作业
--第五章 作业
-6.1 多媒体传输对网络的要求
-6.2 网络对多媒体信息传输的支持
-第六章 作业
--第六章 作业
-7.1 多媒体数据及其时域特征的表示
-7.2 分布式多媒体系统中的同步
-7.3 连续媒体同步的基本方法
-7.4 广播应用的传输层协议
-7.5 宽带应用的传输层协议
-第七章 作业
--第七章 作业