中南大学学报(自然科学版)

语音信号的谱熵检测在车辆通信中的应用

 姚 屏1, 2, 申群太1, 王俊年1, 2

(1. 中南大学 信息科学与工程学院, 湖南 长沙 410083;

2. 湖南科技大学 电气与信息工程学院, 湖南 湘潭 411201)

摘要: 结合车辆通信中语音信号的特殊性, 利用傅里叶变换和最大离散熵定理, 对含强噪语音的短时频谱进行分析, 构造出一种熵函数来对语音信号进行语音/噪声的判决。 以一段语音信号为例进行仿真, 研究结果表明, 谱熵检测方法计算简单, 谱熵值和隔离度较大, 具有稳健的抗噪特性, 可以应用于车辆通信中语音信号的检测。

关键词: 车辆通信; 语音检测; 谱熵; 快速傅里叶变换

中图分类号:TN912.3 文献标识码:A 文章编号: 1672-7207(2005)05-0858-05

Application of voice detection to vehicle communication based on spectral entropy

YAO Ping1, 2, SHEN Qun-tai1, WANG Jun-nian1, 2

(1.School of Information Science and Engineering, Central South University, Changsha 410083, China;

2.College of Electrical and Information Engineering, Hunan Science and Technology University, Xiangtan 411201, China)

Abstract: Based on the character of vehicle communication and spectral entropy and fast fourier transform, an approach is introduced to voice detection that differs from normal approach via energy, correlation and zero-crossing rate. By measuring the gross shape of the short-term speech spectrum using spectral entropy to detect voice segment and silent segment, it is shown that the spectral entropy can be used effectively even in heavy background noise. A section voice is recorded to simulate. The results show that the approach via spectral entropy has good performance for anti-noise, and it can be applied to vehicle communication.

Key words: vehicle communication; voice detection; spectral entropy; fast Fourier transform

   目前, 随着交通智能化的发展, 车辆通信和监控的网络化、 系统化要求越来越高, 各种设备之间的连接关系日益复杂, 操作步骤繁琐。 通信控制器的应用, 使操作简化、 快捷, 并可以完成各设备的互联、 各种数据业务的交换以及无线信道的转接, 还可以实现有线电话的无限延伸。 因此, 控制器作为通信车的一个重要核心设备, 是通信系统的中心枢纽。

在车辆通信控制器中, 语音检测器是一个很重要的组成部分。 它的主要任务是对接收到的信号进行分析, 判断其中是否有语音信号, 从而控制单工电台的发射开关, 使其处于接收/发射状态。 而语音检测算法主要依据语音与噪声的不同特性进行语音/噪声判决。 传统的方法有能量检测法[1]、 平均过零率检测法[2]、 自相关法[3]、 基音检测法[4-5]等, 这些算法都是建立在背景噪声保持平衡, 信噪比比较高的条件下的。 实际工作中, 这些条件很难得到[CM(22] 满足, 经常会遇到背景噪声的干扰。 采用神经元网络[6, 7]和最大似然法[8, 9]可以进行语音检测。 前者因需要训练过程, 而不能在很多场合得到应用; 后者在信道源基音缺损时, 不能很好地进行检测, 且抗正弦能力弱。

车辆通信中的语音信号可能存在这样的特点: 没有语音信号时, 会有强烈噪声出现, 有时还夹杂电报声和嗡嗡声, 其功率可与有语音信号时的信号功率相比, 甚至更大; 当存在语音信号时, 各种背景噪声存在于语音信号中, 影响语音的质量。 针对这些情况, 本文作者对含噪语音的短时频谱进行分析, 构造出一种熵函数来对语音信号进行有声/无声的判决, 从而达到检测语音的目的。 同时, 检测的可靠性与含噪语音信号的大小无关, 只与其信噪比有关。

1 谱熵检测基本原理

谱熵检测法原理框图如图1所示。

图 1   信号谱熵检测原理图

Fig. 1   Principle of spectral entropy detection

1.1 快速傅里叶变换

快速傅里叶变换(FFT)是离散傅里叶变换(DFT)的一种快速算法, 是信号分析与处理的重要理论依据。 其方法简单, 计算速度快, 被广泛应用于图像处理、 语音信号处理等领域。

离散傅里叶变换, 其中, 0≤k≤N-1, x(l)为被变换信号, 为复指数常数。 快速傅里叶变换利用的周期性、 共轭对称性等重要性质将DFT运算中的同类项合并, 把长度为N的序列的DFT分解成长度逐次变小的DFT。

对于基2算法, 一般取N=2M, 将x(l)分成奇、 偶2组, 即按l=2r及l=2r+1分为2组, 经过计算得到:

X(k)=G(k)+WkNH(k);(1)

X(k+N/2)=G(k)-WkNH(k)。(2)

其中: k=0, 1, …, N/2-1; G(k)=

可见, 1个N点序列x(n)的DFT可以从2个N/2点序列的DFT求出。 式(1)表示了前半部分k=0~N/2-1的X(k)组成方式, 式(2)表示了后半部分k= N/2到N-1的X(k)组成方式。 依此类推, G(k)和H(k)可以继续下去, 这种按时间抽取算法是在输入序列分成越来越小的子序列上执行的DFT运算, 最后再合成N点的DFT。

这里, 以一段语音信号和高斯白噪声为例, 利用MATLAB函数仿真, 得出浊音与白噪声的FFT变换曲线(如图2所示)。 由图2可以看出, 语音信号的频谱图具有一定的周期性, 而白噪声的频谱图不存在一定规律。

图 2   浊音和噪声的FFT曲线

Fig. 2   FFT curves of sonant and noise

1.2 谱熵

“熵”, 这个概念来源于统计热力学, 是紊乱程度的测度。 信息论借用它来表示信源的平均不确定性。 设离散信源X的幅值有q个不同的取值(x1, x2, …, xq), 即其频数为q, X取xi的概率为

pi=p{X=xi} (i=1, 2, …, q),

则信源X的谱熵为

其中: xi为语音信号x(l)经FFT变换后的频谱幅值。 从谱熵的定义可以很明显地看出, 谱熵反映了信源幅值分布的“无序性”, 根据最大离散熵定理, 有:

H(p1, p2, …, pq)≤H(1/q, 1/q, …, 1/q)=lgq。(4)

式(4)表明等概率分布时信源的平均不确定性为最大。

1.3 谱熵检测在语音信号中的应用

语音信号的“谱熵”检测法的基础是短时傅里叶分析。 短时傅里叶分析是分析缓慢时变频谱的一种简便方法, 在语音分析中已经得到广泛的应用[10-15]。 其方法是利用窗函数将语音信号分成短段, 再将各短段进行傅里叶变换。 各语音段可以认为是从各个不同的平稳信号波形中截取出来的, 各段语音的短时频谱就是各个平稳信号波形的频谱的近似。

设变换信号x(l)为语音波形时域信号, 加窗分帧处理后得到的第n帧语音信号为xn(k), 则xn(k)满足下式:

xn(k)=w(k)x(n+k)。(5)

其中: w(k)为窗函数; N为帧长; 0≤k≤N-1。

由于汉明窗在频率范围中的分辨率较高, 而且旁瓣的衰减大, 具有频谱泄漏少的优点, 所以这里的窗函数采用具有较小上下冲的汉明窗, 其长度取为256个采样点。 帧移长度为128。

语音检测系统主要完成噪声环境下的语音检测, 主要应用于车辆通信当中。 根据其应用环境, 可知背景噪声主要是白噪声。 因此, 只需区分白噪声与语音信号即可。 根据谱熵的定义, 对带噪语音信号x(l)经加窗分帧, 按帧间50%的重叠求解FFT变换, 得其某频率分量xi的能量谱为Yn(xi), 则每个频率分量的归一化谱概率密度函数定义为:

其中: i=1, 2, …, N; pi为某频率分量i对应的概率密度; N为FFT变换长度, n为某一帧语音[12]。 对于白噪声, , 熵谱值为极大。 而对于语音信号, 其能量集中在低频段(250~4000 Hz), 谱熵较小。 谱熵大的为噪声, 小的为语音。

2 仿真结果及分析

语音检测方法是在背景噪声环境下进行的。 为了评价上述语音端点检测算法的效果, 首先对一段纯语音信号和白噪声进行实验, 然后再对各种不同信噪比的含噪语音进行实验。 由于FFT系数被归一化, 所以, 谱熵检测法可靠性不会受信号大小的影响, 只与信噪比有关。

2.1 纯语音信号和白噪声的谱熵检测

首先在运动的车辆中录取一段语音信号, 采样频率为8 kHz, 16000个采样点, 话音内容为“中南大学”。 运用MATLAB函数生成幅值为(-1, +1)区间上的均匀分布的高斯白噪声。 根据上面的谱熵检测原理, 把这段语音信号和白噪声分别进行分帧和FFT变换, 利用式(5)和式(2)计算其信息熵, 得到的仿真结果如图3所示。

图 3   语音信号和噪声的谱熵

Fig. 3   Spectral entropy of speech signal and noise

从图3可以看出, 语音信号的谱熵较小, 为2~4, 白噪声的谱熵较大, 为4.9~5.3。 根据实验结果, 确定一个谱熵值的门限H, 当H>4.5时, 为白噪声; 当2.0〈H〈4.5时, 为语音信号; 当H〈2.0时, 语音被判为无声帧。 与吴启辉[10]等提出采用离散余弦变换(DCT)得到的仿真结果(图4)相比, FFT变换的谱熵值和隔离度更大, 更有利于强噪声环境下的语音信号检测。

图 4   语音信号和噪声的DCT变换谱熵

Fig. 4   Spectral entropy of speech signal and noise based on DCT

2.2 不同信噪比的语音谱熵检测

为检测出各不同信噪比对谱熵值的影响, 分别对信噪比为20 dB, 8 dB和0 dB时的含噪语音进行仿真, 结果如图5所示。 可见, 当信噪比下降时, 谱熵的形状基本保持不变, 但谱熵值降低, 所检测到的语音信号的准确度也有所降低, 当信噪比为8 dB时, 可检测到较为准确的语音端点, 但当信噪比低于0 dB时, 部分语音的端点检测不到, 这是由于噪声的幅值已超出语音幅值。 这里, 利用谱熵进行检测变得较为困难, 需要利用前面提出的自适应滤波算法来消除噪声, 提高信噪比。

图 5   不同噪声环境下的谱熵曲线

Fig. 5   Spectral entropy curves under different noisy environments

 利用谱熵法对语音信号进行检测, 归根到底就是要提高信噪比, 使其在信噪比较高的情况下进行检测。 由图3可知, 在一定信噪比下, 谱熵检测法能够准确地区分语音信号和白噪声。

3 结 论

根据车辆通信中语音信号的特殊性, 即强噪声环境, 对车辆通信中的语音信号进行模拟, 采用谱熵法对其进行检测, 运用MATLAB进行仿真。 研究结果表明, 谱熵检测法对车辆通信中的语音信号的检测效果良好, 可以应用于车辆通信的语音信号的检测。

参考文献:

[1]郭巧, 张立伟, 陆际联. 用于汉语语音信号端点检测与切分的有效方法[J]. 计算机工程与应用, 2000, 36(5): 92-94.

GUO Qiao, ZHANG Li-wei, LU Ji-lian. An effective method for capsheaf detection and phoneme separation of chinese speech signal[J]. Computer Engineering and Applications, 2000, 36(5): 92-94.

[2]Li Q, Zheng J, Zhou Q, et al. A robust, real-time endpoint detector with energy normalization for ASR in adverse environments[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2001) [C]. Salt Lake City: IEEE, 2001: 233-236.

[3]Rabiner L R. On the use of autocorrelation analysis for pitch detection[J]. IEEE Trans Acoust Speech Signal Processing, 1977, 25(1): 24-33.

[4]Seneff S. Real-time harmonic pitch detector[J]. IEEE Trans Acoust Speech Signal Process, 1978, 26(2): 358-365.

[5] 王都生, 铁满霞, 樊昌信. 一种实时基音检测算法[J]. 电子学报, 2000, 28(10): 9-11.

WANG Du-sheng, TIE Man-xia, FAN Chang-xin. A real time pitch detection algorithm for speech signal[J]. Acta Electronics Sinica, 2000, 28(10): 9-11.

[6] 张江安, 林良明, 颜国正, 等. 基于预测神经元模型的语音线性预测系数求解新方法[J]. 上海交通大学学报, 2001, 35(5): 717-720.

ZHANG Jiang-an, LIN Liang-ming, YAN Guo- zheng, et al. New method to solve the speech linear prediction coding coefficients based on predictive neuron model[J]. Journal of Shanghai Jiaotong University, 2001, 35(5): 717-720.

[7]曹加恒, 曹斌, 张凯, 等. 基于人工神经网络的多媒体语音特征挖掘[J]. 武汉大学学报(自然科学版), 2000, 46(5): 575-578.

CAO Jia-heng, Cao Bin, ZHANG Kai, et al. The feature mining of multimedia speech recognition on artificial neural network[J]. J Wuhan Univ (Nat Sci Ed), 2000, 46(5): 575-578.

[8]虞晓, 胡光锐. 基于高斯混合密度函数估计的语音分离[J]. 上海交通大学学报, 2000, 34 (2): 177-180.

YU Xiao, HU Guang-rui. Speech separation based on Gaussian mixture model probability density function estimation[J]. Journal of Shanghai Jiaotong University, 2000, 34(2): 177-180.

[9] 张文军, 谢剑英, 殷志明. 基于最大似然估计的子带语音去噪的研究[J]. 通信技术, 2003, 1: 1-2.

ZHANG Wen-jun, XIE Jian-ying, YIN Zhi-ming. The study of sub-band speech spectral subtraction based on ML[J]. Communications Technology, 2003, 1: 1-2.

[10]吴启晖, 王金龙. 基于谱熵的语音检测[J]. 电子与信息学报, 2001, 23(10): 989-993.

WU Qi-hui, WANG Jin-long. Voice detection based on spectral entropy[J]. Journal of Electronics & Information Technology, 2001, 23(10): 989-993.

[11]陈四根, 和应民. 一种基于信息熵的语音端点检测方法[J]. 应用科技, 2001, 28(3): 13-14.

CHEN Si-gen, HE Ying-min. A scheme of speech endpoint detection based on information entropy [J]. Applied Science and Technology, 2001, 28 (3): 13-14.

[12]王让定, 柴佩琪. 一个基于谱熵的语音端点检测改进方法[J]. 信息与控制, 2004, 33(1): 77-81.

WANG Rang-ding, CHAI Pei-qi. An improved speech endpoint detection method based on spectral entropy[J]. Information and Control, 2004, 33(1): 77-81.

[13]Yantorno R E, Krishnamachari K R, Lovekin J M, et al. The spectral Autocorrelation peak valley ratio (SAPVR)—A usable speech measure employed as a Co-channel detection system[A]. IEEE Workshop on Intelligent Signal Processing[C]. Hungary, 2001, 5: 193-197.

[14]Byun K J, Jeong S, Kim H R, et al. Noise whitening-based pitch detection for speech highly corrupted by colored noise[J]. ETRI Journal, 2003, 25(1): 49-51.

[15]吴瑾, 刘振兴. 基于小波变换的语音基频检测[J]. 武汉科技大学学报(自然科学版), 2000, 23(2): 190-192.

WU Jin, LIU Zhen-xing. Speech signal pitch detection based on the wavelet transform[J]. Journal of Wuhan University of Science & Technology(Natural Science Edition), 2000, 23(2): 190-192.

收稿日期:2004-11-07

基金项目: 湖南省教育厅科研基金资助项目(03C499)

作者简介:姚 屏(1977-), 女, 湖南邵阳人, 硕士, 从事语音信号处理研究

论文联系人: 申群太, 男, 教授; 电话: 13973183872; E-mail: zhouyi-sqt@sina.com

[1]郭巧, 张立伟, 陆际联. 用于汉语语音信号端点检测与切分的有效方法[J]. 计算机工程与应用, 2000, 36(5): 92-94.

[2]Li Q, Zheng J, Zhou Q, et al. A robust, real-time endpoint detector with energy normalization for ASR in adverse environments[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2001) [C]. Salt Lake City: IEEE, 2001: 233-236.

[3]Rabiner L R. On the use of autocorrelation analysis for pitch detection[J]. IEEE Trans Acoust Speech Signal Processing, 1977, 25(1): 24-33.

[4]Seneff S. Real-time harmonic pitch detector[J]. IEEE Trans Acoust Speech Signal Process, 1978, 26(2): 358-365.

[5] 王都生, 铁满霞, 樊昌信. 一种实时基音检测算法[J]. 电子学报, 2000, 28(10): 9-11.

[6] 张江安, 林良明, 颜国正, 等. 基于预测神经元模型的语音线性预测系数求解新方法[J]. 上海交通大学学报, 2001, 35(5): 717-720.

[7]曹加恒, 曹斌, 张凯, 等. 基于人工神经网络的多媒体语音特征挖掘[J]. 武汉大学学报(自然科学版), 2000, 46(5): 575-578.

[8]虞晓, 胡光锐. 基于高斯混合密度函数估计的语音分离[J]. 上海交通大学学报, 2000, 34 (2): 177-180.

[9] 张文军, 谢剑英, 殷志明. 基于最大似然估计的子带语音去噪的研究[J]. 通信技术, 2003, 1: 1-2.

[10]吴启晖, 王金龙. 基于谱熵的语音检测[J]. 电子与信息学报, 2001, 23(10): 989-993.

[11]陈四根, 和应民. 一种基于信息熵的语音端点检测方法[J]. 应用科技, 2001, 28(3): 13-14.

[12]王让定, 柴佩琪. 一个基于谱熵的语音端点检测改进方法[J]. 信息与控制, 2004, 33(1): 77-81.

[13]Yantorno R E, Krishnamachari K R, Lovekin J M, et al. The spectral Autocorrelation peak valley ratio (SAPVR)—A usable speech measure employed as a Co-channel detection system[A]. IEEE Workshop on Intelligent Signal Processing[C]. Hungary, 2001, 5: 193-197.

[14]Byun K J, Jeong S, Kim H R, et al. Noise whitening-based pitch detection for speech highly corrupted by colored noise[J]. ETRI Journal, 2003, 25(1): 49-51.

[15]吴瑾, 刘振兴. 基于小波变换的语音基频检测[J]. 武汉科技大学学报(自然科学版), 2000, 23(2): 190-192.