《生物医学工程学杂志

  浏览量2023-09-24 作者: 米乐体育在线官网/电源纹波

  咳嗽的自动分类在临床上具备极其重大的辅助诊断作用。传统的Mel频率倒谱系数(MFCC)采用Mel均匀滤波器组, 高频段的滤波器分布较稀疏, 未能最大限度反映两类咳嗽的特征差别。针对这样的一个问题, 本文在分析干性咳嗽和湿性咳嗽频谱能量分布特点的基础上, 提出了一种改进的反向MFCC提取方法, 采用反向Mel刻度上的均匀滤波器组, 并放置在两类咳嗽都具有高频谱能量的频段, 使得特征提取集中在两类咳嗽特征信息丰富且差别显著的频段进行。基于隐马尔可夫模型的咳嗽干湿性自动分类实验根据结果得出, 该方法获得了优于传统MFCC的分类性能, 总体分类准确率从89.76%提高到了93.66%。

  咳嗽是呼吸系统疾病常见的症状[1],咳嗽的监测和自动识别在临床上具备极其重大的诊断指导意义。目前,咳嗽声音的分析和识别主要参考语音识别系统,采用神经网络[2-3]、隐马尔可夫模型[4-5]、隐马尔可夫模型与神经网络的混合模型[6]或分类树[7]等方法来实现。通过借鉴语音识别方面的技术,咳嗽识别的准确率已达到较高的水平,目前已有多种类型的便携式咳嗽监测仪,如Hull自动化咳嗽计数器[8]、Leicester咳嗽监测系统[9]、Lifeshirt系统[10-11]和VitaloJAK系统[12]等,均在某些特定的程度上实现了咳嗽的自动或半自动识别。

  咳嗽按性质可分为干性咳嗽和湿性咳嗽两种,干性咳嗽无痰或痰量少,常见于慢性喉炎、气管炎、气管受压或管内异物;湿性咳嗽有痰,常见于慢性支气管炎、肺炎、支气管扩张和肺脓肿等[13-14]。咳嗽的特征取决于潜在疾病的种类,因此咳嗽的类型在某些特定的程度上能够反映呼吸道疾病的类型及其严重程度。咳嗽类型的自动分类有助于医生快速诊断病因和提高疗效,是计算机辅助诊断应用于呼吸系统疾病的一个重要组成内容。

  相对于咳嗽的自动识别,国内外关于咳嗽分类的研究报道不多。文献[15]采用Mel频率倒谱系数(Mel frequency cepstrum coefficients, MFCC)和动态时间规整的方法来对咳嗽信号进行自动干湿性分类,得到干性咳嗽和湿性咳嗽的分类准确率分别为94.55%和73.91%;文献[16]采用MFCC、共振峰频率和过零率等特征,通过Logistic回归模型识别儿科患者的湿性咳嗽,准确率为84%;文献[17]提出了直接利用咳嗽的时域特征和频域特征进行干湿性分类的方法,并用16个典型样本测试了其有效性。可见,高准确率并通过大量测试样本验证的咳嗽分类方法还有待进一步的研究。

  在以上咳嗽识别和咳嗽分类的研究中,一般以MFCC作为特征量。传统MFCC的提取采用Mel刻度上均匀分布的滤波器组,由于实际频率与Mel频率的非线性对应关系,滤波器组在低频区域分布较密集,在高频区域分布较稀疏,即特征提取集中在低频区域进行。但事实上,根据咳嗽的发声机制[18-19],当发生湿性咳嗽时,由于呼吸道中有痰导致气流震荡加剧,使得咳嗽声的中频和高频成分增多,因此干性咳嗽和湿性咳嗽的频谱特征在中频和高频区域有较显著的差别,如图 1所示。传统MFCC由于滤波器过多集中在低频段,中频和高频段提取的信息不足,未能最大限度反映两类咳嗽的差别,进而影响咳嗽分类效果。针对这样的一个问题,本文提出一种改进的反向MFCC特征提取方法,将特征提取集中在两类咳嗽频谱能量高且差别显著的频段进行,并采用隐马尔可夫模型实现咳嗽的干湿性自动分类。

  (1) 对输入的咳嗽信号进行分帧、加窗,然后作离散傅里叶变换,获得频谱分布信息。

  定义一个在Mel刻度上均匀分布的三角滤波器组,包含M个滤波器,中心频率为f(m),m=1, 2, …,M。当M=20时,均匀滤波器组的结构如图 3所示。

  式中,dt表示第t个一阶差分;Ct表示第t个倒谱系数;Q表示倒谱系数的阶数;K表示一阶导数的时间差,可取1或2。

  反向MFCC的基本思想是在反向Mel频率刻度上放置均匀的滤波器组,从而使得高频区域的滤波器分布比低频区域密集。反向Mel频率刻度fI-mel与实际频率之间的转换如式(7)所示[21]:

  记反向Mel滤波器响应为,与均匀Mel滤波器相应Hm(k)对应关系如下:

  反向Mel滤波器组的结构如图 4所示,可见,与图 3中的Mel滤波器组相反,反向Mel滤波器组在高频区域放置较多的滤波器,分布较密集;在低频区域分布较稀疏。

  当采样频率为8 000 Hz时,在咳嗽信号的整个[0, 4 000]Hz频域范围内,0 Hz和4 000 Hz附近频段的频谱能量很小[18-19],低能量频段包含特征信息少且容易受噪声影响,咳嗽的特征大多分布在在频谱能量较高的频段。因此,在进行咳嗽的干湿性分类时,为了最大限度地反映干性咳嗽和湿性咳嗽的区别,有效的特征提取应集中在两类咳嗽频谱能量高且差别较显著的频段进行。

  虽然反向MFCC滤波器组有效地获取了高频区域的频谱信息,但滤波器过多地集中在了咳嗽频谱能量较小的4 000 Hz附近的频段上,仍不能够满足咳嗽分类的要求。本文根据咳嗽频谱能量分布对反向MFCC滤波器组进行改进,在咳嗽频谱能量较大的[fl, fh]Hz的频率范围放置反向Mel滤波器组,其中fl和fh分别对应于高频谱能量频段的下限频率和上限频率,且fl 0 Hz,fh 4 000 Hz。

  相对于反向Mel滤波器组的响应,计算改进反向Mel滤波器组响应的区别主要在于中心频率f′[m]的计算。改进反向Mel滤波器组响应的计算步骤如下:

  (3) 将Mel刻度的中心频率fMed[m]转为以Hz为单位,得到改进反向Mel滤波器的中心频率f′[m]。

  (4) 将f′[m]代入公式(3)和(8)计算得到的,即为改进反向Mel滤波器组的响应。

  (5) 用改进反向Mel滤波器组的响应取代传统MFCC提取流程中的Hm(k),得到改进反向MFCC。

  文中取M=20,fl=55 Hz,fh=3 040 Hz,得到改进的反向Mel滤波器组结构如图 5所示。可见,改进后的反向滤波器组集中分布在[55, 3 040] Hz频率范围的中、高频区域,即特征提取集中在两类咳嗽频谱能量高且差别较显著的频段进行。

  实验样本来自广州医学院第一附属医院病房,使用DELL原装机的声卡信号采集设备做单声道采样,采样频率为8 000 Hz,每个录音保存为16位数字量化的WAV文件。选取不同性别、年龄和呼吸感染情况的患者13例(其中以干性咳嗽为主的患者7例,男4例,女3例,平均岁数53岁;以湿性咳嗽为主的患者例数6例,男3例,女3例,平均岁数59岁), 在患者知情同意的情况下,进行连续、长时间的日常录音。将录音人工分割成单个咳嗽信号并在医生指导下分类,作为训练样本和测试样本。

  隐马尔可夫模型由于其优异的动态建模能力在语言识别中获得了广泛的应用[22],本文采用隐马尔可夫模型来实现干性咳嗽和湿性咳嗽嗽的分类。分别取60个干性咳嗽(其中男32个,女28个;无噪声环境下46个,有噪声环境下14个)和60个湿性咳嗽(其中男36个,女24个;无噪声环境下41个,噪声环境下19个)作为隐马尔可夫模型训练样本,再分别取120个干性咳嗽(其中男63个,女57个;无噪声环境下96个,有噪声环境下24个)和85个湿性咳嗽(其中男49个,女36个;无噪声环境下61个,有噪声环境下24个)作为测试样本,测试样本不包含训练样本。

  (1) 为干性咳嗽信号和湿性咳嗽信号分别定义一个隐马尔可夫模型,记为H={h1,h2}。采用含2个隐含状态的自左向右隐马尔可夫模型来实现,每个状态为包含3个高斯元的混合模型,采用C均值的方法初始化高斯混合模型参数。

  (2) 取60个干性咳嗽和60个湿性咳嗽作为训练样本,分别训练hi(i=1, 2),获得最佳模型μi。采用Baum-Welch算法[22]进行训练,迭代次数设置为50次。

  分别采用包含一阶和二级差分系数的39维传统MFCC、反向MFCC和改进反向MFCC作为特征量,采用隐马尔可夫模型进行咳嗽的干湿性分类,结果如表 1所示,其中干性咳嗽的分类准确率=正确分类的干性咳嗽个数/干性咳嗽总数;湿性咳嗽的分类准确率=正确分类的湿性咳嗽个数/湿性咳嗽总数;总体分类准确率=正确分类的咳嗽个数/咳嗽总数。

  由表 1可见,三种特征提取方法中,反向MFCC对应的干性咳嗽、湿性咳嗽和总体分类准确率都最低,而改进反向MFCC相应的三种分类准确率都最高。另外采用三种不同的特征时,湿性咳嗽分类准确率皆低于干性咳嗽,反映了湿性咳嗽的频谱构成更复杂和多样化,这与文献[19]报道的咳嗽特点一致。

  在咳嗽识别和咳嗽分类研究中,以往的研究大多参考语音识别系统,采用传统的MFCC作为特征量,传统MFCC在Mel刻度放置均匀滤波器,特征提取集中在信号的低频和中频区域进行。然而通过一系列分析咳嗽的机制和声学特征发现,在咳嗽信号的整个0~4 000 Hz频域范围内,0 Hz和4 000 Hz附近频段的频谱能量很小,咳嗽的频谱能量主要分布在50~3 050 Hz范围内,且湿性咳嗽由于呼吸道中有痰导致气流震荡加剧,其频谱的中频和高频成分比干性咳嗽更为丰富。咳嗽分类的目标是区分两类咳嗽,因此有效的特征提取应集中在两类咳嗽频谱能量高且差别较显著的频段进行。本文提出的改进反向MFCC,将滤波器组集中放置在两类咳嗽频谱能量高且差别较显著的频段,实现了有效的特征提取,从而获得了优于传统MFCC的分类结果,使得总体分类准确率从89.76%提高到了93.66%;该方法主要提取了咳嗽中频和高频段的特征,使得该频段特征明显的湿性咳嗽更容易被正确识别,因而采用该方法时湿性咳嗽分类准确率的提升比干性咳嗽显著。另一方面,与传统MFCC一样,改进反向MFCC仍是反映信号频谱能量的特征表示方法,因而容易受到噪声的影响,当干性咳嗽叠加了噪声,尤其是中频和高频的噪声时,由于中频和高频成分增多,容易被错分类为湿性咳嗽。如何进一步提升特征提取方法的鲁棒性是我们将来的研究重点。

  咳嗽是呼吸系统疾病常见的症状[1],咳嗽的监测和自动识别在临床上具备极其重大的诊断指导意义。目前,咳嗽声音的分析和识别主要参考语音识别系统,采用神经网络[2-3]、隐马尔可夫模型[4-5]、隐马尔可夫模型与神经网络的混合模型[6]或分类树[7]等方法来实现。通过借鉴语音识别方面的技术,咳嗽识别的准确率已达到较高的水平,目前已有多种类型的便携式咳嗽监测仪,如Hull自动化咳嗽计数器[8]、Leicester咳嗽监测系统[9]、Lifeshirt系统[10-11]和VitaloJAK系统[12]等,均在某些特定的程度上实现了咳嗽的自动或半自动识别。

  咳嗽按性质可分为干性咳嗽和湿性咳嗽两种,干性咳嗽无痰或痰量少,常见于慢性喉炎、气管炎、气管受压或管内异物;湿性咳嗽有痰,常见于慢性支气管炎、肺炎、支气管扩张和肺脓肿等[13-14]。咳嗽的特征取决于潜在疾病的种类,因此咳嗽的类型在某些特定的程度上能够反映呼吸道疾病的类型及其严重程度。咳嗽类型的自动分类有助于医生快速诊断病因和提高疗效,是计算机辅助诊断应用于呼吸系统疾病的一个重要组成内容。

  相对于咳嗽的自动识别,国内外关于咳嗽分类的研究报道不多。文献[15]采用Mel频率倒谱系数(Mel frequency cepstrum coefficients, MFCC)和动态时间规整的方法来对咳嗽信号进行自动干湿性分类,得到干性咳嗽和湿性咳嗽的分类准确率分别为94.55%和73.91%;文献[16]采用MFCC、共振峰频率和过零率等特征,通过Logistic回归模型识别儿科患者的湿性咳嗽,准确率为84%;文献[17]提出了直接利用咳嗽的时域特征和频域特征进行干湿性分类的方法,并用16个典型样本测试了其有效性。可见,高准确率并通过大量测试样本验证的咳嗽分类方法还有待进一步的研究。

  在以上咳嗽识别和咳嗽分类的研究中,一般以MFCC作为特征量。传统MFCC的提取采用Mel刻度上均匀分布的滤波器组,由于实际频率与Mel频率的非线性对应关系,滤波器组在低频区域分布较密集,在高频区域分布较稀疏,即特征提取集中在低频区域进行。但事实上,根据咳嗽的发声机制[18-19],当发生湿性咳嗽时,由于呼吸道中有痰导致气流震荡加剧,使得咳嗽声的中频和高频成分增多,因此干性咳嗽和湿性咳嗽的频谱特征在中频和高频区域有较显著的差别,如图 1所示。传统MFCC由于滤波器过多集中在低频段,中频和高频段提取的信息不足,未能最大限度反映两类咳嗽的差别,进而影响咳嗽分类效果。针对这样的一个问题,本文提出一种改进的反向MFCC特征提取方法,将特征提取集中在两类咳嗽频谱能量高且差别显著的频段进行,并采用隐马尔可夫模型实现咳嗽的干湿性自动分类。

  (1) 对输入的咳嗽信号进行分帧、加窗,然后作离散傅里叶变换,获得频谱分布信息。

  定义一个在Mel刻度上均匀分布的三角滤波器组,包含M个滤波器,中心频率为f(m),m=1, 2, …,M。当M=20时,均匀滤波器组的结构如图 3所示。

  式中,dt表示第t个一阶差分;Ct表示第t个倒谱系数;Q表示倒谱系数的阶数;K表示一阶导数的时间差,可取1或2。

  反向MFCC的基本思想是在反向Mel频率刻度上放置均匀的滤波器组,从而使得高频区域的滤波器分布比低频区域密集。反向Mel频率刻度fI-mel与实际频率之间的转换如式(7)所示[21]:

  记反向Mel滤波器响应为,与均匀Mel滤波器相应Hm(k)对应关系如下:

  反向Mel滤波器组的结构如图 4所示,可见,与图 3中的Mel滤波器组相反,反向Mel滤波器组在高频区域放置较多的滤波器,分布较密集;在低频区域分布较稀疏。

  当采样频率为8 000 Hz时,在咳嗽信号的整个[0, 4 000]Hz频域范围内,0 Hz和4 000 Hz附近频段的频谱能量很小[18-19],低能量频段包含特征信息少且容易受噪声影响,咳嗽的特征大多分布在在频谱能量较高的频段。因此,在进行咳嗽的干湿性分类时,为了最大限度地反映干性咳嗽和湿性咳嗽的区别,有效的特征提取应集中在两类咳嗽频谱能量高且差别较显著的频段进行。

  虽然反向MFCC滤波器组有效地获取了高频区域的频谱信息,但滤波器过多地集中在了咳嗽频谱能量较小的4 000 Hz附近的频段上,仍不能够满足咳嗽分类的要求。本文根据咳嗽频谱能量分布对反向MFCC滤波器组进行改进,在咳嗽频谱能量较大的[fl, fh]Hz的频率范围放置反向Mel滤波器组,其中fl和fh分别对应于高频谱能量频段的下限频率和上限频率,且fl 0 Hz,fh 4 000 Hz。

  相对于反向Mel滤波器组的响应,计算改进反向Mel滤波器组响应的区别主要在于中心频率f′[m]的计算。改进反向Mel滤波器组响应的计算步骤如下:

  (3) 将Mel刻度的中心频率fMed[m]转为以Hz为单位,得到改进反向Mel滤波器的中心频率f′[m]。

  (4) 将f′[m]代入公式(3)和(8)计算得到的,即为改进反向Mel滤波器组的响应。

  (5) 用改进反向Mel滤波器组的响应取代传统MFCC提取流程中的Hm(k),得到改进反向MFCC。

  文中取M=20,fl=55 Hz,fh=3 040 Hz,得到改进的反向Mel滤波器组结构如图 5所示。可见,改进后的反向滤波器组集中分布在[55, 3 040] Hz频率范围的中、高频区域,即特征提取集中在两类咳嗽频谱能量高且差别较显著的频段进行。

  实验样本来自广州医学院第一附属医院病房,使用DELL原装机的声卡信号采集设备做单声道采样,采样频率为8 000 Hz,每个录音保存为16位数字量化的WAV文件。选取不同性别、年龄和呼吸感染情况的患者13例(其中以干性咳嗽为主的患者7例,男4例,女3例,平均岁数53岁;以湿性咳嗽为主的患者例数6例,男3例,女3例,平均岁数59岁), 在患者知情同意的情况下,进行连续、长时间的日常录音。将录音人工分割成单个咳嗽信号并在医生指导下分类,作为训练样本和测试样本。

  隐马尔可夫模型由于其优异的动态建模能力在语言识别中获得了广泛的应用[22],本文采用隐马尔可夫模型来实现干性咳嗽和湿性咳嗽嗽的分类。分别取60个干性咳嗽(其中男32个,女28个;无噪声环境下46个,有噪声环境下14个)和60个湿性咳嗽(其中男36个,女24个;无噪声环境下41个,噪声环境下19个)作为隐马尔可夫模型训练样本,再分别取120个干性咳嗽(其中男63个,女57个;无噪声环境下96个,有噪声环境下24个)和85个湿性咳嗽(其中男49个,女36个;无噪声环境下61个,有噪声环境下24个)作为测试样本,测试样本不包含训练样本。

  (1) 为干性咳嗽信号和湿性咳嗽信号分别定义一个隐马尔可夫模型,记为H={h1,h2}。采用含2个隐含状态的自左向右隐马尔可夫模型来实现,每个状态为包含3个高斯元的混合模型,采用C均值的方法初始化高斯混合模型参数。

  (2) 取60个干性咳嗽和60个湿性咳嗽作为训练样本,分别训练hi(i=1, 2),获得最佳模型μi。采用Baum-Welch算法[22]进行训练,迭代次数设置为50次。

  分别采用包含一阶和二级差分系数的39维传统MFCC、反向MFCC和改进反向MFCC作为特征量,采用隐马尔可夫模型进行咳嗽的干湿性分类,结果如表 1所示,其中干性咳嗽的分类准确率=正确分类的干性咳嗽个数/干性咳嗽总数;湿性咳嗽的分类准确率=正确分类的湿性咳嗽个数/湿性咳嗽总数;总体分类准确率=正确分类的咳嗽个数/咳嗽总数。

  由表 1可见,三种特征提取方法中,反向MFCC对应的干性咳嗽、湿性咳嗽和总体分类准确率都最低,而改进反向MFCC相应的三种分类准确率都最高。另外采用三种不同的特征时,湿性咳嗽分类准确率皆低于干性咳嗽,反映了湿性咳嗽的频谱构成更复杂和多样化,这与文献[19]报道的咳嗽特点一致。

  在咳嗽识别和咳嗽分类研究中,以往的研究大多参考语音识别系统,采用传统的MFCC作为特征量,传统MFCC在Mel刻度放置均匀滤波器,特征提取集中在信号的低频和中频区域进行。然而通过一系列分析咳嗽的机制和声学特征发现,在咳嗽信号的整个0~4 000 Hz频域范围内,0 Hz和4 000 Hz附近频段的频谱能量很小,咳嗽的频谱能量主要分布在50~3 050 Hz范围内,且湿性咳嗽由于呼吸道中有痰导致气流震荡加剧,其频谱的中频和高频成分比干性咳嗽更为丰富。咳嗽分类的目标是区分两类咳嗽,因此有效的特征提取应集中在两类咳嗽频谱能量高且差别较显著的频段进行。本文提出的改进反向MFCC,将滤波器组集中放置在两类咳嗽频谱能量高且差别较显著的频段,实现了有效的特征提取,从而获得了优于传统MFCC的分类结果,使得总体分类准确率从89.76%提高到了93.66%;该方法主要提取了咳嗽中频和高频段的特征,使得该频段特征明显的湿性咳嗽更容易被正确识别,因而采用该方法时湿性咳嗽分类准确率的提升比干性咳嗽显著。另一方面,与传统MFCC一样,改进反向MFCC仍是反映信号频谱能量的特征表示方法,因而容易受到噪声的影响,当干性咳嗽叠加了噪声,尤其是中频和高频的噪声时,由于中频和高频成分增多,容易被错分类为湿性咳嗽。如何进一步提升特征提取方法的鲁棒性是我们将来的研究重点。

上一篇: PRBTEK共享高压探头的用处是什么?

下一篇:【48812】TR-40K TR-40K接万用表高压探头