首頁 資訊 一種基于聲音特征識別的嬰兒哭聲翻譯方法與流程

一種基于聲音特征識別的嬰兒哭聲翻譯方法與流程

來源:泰然健康網(wǎng) 時間:2024年12月01日 22:56

一種基于聲音特征識別的嬰兒哭聲翻譯方法與流程

本發(fā)明涉及聲音識別技術領域,特別是一種基于聲音特征識別的嬰兒哭聲翻譯方法。

背景技術

傳統(tǒng)嬰幼兒陪護過程中,由于嬰兒尚未具備語言能力,其生理需求和情感表達主要依靠陪護人的觀察嬰兒的表情、表觀現(xiàn)象及體感特征等經(jīng)驗判斷。這種方法在一定程度上依賴于看護人的經(jīng)驗豐富程度,但年輕父母或其他看護人很少接受專業(yè)培訓,而造成經(jīng)驗不足或不盡相同、且沒有相對統(tǒng)一的參考標準。這種傳統(tǒng)的經(jīng)驗式判斷存在以下弊端:1.由于看護人未及時掌握嬰兒生理或心理需求,使得看護質(zhì)量下降,效率不高;2.由于看護人誤判、延判,造成嬰兒的醫(yī)療、救治不及時。

技術實現(xiàn)要素:

本發(fā)明的目的是要解決現(xiàn)有技術中存在的不足,提供一種基于聲音特征識別的嬰兒哭聲翻譯方法,通過對嬰兒哭聲的特征提取與分析和神經(jīng)網(wǎng)絡訓練,可以識別嬰兒在不同生理狀態(tài)下的聲音反應,并反饋為饑餓、瞌睡、疼痛、無聊、恐懼、不適六種狀態(tài),可以協(xié)助人們對嬰兒的反應做出判斷,提高嬰兒護理的科學性和可靠性。

為達到上述目的,本發(fā)明是按照以下技術方案實施的:

一種基于聲音特征識別的嬰兒哭聲翻譯方法,包括以下步驟:

步驟一、采用一個精密聲級拾音器采集嬰兒哭聲的聲音片段,并對采集的所有嬰兒哭聲的聲音片段進行前處理,所述前處理包括對所有嬰兒哭聲的聲音片段的語音降噪、濾波消噪;

步驟二、將經(jīng)前處理的嬰兒哭聲的聲音片段經(jīng)a/d采樣后存儲于計算機,通過計算機對經(jīng)前處理的嬰兒哭聲的聲音片段再次進行濾波和降噪處理;

步驟三、對步驟二處理過的嬰兒哭聲的聲音片段提取音色、音調(diào)、響度、能量、頻率共5個特征參數(shù)特征參數(shù)和頻率共生矩陣,共生矩陣的特征參數(shù)包括對比度、相關、逆差距、能量、中值、協(xié)方差、反差、差異性、二階矩、熵、自相關共11個特征參數(shù);

步驟四、通過主成分分析法對提取的音色、音調(diào)、響度、能量、頻率的特征參數(shù)和頻率共生矩陣的特征參數(shù)進行降維處理;

步驟五、選取降維處理后的嬰兒哭聲的聲音片段的音色、音調(diào)、響度、能量、頻率的特征參數(shù)用于輸入bp神經(jīng)網(wǎng)絡的輸入層,輸出層神經(jīng)元的個數(shù)為6,設定隱含層神經(jīng)元的個數(shù)為4;設定bp神經(jīng)網(wǎng)絡最大訓練次數(shù)為60000次,使最小均方差為0.0001;設定輸入層的轉(zhuǎn)換函數(shù)為tansig、輸出層的轉(zhuǎn)換函數(shù)為purelin、bp神經(jīng)網(wǎng)絡的訓練函數(shù)為traingdm,權(quán)值和閾值的學習函數(shù)為learngdm;在輸出層中分別表示如下:饑餓[100000]、瞌睡[010000]、疼痛[001000]、無聊[000100]、恐懼[000010]、不適[000001],然后開始對bp神經(jīng)網(wǎng)絡進行訓練;

步驟六、bp神經(jīng)網(wǎng)絡訓練完成后,將待識別的嬰兒哭聲的聲音片段的降維處理后的聲音片段的音色、音調(diào)、響度、能量、頻率的特征參數(shù)輸入到訓練好的bp神經(jīng)網(wǎng)絡中,輸出層得到嬰兒哭聲的聲音識別。

進一步的技術方案為,所述步驟一中,所述精密聲級拾音器放置于嬰兒嘴部上方10cm處,采集1s時長的嬰兒哭聲的聲音片段。

進一步的技術方案為,所述步驟四中降維處理具體為:采用db5小波對聲音片段進行4層分解,得到16個等分的頻率段,然后求出每個頻率段的能量,然后將各段聲音信號能量歸一化后構(gòu)成特征向量,該特征向量可表示為:

式中,e1,e2,……,e13,e14為每個頻率段能量,e為信號總能量。

進一步的技術方案為,所述步驟五中,分別用[10000]、[01000]、[00100]、[00010]和[00001]來表示降維后的每段嬰兒哭聲的的聲音片段的音色、音調(diào)、響度、能量、頻率的特征參數(shù)。

與現(xiàn)有技術相比,本發(fā)明依據(jù)嬰兒在不同生理狀態(tài)下啼哭的聲音特征差異,利用計算機聲音處理技術,分別提取嬰兒在不同生理狀態(tài)下啼哭聲音特征參數(shù):音色、音調(diào)、響度、能量、頻率和頻率共生矩陣的11個特征參數(shù),總共的16個特征參數(shù)。通過bp神經(jīng)網(wǎng)絡算法,對嬰兒在不同生理狀態(tài)下啼哭聲音片段進行采集,對聲音片段降噪和濾波后再建立嬰兒啼哭聲音特征差異與饑餓、瞌睡、疼痛、無聊、恐懼、不適六種生理狀態(tài)之間的對應關系,并給出識別結(jié)果為:饑餓、瞌睡、疼痛、無聊、恐懼、不適。在訓練bp神經(jīng)網(wǎng)絡中,輸入任何一段嬰兒哭聲聲音片段中提取的特征參數(shù),即可從輸出層得到識別的結(jié)果,提高嬰兒護理的質(zhì)量與效率,減少嬰兒護理中的誤判和延判。

附圖說明

圖1為本發(fā)明的流程圖。

圖2為bp神經(jīng)網(wǎng)絡結(jié)構(gòu)圖。

圖3為多元神經(jīng)單層神經(jīng)網(wǎng)絡示意圖。

具體實施方式

下面結(jié)合具體實施例對本發(fā)明作進一步描述,在此發(fā)明的示意性實施例以及說明用來解釋本發(fā)明,但并不作為對本發(fā)明的限定。

如圖1所示,本實施例的一種基于聲音特征識別的嬰兒哭聲翻譯方法,具體步驟如下所示:

可以采用一個手持式的精密聲級拾音器放置于嬰兒嘴部上方10cm處,采集1s時長的嬰兒哭聲的聲音片段,并對采集的所有嬰兒哭聲的聲音片段進行前處理,所述前處理包括采用minidsp音頻處理器,dsp語音降噪算法,ld-2l濾波消噪電流聲抗干擾器對所有嬰兒哭聲的聲音片段的語音降噪、濾波消噪。

這些聲音信號在輸入bp神經(jīng)網(wǎng)絡前需經(jīng)分析處理,以獲取利于識別的有效特征,這是決定bp網(wǎng)絡輸入層節(jié)點數(shù)和網(wǎng)絡識別精度的關鍵。前面采集并存儲于計算機的聲音是離散的時域信號,可對嬰兒啼哭產(chǎn)生的聲音的進行頻譜等特征分析,以提取相關的特征參數(shù),從而建立嬰兒啼哭聲音特征差異與饑餓、瞌睡、疼痛、無聊、恐懼、不適六種生理狀態(tài)之間的對應關系。

進一步,將經(jīng)前處理的嬰兒哭聲的聲音片段經(jīng)a/d采樣后存儲于計算機,通過計算機對經(jīng)前處理的嬰兒哭聲的聲音片段再次進行濾波和降噪處理。

進一步,對處理過的嬰兒哭聲的聲音片段提取音色、音調(diào)、響度、能量、頻率共5個特征參數(shù)特征參數(shù)和頻率共生矩陣,共生矩陣的特征參數(shù)包括對比度、相關、逆差距、能量、中值、協(xié)方差、反差、差異性、二階矩、熵、自相關共11個特征參數(shù)。

進一步,由于不同嬰兒啼哭的聲音信號的功率譜不同,通過主成分分析法對提取的音色、音調(diào)、響度、能量、頻率的特征參數(shù)和頻率共生矩陣的特征參數(shù)進行降維處理,具體方法為:采用db5小波對嬰兒哭聲的聲音片段進行4層分解,得到16個等分的頻率段,然后求出每個頻率段的能量,然后將各段聲音信號能量歸一化后構(gòu)成特征向量,該特征向量可表示為:

式中,e1,e2,……,e13,e14為每個頻率段能量,e為信號總能量。

bp神經(jīng)網(wǎng)絡是采用誤差反向傳播算法的多層前饋神經(jīng)網(wǎng)絡,它包含輸入層、輸出層和一個或多個隱層,如圖3所示。各層神經(jīng)元僅與相鄰層神經(jīng)元之間相互全連接,同層神經(jīng)元之間無連接。輸入信號從輸入層節(jié)點(神經(jīng)元)依次傳過各隱層節(jié)點,再傳到輸出節(jié)點,每一層節(jié)點的輸出只影響下一層節(jié)點的輸出,然后按照誤差減少的原則,從輸出層經(jīng)隱層向輸入層逐層修正權(quán)值,這種逆向誤差傳播修正不斷進行,直到達到所要求的學習目標。

進一步,構(gòu)建bp神經(jīng)網(wǎng)絡,包含輸入層節(jié)點數(shù)、輸出層節(jié)點數(shù)和網(wǎng)絡層數(shù)的確定。其中輸入層節(jié)點數(shù)和輸出層節(jié)點數(shù)是由實際問題本身決定的。如圖2所示,選取降維處理后的聲音片段的5個主成分特征參數(shù):音色、音調(diào)、響度、能量、頻率的特征參數(shù)用于輸入bp神經(jīng)網(wǎng)絡的輸入層,分別用[10000]、[01000]、[00100]、[00010]和[00001]來表示降維后的每段聲音的音色、音調(diào)、響度、能量、頻率的特征信號,輸出層神經(jīng)元的個數(shù)為6,設定隱含層神經(jīng)元的個數(shù)為4;設定bp神經(jīng)網(wǎng)絡最大訓練次數(shù)為60000次,使最小均方差為0.0001;設定輸入層的轉(zhuǎn)換函數(shù)為tansig、輸出層的轉(zhuǎn)換函數(shù)為purelin、bp神經(jīng)網(wǎng)絡的訓練函數(shù)為traingdm,權(quán)值和閾值的學習函數(shù)為learngdm;在輸出層中分別表示如下:饑餓[100000]、瞌睡[010000]、疼痛[001000]、無聊[000100]、恐懼[000010]、不適[000001],然后開始對bp神經(jīng)網(wǎng)絡進行訓練。

進一步,bp神經(jīng)網(wǎng)絡訓練完成后,將待識別的嬰兒哭聲的聲音片段的降維處理后的聲音片段的音色、音調(diào)、響度、能量、頻率的特征參數(shù)輸入到訓練好的bp神經(jīng)網(wǎng)絡中,輸出層得到嬰兒哭聲的聲音識別,從而就判斷出嬰兒所表達的是饑餓、瞌睡、疼痛、無聊、恐懼、不適中具體的一種狀態(tài)。

為了進一步驗證本實施例的可行性,bp神經(jīng)網(wǎng)絡訓練完成后,選取另外的待識別的待識別的20個嬰兒哭聲的聲音片段,將每個試樣的5個主成分特征參數(shù)輸入到訓練好的bp神經(jīng)網(wǎng)絡中,即得到如表1的輸出結(jié)果。

表1bp神經(jīng)網(wǎng)絡測試結(jié)果

從表1中可以看出,將待識別的降維處理后的嬰兒哭聲的聲音片段的音色、音調(diào)、響度、能量、頻率的特征參數(shù)輸入到訓練好的bp神經(jīng)網(wǎng)絡中,可以快速識別出嬰兒所表達的具體是饑餓、瞌睡、疼痛、無聊、恐懼、不適中具體的一種狀態(tài)。

本發(fā)明的技術方案不限于上述具體實施例的限制,凡是根據(jù)本發(fā)明的技術方案做出的技術變形,均落入本發(fā)明的保護范圍之內(nèi)。

相關知識

基于PaddleSpeech的嬰兒啼哭識別:讓哭聲“說話
一種便攜式嬰兒啼哭聲識別器及其識別方法與流程
基于PaddleSpeech的嬰兒啼哭識別(上)
基于PaddleSpeech的嬰兒啼哭識別:構(gòu)建嬰兒需求理解的橋梁
嬰兒啼哭聲研究與模式分類
嬰兒的哭聲怎么形容
硬核奶爸做個“智能嬰兒監(jiān)視器”:啼哭自動通知,還能分析哭聲含義
嬰兒出生啼哭聲 音效素材 免費下載
新手爸媽?不會帶娃?一文教你聽懂寶寶哭聲中的訴求~~~
Nature:哭聲的秘密?嬰兒啼哭→母親釋放催產(chǎn)素|世界母乳喂養(yǎng)周

網(wǎng)址: 一種基于聲音特征識別的嬰兒哭聲翻譯方法與流程 http://www.u1s5d6.cn/newsview196031.html

推薦資訊