首頁 資訊 一種基于聲音特征識(shí)別的嬰兒哭聲翻譯方法與流程

一種基于聲音特征識(shí)別的嬰兒哭聲翻譯方法與流程

來源:泰然健康網(wǎng) 時(shí)間:2024年12月01日 22:56

一種基于聲音特征識(shí)別的嬰兒哭聲翻譯方法與流程

本發(fā)明涉及聲音識(shí)別技術(shù)領(lǐng)域,特別是一種基于聲音特征識(shí)別的嬰兒哭聲翻譯方法。

背景技術(shù)

傳統(tǒng)嬰幼兒陪護(hù)過程中,由于嬰兒尚未具備語言能力,其生理需求和情感表達(dá)主要依靠陪護(hù)人的觀察嬰兒的表情、表觀現(xiàn)象及體感特征等經(jīng)驗(yàn)判斷。這種方法在一定程度上依賴于看護(hù)人的經(jīng)驗(yàn)豐富程度,但年輕父母或其他看護(hù)人很少接受專業(yè)培訓(xùn),而造成經(jīng)驗(yàn)不足或不盡相同、且沒有相對(duì)統(tǒng)一的參考標(biāo)準(zhǔn)。這種傳統(tǒng)的經(jīng)驗(yàn)式判斷存在以下弊端:1.由于看護(hù)人未及時(shí)掌握嬰兒生理或心理需求,使得看護(hù)質(zhì)量下降,效率不高;2.由于看護(hù)人誤判、延判,造成嬰兒的醫(yī)療、救治不及時(shí)。

技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是要解決現(xiàn)有技術(shù)中存在的不足,提供一種基于聲音特征識(shí)別的嬰兒哭聲翻譯方法,通過對(duì)嬰兒哭聲的特征提取與分析和神經(jīng)網(wǎng)絡(luò)訓(xùn)練,可以識(shí)別嬰兒在不同生理狀態(tài)下的聲音反應(yīng),并反饋為饑餓、瞌睡、疼痛、無聊、恐懼、不適六種狀態(tài),可以協(xié)助人們對(duì)嬰兒的反應(yīng)做出判斷,提高嬰兒護(hù)理的科學(xué)性和可靠性。

為達(dá)到上述目的,本發(fā)明是按照以下技術(shù)方案實(shí)施的:

一種基于聲音特征識(shí)別的嬰兒哭聲翻譯方法,包括以下步驟:

步驟一、采用一個(gè)精密聲級(jí)拾音器采集嬰兒哭聲的聲音片段,并對(duì)采集的所有嬰兒哭聲的聲音片段進(jìn)行前處理,所述前處理包括對(duì)所有嬰兒哭聲的聲音片段的語音降噪、濾波消噪;

步驟二、將經(jīng)前處理的嬰兒哭聲的聲音片段經(jīng)a/d采樣后存儲(chǔ)于計(jì)算機(jī),通過計(jì)算機(jī)對(duì)經(jīng)前處理的嬰兒哭聲的聲音片段再次進(jìn)行濾波和降噪處理;

步驟三、對(duì)步驟二處理過的嬰兒哭聲的聲音片段提取音色、音調(diào)、響度、能量、頻率共5個(gè)特征參數(shù)特征參數(shù)和頻率共生矩陣,共生矩陣的特征參數(shù)包括對(duì)比度、相關(guān)、逆差距、能量、中值、協(xié)方差、反差、差異性、二階矩、熵、自相關(guān)共11個(gè)特征參數(shù);

步驟四、通過主成分分析法對(duì)提取的音色、音調(diào)、響度、能量、頻率的特征參數(shù)和頻率共生矩陣的特征參數(shù)進(jìn)行降維處理;

步驟五、選取降維處理后的嬰兒哭聲的聲音片段的音色、音調(diào)、響度、能量、頻率的特征參數(shù)用于輸入bp神經(jīng)網(wǎng)絡(luò)的輸入層,輸出層神經(jīng)元的個(gè)數(shù)為6,設(shè)定隱含層神經(jīng)元的個(gè)數(shù)為4;設(shè)定bp神經(jīng)網(wǎng)絡(luò)最大訓(xùn)練次數(shù)為60000次,使最小均方差為0.0001;設(shè)定輸入層的轉(zhuǎn)換函數(shù)為tansig、輸出層的轉(zhuǎn)換函數(shù)為purelin、bp神經(jīng)網(wǎng)絡(luò)的訓(xùn)練函數(shù)為traingdm,權(quán)值和閾值的學(xué)習(xí)函數(shù)為learngdm;在輸出層中分別表示如下:饑餓[100000]、瞌睡[010000]、疼痛[001000]、無聊[000100]、恐懼[000010]、不適[000001],然后開始對(duì)bp神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;

步驟六、bp神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成后,將待識(shí)別的嬰兒哭聲的聲音片段的降維處理后的聲音片段的音色、音調(diào)、響度、能量、頻率的特征參數(shù)輸入到訓(xùn)練好的bp神經(jīng)網(wǎng)絡(luò)中,輸出層得到嬰兒哭聲的聲音識(shí)別。

進(jìn)一步的技術(shù)方案為,所述步驟一中,所述精密聲級(jí)拾音器放置于嬰兒嘴部上方10cm處,采集1s時(shí)長(zhǎng)的嬰兒哭聲的聲音片段。

進(jìn)一步的技術(shù)方案為,所述步驟四中降維處理具體為:采用db5小波對(duì)聲音片段進(jìn)行4層分解,得到16個(gè)等分的頻率段,然后求出每個(gè)頻率段的能量,然后將各段聲音信號(hào)能量歸一化后構(gòu)成特征向量,該特征向量可表示為:

式中,e1,e2,……,e13,e14為每個(gè)頻率段能量,e為信號(hào)總能量。

進(jìn)一步的技術(shù)方案為,所述步驟五中,分別用[10000]、[01000]、[00100]、[00010]和[00001]來表示降維后的每段嬰兒哭聲的的聲音片段的音色、音調(diào)、響度、能量、頻率的特征參數(shù)。

與現(xiàn)有技術(shù)相比,本發(fā)明依據(jù)嬰兒在不同生理狀態(tài)下啼哭的聲音特征差異,利用計(jì)算機(jī)聲音處理技術(shù),分別提取嬰兒在不同生理狀態(tài)下啼哭聲音特征參數(shù):音色、音調(diào)、響度、能量、頻率和頻率共生矩陣的11個(gè)特征參數(shù),總共的16個(gè)特征參數(shù)。通過bp神經(jīng)網(wǎng)絡(luò)算法,對(duì)嬰兒在不同生理狀態(tài)下啼哭聲音片段進(jìn)行采集,對(duì)聲音片段降噪和濾波后再建立嬰兒啼哭聲音特征差異與饑餓、瞌睡、疼痛、無聊、恐懼、不適六種生理狀態(tài)之間的對(duì)應(yīng)關(guān)系,并給出識(shí)別結(jié)果為:饑餓、瞌睡、疼痛、無聊、恐懼、不適。在訓(xùn)練bp神經(jīng)網(wǎng)絡(luò)中,輸入任何一段嬰兒哭聲聲音片段中提取的特征參數(shù),即可從輸出層得到識(shí)別的結(jié)果,提高嬰兒護(hù)理的質(zhì)量與效率,減少嬰兒護(hù)理中的誤判和延判。

附圖說明

圖1為本發(fā)明的流程圖。

圖2為bp神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。

圖3為多元神經(jīng)單層神經(jīng)網(wǎng)絡(luò)示意圖。

具體實(shí)施方式

下面結(jié)合具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述,在此發(fā)明的示意性實(shí)施例以及說明用來解釋本發(fā)明,但并不作為對(duì)本發(fā)明的限定。

如圖1所示,本實(shí)施例的一種基于聲音特征識(shí)別的嬰兒哭聲翻譯方法,具體步驟如下所示:

可以采用一個(gè)手持式的精密聲級(jí)拾音器放置于嬰兒嘴部上方10cm處,采集1s時(shí)長(zhǎng)的嬰兒哭聲的聲音片段,并對(duì)采集的所有嬰兒哭聲的聲音片段進(jìn)行前處理,所述前處理包括采用minidsp音頻處理器,dsp語音降噪算法,ld-2l濾波消噪電流聲抗干擾器對(duì)所有嬰兒哭聲的聲音片段的語音降噪、濾波消噪。

這些聲音信號(hào)在輸入bp神經(jīng)網(wǎng)絡(luò)前需經(jīng)分析處理,以獲取利于識(shí)別的有效特征,這是決定bp網(wǎng)絡(luò)輸入層節(jié)點(diǎn)數(shù)和網(wǎng)絡(luò)識(shí)別精度的關(guān)鍵。前面采集并存儲(chǔ)于計(jì)算機(jī)的聲音是離散的時(shí)域信號(hào),可對(duì)嬰兒啼哭產(chǎn)生的聲音的進(jìn)行頻譜等特征分析,以提取相關(guān)的特征參數(shù),從而建立嬰兒啼哭聲音特征差異與饑餓、瞌睡、疼痛、無聊、恐懼、不適六種生理狀態(tài)之間的對(duì)應(yīng)關(guān)系。

進(jìn)一步,將經(jīng)前處理的嬰兒哭聲的聲音片段經(jīng)a/d采樣后存儲(chǔ)于計(jì)算機(jī),通過計(jì)算機(jī)對(duì)經(jīng)前處理的嬰兒哭聲的聲音片段再次進(jìn)行濾波和降噪處理。

進(jìn)一步,對(duì)處理過的嬰兒哭聲的聲音片段提取音色、音調(diào)、響度、能量、頻率共5個(gè)特征參數(shù)特征參數(shù)和頻率共生矩陣,共生矩陣的特征參數(shù)包括對(duì)比度、相關(guān)、逆差距、能量、中值、協(xié)方差、反差、差異性、二階矩、熵、自相關(guān)共11個(gè)特征參數(shù)。

進(jìn)一步,由于不同嬰兒啼哭的聲音信號(hào)的功率譜不同,通過主成分分析法對(duì)提取的音色、音調(diào)、響度、能量、頻率的特征參數(shù)和頻率共生矩陣的特征參數(shù)進(jìn)行降維處理,具體方法為:采用db5小波對(duì)嬰兒哭聲的聲音片段進(jìn)行4層分解,得到16個(gè)等分的頻率段,然后求出每個(gè)頻率段的能量,然后將各段聲音信號(hào)能量歸一化后構(gòu)成特征向量,該特征向量可表示為:

式中,e1,e2,……,e13,e14為每個(gè)頻率段能量,e為信號(hào)總能量。

bp神經(jīng)網(wǎng)絡(luò)是采用誤差反向傳播算法的多層前饋神經(jīng)網(wǎng)絡(luò),它包含輸入層、輸出層和一個(gè)或多個(gè)隱層,如圖3所示。各層神經(jīng)元僅與相鄰層神經(jīng)元之間相互全連接,同層神經(jīng)元之間無連接。輸入信號(hào)從輸入層節(jié)點(diǎn)(神經(jīng)元)依次傳過各隱層節(jié)點(diǎn),再傳到輸出節(jié)點(diǎn),每一層節(jié)點(diǎn)的輸出只影響下一層節(jié)點(diǎn)的輸出,然后按照誤差減少的原則,從輸出層經(jīng)隱層向輸入層逐層修正權(quán)值,這種逆向誤差傳播修正不斷進(jìn)行,直到達(dá)到所要求的學(xué)習(xí)目標(biāo)。

進(jìn)一步,構(gòu)建bp神經(jīng)網(wǎng)絡(luò),包含輸入層節(jié)點(diǎn)數(shù)、輸出層節(jié)點(diǎn)數(shù)和網(wǎng)絡(luò)層數(shù)的確定。其中輸入層節(jié)點(diǎn)數(shù)和輸出層節(jié)點(diǎn)數(shù)是由實(shí)際問題本身決定的。如圖2所示,選取降維處理后的聲音片段的5個(gè)主成分特征參數(shù):音色、音調(diào)、響度、能量、頻率的特征參數(shù)用于輸入bp神經(jīng)網(wǎng)絡(luò)的輸入層,分別用[10000]、[01000]、[00100]、[00010]和[00001]來表示降維后的每段聲音的音色、音調(diào)、響度、能量、頻率的特征信號(hào),輸出層神經(jīng)元的個(gè)數(shù)為6,設(shè)定隱含層神經(jīng)元的個(gè)數(shù)為4;設(shè)定bp神經(jīng)網(wǎng)絡(luò)最大訓(xùn)練次數(shù)為60000次,使最小均方差為0.0001;設(shè)定輸入層的轉(zhuǎn)換函數(shù)為tansig、輸出層的轉(zhuǎn)換函數(shù)為purelin、bp神經(jīng)網(wǎng)絡(luò)的訓(xùn)練函數(shù)為traingdm,權(quán)值和閾值的學(xué)習(xí)函數(shù)為learngdm;在輸出層中分別表示如下:饑餓[100000]、瞌睡[010000]、疼痛[001000]、無聊[000100]、恐懼[000010]、不適[000001],然后開始對(duì)bp神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

進(jìn)一步,bp神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成后,將待識(shí)別的嬰兒哭聲的聲音片段的降維處理后的聲音片段的音色、音調(diào)、響度、能量、頻率的特征參數(shù)輸入到訓(xùn)練好的bp神經(jīng)網(wǎng)絡(luò)中,輸出層得到嬰兒哭聲的聲音識(shí)別,從而就判斷出嬰兒所表達(dá)的是饑餓、瞌睡、疼痛、無聊、恐懼、不適中具體的一種狀態(tài)。

為了進(jìn)一步驗(yàn)證本實(shí)施例的可行性,bp神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成后,選取另外的待識(shí)別的待識(shí)別的20個(gè)嬰兒哭聲的聲音片段,將每個(gè)試樣的5個(gè)主成分特征參數(shù)輸入到訓(xùn)練好的bp神經(jīng)網(wǎng)絡(luò)中,即得到如表1的輸出結(jié)果。

表1bp神經(jīng)網(wǎng)絡(luò)測(cè)試結(jié)果

從表1中可以看出,將待識(shí)別的降維處理后的嬰兒哭聲的聲音片段的音色、音調(diào)、響度、能量、頻率的特征參數(shù)輸入到訓(xùn)練好的bp神經(jīng)網(wǎng)絡(luò)中,可以快速識(shí)別出嬰兒所表達(dá)的具體是饑餓、瞌睡、疼痛、無聊、恐懼、不適中具體的一種狀態(tài)。

本發(fā)明的技術(shù)方案不限于上述具體實(shí)施例的限制,凡是根據(jù)本發(fā)明的技術(shù)方案做出的技術(shù)變形,均落入本發(fā)明的保護(hù)范圍之內(nèi)。

相關(guān)知識(shí)

基于PaddleSpeech的嬰兒啼哭識(shí)別:讓哭聲“說話
一種便攜式嬰兒啼哭聲識(shí)別器及其識(shí)別方法與流程
基于PaddleSpeech的嬰兒啼哭識(shí)別(上)
基于PaddleSpeech的嬰兒啼哭識(shí)別:構(gòu)建嬰兒需求理解的橋梁
嬰兒啼哭聲研究與模式分類
嬰兒的哭聲怎么形容
硬核奶爸做個(gè)“智能嬰兒監(jiān)視器”:啼哭自動(dòng)通知,還能分析哭聲含義
嬰兒出生啼哭聲 音效素材 免費(fèi)下載
新手爸媽?不會(huì)帶娃?一文教你聽懂寶寶哭聲中的訴求~~~
Nature:哭聲的秘密?嬰兒啼哭→母親釋放催產(chǎn)素|世界母乳喂養(yǎng)周

網(wǎng)址: 一種基于聲音特征識(shí)別的嬰兒哭聲翻譯方法與流程 http://www.u1s5d6.cn/newsview196031.html

推薦資訊