首頁資訊一種基于聲音特征識別的嬰兒哭聲翻譯方法與流程

一種基于聲音特征識別的嬰兒哭聲翻譯方法與流程

來源：泰然健康網(wǎng) 時間：2024年12月01日 22:56

本發(fā)明涉及聲音識別技術(shù)領(lǐng)域，特別是一種基于聲音特征識別的嬰兒哭聲翻譯方法。

背景技術(shù)

傳統(tǒng)嬰幼兒陪護過程中，由于嬰兒尚未具備語言能力，其生理需求和情感表達主要依靠陪護人的觀察嬰兒的表情、表觀現(xiàn)象及體感特征等經(jīng)驗判斷。這種方法在一定程度上依賴于看護人的經(jīng)驗豐富程度，但年輕父母或其他看護人很少接受專業(yè)培訓，而造成經(jīng)驗不足或不盡相同、且沒有相對統(tǒng)一的參考標準。這種傳統(tǒng)的經(jīng)驗式判斷存在以下弊端：1.由于看護人未及時掌握嬰兒生理或心理需求，使得看護質(zhì)量下降，效率不高；2.由于看護人誤判、延判，造成嬰兒的醫(yī)療、救治不及時。

技術(shù)實現(xiàn)要素：

本發(fā)明的目的是要解決現(xiàn)有技術(shù)中存在的不足，提供一種基于聲音特征識別的嬰兒哭聲翻譯方法，通過對嬰兒哭聲的特征提取與分析和神經(jīng)網(wǎng)絡(luò)訓練，可以識別嬰兒在不同生理狀態(tài)下的聲音反應(yīng)，并反饋為饑餓、瞌睡、疼痛、無聊、恐懼、不適六種狀態(tài)，可以協(xié)助人們對嬰兒的反應(yīng)做出判斷，提高嬰兒護理的科學性和可靠性。

為達到上述目的，本發(fā)明是按照以下技術(shù)方案實施的：

一種基于聲音特征識別的嬰兒哭聲翻譯方法，包括以下步驟：

步驟一、采用一個精密聲級拾音器采集嬰兒哭聲的聲音片段，并對采集的所有嬰兒哭聲的聲音片段進行前處理，所述前處理包括對所有嬰兒哭聲的聲音片段的語音降噪、濾波消噪；

步驟二、將經(jīng)前處理的嬰兒哭聲的聲音片段經(jīng)a/d采樣后存儲于計算機，通過計算機對經(jīng)前處理的嬰兒哭聲的聲音片段再次進行濾波和降噪處理；

步驟三、對步驟二處理過的嬰兒哭聲的聲音片段提取音色、音調(diào)、響度、能量、頻率共5個特征參數(shù)特征參數(shù)和頻率共生矩陣，共生矩陣的特征參數(shù)包括對比度、相關(guān)、逆差距、能量、中值、協(xié)方差、反差、差異性、二階矩、熵、自相關(guān)共11個特征參數(shù)；

步驟四、通過主成分分析法對提取的音色、音調(diào)、響度、能量、頻率的特征參數(shù)和頻率共生矩陣的特征參數(shù)進行降維處理；

步驟五、選取降維處理后的嬰兒哭聲的聲音片段的音色、音調(diào)、響度、能量、頻率的特征參數(shù)用于輸入bp神經(jīng)網(wǎng)絡(luò)的輸入層，輸出層神經(jīng)元的個數(shù)為6，設(shè)定隱含層神經(jīng)元的個數(shù)為4；設(shè)定bp神經(jīng)網(wǎng)絡(luò)最大訓練次數(shù)為60000次，使最小均方差為0.0001；設(shè)定輸入層的轉(zhuǎn)換函數(shù)為tansig、輸出層的轉(zhuǎn)換函數(shù)為purelin、bp神經(jīng)網(wǎng)絡(luò)的訓練函數(shù)為traingdm，權(quán)值和閾值的學習函數(shù)為learngdm；在輸出層中分別表示如下：饑餓［100000］、瞌睡［010000］、疼痛［001000］、無聊［000100］、恐懼［000010］、不適［000001］，然后開始對bp神經(jīng)網(wǎng)絡(luò)進行訓練；

步驟六、bp神經(jīng)網(wǎng)絡(luò)訓練完成后，將待識別的嬰兒哭聲的聲音片段的降維處理后的聲音片段的音色、音調(diào)、響度、能量、頻率的特征參數(shù)輸入到訓練好的bp神經(jīng)網(wǎng)絡(luò)中，輸出層得到嬰兒哭聲的聲音識別。

進一步的技術(shù)方案為，所述步驟一中，所述精密聲級拾音器放置于嬰兒嘴部上方10cm處，采集1s時長的嬰兒哭聲的聲音片段。

進一步的技術(shù)方案為，所述步驟四中降維處理具體為：采用db5小波對聲音片段進行4層分解，得到16個等分的頻率段，然后求出每個頻率段的能量，然后將各段聲音信號能量歸一化后構(gòu)成特征向量，該特征向量可表示為:

式中，e1，e2，……，e13，e14為每個頻率段能量，e為信號總能量。

進一步的技術(shù)方案為，所述步驟五中，分別用［10000］、［01000］、［00100］、［00010］和［00001］來表示降維后的每段嬰兒哭聲的的聲音片段的音色、音調(diào)、響度、能量、頻率的特征參數(shù)。

與現(xiàn)有技術(shù)相比，本發(fā)明依據(jù)嬰兒在不同生理狀態(tài)下啼哭的聲音特征差異，利用計算機聲音處理技術(shù)，分別提取嬰兒在不同生理狀態(tài)下啼哭聲音特征參數(shù)：音色、音調(diào)、響度、能量、頻率和頻率共生矩陣的11個特征參數(shù)，總共的16個特征參數(shù)。通過bp神經(jīng)網(wǎng)絡(luò)算法，對嬰兒在不同生理狀態(tài)下啼哭聲音片段進行采集，對聲音片段降噪和濾波后再建立嬰兒啼哭聲音特征差異與饑餓、瞌睡、疼痛、無聊、恐懼、不適六種生理狀態(tài)之間的對應(yīng)關(guān)系，并給出識別結(jié)果為：饑餓、瞌睡、疼痛、無聊、恐懼、不適。在訓練bp神經(jīng)網(wǎng)絡(luò)中，輸入任何一段嬰兒哭聲聲音片段中提取的特征參數(shù)，即可從輸出層得到識別的結(jié)果，提高嬰兒護理的質(zhì)量與效率，減少嬰兒護理中的誤判和延判。

附圖說明

圖1為本發(fā)明的流程圖。

圖2為bp神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。

圖3為多元神經(jīng)單層神經(jīng)網(wǎng)絡(luò)示意圖。

具體實施方式

下面結(jié)合具體實施例對本發(fā)明作進一步描述，在此發(fā)明的示意性實施例以及說明用來解釋本發(fā)明，但并不作為對本發(fā)明的限定。

如圖1所示，本實施例的一種基于聲音特征識別的嬰兒哭聲翻譯方法，具體步驟如下所示：

可以采用一個手持式的精密聲級拾音器放置于嬰兒嘴部上方10cm處，采集1s時長的嬰兒哭聲的聲音片段，并對采集的所有嬰兒哭聲的聲音片段進行前處理，所述前處理包括采用minidsp音頻處理器，dsp語音降噪算法，ld-2l濾波消噪電流聲抗干擾器對所有嬰兒哭聲的聲音片段的語音降噪、濾波消噪。

這些聲音信號在輸入bp神經(jīng)網(wǎng)絡(luò)前需經(jīng)分析處理，以獲取利于識別的有效特征，這是決定bp網(wǎng)絡(luò)輸入層節(jié)點數(shù)和網(wǎng)絡(luò)識別精度的關(guān)鍵。前面采集并存儲于計算機的聲音是離散的時域信號，可對嬰兒啼哭產(chǎn)生的聲音的進行頻譜等特征分析，以提取相關(guān)的特征參數(shù)，從而建立嬰兒啼哭聲音特征差異與饑餓、瞌睡、疼痛、無聊、恐懼、不適六種生理狀態(tài)之間的對應(yīng)關(guān)系。

進一步，將經(jīng)前處理的嬰兒哭聲的聲音片段經(jīng)a/d采樣后存儲于計算機，通過計算機對經(jīng)前處理的嬰兒哭聲的聲音片段再次進行濾波和降噪處理。

進一步，對處理過的嬰兒哭聲的聲音片段提取音色、音調(diào)、響度、能量、頻率共5個特征參數(shù)特征參數(shù)和頻率共生矩陣，共生矩陣的特征參數(shù)包括對比度、相關(guān)、逆差距、能量、中值、協(xié)方差、反差、差異性、二階矩、熵、自相關(guān)共11個特征參數(shù)。

進一步，由于不同嬰兒啼哭的聲音信號的功率譜不同，通過主成分分析法對提取的音色、音調(diào)、響度、能量、頻率的特征參數(shù)和頻率共生矩陣的特征參數(shù)進行降維處理，具體方法為：采用db5小波對嬰兒哭聲的聲音片段進行4層分解，得到16個等分的頻率段，然后求出每個頻率段的能量，然后將各段聲音信號能量歸一化后構(gòu)成特征向量，該特征向量可表示為:

式中，e1，e2，……，e13，e14為每個頻率段能量，e為信號總能量。

bp神經(jīng)網(wǎng)絡(luò)是采用誤差反向傳播算法的多層前饋神經(jīng)網(wǎng)絡(luò)，它包含輸入層、輸出層和一個或多個隱層，如圖3所示。各層神經(jīng)元僅與相鄰層神經(jīng)元之間相互全連接，同層神經(jīng)元之間無連接。輸入信號從輸入層節(jié)點(神經(jīng)元)依次傳過各隱層節(jié)點，再傳到輸出節(jié)點，每一層節(jié)點的輸出只影響下一層節(jié)點的輸出，然后按照誤差減少的原則，從輸出層經(jīng)隱層向輸入層逐層修正權(quán)值，這種逆向誤差傳播修正不斷進行，直到達到所要求的學習目標。

進一步，構(gòu)建bp神經(jīng)網(wǎng)絡(luò)，包含輸入層節(jié)點數(shù)、輸出層節(jié)點數(shù)和網(wǎng)絡(luò)層數(shù)的確定。其中輸入層節(jié)點數(shù)和輸出層節(jié)點數(shù)是由實際問題本身決定的。如圖2所示，選取降維處理后的聲音片段的5個主成分特征參數(shù)：音色、音調(diào)、響度、能量、頻率的特征參數(shù)用于輸入bp神經(jīng)網(wǎng)絡(luò)的輸入層，分別用［10000］、［01000］、［00100］、［00010］和［00001］來表示降維后的每段聲音的音色、音調(diào)、響度、能量、頻率的特征信號，輸出層神經(jīng)元的個數(shù)為6，設(shè)定隱含層神經(jīng)元的個數(shù)為4；設(shè)定bp神經(jīng)網(wǎng)絡(luò)最大訓練次數(shù)為60000次，使最小均方差為0.0001；設(shè)定輸入層的轉(zhuǎn)換函數(shù)為tansig、輸出層的轉(zhuǎn)換函數(shù)為purelin、bp神經(jīng)網(wǎng)絡(luò)的訓練函數(shù)為traingdm，權(quán)值和閾值的學習函數(shù)為learngdm；在輸出層中分別表示如下：饑餓［100000］、瞌睡［010000］、疼痛［001000］、無聊［000100］、恐懼［000010］、不適［000001］，然后開始對bp神經(jīng)網(wǎng)絡(luò)進行訓練。

進一步，bp神經(jīng)網(wǎng)絡(luò)訓練完成后，將待識別的嬰兒哭聲的聲音片段的降維處理后的聲音片段的音色、音調(diào)、響度、能量、頻率的特征參數(shù)輸入到訓練好的bp神經(jīng)網(wǎng)絡(luò)中，輸出層得到嬰兒哭聲的聲音識別，從而就判斷出嬰兒所表達的是饑餓、瞌睡、疼痛、無聊、恐懼、不適中具體的一種狀態(tài)。

為了進一步驗證本實施例的可行性，bp神經(jīng)網(wǎng)絡(luò)訓練完成后，選取另外的待識別的待識別的20個嬰兒哭聲的聲音片段，將每個試樣的5個主成分特征參數(shù)輸入到訓練好的bp神經(jīng)網(wǎng)絡(luò)中，即得到如表1的輸出結(jié)果。

表1bp神經(jīng)網(wǎng)絡(luò)測試結(jié)果

從表1中可以看出，將待識別的降維處理后的嬰兒哭聲的聲音片段的音色、音調(diào)、響度、能量、頻率的特征參數(shù)輸入到訓練好的bp神經(jīng)網(wǎng)絡(luò)中，可以快速識別出嬰兒所表達的具體是饑餓、瞌睡、疼痛、無聊、恐懼、不適中具體的一種狀態(tài)。

本發(fā)明的技術(shù)方案不限于上述具體實施例的限制，凡是根據(jù)本發(fā)明的技術(shù)方案做出的技術(shù)變形，均落入本發(fā)明的保護范圍之內(nèi)。

網(wǎng)址: 一種基于聲音特征識別的嬰兒哭聲翻譯方法與流程 http://www.u1s5d6.cn/newsview196031.html

91高清中文字幕|亚洲无码网站网址|欧美一区二区乱伦|a乱码精品一区二区三|成人一区二区毛片|国产日韩精品视频短片|不卡无码无需播放器|鲁噜精品免费视频|wwwh日韩中出|精品五月婷婷无码

一種基于聲音特征識別的嬰兒哭聲翻譯方法與流程

推薦資訊

從出汗看健康出汗透露你的健康信號

早上怎么喝水最健康？

91高清中文字幕|亚洲无码网站网址|欧美一区二区乱伦|a乱码精品一区二区三|成人一区二区毛片|国产日韩精品视频短片|不卡无码无需播放器|鲁噜精品免费视频|wwwh日韩中出|精品五月婷婷无码

一種基于聲音特征識別的嬰兒哭聲翻譯方法與流程

推薦資訊

從出汗看健康 出汗透露你的健康信號

早上怎么喝水最健康？

從出汗看健康出汗透露你的健康信號

早上怎么喝水最健康？