首頁資訊基于PaddleSpeech的嬰兒啼哭識別(上）

基于PaddleSpeech的嬰兒啼哭識別(上）

來源：泰然健康網時間：2024年11月26日 16:22

2022-12-31 249 發(fā)布于吉林

版權

舉報

本文內容由阿里云實名注冊用戶自發(fā)貢獻，版權歸原作者所有，阿里云開發(fā)者社區(qū)不擁有其著作權，亦不承擔相應法律責任。具體規(guī)則請查看《阿里云開發(fā)者社區(qū)用戶服務協(xié)議》和《阿里云開發(fā)者社區(qū)知識產權保護指引》。如果您發(fā)現本社區(qū)中有涉嫌抄襲的內容，填寫侵權投訴表單進行舉報，一經查實，本社區(qū)將立刻刪除涉嫌侵權內容。

簡介：基于PaddleSpeech的嬰兒啼哭識別(上）

一、基于PaddleSpeech的嬰兒啼哭識別

1.項目背景

對嬰兒來說，啼哭聲是一種通訊的方式，一個非常有限的，但類似成年人進行交流的方式。它也是一種生物報警器，向外界傳達著嬰兒生理和心理的需求?；谔淇蘼暵暡〝y帶的信息，嬰兒的身體狀況才能被確定，疾病才能被檢測出來。因此，有效辨識啼哭聲，成功地將嬰兒啼哭聲“翻譯”成“成人語言”，讓我們能夠讀懂啼哭聲的含義，有重大的實際意義。

2.數據說明：

1.訓練數據集包含六類哭聲，已人工添加噪聲。

A：awake（蘇醒）

B：diaper（換尿布）

C：hug（要抱抱）

D：hungry（饑餓）

E：sleepy（困乏）

F：uncomfortable（不舒服）

2.噪聲數據來源Noisex-92標準數據庫。

二、PaddleSpeech環(huán)境準備

# 環(huán)境準備：安裝paddlespeech和paddleaudio !python -m pip install -q -U pip --user !pip install paddlespeech paddleaudio -U -q

import warnings warnings.filterwarnings("ignore") import IPython import numpy as np import matplotlib.pyplot as plt import paddle %matplotlib inline

三、數據預處理

1.數據解壓縮

# !unzip -qoa data/data41960/dddd.zip

2.查看聲音文件

from paddleaudio import load data, sr = load(file='train/awake/awake_0.wav', mono=True, dtype='float32') # 單通道，float32音頻樣本點 print('wav shape: {}'.format(data.shape)) print('sample rate: {}'.format(sr)) # 展示音頻波形 plt.figure() plt.plot(data) plt.show()

from paddleaudio import load data, sr = load(file='train/diaper/diaper_0.wav', mono=True, dtype='float32') # 單通道，float32音頻樣本點 print('wav shape: {}'.format(data.shape)) print('sample rate: {}'.format(sr)) # 展示音頻波形 plt.figure() plt.plot(data) plt.show()

!paddlespeech cls --input train/awake/awake_0.wav

3.音頻文件長度處理

# 查音頻長度 import contextlib import wave def get_sound_len(file_path): with contextlib.closing(wave.open(file_path, 'r')) as f: frames = f.getnframes() rate = f.getframerate() wav_length = frames / float(rate) return wav_length

# 編譯wav文件 import glob sound_files=glob.glob('train/*/*.wav') print(sound_files[0]) print(len(sound_files))

# 統(tǒng)計最長、最短音頻 sounds_len=[] for sound in sound_files: sounds_len.append(get_sound_len(sound)) print("音頻最大長度：",max(sounds_len),"秒") print("音頻最小長度：",min(sounds_len),"秒")

!cp train/hungry/hungry_0.wav ~/

# 音頻信息查看 import math import soundfile as sf import numpy as np import librosa data, samplerate = sf.read('hungry_0.wav') channels = len(data.shape) length_s = len(data)/float(samplerate) format_rate=16000 print(f"channels: {channels}") print(f"length_s: {length_s}") print(f"samplerate: {samplerate}")

# 統(tǒng)一到34s from pydub import AudioSegment audio = AudioSegment.from_wav('hungry_0.wav') print(str(audio.duration_seconds)) i = 1 padded = audio while padded.duration_seconds * 1000 < 34000: padded = audio * i i = i + 1 padded[0:34000].set_frame_rate(16000).export('padded-file.wav', format='wav')

import math import soundfile as sf import numpy as np import librosa data, samplerate = sf.read('padded-file.wav') channels = len(data.shape) length_s = len(data)/float(samplerate) format_rate=16000 print(f"channels: {channels}") print(f"length_s: {length_s}") print(f"samplerate: {samplerate}")

# 定義函數，如未達到最大長度，則重復填充，最終從超過34s的音頻中截取 from pydub import AudioSegment def convert_sound_len(filename): audio = AudioSegment.from_wav(filename) i = 1 padded = audio*i while padded.duration_seconds * 1000 < 34000: i = i + 1 padded = audio * i padded[0:34000].set_frame_rate(16000).export(filename, format='wav')

# 統(tǒng)一所有音頻到定長 for sound in sound_files: convert_sound_len(sound)

3.自定義數據集

import os from paddlespeech.audio.datasets.dataset import AudioClassificationDataset class CustomDataset(AudioClassificationDataset): # List all the class labels label_list = [ 'awake', 'diaper', 'hug', 'hungry', 'sleepy', 'uncomfortable' ] train_data_dir='./train/' def __init__(self, **kwargs): files, labels = self._get_data() super(CustomDataset, self).__init__( files=files, labels=labels, feat_type='raw', **kwargs) # 返回音頻文件、label值 def _get_data(self): ''' This method offer information of wave files and labels. ''' files = [] labels = [] for i in range(len(self.label_list)): single_class_path=os.path.join(self.train_data_dir, self.label_list[i]) for sound in os.listdir(single_class_path): # print(sound) if 'wav' in sound: sound=os.path.join(single_class_path, sound) files.append(sound) labels.append(i) return files, labels

# 定義dataloader import paddle from paddlespeech.audio.features import LogMelSpectrogram # Feature config should be align with pretrained model sample_rate = 16000 feat_conf = { 'sr': sample_rate, 'n_fft': 1024, 'hop_length': 320, 'window': 'hann', 'win_length': 1024, 'f_min': 50.0, 'f_max': 14000.0, 'n_mels': 64, } train_ds = CustomDataset(sample_rate=sample_rate) feature_extractor = LogMelSpectrogram(**feat_conf) train_sampler = paddle.io.DistributedBatchSampler( train_ds, batch_size=64, shuffle=True, drop_last=False) train_loader = paddle.io.DataLoader( train_ds, batch_sampler=train_sampler, return_list=True, use_buffer_reader=True)

牙齦口腔病癥識別

本文介紹了利用機器學習和深度學習技術進行牙齦病癥檢測的方法，重點探討了卷積神經網絡（CNN）在醫(yī)學影像分析中的應用。通過數據準備、模型構建、數據增強及訓練評估等步驟，展示了如何實現牙齦病癥的自動化診斷，旨在提高診斷效率和準確性，助力口腔健康的早期干預。

基于反光衣和檢測算法的應用探索

本文探討了利用機器學習和計算機視覺技術進行反光衣檢測的方法，涵蓋圖像預處理、目標檢測與分類、特征提取等關鍵技術。通過YOLOv5等模型的訓練與優(yōu)化，展示了實現高效反光衣識別的完整流程，旨在提升智能檢測系統(tǒng)的性能，應用于交通安全、工地監(jiān)控等領域。

一、基于PaddleSpeech的嬰兒啼哭識別 1.項目背景 2.數據說明：二、PaddleSpeech環(huán)境準備三、數據預處理 1.數據解壓縮 2.查看聲音文件 3.音頻文件長度處理 3.自定義數據集

網址: 基于PaddleSpeech的嬰兒啼哭識別(上） http://www.u1s5d6.cn/newsview112643.html

91高清中文字幕|亚洲无码网站网址|欧美一区二区乱伦|a乱码精品一区二区三|成人一区二区毛片|国产日韩精品视频短片|不卡无码无需播放器|鲁噜精品免费视频|wwwh日韩中出|精品五月婷婷无码

基于PaddleSpeech的嬰兒啼哭識別(上）

一、基于PaddleSpeech的嬰兒啼哭識別

1.項目背景

2.數據說明：

二、PaddleSpeech環(huán)境準備

三、數據預處理

1.數據解壓縮

2.查看聲音文件

3.音頻文件長度處理

3.自定義數據集

推薦資訊

從出汗看健康出汗透露你的健康信號

早上怎么喝水最健康？

91高清中文字幕|亚洲无码网站网址|欧美一区二区乱伦|a乱码精品一区二区三|成人一区二区毛片|国产日韩精品视频短片|不卡无码无需播放器|鲁噜精品免费视频|wwwh日韩中出|精品五月婷婷无码

基于PaddleSpeech的嬰兒啼哭識別(上）

一、基于PaddleSpeech的嬰兒啼哭識別

1.項目背景

2.數據說明：

二、PaddleSpeech環(huán)境準備

三、數據預處理

1.數據解壓縮

2.查看聲音文件

3.音頻文件長度處理

3.自定義數據集

推薦資訊

從出汗看健康 出汗透露你的健康信號

早上怎么喝水最健康？

一、基于PaddleSpeech的嬰兒啼哭識別

二、PaddleSpeech環(huán)境準備

三、數據預處理

從出汗看健康出汗透露你的健康信號

早上怎么喝水最健康？