首頁 資訊 語音識別在移動醫(yī)療領域的探索

語音識別在移動醫(yī)療領域的探索

來源:泰然健康網(wǎng) 時間:2024年12月07日 22:46

作者Dr.2,MediCool醫(yī)庫軟件公司董事長

      隨著計算機技術的發(fā)展,人機交互的方式也在不斷變革,智能語音的發(fā)展更是為我們的生活及工作方式帶來了新的變革,其每一步創(chuàng)新都帶給我們更好的用戶體驗和更高的交互效率。語音識別即通過麥克風捕捉用戶發(fā)出的聲音,將聲波信號轉換成機器可以處理的“發(fā)音特征”,再從發(fā)音和語言的“模型空間”中快速搜索最匹配的句子,即識別結果。

      基于語音識別的原理:語音識別過程就是一個模型匹配的過程,模型訓練的好壞直接關系到系統(tǒng)識別的結果,圖為語音識別模型匹配的過程:

      為了得到一個好的模型,往往需要有大量的原始語音數(shù)據(jù)來訓練這個語音模型,特別是對于非特定人的語音識別系統(tǒng)來說,這一點顯得更為重要。因此,在開始進行語音識別研究之前,首先要建立一個語音數(shù)據(jù)庫,數(shù)據(jù)庫包括不同性別、年齡、口音的說話人的聲音,并且必須具有代表性,能均衡地反映實際使用情況。模型訓練就是指按照一定的準則,從大量已知模式中獲取表征該模式本質特征的模型參數(shù)。

      目前在醫(yī)學領域并沒有專門的語音識別詞庫和模型,由于醫(yī)學術語、藥物名稱、疾病名稱等用詞的專業(yè)性很強,因此識別率會大幅下降。Dr.2同學帶了一個小組的人,耗費了7個月的時間,分別于IOS平臺和Android平臺,采用科大訊飛和云之聲兩個主流第三方SDK,對藥品詞庫的36176個藥品名稱和疾病詞庫的23501個疾病名進行了測試,訓練出錯率較高的詞匯,初步搭建了醫(yī)學語音識別領域的第三方素材庫,并決定免費開放給任何有志于開發(fā)移動醫(yī)療APP 的創(chuàng)業(yè)團隊和個人。共同構建醫(yī)學語音識別體系,避免重復投資,減少整個社會的資源浪費。

       下面以Android為例,具體介紹我們構建體系的流程、標準和測試方法。以下方法可以幫助各位移動醫(yī)療開發(fā)人員快速上手:

測試平臺:2臺android4.0系統(tǒng)手機(小米2、中興U930HD)、珍立拍系統(tǒng)、科大訊飛SDK

      小 組: A組和B組

      測試方法:對所有藥品和疾病名稱進行反復測試,使用糾正訓練法,來克服語音識別體系中HMM的訓練效果。小組A測試藥品,小組B測試疾病,普通話識別。

      測試步驟

      1、醫(yī)學詞匯約有數(shù)十萬條,前期總結查找篩選最常用詞匯并分組。

      2、使用珍立拍系統(tǒng)中的語音識別對所有詞庫進行第一遍測試。

      3、在第一遍測試的基礎上,對篩選出來錯誤的詞匯進行二次測試,再次篩選。

      4、總結出識別易錯詞匯,兩組交叉測試后,隨后交給程序人員,按科大訊飛SDK模型訓練,輸入相應代碼,完善建庫。

測試統(tǒng)計結果:

       可能存在的影響因素

      1、讀錯:由于醫(yī)學詞匯中有很多較為生僻的漢字,讀錯很難避免,很多醫(yī)生即使會寫這個詞,但是發(fā)音也可能會錯。

       規(guī)避方法:遇到拿捏不準的漢字時,查找準確讀音,盡量避免錯誤。

      2、環(huán)境因素:測試時,所處的環(huán)境存在噪音。

       規(guī)避方法:選擇在低噪音環(huán)境中測試,但不能完全于安靜的環(huán)境中測試,因其與日常使用環(huán)境不符。

      3、漢字的同音字:例如:弱視、蕁麻疹,識別結果:若是、尋麻疹。

      4、漢字尾音:例如:肝癌,識別結果:剛來。

      5、實際發(fā)音影響:例如:阻生齒,識別結果:主生殖。

下面以疾病詞匯舉例

測試小結

       由統(tǒng)計結果可以看出疾病名的識別率高于藥品名,筆者分析,造成此結果的原因是:疾病名的廣普率要高于藥品名,所以各個語音識別公司比較重視,而且疾病生僻漢字較少,而藥品種類要遠多于疾病種類,其中生僻漢字也較多。二次測試的正確率較一次測試大約提升了一個百分點左右,還是可以適當減少錯誤數(shù)據(jù)庫中的詞匯量。

      音節(jié)短的詞出錯率較高,如:單音節(jié)詞,痣(識別結果:志),雙音節(jié)詞,義眼(識別結果:一眼),長音節(jié)詞出錯率低,原因可能是音節(jié)越短的詞,其同音節(jié)的普通詞較其更常見,而且如果其尾音特殊的話,影響較大。

討論

       針對醫(yī)學專業(yè)詞匯識別率低的問題,目前可使用以下三種解決辦法:

一、 擴充自定義詞庫

      雖然有用戶詞表,但是目前科大訊飛用戶詞表僅限數(shù)量2000,經溝通后他們正在擴大詞匯表數(shù)量中。但如果數(shù)據(jù)過大,將會導致數(shù)據(jù)包過重的問題,而移動端由于存儲和運算能力受限,所以無法滿足數(shù)量龐大的整個醫(yī)學詞庫,因此我們只能先做常用庫。

二、 搭建第三方素材庫

       語音識別雖然在實用性上已得到很大提高,但是由于目前語音識別的單一性(只能單純的識別中文或者英文),以及使用環(huán)境、語音差異化等因素的影響,容易造成識別錯誤。就這些因素而言,我們?yōu)榇俗隽舜罅康幕A工作,用于搭建第三方數(shù)據(jù)庫,在盡可能排除其它干擾因素的情況下,檢測出識別錯誤的詞匯,也為下一步構建專業(yè)領域的識別模型搭建出了樣本數(shù)據(jù)庫(針對大量樣本數(shù)據(jù)庫,精簡出識別錯誤的小樣本數(shù)據(jù)庫,減少模型訓練詞庫)。

三、 構建專業(yè)領域的識別模型

       對于有大量專業(yè)詞匯的識別系統(tǒng)來說,使用模型訓練可以有效提升識別率,目前模型訓練比較常用的有四種方法:最大似然估計、糾正訓練法、最小分類錯誤、最大互信息方法。模型訓練需要專業(yè)的技術,并與語音識別公司進行合作,由企業(yè)提供詞庫信息和語音集,專業(yè)人員采用模型訓練對需要識別的詞庫進行訓練,最終給出個性化定制的識別模型,以提升識別率。

       語音識別技術在移動醫(yī)療領域中的應用會越來越普遍,但還有大量的基礎工作需要我們大家齊心協(xié)力去完成,Dr.2衷心希望業(yè)內的精英之士能夠對此多交流,多合作,拋開一些利益的糾葛,共同為行業(yè)的發(fā)展貢獻出自己的力量。

(轉載請注明作者:Dr.2,愿意與Dr.2交流的請加微信號:1340603421)

 返回搜狐,查看更多

責任編輯:

相關知識

移動醫(yī)療領域中的頭部玩家
心理咨詢在線,探索現(xiàn)代心理健康的新領域
人工智能在老年醫(yī)療中的應用探索.pptx
守護人類健康:人工智能賦能醫(yī)療領域創(chuàng)新應用
人工智能在醫(yī)療健康領域中的應用
中國移動5G,為醫(yī)療健康領域帶來六大機遇
安徽移動賦能智慧醫(yī)療 讓百姓健康更有“醫(yī)”靠
健康大講堂:人工智能時代下醫(yī)療健康領域的新探索
中國移動攜手醫(yī)療界共建“健康中國” 探索大數(shù)據(jù)產業(yè)應用新方向
探索醫(yī)療科技領域未來的發(fā)展趨勢

網(wǎng)址: 語音識別在移動醫(yī)療領域的探索 http://www.u1s5d6.cn/newsview348353.html

推薦資訊