首頁資訊 CCCF專題丨信息無障礙中的智能交互技術

CCCF專題丨信息無障礙中的智能交互技術

來源：泰然健康網時間：2024年12月21日 03:12

微信圖片_20200312085617

關鍵詞：信息無障礙智能交互

信息無障礙(information accessibility)是一個學科交叉的技術和應用領域，旨在用信息技術彌補殘障人士生理和認知能力的不足，讓他們可以順暢地與他人、物理世界和信息設備進行交互。據(jù)中國殘聯(lián)統(tǒng)計，中國現(xiàn)有8500萬殘疾人，是世界上殘疾人口最多的國家。其中，聽力殘疾2000萬人，視力殘疾1200萬人，各類肢體殘疾2500萬人，智力殘疾和精神殘疾1200萬人……隨著社會老齡化程度加重，殘疾人口數(shù)量也在持續(xù)增長?；ヂ?lián)網和用戶終端的普及，使得信息無障礙成為一個越來越值得關注的領域，目標是解決殘障人士的信息訪問甚至是生活服務問題。

信息無障礙始于個人計算設備，IBM在1984年首次開發(fā)了基于桌面操作系統(tǒng)的讀屏程序，讓盲人可以使用電腦。1997年，萬維網聯(lián)盟 (W3C) 成立了網絡無障礙推動(WAI)小組，推動網絡頁面的信息無障礙。隨著人工智能技術的發(fā)展，語音識別、圖像識別、手語翻譯等技術也被應用到信息無障礙領域中，支持更多的殘疾用戶（比如聾啞人）通信和訪問信息設備。微軟在2018年推出了“人工智能無障礙計劃(AI for Accessibility)”，國內的互聯(lián)網公司阿里巴巴、百度等也積極推出智能讀圖等無障礙交互應用。

在學術界，專門交流無障礙技術的國際會議是ASSETS (ACM SIGACCESS Conference on Computers and Accessibility)，1994年是第一屆。如今智能手機上基于觸摸的讀屏系統(tǒng)原型就是在ASSETS 2008上提出的。2017年，人機交互領域的旗艦會議ACM CHI (ACM CHI Conference on Human Factors in Computing Systems) 將無障礙列為十大方向之一。

我國于2004年舉辦了第一屆中國信息無障礙論壇。2006年，工信部把信息無障礙工作納入“陽光綠色工程”，并由中國通信標準化協(xié)會(CCSA)開始系統(tǒng)化制定信息無障礙標準。2008年，工信部發(fā)布了首個網站設計無障礙技術標準，信息無障礙在“十三五”規(guī)劃期間被納入國家發(fā)展計劃。

從研究和應用水平上看，信息無障礙總體還處于比較初步的狀態(tài)。在應用上，針對信息訪問和設備使用，具有基本功能的技術可以被應用，但效果和效率等可用性指標都不高；在現(xiàn)實生活中，針對聽障人士與他人交流、盲人獨立出行等，能支撐的新技術還處于原型和概念階段。我們組織本期專題的目的，就是讓讀者了解無障礙領域目前存在的問題和研究進展，了解此交叉學科具有的重要研究與應用價值，希望更多的科技工作者能夠介入或投身到相關研究中去，從各自的角度參與和貢獻力量。

信息無障礙交互技術的現(xiàn)狀

殘障類型多樣，所需要的無障礙技術也不盡相同，這里介紹三類主要的殘障類型（視覺障礙、聽覺障礙和運動障礙）人群遇到的問題和主要的技術解決方案。

視力殘疾用戶的需求包括獨立出行、識別身邊物體、與信息設備交互等。針對獨立出行的需求，目前有基于計算機視覺的道路識別技術，通過立體聲場或者震動反饋為視力殘疾用戶指示方向。但是這些設備目前還不能取代盲杖，還需要更多的技術突破。針對識別物體的需求，主要是利用視頻/圖像轉換為文本的技術，包括微軟的Seeing AI和谷歌的Lookout都是此類應用。針對使用手機和電腦的需求，主要采用讀屏程序screen reader（蘋果手機上的VoiceOver或者安卓系統(tǒng)上的Talkback，均為系統(tǒng)默認自帶功能），可以通過語音讀出獲得焦點的控件信息，這樣視力殘疾用戶通過聽就能了解設備界面上的信息內容。

聽力殘疾用戶面臨的主要問題是與人交流存在障礙，以及觀看視頻內容時聽不到聲音。老年聽力障礙是指隨著年齡增長，聽覺器官的衰老和退變所導致的聽覺功能下降，發(fā)病率居世界第三位。助聽器設備通過放大聲音信號，可解決“聽不到”的問題；但對于聽覺中樞受損的人，聲音信號分析能力卻難以彌補，解決不了“聽得清”的問題。針對聽障用戶，相關信息無障礙技術包括手語的識別與合成，以及語音識別技術。

運動控制能力缺失的用戶，包括上肢殘疾，或者患帕金森癥、腦癱、肌肉萎縮、漸凍癥等疾病的用戶。他們喪失了靈活控制手指運動的能力，而手指是人表達交互意圖的主要運動器官，也是電腦和手機的主要操作器官。在構建面向這類用戶的信息無障礙交互技術時，其中一個難題是用戶的差異性，幾乎每個用戶的可運動部位及其運動能力都是不同的，給構建適合于個體的通用輸入技術帶來了挑戰(zhàn)。相關的技術方案有眼動，但是用“眼動”作為輸入方式時，缺少“確認”操作，容易產生誤觸發(fā)，且操作精度有限。

信息無障礙的主要科學問題

音視頻的理解和信息轉換（主要針對聽障和視障）。視覺和聽覺是人們接受信息的主要感官。聽障和視障用戶因為缺乏某種感官而無法完整理解信息，需要建立音視頻的理解技術，用機器算法理解音視頻內容的語義，進而轉換為用戶可用感官能接受的信息類型，包括音頻和文字之間的語音識別和文本到語言(Text To Speech, TTS)技術，圖像到文字和視頻到文字的技術。目前，精度是主要問題，尤其是克服多種噪聲條件下的高精度實現(xiàn)，對于這些技術的可用性起到關鍵作用。

圖形用戶界面到聲音界面的編碼轉換（主要針對視障）。個人電腦和手機都是圖形用戶界面，信息以可視的方式傳遞給用戶，而視障用戶只能通過聽覺（觸覺為輔）來接收信息，相比于視覺，不僅信息接收的帶寬要低很多，而且信息呈現(xiàn)的模式也發(fā)生了變化。視覺提供整體和并行的信息獲取能力，聽覺只能提供局部串行的信息。這也會影響用戶對于交互界面的心理模型，進而影響到交互決策。因此，需要研究從圖形界面到聲音界面的編碼轉換方法，優(yōu)化“讀屏”的方法。

個性化信息輸入和意圖理解（主要針對視障和運動障礙）。人體的運動控制系統(tǒng)包括運動執(zhí)行和反饋兩部分。運動障礙用戶無法精確靈活地控制手指運動，視障用戶由于缺少視覺反饋也不能做精確的輸入控制，導致物理運動自由度受限和運動控制精度低的問題。前者需要開發(fā)具有個性化能力的輸入技術，根據(jù)用戶實際可以控制的輸入范圍來映射有效的輸入；后者需要實現(xiàn)從有噪聲的運動控制數(shù)據(jù)中提取用戶的交互意圖。

通過智能交互技術實現(xiàn)信息無障礙

信息無障礙是以用戶為中心的交互方案，是對人的交互性能的優(yōu)化。優(yōu)秀的信息無障礙技術要適應用戶的生理和認知能力，而不是讓用戶適應技術。為此，要采用智能交互方法來開展研究，從用戶角度來設計和創(chuàng)新適用的交互模式，通過智能傳感、智能用戶意圖推理和智能信息呈現(xiàn)來構建信息無障礙的交互界面。

對用戶行為和認知能力的準確建模 需要建立用戶動作能力和心理模型的計算模型，建立并引入生理、心理的先驗知識來描述用戶的信息輸入輸出能力，對用戶意圖、表達方式、動作控制能力做統(tǒng)計建模和描述。殘障用戶的一個重要特點就是個性化，每個用戶的信息輸入輸出能力都不同，除了需要研究合適的模型函數(shù)，還要研究個性化參數(shù)的計算方法，力求能準確地描述個體殘障用戶的能力。

智能的感知技術 需要研究高精度的感知技術，感知用戶的外在動作，也感知用戶的內在心理狀態(tài)。信息無障礙中，智能感知的應用場景非常豐富，針對不同類型的殘障用戶、不同的交互任務、不同的使用情景，都需要適合的傳感方案。哪些動作或者心理狀態(tài)是有交互價值的，如何采用成本可控、易于部署的硬件方案都是需要考慮的問題。

智能的意圖推理技術 殘障用戶通過自然動作（手、眼或身體其他部位）表達交互意圖。優(yōu)化信息無障礙的交互體驗，需要使用戶在表達意圖時的生理和心理開銷最小化，但這樣將導致用戶的表達方式和表達動作都是不精確的，在時間和空間上都存在隨機性。如何從連續(xù)隨機的行為數(shù)據(jù)中提取用戶的輸入意圖，是需要解決的問題。作為操控型的交互界面，需要具有高精度、可理解、結果可預測的特點。

智能的信息呈現(xiàn) 感官殘障用戶對于交互界面的理解是不完整的，交互決策的心理模型帶有隨機性。高可用的信息無障礙交互界面，首先需要有對用戶信息需求的預測能力，確定信息輸出的目標；然后根據(jù)用戶的信息接收能力將目標信息編碼到具體模態(tài)上，編碼方式涉及多模態(tài)融合；最后根據(jù)交互情景，對信息呈現(xiàn)的編碼方式做動態(tài)優(yōu)化調整，保證用戶接收信息的有效性。

本期專題

本期專題邀請了5篇文章。美國康奈爾大學的Enhancing Ability Lab實驗室是一個國際著名的面向弱視用戶的研究團隊，趙宇航和Shiri Azenkot教授撰寫的《利用增強現(xiàn)實技術增強弱視人士的視覺能力》詳細介紹了增強現(xiàn)實技術是如何改善視弱人士的日?；顒拥?。中國科學院計算技術研究所研究員陳益強和王向東的研究團隊長期開展面向聾人和盲人的信息無障礙技術的研究，他們分別撰寫了文章《面向聾人的信息無障礙技術——手語識別與合成》與《面向盲人的信息無障礙技術——盲文翻譯與識別》。中國殘聯(lián)與清華大學在2016年成立了清華大學無障礙發(fā)展研究院，計算機系人機交互實驗室發(fā)揮其專業(yè)能力，在研究院重點開展信息無障礙交互技術研究，易鑫等人共同完成的《基于穩(wěn)態(tài)視覺響應的腦電接口動態(tài)分組鍵盤技術》詳細介紹了腦電響應的影響因素和為肢殘用戶設計的優(yōu)化交互信息效率的動態(tài)分組鍵盤技術；石偉男和喻純撰寫的《基于字符級糾錯的智能鍵盤》分析了盲人在觸屏手機上鍵入文本時的難題，他們構建的適合于盲人的智能輸入法獲得CHI 2019最佳論文提名獎。

作者簡介

史元春

CCF會士，CCF常務理事，CCCF前專題主編。清華大學教授。主要研究方向為人機交互、普適計算、多媒體、網絡教育技術等。shiyc@tsinghua.edu.cn

網址: CCCF專題丨信息無障礙中的智能交互技術 http://www.u1s5d6.cn/newsview688186.html