首頁資訊 AI讓手機(jī)任務(wù)自動(dòng)跑起來！我國高校最新研究，簡化移動(dòng)設(shè)備操作

AI讓手機(jī)任務(wù)自動(dòng)跑起來！我國高校最新研究，簡化移動(dòng)設(shè)備操作

來源：泰然健康網(wǎng) 時(shí)間：2024年12月06日 13:34

2024-10-31 15:29:41 來源：量子位

基于視覺的移動(dòng)任務(wù)自動(dòng)化方案

MOE KLINNS Lab投稿

量子位 | 公眾號 QbitAI

AI解放碳基生物雙手，甚至能讓你的手機(jī)自己玩自己！

你沒聽錯(cuò)——這其實(shí)就是移動(dòng)任務(wù)自動(dòng)化。

在AI飛速發(fā)展下，這逐漸成為一個(gè)新興的熱門研究領(lǐng)域。

移動(dòng)任務(wù)自動(dòng)化利用AI精準(zhǔn)捕捉并解析人類意圖，進(jìn)而在移動(dòng)設(shè)備（手機(jī)、平板電腦、車機(jī)終端）上高效執(zhí)行多樣化任務(wù)，為那些因認(rèn)知局限、身體條件限制或身處特殊情境下的用戶提供前所未有的便捷與支持。

幫助視障人群用戶完成導(dǎo)航、閱讀或網(wǎng)上購物輔助老年人使用手機(jī)，跨越數(shù)字鴻溝幫助車主在駕駛過程中完成發(fā)送短信或調(diào)節(jié)車內(nèi)環(huán)境替用戶完成日常生活中普遍存在的重復(fù)性任務(wù) ……

媽媽再也不嫌重復(fù)設(shè)置多個(gè)日歷事項(xiàng)會(huì)心煩了。

最近，來自西安交通大學(xué)智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點(diǎn)實(shí)驗(yàn)室 (MOE KLINNS Lab）的蔡忠閩教授、宋云鵬副教授團(tuán)隊(duì)（團(tuán)隊(duì)主要研究方向?yàn)橹悄苋藱C(jī)交互、混合增強(qiáng)智能、電力系統(tǒng)智能化等），基于團(tuán)隊(duì)最新AI研究成果，創(chuàng)新性提出了基于視覺的移動(dòng)設(shè)備任務(wù)自動(dòng)化方案VisionTasker。

這項(xiàng)研究不僅為普通用戶提供了更智能的移動(dòng)設(shè)備使用體驗(yàn)，也展現(xiàn)出了對特殊需求群體的關(guān)懷與賦能。

基于視覺的移動(dòng)設(shè)備任務(wù)自動(dòng)化方案

團(tuán)隊(duì)提出了VisionTasker，一個(gè)結(jié)合基于視覺的UI理解和LLM任務(wù)規(guī)劃的兩階段框架，用于逐步實(shí)現(xiàn)移動(dòng)任務(wù)自動(dòng)化。

該方案有效消除了表示UI對視圖層次結(jié)構(gòu)的依賴，提高了對不同應(yīng)用界面的適應(yīng)性。

值得注意的是，利用VisionTasker無需大量數(shù)據(jù)訓(xùn)練大模型。

VisionTasker從用戶以自然語言提出任務(wù)需求開始工作， Agent開始理解并執(zhí)行指令。

具體實(shí)現(xiàn)如下：

1、用戶界面理解

VisionTasker通過視覺的方法做UI理解來解析和解釋用戶界面。

首先Agent識別并分析用戶界面上的元素及布局，如按鈕、文本框、文字標(biāo)簽等。

然后，將這些識別到的視覺信息轉(zhuǎn)換成自然語言描述，用于解釋界面內(nèi)容。

2、任務(wù)規(guī)劃與執(zhí)行

接下來，Agent利用大語言模型導(dǎo)航，根據(jù)用戶的指令和界面描述信息做任務(wù)規(guī)劃。

將用戶任務(wù)拆解為可執(zhí)行的步驟，如點(diǎn)擊或滑動(dòng)操作，以自動(dòng)推進(jìn)任務(wù)的完成。

3、持續(xù)迭代以上過程

每一步完成后，Agent都會(huì)根據(jù)最新界面和歷史動(dòng)作更新其對話和任務(wù)規(guī)劃，確保每一步的決策都是基于當(dāng)前上下文的。

這是個(gè)迭代的過程，將持續(xù)進(jìn)行直到判斷任務(wù)完成或達(dá)到預(yù)設(shè)的限制。

用戶不僅能從交互中解放雙手，還可以通過可見提示監(jiān)控任務(wù)進(jìn)度，并隨時(shí)中斷任務(wù)，保持對整個(gè)流程的控制。

首先是識別界面中的小部件和文本，檢測按鈕、文本框等元素及其位置。

對于沒有文本標(biāo)簽的按鈕，利用 CLIP 模型基于視覺設(shè)計(jì)來推斷其可能功能。

隨后，系統(tǒng)根據(jù) UI 布局的視覺信息進(jìn)行區(qū)塊劃分，將界面分割成多個(gè)具有不同功能的區(qū)塊，并對每個(gè)區(qū)塊生成自然語言描述。

這個(gè)過程還包括文本與小部件的匹配，確保正確理解每個(gè)元素的功能。

最終，所有這些信息被轉(zhuǎn)化為自然語言描述，為大語言模型提供清晰、語義豐富的界面信息，使其能夠有效地進(jìn)行任務(wù)規(guī)劃和自動(dòng)化操作。

實(shí)驗(yàn)評估

實(shí)驗(yàn)評估部分，該項(xiàng)目提供了對三種UI理解的比較分析，分別是：

GPT-4V VH（視圖層級） VisionTasker方法

對比顯示，VisionTasker在多個(gè)維度上比其他方法有顯著優(yōu)勢。

此外，在處理跨語言應(yīng)用時(shí)也表現(xiàn)出了良好的泛化能力。

△ 實(shí)驗(yàn)1中使用到的常見UI布局

表明VisionTasker的以視覺為基礎(chǔ)的UI理解方法在理解和解釋UI方面具有明顯優(yōu)勢，尤其是在面對多樣化和復(fù)雜的用戶界面時(shí)尤為明顯。

△跨四個(gè)數(shù)據(jù)集的單步預(yù)測準(zhǔn)確性

文章還進(jìn)行了單步預(yù)測實(shí)驗(yàn)，根據(jù)當(dāng)前的任務(wù)狀態(tài)和用戶界面，預(yù)測接下來應(yīng)該執(zhí)行的動(dòng)作或操作。

結(jié)果顯示，VisionTasker在所有數(shù)據(jù)集上的平均準(zhǔn)確率達(dá)到了67%，比基線方法提高了15%以上。

真實(shí)世界任務(wù)：VisionTasker vs 人類

實(shí)驗(yàn)過程中，研究人員設(shè)計(jì)了147個(gè)真實(shí)的多步驟任務(wù)來測試VisionTasker的表現(xiàn)，這些任務(wù)涵蓋了國內(nèi)常用的42個(gè)應(yīng)用程序。

與此同時(shí)，團(tuán)隊(duì)還設(shè)置了人類對比測試，由12名人類評估者手動(dòng)執(zhí)行這些任務(wù)，然后VisionTasker的結(jié)果進(jìn)行比較。

結(jié)果顯示，VisionTasker在大多數(shù)任務(wù)中能達(dá)到與人類相當(dāng)?shù)耐瓿陕?，并且在某些不熟悉的任?wù)中表現(xiàn)優(yōu)于人類。

△實(shí)際任務(wù)自動(dòng)化實(shí)驗(yàn)的結(jié)果 “Ours-qwen”是指使用開源Qwen實(shí)現(xiàn)VisionTasker框架，”O(jiān)urs”表示使用文心一言作為LLM

團(tuán)隊(duì)還評估了VisionTasker在不同條件下的表現(xiàn)，包括使用不同的大語言模型（LLM）和編程演示（PBD）機(jī)制。

VisionTasker 在大多數(shù)直觀任務(wù)中達(dá)到了與人類相當(dāng)?shù)耐瓿陕?，在熟悉任?wù)中略低于人類但在不熟悉任務(wù)中優(yōu)于人類。

△VisionTasker逐步完成任務(wù)的展示

結(jié)論

作為一個(gè)基于視覺和大模型的移動(dòng)任務(wù)自動(dòng)化框架，VisionTasker克服了現(xiàn)階段移動(dòng)任務(wù)自動(dòng)化對視圖層級結(jié)構(gòu)的依賴。

通過一系列對比實(shí)驗(yàn)，證明其在用戶界面表現(xiàn)上超越了傳統(tǒng)的編程演示和視圖層級結(jié)構(gòu)方法。

它在4個(gè)不同的數(shù)據(jù)集上都展示了高效的UI表示能力，表現(xiàn)出更廣泛的應(yīng)用性；并在Android手機(jī)上的147個(gè)真實(shí)世界任務(wù)中，特別是在復(fù)雜任務(wù)的處理上，表現(xiàn)了出超越人類的任務(wù)完成能力。

此外，通過集成編程演示（PBD）機(jī)制，VisionTasker在任務(wù)自動(dòng)化方面有顯著的性能提升。

目前，該工作已以正式論文的形式發(fā)表于2024年10月13-16日在美國匹茲堡舉行的人機(jī)交互頂級會(huì)議UIST（The ACM Symposium on User Interface Software and Technology）。

UIST是人機(jī)交互領(lǐng)域?qū)Ｗ⒂谌藱C(jī)界面軟件和技術(shù)創(chuàng)新的CCF A類頂級學(xué)術(shù)會(huì)議。

原文鏈接：https://dl.acm.org/doi/10.1145/3654777.3676386
項(xiàng)目鏈接：https://github.com/AkimotoAyako/VisionTasker

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

網(wǎng)址: AI讓手機(jī)任務(wù)自動(dòng)跑起來！我國高校最新研究，簡化移動(dòng)設(shè)備操作 http://www.u1s5d6.cn/newsview314445.html

91高清中文字幕|亚洲无码网站网址|欧美一区二区乱伦|a乱码精品一区二区三|成人一区二区毛片|国产日韩精品视频短片|不卡无码无需播放器|鲁噜精品免费视频|wwwh日韩中出|精品五月婷婷无码

AI讓手機(jī)任務(wù)自動(dòng)跑起來！我國高校最新研究，簡化移動(dòng)設(shè)備操作

基于視覺的移動(dòng)設(shè)備任務(wù)自動(dòng)化方案

實(shí)驗(yàn)評估

真實(shí)世界任務(wù)：VisionTasker vs 人類

△實(shí)際任務(wù)自動(dòng)化實(shí)驗(yàn)的結(jié)果 “Ours-qwen”是指使用開源Qwen實(shí)現(xiàn)VisionTasker框架，”O(jiān)urs”表示使用文心一言作為LLM

結(jié)論

推薦資訊

從出汗看健康出汗透露你的健康信號

早上怎么喝水最健康？

91高清中文字幕|亚洲无码网站网址|欧美一区二区乱伦|a乱码精品一区二区三|成人一区二区毛片|国产日韩精品视频短片|不卡无码无需播放器|鲁噜精品免费视频|wwwh日韩中出|精品五月婷婷无码

AI讓手機(jī)任務(wù)自動(dòng)跑起來！我國高校最新研究，簡化移動(dòng)設(shè)備操作

基于視覺的移動(dòng)設(shè)備任務(wù)自動(dòng)化方案

實(shí)驗(yàn)評估

真實(shí)世界任務(wù)：VisionTasker vs 人類

△實(shí)際任務(wù)自動(dòng)化實(shí)驗(yàn)的結(jié)果 “Ours-qwen”是指使用開源Qwen實(shí)現(xiàn)VisionTasker框架，”O(jiān)urs”表示使用文心一言作為LLM

結(jié)論

推薦資訊

從出汗看健康 出汗透露你的健康信號

早上怎么喝水最健康？

AI讓手機(jī)任務(wù)自動(dòng)跑起來！我國高校最新研究，簡化移動(dòng)設(shè)備操作

△實(shí)際任務(wù)自動(dòng)化實(shí)驗(yàn)的結(jié)果 “Ours-qwen”是指使用開源Qwen實(shí)現(xiàn)VisionTasker框架，”O(jiān)urs”表示使用文心一言作為LLM

從出汗看健康出汗透露你的健康信號

早上怎么喝水最健康？