首頁 資訊 監(jiān)管生成式AI:數(shù)字健康專家委員會討論FDA面臨的挑戰(zhàn)

監(jiān)管生成式AI:數(shù)字健康專家委員會討論FDA面臨的挑戰(zhàn)

來源:泰然健康網(wǎng) 時間:2024年11月27日 04:53

美國 FDA 于 11 月 20 日和 21 日兩天召集新的數(shù)字健康專家委員會討論如何監(jiān)管生成式人工智能(AI)醫(yī)療器械。會議期間,世界上最有影響力的監(jiān)管機構(gòu)之一試圖控制世界上最強大、最不可預(yù)測的技術(shù)之一。

整個會議期間,來自科技公司、醫(yī)療系統(tǒng)和學(xué)術(shù)機構(gòu)的頂尖專家們闡述了 FDA 面臨的監(jiān)管挑戰(zhàn)。

人工智能精準醫(yī)療公司 Tempus 的高管 Noah Zimmerman 引用了一項調(diào)查,該調(diào)查發(fā)現(xiàn),英國五分之一的醫(yī)生報告使用 ChatGPT 來幫助處理從臨床文檔到診斷再到治療選擇的所有事情。“現(xiàn)實情況是,(臨床醫(yī)生)將轉(zhuǎn)向通用(AI)工具,而通常沒有適當?shù)姆雷o措施。這就是為什么這個專家會今天召開的會議如此重要?!?nbsp;

隨后的討論重點是 FDA 應(yīng)如何調(diào)整其監(jiān)管方法以適應(yīng)這種與藥物、傳統(tǒng)器械和其它軟件不同的人工智能,這種人工智能是動態(tài)的、不斷變化的,有時甚至會出錯。生成式 AI 對監(jiān)管過程的每個階段都提出了獨特的挑戰(zhàn),從 FDA 的初步評估和審評到其在上市后監(jiān)管這些工具的能力。

下面是對會上討論內(nèi)容的摘要:

上市前評估

由于生成式 AI 的響應(yīng)變化多端,給 FDA 現(xiàn)有的審評流程帶來了麻煩。與手術(shù)刀等其它器械不同,即使底層查詢相同,生成式 AI 每次的表現(xiàn)都不同。

這意味著傳統(tǒng)的統(tǒng)計性能指標根本行不通。這是因為底層事實和 AI 的響應(yīng)都是變化無常和模糊的,因此評估人工智能的準確性和全面性變得更加主觀。

專家會成員、圣路易斯 BJC 醫(yī)療保健公司數(shù)字產(chǎn)品和創(chuàng)新副總裁 Thomas Maddox 表示,“對我而言,輸出可變性是這些工具的一個獨特方面,尤其是在與臨床醫(yī)生或患者交談時。我認為我們必須考慮如何評估和控制這一點?!?/p>

專家會成員建議,必須準確定義生成式 AI 的預(yù)期用途,依賴該技術(shù)的產(chǎn)品開發(fā)人員應(yīng)披露有關(guān)其訓(xùn)練中使用的數(shù)據(jù)以及可能造成不確定性的情況的詳細信息。

Buffalo 大學(xué)生物醫(yī)學(xué)信息學(xué)教授 Peter Elkin 表示,“對于每個可能被考慮批準的模型,我們都需要一張模型卡,上面有訓(xùn)練該模型的確切數(shù)據(jù)集以及使用其數(shù)據(jù)的人的人口統(tǒng)計數(shù)據(jù),這樣我們才能了解其訓(xùn)練的廣度。”

從這個意義上講,F(xiàn)DA 的審評過程類似于評估人類醫(yī)生的方法:審評員需要仔細審查生成式 AI 的訓(xùn)練,了解所需的監(jiān)控水平,然后才能讓它們在醫(yī)院和診所投入使用。

但,當大型語言模型的學(xué)習或推理方式與人類不同時,這一點很難做到。麻省總院和哈佛大學(xué)的放射科醫(yī)生和自然語言處理研究員 Danielle Bitterman 告訴專家會,在美國行醫(yī)執(zhí)照考試中,她的實驗室只是簡單地在問題中切換了藥品的品牌名和通用名,生成式 AI 就開始難以應(yīng)對,盡管模型能夠?qū)⑵放扑幬锱c其通用名稱進行匹配。

美國國立衛(wèi)生研究院(NIH)數(shù)字和移動技術(shù)項目官 Thomas Radman 表示,如果一家公司或醫(yī)療系統(tǒng)從現(xiàn)成的商業(yè)模型開始,那么也很難獲得有關(guān)模型如何訓(xùn)練的信息,因為這些模型不會披露其訓(xùn)練數(shù)據(jù)庫中的內(nèi)容。

美國國家標準與技術(shù)研究院研究員 Gabriella Waters 表示,由于這些模型是基于概率運行的,并且會對其生成的每個單詞擲骰子,因此當生成式 AI 模型得到正確結(jié)果時,我們應(yīng)該比得到錯誤結(jié)果時感到更加驚訝。Waters 表示:“當你擁有一個以這種方式運行的模型時,在臨床等高風險情況下部署它非常具有挑戰(zhàn)性。部署后進行任何此類測試也有一定的風險。那太晚了。所有測試都需要事先進行?!?/p>

一些小組成員還建議,此類測試可能需要由獨立機構(gòu)進行,而不是由那些為了經(jīng)濟利益而不去發(fā)現(xiàn)或披露產(chǎn)品所有漏洞的公司進行。Radman 建議,像健康人工智能聯(lián)盟、美國放射學(xué)院的評估人工智能計劃或麻省總醫(yī)院布萊根分院新推出的醫(yī)療人工智能競技場這樣的組織可能會對 FDA 有所幫助,因為它們可以將這項工作外包出去。

上市后監(jiān)測

在美國最大的放射科診所 Radiology Partners,生成式 AI 被用于將放射科醫(yī)生口述的發(fā)現(xiàn)轉(zhuǎn)化為與轉(zhuǎn)診臨床醫(yī)生分享的印象。Radiology Partners 臨床人工智能副首席醫(yī)療官 Nina Kottler 分享道,如果未經(jīng)放射科醫(yī)生編輯,每 21 份報告中就有一份會出現(xiàn)臨床上顯著的錯誤。

專家會主席、美國心臟病學(xué)會首席創(chuàng)新官 Ami Bhatt 在會議期間表示,“說實話,Kottler 的 Gen AI 錯誤示例讓我心悸?!?Kottler 表示,美國 40% 的放射科診所都在使用該工具,錯誤示例報告的結(jié)果是患者的右腿而不是左腿,錯過了膀胱擴張等重要發(fā)現(xiàn),并幻覺認為沒有卵巢的男性患者可能出現(xiàn)卵巢囊腫破裂 —— 所有這些錯誤都被主管放射科醫(yī)生發(fā)現(xiàn)了。

Tazbaz 表示,“雖然我們確實有一些上市后監(jiān)測機構(gòu)的要素,但一般來說,是由不良事件驅(qū)動的。因此,我認為,當我們考慮額外的監(jiān)管,以真正正確地做到這一點時,必須擁有更主動的監(jiān)管機構(gòu),以便在這些模型開始失效之前而不是失效之后監(jiān)測性能?!?/p>

專家會被要求提出上市后的具體監(jiān)測能力,他們首先默認進行大量的人工監(jiān)督。他們討論了建立一個中央數(shù)據(jù)庫或注冊表,以便監(jiān)控生成式 AI 產(chǎn)品的準確性、安全性和有限使用,以及當產(chǎn)品所基于的基礎(chǔ)模型發(fā)生重大變化時,將產(chǎn)品送去進行二次審查的必要性。

上市后監(jiān)控系統(tǒng)可能要求報告以確定產(chǎn)品是否被應(yīng)用于與產(chǎn)品所訓(xùn)練的數(shù)據(jù)非常相似的本地數(shù)據(jù)、產(chǎn)品誤解的百分比和類型以及患者結(jié)果的長期跟蹤。但專家會成員一再表示擔心,實現(xiàn)這種主動監(jiān)控的基礎(chǔ)設(shè)施幾乎不可能在所有醫(yī)療系統(tǒng)中實施 —— 這可能會加劇已經(jīng)擴大的數(shù)字鴻溝。

Radman 表示,“我們在這里建議一個范式轉(zhuǎn)變的過程,即轉(zhuǎn)向上市后?!睆拈L遠來看,他建議考慮向生成式 AI 產(chǎn)品生產(chǎn)商收取使用者費用,以支持這些新的監(jiān)控需求,并指出,“所有這些都需要花錢。”

相關(guān)知識

AI大數(shù)據(jù)及可穿戴設(shè)備對心腦血管疾病的預(yù)警作用技術(shù)研討會召開——人民政協(xié)網(wǎng)
FDA發(fā)布分散式臨床試驗指南草案:大力支持藥物和器械開發(fā)
FDA 加速審批計劃改革細節(jié),或?qū)⒊闪⑿碌募铀賹徟瘑T會
營養(yǎng)與健康專業(yè)委員會
AI驅(qū)動醫(yī)療革新:開啟數(shù)智健康新時代
健康管理的數(shù)字化求索丨壹健康探索標準化建設(shè)
FDA近三年批準的121款數(shù)字醫(yī)療產(chǎn)品盤點
解構(gòu)“健康老齡”,數(shù)字時代下的認知障礙疾病??颇芰θ绾谓ǎ?/a>
數(shù)字健康在心血管疾病研究領(lǐng)域的技術(shù)演進
國家級繼續(xù)教育項目健康醫(yī)療大數(shù)據(jù)的理論與實踐專題講座舉行

網(wǎng)址: 監(jiān)管生成式AI:數(shù)字健康專家委員會討論FDA面臨的挑戰(zhàn) http://www.u1s5d6.cn/newsview125935.html

推薦資訊