越來(lái)越多(duō)地研究提出了(le)醫療人(rén)工智能(AI)算(suàn)法,用(yòng)于評估和(hé)護理(lǐ)患者。但尚無現成的(de)最佳實踐來(lái)評估商業可(kě)用(yòng)算(suàn)法,以确保其可(kě)靠性和(hé)安全性。通(tōng)往安全和(hé)強大(dà)的(de)臨床人(rén)工智能的(de)道路需要解決重要的(de)監管問題。醫療設備的(de)性能是否可(kě)以推廣到所有預期人(rén)群?人(rén)工智能普遍面臨的(de)缺點(對(duì)訓練數據的(de)過度拟合、數據轉移的(de)脆弱性和(hé)對(duì)未充分(fēn)代表的(de)患者亞組的(de)偏見)是否得(de)到充分(fēn)量化(huà)和(hé)解決?
2021年4月(yuè)05日由斯坦福大(dà)學James Zou研究組在《Nature Medicine》雜(zá)志上發表了(le)一篇名爲“How medical AI devices are evaluated: limitations and recommendations from an analysis of FDA approvals”的(de)評論文章(zhāng)。在本研究中創建了(le)一個(gè)帶批注的(de)FDA批準的(de)醫療AI設備數據庫,并系統分(fēn)析了(le)這(zhè)些設備在批準前的(de)評估方式。對(duì)氣胸分(fēn)類裝置進行了(le)案例研究,發現僅在單個(gè)站點上評估深度學習(xí)模型(通(tōng)常這(zhè)樣做(zuò))就可(kě)以掩蓋模型的(de)弱點,并導緻跨站點的(de)性能下(xià)降。
越來(lái)越多(duō)地提出了(le)醫療人(rén)工智能(AI)算(suàn)法,用(yòng)于評估和(hé)護理(lǐ)患者。在美(měi)國,美(měi)國食品藥品監督管理(lǐ)局(FDA)負責批準商業銷售的(de)醫療AI設備。FDA以摘要文件的(de)形式發布已批準設備的(de)公開可(kě)用(yòng)信息,該摘要文件通(tōng)常包含有關設備描述,使用(yòng)說明(míng)和(hé)設備評估研究的(de)性能數據的(de)信息。FDA最近呼籲提高(gāo)測試數據質量,提高(gāo)與用(yòng)戶之間的(de)信任和(hé)透明(míng)度,監控算(suàn)法性能和(hé)對(duì)預期人(rén)群的(de)偏見,并讓臨床醫生參與測試,爲了(le)了(le)解這(zhè)些問題在實踐中得(de)到解決的(de)程度,創建了(le)一個(gè)帶批注的(de)FDA批準的(de)醫療AI設備數據庫,并系統分(fēn)析了(le)這(zhè)些設備在批準前的(de)評估方式。
我們彙總了(le)2015年1月(yuè)至2020年12月(yuè)期間獲得(de)FDA批準的(de)所有醫療人(rén)工智能設備,提取了(le)以下(xià)關于如何評估算(suàn)法的(de)信息:參與評估研究的(de)患者人(rén)數;評估中使用(yòng)的(de)場(chǎng)地數量;測試數據是在設備部署時(shí)同時(shí)收集和(hé)評估(前瞻性)還(hái)是在設備部署前收集測試集(回顧性);以及是否報告了(le)按疾病亞型或跨人(rén)口亞組的(de)分(fēn)層表現。此外,根據FDA提案4的(de)指導方針将每個(gè)設備的(de)風險等級從1到4(1和(hé)2表示低風險;3和(hé)4表示高(gāo)風險)。總共,彙編了(le)130個(gè)符合我們審查标準的(de)經批準的(de)設備(如圖1)。
根據FDA的(de)總結,幾乎所有的(de)人(rén)工智能設備(130個(gè)中的(de)126個(gè))在提交時(shí)都隻進行了(le)回顧性研究。未對(duì)54種高(gāo)危裝置進行前瞻性研究評估。對(duì)于大(dà)多(duō)數設備,回顧性研究的(de)測試數據是在評估前從臨床站點收集的(de),測量的(de)終點不涉及臨床醫生在人(rén)工智能和(hé)不人(rén)工智能情況下(xià)的(de)表現的(de)并排比較。需要更多(duō)的(de)前瞻性研究來(lái)全面描述人(rén)工智能決策工具對(duì)臨床實踐的(de)影(yǐng)響,這(zhè)一點很重要,因爲人(rén)機交互可(kě)能會從本質上偏離模型s的(de)預期用(yòng)途(如圖2)。
且通(tōng)常不報告評估地點和(hé)樣品的(de)數量,在分(fēn)析的(de)130台設備中,93台設備沒有公開報道多(duō)場(chǎng)所評估作爲評估研究的(de)一部分(fēn)。報告的(de)41台設備中,僅1個(gè)站點評價4台設備,僅2個(gè)站點評價8台設備。這(zhè)表明(míng),相當一部分(fēn)被批準的(de)設備可(kě)能隻在少數幾個(gè)地點進行了(le)評估,而這(zhè)些地點往往具有有限的(de)地理(lǐ)多(duō)樣性。多(duō)部位評估對(duì)于理(lǐ)解算(suàn)法的(de)偏倚和(hé)可(kě)靠性很重要,可(kě)以幫助計算(suàn)所使用(yòng)的(de)設備、技術标準、圖像存儲格式、人(rén)口構成和(hé)疾病患病率的(de)變化(huà)。
了(le)解一個(gè)模型的(de)性能如何可(kě)以推廣到廣泛和(hé)多(duō)樣化(huà)的(de)人(rén)群是至關重要的(de),研究者探索了(le)AI模型如何在代表不同人(rén)群的(de)多(duō)個(gè)臨床站點的(de)患者身上進行評估。已目前批準的(de)4種用(yòng)于氣胸檢測的(de)AI設備爲例,使用(yòng)三個(gè)來(lái)自不同地區(qū)醫院患者的(de)數據集(SHC,BIDMC,NIH),在三個(gè)區(qū)域的(de)患者數據上訓練了(le)三個(gè)獨立的(de)深度學習(xí)模型,然後評估來(lái)自其他(tā)兩個(gè)區(qū)域的(de)測試集上的(de)模型。每個(gè)模型以胸透圖像作爲輸入,并對(duì)氣胸進行二元預測。結果總結顯示(如圖3),雖然位點内測試的(de)AUC仍然很高(gāo)(平均0.893),但性能顯著下(xià)降了(le)平均0.072 AUC,在其他(tā)兩個(gè)位點評估時(shí)達到0.124 AUC。一些性能變化(huà)可(kě)能是由于跨位點的(de)患者人(rén)口統計差異。
總而言之,本文通(tōng)過總結目前FDA批準上市AI醫療設備的(de)評估方式,發現了(le)目前評估上市所存在的(de)問題,對(duì)未來(lái)評估人(rén)工智能設備在多(duō)個(gè)臨床站點的(de)性能對(duì)于确保算(suàn)法在代表性人(rén)群中表現良好很重要。鼓勵前瞻性研究與标準護理(lǐ)相比較,可(kě)以降低有害過度拟合的(de)風險,并更準确地捕捉真實的(de)臨床結果。人(rén)工智能設備的(de)上市後監測也(yě)需要理(lǐ)解和(hé)測量在前瞻性、多(duō)中心試驗中未檢測到的(de)非預期結果和(hé)偏差。
----------THE END----------
免責聲明(míng):本文系轉載分(fēn)享,文章(zhāng)觀點、内容、圖片及版權歸原作者所有,如涉及侵權請聯系删除!