醫(yī)聯MedGPT丨“診斷”直播測評!治療方案與真人醫(yī)生96%一致
據消息,醫(yī)聯研發(fā)的國內首個醫(yī)療大模型:MedGPT,已經在“接診”患者了。
不可否認的是,MedGPT還有些問題需要調整,幾位專家指出它會出現偶爾過度給出治療建議、重復推薦檢查項目、某些概念表述不準確,以及無法實現查體等局限——要想MedGPT更加可用,這些意見一定程度比正面評價還要重要。
【資料圖】
但總的來說,首個醫(yī)療大模型的公開首秀的結果還算不錯。
總結下來,首先是大模型的基本能力都有,語義理解、多輪對話、多模態(tài)識別等,還能像OpenAI那樣通過插件商店鏈接到各種行業(yè)應用。
還有通用大模型被廣為詬病的對齊和準確性問題,MedGPT整個流程結果也不輸真人醫(yī)生。
再從行業(yè)維度來看,確實能真正從醫(yī)學角度為醫(yī)生提供有效幫助,提升患者疾病管理效率。
此次真實測試過程中可以看到,它能基于有效問診以及醫(yī)學檢查數據,MedGPT得以進行準確的疾病診斷,并為患者設計疾病治療方案。
甚至在診后,MedGPT還會在患者收到藥品后進行用藥指導與管理、智能隨訪復診、康復指導等智能化疾病管理工作。
目前它基本覆蓋ICD10的60%疾病病種,這意味著常見病癥都能Hold住還能7*24小時不間斷干活,一旦規(guī)?;涞剌o助醫(yī)生診療,能大大提升醫(yī)療效率,對于分級診療,醫(yī)療資源普惠,都能夠發(fā)揮一定作用。
首個醫(yī)療大模型如何煉成?
醫(yī)療向來是AI落地中專業(yè)性最強、壁壘性最高,對安全要求最高的領域之一。
以往用戶們會習慣性使用信息搜索來幫助自己做一些初步的疾病判斷,但信息魚龍混雜,普通用戶缺乏專業(yè)知識無法進行有效篩選,最終導致往往會收效甚微。
但又因為這個領域牽涉到每個人的生命健康,市場需求和社會價值一直很大。
因此自ChatGPT誕生以來,關于何時能在醫(yī)療領域“上崗”發(fā)揮作用,就備受產學研各界專家的關注。
誠如“弱智吧”成為檢驗各個通用大模型能力的Benchmark一樣,各個大模型的醫(yī)療能力也在美國執(zhí)業(yè)醫(yī)師資格考試USMLE中摩拳擦掌。
早些時候,?哈佛大學教授曾親自下場測試ChatGPT輔助診斷的表現。
結果顯示,ChatGPT在45個案例中39個診斷正確,并為30個案例提供適當的分診建議。這樣的表現已經超過現有機器診斷水平,接近醫(yī)生。
另一個代表,谷歌健康團隊打造的Med-PaLM 2,它能回答各種醫(yī)學問題,據稱是首個在美國醫(yī)療執(zhí)照考試中達到專家水平的大語言模型。
但能做題并不能意味著就能落地應用。
以GPT-4為首的通用大模型,他們高度依賴文本統(tǒng)計概率生成答案。相信大家也能感知到它很擅長一本正經地胡說八道,如果應用在日常交流,倒也樂在其中。
但要是應用到行業(yè)中去,往往非專業(yè)人士會難以察覺,這就會引發(fā)各種風險,尤其又像醫(yī)療這種民生行業(yè),對內容生成的把控要求更高,容不得半點差池。
更不用說醫(yī)療本身覆蓋知識面廣而繁雜,而且從整個就醫(yī)流程來看,診前、診中、診后都涉及各種各樣長尾任務,所需高質量數據可能并不比通用模型小,且大部分數據不是靠網上摘取。
這對企業(yè)來說,不單只是算法、算力和數據的考驗,而是一整套系統(tǒng)工程性難題。
既然如此,作為國內首個醫(yī)療大模型MedGPT,又是如何做到的呢?
簡單總結:專業(yè)大模型,以及多種準確性機制保架護航。
首先,一上來就打造醫(yī)療大模型。
此前專業(yè)大模型的思路是,先打造一個大模型,再利用專業(yè)數據做監(jiān)督微調。但MedGPT直接是以醫(yī)療數據預訓練、微調以及超100名醫(yī)生參與RLHF機制。
標簽: