新發現!ChatGPT在復雜臨床考題的能力超過斯坦福醫學生

ChatGPT在復雜的臨床考試問題上的得分超過了醫學生

 二維碼
發表時間:2023-07-25 16:29

人工智能聊天工具ChatGPT,是由人工智能研究實驗室 OpenAI 于2022年11月30日發布的全新人工智能技術驅動的自然語言處理工具。ChatGPT能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流。自推出以來,ChatGPT強大的能力備受關注。

2023年7月17日,斯坦福大學醫學院的研究人員在 JAMA 子刊 JAMA Internal Medicine 上發表了題為:Chatbot vs Medical Student Performance on Free-Response Clinical Reasoning Examinations 的論文。

這項最新研究顯示,在回答具有挑戰性的臨床考試問題時,ChatGPT可以比斯坦福大學醫學院一年級和二年級的醫學生表現得更好。這項研究結果強調了人工智能(AI)對醫學教育和臨床實踐的加速影響,并建議需要一種新的方法來培養未來的醫生。

hatGPT是目前最**的大語言模型人工智能系統,在過去的幾個月里吸引了全世界的目光。最近的研究表明,ChatGPT可以準確回答美國執業醫師資格考試(USMLE)中的多項選擇題,而醫生必須通過USMLE考試才能執業。

在這項最新研究中,斯坦福大學的研究團隊希望探索人工智能系統如何處理更難的開放式問題(而非選擇題),這些問題原本用于評估斯坦福大學醫學院一年級和二年級學生的臨床推理技能。這些問題在離散的段落中揭示了患者病例的細節,要求學生利用臨床推理技能提出可能的診斷

這項新研究使用了Open AI公司于今年3月份發布的最新版本的ChatGPT,也就是GPT-4。這也是該團隊在此前一項研究的基礎上進行的,此前的研究使用的則是GPT-3.5。

在這兩項研究中,斯坦福大學的研究團隊收集了14個臨床推理案例。這些案例的文字描述長度從幾百字到上千字不等,包含了許多無關的細節,比如不相關的慢性疾病和藥物,就像現實生活中的病人病歷一樣。

在考試中,考生在閱讀每個案例報告后,寫出相應提問的答案。這種閱讀分析文本并撰寫答案的考試方式與執業醫師資格考試(USMLE)中的選擇題的相對簡單形成形成鮮明對比。由于ChatGPT的學習訓練來自整個互聯網,因此它可能無法準確理解考題中醫療專業術語,例如“problem list”一詞,在醫療領域,它指的是病人過去和現在的醫療問題,但這個詞也會出現在其他非醫療語境中。

測試結果顯示,GPT-3.5剛剛達到及格水平,而GPT-4的得分比這些學生的平均得分高出4.2分,并且在93%的測試中超過了及格線,而學生中僅有85%及格。

當然,ChatGPT的表現也并非完美無瑕。GPT-3.5在回答中會出現虛構的內容,GPT-4則顯著減少了這一問題。

研究團隊認為,這一結果提示我們,通過書面文本進行醫學推理的教學和測試的本質被新工具推翻了,ChatGPT等工具正在改變我們的教學方式,并有望最終改變醫學實踐。

實際上,在考試和課程設計方面,斯坦福大學醫學院已經受到了ChatGPT的影響。在上個學期,斯坦福大學的管理人員意見決定將考試從開卷改為閉卷,以防止學生們利用ChatGPT作弊。

研究團隊表示,不希望醫學生在學校里過于依賴人工智能,因為這樣可能會導致他們無法學會如何通過自己的分析進行推理。但另一方面,隨著人工智能的普及,一個醫生沒有接受使用人工智能的培訓可能更值得擔憂。

Eric Strong 表示,或許還需要幾十年時間人工智能才能全面取代醫生,但再過幾年,我們可能就會看到人工智能在日常醫療中的應用。



本網站所有轉載文章系出于傳遞更多信息之目的,轉載內容不代表本站立場。不希望被轉載的媒體或個人可與我們聯系,我們將立即進行刪除處理。


相關閱讀
最新動態