麻省理工學(xué)院的一項新研究發(fā)現(xiàn)了“健康知識圖”,該圖顯示了癥狀與疾病之間的關(guān)系并旨在幫助臨床診斷,但在某些情況和患者人群中可能不足。結(jié)果還提出了提高性能的方法。
健康知識圖通常由專家臨床醫(yī)生手動編輯,但這可能是一個費力的過程。最近,研究人員嘗試通過患者數(shù)據(jù)自動生成這些知識圖。麻省理工學(xué)院的團隊一直在研究這些圖表在不同疾病和患者人群中的表現(xiàn)情況。
在2020年太平洋生物計算研討會上發(fā)表的一篇論文中,研究人員基于真實數(shù)據(jù)集對自動生成的健康知識圖進行了評估,該數(shù)據(jù)集包含270,000多名患有近200種疾病和770多種癥狀的患者。
該團隊分析了各種模型如何使用電子病歷(EHR)數(shù)據(jù)(包含患者的醫(yī)療和治療歷史)來自動“學(xué)習(xí)”疾病-癥狀相關(guān)性的模式。他們發(fā)現(xiàn),對于年齡較大或非常年輕的患者或男性或女性患者的比例較高的疾病,該模型的效果特別差-但為正確的模型選擇正確的數(shù)據(jù)并進行其他修改可以改善性能。
該想法旨在為研究人員在使用電子健康記錄構(gòu)建健康知識圖時有關(guān)數(shù)據(jù)集大小,模型規(guī)格和性能之間的關(guān)系提供指導(dǎo)。這可能會產(chǎn)生更好的工具,以幫助醫(yī)生和患者進行醫(yī)療決策,或者尋找疾病和癥狀之間的新關(guān)系。
“在過去的10年中,醫(yī)院使用EHR的人數(shù)猛增,因此我們希望挖掘大量數(shù)據(jù)來學(xué)習(xí)這些疾病-癥狀關(guān)系圖,”第一作者Irene Y. Chen說。電氣工程與計算機科學(xué)系(EECS)。“至關(guān)重要的是,我們必須仔細檢查這些圖,以便將它們用作診斷工具的第一步。”
麻省理工學(xué)院計算機科學(xué)與人工智能實驗室(CSAIL)的研究生Monica Agrawal與Chen一起發(fā)表論文。貝絲以色列女執(zhí)事醫(yī)療中心(BIDMC)的史蒂芬·霍恩(Steven Horng);EECS教授David Sontag是CSAIL和醫(yī)學(xué)工程與科學(xué)研究所的成員,也是臨床機器學(xué)習(xí)小組的負責人。
患者與疾病
在健康知識圖中,有數(shù)百個節(jié)點,每個節(jié)點代表不同的疾病和癥狀。邊緣(線條)將諸如“糖尿病”之類的疾病節(jié)點與諸如“口渴”之類的相關(guān)癥狀節(jié)點相連接。谷歌在2015年推出了自己的版本,該版本由幾位臨床醫(yī)生在數(shù)百小時內(nèi)人工策劃,被認為是黃金標準?,F(xiàn)在,當您搜索一種疾病時,系統(tǒng)會顯示相關(guān)癥狀。
在2017年《 自然科學(xué)報告》的 一篇論文中,Sontag,Horng和其他研究人員利用了他們當前研究中相同的270,00名患者的數(shù)據(jù)(這些數(shù)據(jù)來自BIDMC的急診科,在2008年至2013年之間)來建立健康知識圖。他們使用了三種模型結(jié)構(gòu)來生成圖,分別稱為邏輯回歸,樸素貝葉斯和噪聲OR。研究人員使用Google提供的數(shù)據(jù),將自動生成的健康知識圖與Google健康知識圖(GHKG)進行了比較。研究人員的圖表效果非常好。
在他們的新工作中,研究人員進行了嚴格的錯誤分析,以確定模型對哪些特定患者和疾病的治療效果不佳。此外,他們還嘗試了從急診室以外向更多的數(shù)據(jù)擴展模型。
在一項測試中,他們將數(shù)據(jù)分解為疾病和癥狀的亞群。對于每種模型,他們研究了疾病與所有可能癥狀之間的聯(lián)系,并將其與GHKG進行了比較。在論文中,他們將調(diào)查結(jié)果分為50種表現(xiàn)最差的疾病和50種表現(xiàn)最差的疾病。表現(xiàn)不佳的例子是多囊卵巢綜合征(影響女性),過敏性哮喘(非常罕見)和前列腺癌(主要影響老年男性)。高績效者是較常見的疾病和病癥,例如心律不齊和足底筋膜炎,這是組織沿腳腫脹的原因。
他們發(fā)現(xiàn),對于幾乎所有疾病和患者,總的來說,有噪聲的OR模型對錯誤的抵御能力最強。但是,對于具有多種同時發(fā)生的疾病和同時出現(xiàn)的癥狀的所有模型,以及年齡很小或在85歲以上的患者,所有模型的準確性都會下降。對于百分比很高或很低的患者群體,其性能也會受到影響性別。
基本上,研究人員假設(shè),性能不佳是由具有異常預(yù)測性能的患者和疾病以及潛在的無法衡量的混雜因素引起的。例如,老年患者往往比年輕患者進入疾病和相關(guān)癥狀更多的醫(yī)院。Chen說,這意味著模型很難將特定疾病與特定癥狀相關(guān)聯(lián)。她補充說:“類似地,年輕患者沒有很多疾病或許多癥狀,如果他們患有罕見疾病或癥狀,就不會以模型理解的正常方式出現(xiàn)。”
分割數(shù)據(jù)
研究人員還收集了更多的患者數(shù)據(jù),并創(chuàng)建了三個不同粒度的不同數(shù)據(jù)集,以查看這是否可以改善性能。在原始分析中使用的270,000次就診中,研究人員提取了140,804名獨特患者的完整EHR歷史,追溯了十年,并從各種來源(例如醫(yī)生筆記)中總共獲得了740萬個注釋。
數(shù)據(jù)集創(chuàng)建過程中的選擇也影響了模型性能。其中一個數(shù)據(jù)集將140,400個患者歷史記錄的每一個匯總為一個數(shù)據(jù)點。另一個數(shù)據(jù)集將740萬個注釋中的每個注釋視為一個單獨的數(shù)據(jù)點。最后一個為每個患者創(chuàng)建“情節(jié)”,定義為連續(xù)的就診系列,間隔不超過30天,總共產(chǎn)生約140萬次發(fā)作。
從直覺上講,將完整的患者歷史記錄匯總到一個數(shù)據(jù)點的數(shù)據(jù)集將導(dǎo)致更高的準確性,因為考慮了整個患者歷史記錄。然而,與直覺相反,這也使樸素的貝葉斯模型在某些疾病上的表現(xiàn)更差。“通過機器學(xué)習(xí)模型,您可以假設(shè)患者信息越多越好。但是這些模型取決于您提供給它們的數(shù)據(jù)的粒度。” Chen說。“您使用的模型類型可能會不知所措。”
如預(yù)期的那樣,提供模型人口統(tǒng)計信息也可能是有效的。例如,模型可以使用該信息排除所有男性患者,例如,預(yù)測宮頸癌。而且某些疾病對于老年患者而言更為常見,可以在年輕患者中消除。
但是,令人驚訝的是,人口統(tǒng)計信息并不能提高最成功模型的性能,因此可能不需要收集數(shù)據(jù)。Chen說,這一點很重要,因為根據(jù)數(shù)據(jù)編譯數(shù)據(jù)和訓(xùn)練模型可能既昂貴又耗時。但是,根據(jù)模型,使用數(shù)據(jù)分數(shù)實際上可能不會提高性能。
接下來,研究人員希望利用他們的發(fā)現(xiàn)建立一個強大的模型,以在臨床環(huán)境中進行部署。當前,健康知識圖了解疾病和癥狀之間的關(guān)系,但是不能從癥狀中直接給出疾病的預(yù)測。“我們希望將任何預(yù)測模型和任何醫(yī)學(xué)知識圖表置于壓力測試之下,以便臨床醫(yī)生和機器學(xué)習(xí)研究人員可以自信地說:'我們相信這是一種有用的診斷工具,” Chen說。