今天,越來越多匯總數據集和數據分析工具,以及聯邦法規對于信息的強制要求等,使機器學習已經成為現實。醫療機器學習具有巨大的潛力,能幫助臨床醫師、醫生和研究人員從現有數據集中發現規律,從而提升醫療效率,改善醫療質量。機器學習大致可分為監督學習和無監督學習兩種類型,它們各自在醫療領域都有不同的具體應用。
John Guttag是麻省理工學院教授,并擔任計算機科學與人工智能實驗室數據驅動推理研究小組的組長。該小組致力于高級計算技術在醫學領域的應用研究,目前的項目包括預測不良醫學事件、預測病患對治療的具體反應、無創監測和診斷工具,以及遠程醫療等。筆者梳理了Guttag教授的觀點,一起了解這兩種機器學習類型對于醫療機構的意義,以及應用該項技術的必要條件。
Guttag認為,即使目前機器學習的影響力尚未對產業形成沖擊,但其潛力是非常巨大的。在其基礎階段,機器學習涉及到從數據中查找那些不易看到的信息。例如:將機器學習應用于感染寨卡或其他病毒的患者數據中,從已經發生的事件中找出治療的最佳方案,并將其用于未來的相關救治。
通常情況下,人們利用機器學習來構建推理工具。它可以幫助研究者從現有數據中發現規律,使其能夠在新的數據呈現出來時,從數據中推斷出一些有用的信息。與人類的直覺不同,機器學習完全是由數據驅動的。
下面讓我們分別來了解監督學習和無監督學習對于醫療的重要性。
監督學習
在監督型的機器學習中,數據和與數據相關的一些結局是已知的。以寨卡病毒為例,如果研究者擁有所有感染寨卡的患者信息,他們就能知道哪些產婦的小孩有先天缺陷。從中,研究者們便可以建立起一個模型,計算出感染寨卡產婦生下先天缺陷寶寶的可能性。當然,產婦的年齡也是影響寶寶健康的因素之一,但在機器學習的模型中,人們都會生成一個標簽,標記產婦的各種細節和寶寶健康與否。所以,監督學習的特點就是將人們感興趣的結局貼上標簽。
無監督學習
另一方面,無監督學習則沒有任何標簽。在無監督學習中,研究者試圖從剛剛得到的數據中推斷出隱藏的結構。例如,初初拿到一堆醫療數據時,人們會發現患者們都很“相似”。通常來說,無監督學習的好處是人們能從中發現意想不到的信息。因此,在由于某種原因無法將數據標簽化時,無監督學習便非常有用。
機器學習的應用前景
機器學習是當今計算機科學中發展最快的技術。由于近年來,醫療機構持續將研究重點傾向大數據分析、精準醫學與人口健康,機器學習、人工智能和認知計算都將越來越有價值。
雖然IBM、谷歌、微軟等科技巨頭一直不斷將其新技術推向市場,但在機器學習方面已經取得重大進展的則是金融服務、零售等行業,且該趨勢已持續了大約10年。從這方面來說,總是對于新技術抱著觀望態度的醫療行業,的確是起步太晚了。
醫療行業在新技術應用上面臨諸多挑戰,其中之一便是獲取新技術與將新技術應用于醫療實踐之間的巨大時間差。正因為如此,Guttag正致力于敦促主要醫療機構更積極地將機器學習融入現在的工作流程中。正如其所說,“人們應該用今天的技術來做今天的事情。機器學習是項了不起的技術,在未來幾年一定會為醫療行業帶來巨大的變化?!?/p>
機器學習茁壯成長的必要條件
Guttag和他的學生正與麻省總醫院(MGH)密切合作,致力于將機器學習應用于臨床工作流程,以降低醫院感染。對于Guttag來說,醫療系統中的一個小小轉變都比10篇紙上談兵的論文更管用。他們在MGH的工作正在有條不紊地進行,并有望在1年內降低醫院的院內感染率。Guttag希望在成功后,能將其做法移植推廣到其他醫療組織。
當今的醫療機構有更多有效的信息收集技術,而聯邦政府對于數據獲取的強制規定也讓醫院不得不公開一些一度保密的數據,如感染率等。
臨界質量是讓機器學習可以用于實踐的必要條件。例如,一家小醫院無法深入利用其電子病歷數據。以往,只有極少數醫院有足夠的數據來有效地部署機器學習。但是現在情況不同了。首先,醫療系統越來越壯大,獨立醫院很快將成為明日黃花。而伴隨著醫療系統的增長,跨系統的匯總數據集也越來越多。
另一個必要條件是正確的專業知識。機器學習對于專業知識的要求很高,它不像其他較為成熟的技術,即使對專業知識一知半解也能進行傻瓜式操作。就目前的情況來看,計劃部署機器學習的機構要么必須自身有扎實的專業知識,要么就花錢聘請專業技術顧問。當然,現在有些私人技術對于醫院實施機器學習非常有用,也可以考慮購買。
許多公司宣稱自己在機器學習領域有秘密武器。IBM的沃森是其最有創新力的一次創舉,已經在醫療領域、金融領域和餐飲領域進行了嘗試;谷歌除了擁有一些非常有價值的技術,還在公共領域發布了大量的工具。在未來,機器學習技術絕對會變得越來越好,并有望實現跨越式提高。