醫學研究部共同研究室

研究人員在開啟一項新研究的第一步，往往需要累積閱讀大量的文獻資料，而在實驗的過程中以及最後的結果探討，查詢相關文獻的頻率也相當頻繁。此時若能導入自動化的文獻蒐集系統，將能協助您在進行研究的過程中，節省許多自行判讀文獻的時間和精力，讓您能更專注於研究的細節。文獻探勘技術便是一項能夠實現人工智慧，自動化判讀文獻的技術，快來看看本月的專題介紹，如何讓人工智慧來幫助您更快速又精確地找到跟研究主題相關的參考文獻吧！下一期電子報主題為「英文論文寫作的大原則與小撇步」，敬請期待，並竭誠歡迎您訂閱共同研究室電子報以收取儀器介紹、研究新知、與每月訓練課程資訊，更歡迎您與我們聯絡，給予我們建議與鼓勵。

共同研究室核心服務因應疫情升溫自即日起服務流量降載,部分服務暫時停止或調整作業方式，後續相關訊息請隨時注意本部公告或聯絡各共研核心窗口。防疫期間多有不便，感謝大家的體諒與配合。希望我們所提供的訊息對您的研究有所助益，服務品質也令您滿意，為了共研長期的經營運作，請您於發表文章時惠予致謝共同研究室，作為服務成效評鑑之用。

TOP

自動化生醫文獻擷取技術
-還在用"工人"智慧的方式查閱文獻嗎?讓"人工"智慧(AI)來幫你省點力氣吧!

醫學研究部高通量基因體暨巨量資料分析核心張乃文博士

『人工智慧』是最近十年來，非常熱門的詞彙，從影像辨識、語音辨識到自動駕駛，都不難從中發現人工智慧的影子，例如臺灣政府每天下午兩點的Covid-19相關新聞直播，在直播影像中的由聲音直接轉成字幕的應用，就是加入了人工智慧的語音辨識技術。由於電腦硬體設備的快速發展，間接地實現了人工智慧的許多應用，在這眾多資料類型中，文字型資料的數量更因為網路的發展而迅速且大量的累積。然而，其中卻充斥著許多的雜訊，若想有效率地從中獲取正確的資訊，僅以「人工」判讀的方式過濾，將遠遠不及資料成長的速度。因此，如何利用人工智慧技術，自動化快速又有效地擷取所需的文字資訊，便成為近年來火紅的研究領域。

圖1.文字探勘是一個理解非結構化資料的過程。非結構化資料經過了資訊檢索、自然語言處理、資訊擷取及資料探勘的步驟，轉換成結構化資料，做後續的關聯性分析。

文字探勘 ( Text mining ) 技術，或稱文本挖掘或文獻探勘，便是在這樣的需求下，因應而生的技術。文字探勘技術可以從非結構化的文字中，萃取並整理出有用的重要資訊或知識，換句話說，它是一個利用程式自動化理解非結構化資料所闡述的意義的過程(圖1)。文字探勘結合了資訊擷取、資料探勘、機器學習、統計學、電腦語言學來達成。由於現實生活中超過80%的資訊都是以文字方式儲存，因此，文字探勘被認為是有高度的潛在商業價值。特別是在生物醫學領域的應用，從2000年開始，將文字探勘技術應用到生醫文獻擷取地相關研究論文數量開始驟增。以2019年底爆發的武漢肺炎為例，截至目前為止，短短的時間內，已經累計有約一萬篇相關的醫學文獻探討該疾病的致病途徑及治療方式等，其他研究相當久的疾病或生理機制所累積的文獻數量更是驚人。因此，與疾病或各種基因、代謝、生化路徑分析相關的文獻，成為文字探勘的重點分析目標，例如蛋白質與蛋白質交互作用、疾病與藥物的關聯分析及基因之間的交互作用等文獻，便如雨後春筍般地湧出。

文獻探勘技術在生醫文獻上的應用包含有兩大主軸：命名實體辨識(Named Entity Recognition, NER)及關連擷取(Relation Extraction)。首先，在命名實體辨識部分，其主要目標為，於生醫文獻中找到正確的命名實體位置。命名實體包含基因、蛋白質、疾病名稱等等。許多研究團隊紛紛投入相關的研究，美國國家醫學圖書館(National Library of Medicine(NLM))研究團隊針對生醫命名實體所開發的辨識系統(PubTator: https://www.ncbi.nlm.nih.gov/research/pubtator)，經人工智慧的訓練學習機制，可自動地標示出生醫文獻摘要中的相關名詞，如基因、疾病、物種等五大類命名實體，其辨識技術已能達到與人工標註的準確度相當接近的標註結果。如圖2所示，透過機器學習從大量生醫文獻資料中所訓練出來的人工智慧模型，可精準地標示出疾病名稱(COVID-19)、化學分子(peptides)及物種(SARS-CoV-2、Patients)。

圖2.由美國國家醫學圖書館(National Library of Medicine(NLM))研究團隊所開發的命名實體辨識系統(PubTator: https://www.ncbi.nlm.nih.gov/research/pubtator)可針對基因、疾病、物種等五大類命名實體，經人工智慧的訓練學習機制，自動地標示出生醫文獻摘要中的相關名詞。

生醫文獻探勘的第二個關鍵任務為關聯擷取，其主要目的在於從生醫文獻中擷取出命名實體之間的關聯作用，並指出該作用的類型。例如：疾病與疾病的協同作用、蛋白質與蛋白質的交互作用等。如下圖3所示，經由機器學習訓練後的模型可以透過輸入一句包含一對疾病的文章，進一步將該對疾病，從三種預定義的疾病關聯類型中，分類出屬於哪一種關聯。關聯類型包含：正向、負向及無關聯。透過這樣的關聯擷取技術，研究人員可以輕鬆的從眾多的文獻海中提取出與自己研究目標高度相關的參考文獻，且清楚地經由文獻間的關聯串連出研究目標的關係圖。除此之外，生醫文獻探勘的其他應用尚有命名實體正規化( Named Entity Normalization )，即於生醫文獻中的命名實體對應到生醫資料庫識別號碼，例如將所辨識到的基因名稱對應至PubMed資料庫中的GeneID或蛋白質的Uniplot ID。以及，問答( Question Answering, QA )，在 Standard Question Answering Dataset (SQuAD) 成功作為一般領域的問答指標任務後，建立一個生醫的問答資料集和系統開始蔚為流行。Biomedical Semantic Indexing and Question Answering (BioASQ) 以及 Google 的 PubＭed QA 都提供了任務公開的排行榜。而他們的資料來源都是以PubＭed的摘要來取代一般的維基百科。

圖3.疾病與疾病之間的關聯擷取示意圖。(Lai P, Lu W, Kuo T, Chung C, Han J, Tsai R, Horng J
Using a Large Margin Context-Aware Convolutional Neural Network to Automatically Extract Disease-Disease Association from Literature: Comparative Analytic Study JMIR Med Inform 2019;7(4):e14502)

文字探勘技術可透過研究人員提供的少量文獻標註範例，訓練電腦模型從中學習研究人員標註的準則，搭配強化學習(Reinforcement learning ) 方法，修正錯誤，習得正確答案。最後，利用訓練完成的模型，至公開的大數據資料中，自動搜尋過濾並篩選出研究人員所需的文字資料。不論是生物醫學相關參考文獻，或是臨床醫學病歷，自動挖掘現今大量已發表於生物醫學文獻中有關生醫物件間之關聯，例如：蛋白質交互作用(Protein-protein interaction, PPI)，或是與疾病相關的生物標識(Biomarker/Biosignature)，將能協助研究人員或臨床醫師進行文獻病歷搜尋及判讀，輔助生醫專家學者快速地掌握該領域中，最新的成果與整體關聯性，加速相關研究發展，促進生醫科技之應用與創新。

TOP 　

共同研究室貴重儀器訓練課程　

儀器訓練課程:課程網路報名

本月份課程因疫情關係暫停辦理，如有特殊需求請逕洽各共研管理人員或技術人員。

歡迎您訂閱共同研究室電子報以收取儀器訓練與研究新知課程講習相關資訊。

TOP

為持續提供優質之研究服務，便於日後聘用專職技術人員、購置新儀器、現有儀器汰舊換新與維護保養等等，敬請於使用共同研究室資源並發表論文時，於論文致謝（Acknowledgement）處加入致謝共同研究室之文句，並於論文發表時通知共同研究室管理人員。致謝文句請依實際使用情形書寫，或請參考以下範例：We thank the staff of the Core Labs, Department of Medical Research, National Taiwan University Hospital for technical support.