基于神經網絡的電子病歷實體識別之計算機分析

來源: www.bnzqvc.live 作者:vicky 發布時間:2019-11-22 論文字數:28544字
論文編號: sb2019102510382728330 論文語言:中文 論文類型:碩士畢業論文
本文是一篇計算機論文,本文采用BERT模型和在序列標注任務上應用最為廣泛的雙向長短時記憶網絡開展了醫學領域命名實體的識別研究,并進行了實驗驗證。

第一章  緒論

1.1 研究背景與意義
命名實體(Named  Entity,NE),一般分為通用命名實體和特定領域命名實體。其中通用命名實體指的是三個大類和七個小類組成的實體[1]。它包括人名、地名、組織機構名稱等具有具體可描述意義的,以及其他以名稱為標識的領域實體和表示時間、日期、數字、貨幣和具體地址短語等信息的統稱為命名實體。其中,三個大類分別是實體類、時間類和數字類。而剩下的七個小類有包括時間、日期和貨幣、人名、地名、機構名、以及百分比等。其中,除了通用命名實體外,特定領域實體,如醫療領域、農業、社交媒體等特殊實體的定義根據實體所屬領域特征會相應地對該領域內的各種實體類型給下定義。
電子病歷命名實體識別(Named  Entity  Recognition,NER),是指從電子病歷文本文檔中找出帶有生物醫學特征的實體,如藥物﹑手術﹑獨立疾病和癥狀描述以及解剖部位等,并標出實體類型及其在完整一條實體里出現的位置信息。    
1.1.1 研究背景
隨著 Internet 時代的迅猛發展以及人工智能時代的到來,信息交流變得日益頻繁,使得信息量呈現爆炸式的增長。同時,數據資源共享基本覆蓋全球范圍,人們足不出戶即可獲取多種多樣的信息,包括娛樂信息、專業知識以及能夠滿足人們需求的其他任何形式的網絡資源。然而,面對著網上各式各樣的信息,人們難以辨別有些廣告和誤導購買性質的信息的真假。尤其是專業性較強的醫療信息,除了專業人士外,大多數人對醫療相關知識了解不深,很容易被網上良莠不齊的復雜醫療信息誤導從而導致嚴重后果。因而,如何對這些冗余復雜的醫療信息進行智能化管理與分析,使其成為多數人都能夠理解的有用信息,是網絡清理以及防范欺騙消費者行為的當務之急。 
...............................

1.2 研究現狀
1.2.1 通用命名實體識別研究現狀
命名實體識別任務是1991年首次被Rau等人提出[1],一直到1995年9月舉辦的信息理解會議( Message  Understanding  Conference,MUC)中第一次正式采用了命名實體這一術語,同時設立了多語言實體識別的評測任務。Rau等人發現一篇財政新聞報道中未知詞占全文報道的8%左右,而超過4%是公司企業名稱以及一些組織機構名稱,其中1/4還是未知詞。為了對這個問題給出解決方案,Rau等人研究并實現從新聞語料庫中自動提取機構名稱的算法。他們的實驗通過對已收集了千萬家公司名稱的一萬字語料進行測試,實驗結果表示:準確率超過了95%,后來這項研究被認為是命名實體識別的前身。從此之后,NER任務在自然語言處理(Natural Language Processing,NLP)領域開拓了其新的篇章。
從提出NER研究概念至今有將近三十年的發展歷史,已成為自然語言處理領域基礎而關鍵的一項任務,并且取得了相當不錯的研究成果。NER發展過程中,主要經歷了基于規則[1,2]、統計[3-7]、規則與統計相結合的混合方法[8-11]以及最近幾年來飛快發展并成為自然語言處理領域影響最為深遠的神經網絡[12-15]方法。與國內命名實體識別相比,國外對命名實體識別方法研究起步較早,早期的NER方法大致采用模式和字符串匹配的方法,即人工構建有限狀態機再對其進行匹配。其中,謝菲爾德大學的La SIE-Il [16]系統和愛丁堡大學的LTG [17]系統是當初以基于規則的方法為主開發的最典型的命名實體識別系統。這種方法缺乏可移植性和魯棒性,而且此方法消耗相當大的時間和精力資源,開銷又大。后來,Bikel[18]等人提出的基于隱馬爾可夫(Hidden  Markov  Model,HMM)的英文命名實體識別方法,成為了最早提出基于統計的命名實體識別方法的研究者。Liao,Ratino等人陸續提出了基于條件隨機場[19]和未標注文本訓練模型[20]等方法。之后,隨著命名實體識別得到學術界關注,連續不斷地涌現了各種命名實體識別方法。
.............................

第二章  命名實體識別相關研究方法與理論介紹

2.1 基于統計學習的命名實體識別研究
2.1.1 基于分類模型的實體識別
基于分類器的實體識別方法將實體識別問題視為一種分類問題,最終將記錄對歸類為匹配和不匹配兩大類。例如,假定實體的類別為文章,每篇文章對應一條數據記錄,由文章名、作者名、出處等屬性進行描述。實體識別的目標就是要從這些記錄中識別出重復的文章記錄。也就是說,針對每兩條記錄,根據它們的匹配程度,賦予其一個“匹配”或“不匹配”的類別標簽。問題的核心是要確定合適的參數(如屬性權重、相似度閾值)、匹配函數以及匹配規則等。借助于機器學習理論中的決策樹、貝葉斯分類器、SVM、主動學習等模型及相關策略,能夠很好地解決分類問題,進而解決實體識別問題。
基于分類器的實體識別方法的基本思想是:首先建立一個初始的實體識別模型;然后,利用訓練數據集,即一組已人工標記好“匹配”或“不匹配”的記錄對,對該模型進行反復訓練,逐漸地,模型在訓練中能夠學習到“如果哪些屬性相似,那么記錄對匹配的概率會更大”,
“應用哪種匹配函數會得到與標記結果更加類似的識別結果”,“記錄之間的相似度要達到什么程度,才能認為它們是匹配的”等內容;最終,將這些學習到的參數、函數以及規則應用于實體識別模型中,以提高實體識別的準確度。上述過程如同嬰兒認知世界的過程,首先嬰兒來到這個世界,然后由父母、老師不斷地教授其知識,使嬰兒逐漸學習知識,從而建立起對世界的認知。 
按照所采用的分類方法不同,基于分類器的實體識別可分為基于決策樹的實體識別、基于貝葉斯分類器的實體識別、基于 SVM 的實體識別、基于主動學習的實體識別、基于誤差逆傳播算法的實體識別和基于遺傳編程算法的實體識別等。一般情況下,這些待匹配的記錄被看作獨立且均勻分布的。
..........................

2.2 基于神經網絡的實體識別
2.2.1 基于簡單神經網絡的方法
人工神經網絡(Artificial Neural Network,ANN)是由許多摹仿人的大腦的生物神經元(neurons)的節點(nodes)組成的,它們是由互相作用的鏈接連接起來的。神經節點能夠接受輸入數據并對其進行簡單的操作,隨后,操作的結果被傳遞給其他神經元。節點的輸出值往往成為其激活(activation)或節點值(node value),是一種自主學習基礎上的數學模型。它容和了聯想記憶、識別與分類和非線性映射以及優化計算功能等功能。
由非線性單元組成的BP網絡作為一個有監督的學習方法,它是由輸入層、隱藏層和輸出層等三層組成。BP網絡是通過正向和反向傳播兩個階段學習。數據從輸入層進入,通過隱層的一系列處理后傳播到輸出層來完成正向傳播階段。輸出層的實際輸出與希望輸出值之間相差太大的時候,網絡會進入誤差反向傳播階段。在此階段,主要對網絡的神經元閾值和連接權值進行調整。通過頻繁進行正向和誤差反向傳播后如果達到學習要求,即誤差值小于一定閾值,會停止學習,最終得到正確的BP網絡模型。
基于BP網絡的實體識別方法由待識別實體的分塊,對文本中劃分好的語義塊進行相似度計算,最后一步訓練出實體識別模型。在實體識別過程中,訓練BP 網絡模型的流程如下圖2-3所示:

...........................
第三章  基于神經網絡的電子病歷實體識別 ............................. 22
3.1 研究概述 ..................................... 23
3.2 基于 CRF 的電子病歷實體識別 ...................... 24
3.3 基于 BiLSTM-CRF 的電子病歷實體識別 .............................. 24
第四章  實驗結果與分析 ........................... 29
4.1 數據集 .............................. 29
4.2 實體識別評價指標................................. 30
4.3 實驗設置 .................................. 31
第五章  總結與展望 ..................................... 38
5.1 本文的工作總結 .............................. 38
5.2 展望 ..................................... 39

第四章  實驗結果與分析

4.1 數據集
本文實驗所用的數據由以下三部分組成:
(1)來自CCKS2018電子病歷實體識別評測任務公開發布的數據集。評測任務發布的中文電子病歷數據集總共六百(600)份電子病歷文檔。
(2)來自39健康網(http://disease.39.net/)的健康信息以及問答,包括內科、外科、兒科、神經科、婦科等等13個類別的100萬條問答,用來預訓練詞向量;
(3)39健康網爬下來的數據集中選取“兒科”類的1000個問答進行手工標注,加上評測數據的基礎上擴充的數據集,即從IDC詞典里選取手術和獨立癥狀類的實體并將他們與評測數據里的手術和獨立癥狀描述類的實體替換; 
以下CCKS2018評測提供的數據集稱第一組訓練數據(data1),手工標注的數據、評測的數據、評測數據基礎上擴充的數據集稱為第二組數據(data2)。其中,實驗按照8:2的比例將每組數據集劃分為訓練集和測試集。下表4-1是CCKS2018評測提供的600份文檔包含的五類實體數量統計:

.........................

第五章  總結與展望

5.1 本文的工作總結
本文首先介紹了本文課題的研究背景及其研究意義和支撐,闡述了中文電子病歷實體識別任務的緊迫性及其研究現狀。與通用命名實體識別相比,電子病歷實體識別人物存在的困難以及電子病歷實體的語言特征。
其次,對目前被廣泛應用的幾種主流命名實體識別方法及其工作原理和在命名實體識別任務上的應用進行了簡要的介紹,即基于統計和基于深度學習的方法。
進一步,對本文研究課題—中文電子病歷實體識別模型開展了研究。首先采用 CRF 模型進行了識別并將此模型作為本文實驗的基線系統用來跟其他實驗的識別效果進行對比與分析。其次,利用前人的方法與經驗,在 BiLSTM-CRF模型的基礎上實現了基于 BiLSTM-CRF 的中文電子病歷實體識別模型,實驗設置及其行相關數據如 4.3,4.4 節所述。進一步,谷歌的 BERT 模型的基礎上,實現了基于BERTbase的中文電子病歷的實體識別模型。最后,將上述若干組實驗進行對比與分析,驗證了實驗所采用的基于 BiLSTM-SRF 與 BERT 的方法在中文電子病歷實體識別任務上的有效性。
參考文獻(略)

原文地址:http://www.bnzqvc.livehttp://www.bnzqvc.live/jsjlw/28330.html,如有轉載請標明出處,謝謝。

您可能在尋找計算機論文方面的范文,您可以移步到計算機論文頻道(http://www.bnzqvc.livehttp://www.bnzqvc.live/jsjlw/)查找


上一篇:基于深度學習的文本摘要生成技術之計算機研究
下一篇:基于Web外交新聞的中國國際合作元素及關聯挖掘之計算機研究
彩票6加1怎么玩 英雄杀官职表 比分直播新浪竞彩足球 上海快3 腾讯的什么app赚钱 网上快速赚钱方法有哪些方法 乐8彩票安卓 数码kol怎么赚钱 百胜彩票苹果 梦幻西游泡泡王赚钱 足彩胜负彩 头条不申请认证能赚钱吗 让分胜负 2019跑滴滴赚钱 极速时时彩 低成本赚钱途径 广西快3