開放域冠名實體識別及層次化類別獲取

來源: www.bnzqvc.live 作者:chenhuixia 發布時間:2015-01-08 12:27 論文字數:103290字
論文編號: sb2015010619530511673 論文地區:中國 論文語言:中文 論文類型:博士畢業論文 論文價格: 150
本文是博士學位論文,針對漢語命名實體識別因語料不足而導致的領域過擬合問題,本文提出了一種基于雙語平行語料的命名實體語料自動構建方法。本文將英語命名實體的標注信息映射到漢語

第 1 章 緒論

基于機器學習的方法對特征選取的要求比較高,需要選擇對命名實體識別任務有影響的各種特征,并將這些特征組合成向量來表示文本中的詞語。命名實體的內部構成和外部語言環境都可以作為識別的特征[32–34]。比如人名中的姓氏用字比較集中;地名和機構名有一些常用的后綴,比如“**市”、“**公司”等;地名還常和“位于”、“到達”等動詞搭配使用。按照特征類型分類,命名實體識別通常使用的特征包括詞語特征、詞性特征,還可以使用詞典特征等。Cho等(2013)則抽取了百科知識庫中實體的上下文構成全局的詞表幫助生物領域命名實體的識別[35]。另外也有研究者對于特征的選擇進行研究,Ekbal和Saha(2013)將多目標模擬退火算法融合了命名實體特征選擇和分類[36]。有指導的機器學習方法主要的不足是數據稀疏問題,即訓練數據不足。常見現象出現頻率高,統計方法有效,而對很多不常見的長尾現象,在有限的標注語料中不足以顯現其規律性,機器學習方法常常不能很好地處理。于是研究者設計使用平滑技術,來處理稀疏數據的難題,但稀疏數據始終是機器學習面臨的挑戰。機器學習方法相對于規則方法的一個改進在于可移植性,理論上,同一個模型在不做任何修改的情況下,可以應用于任何領域的命名實體識別任務。但實踐證明,這種遷移并不能保證識別的效果。比如Ciaramita和Altun(2005)研究發現在CONLL 2003 評測的路透社新聞語料上訓練的模型,在來源相同的路透社語料上進行評測,F值可以達到0.908,但在華爾街雜志語料上評測,F值驟降為0.643[37]。
...........

第 2 章 基于雙語平行語料的漢語命名實體訓練語料自動構建

2.1 引言
雖然有不少關于半指導或無指導機器學習的方法被提出,旨在利用少量的標注樣本以及大規模的未標注數據來訓練命名實體識別模型,也取得了不錯的效果[43],但本文從另外的角度解決上述問題,采用自動生成大規模語料庫的方法來提高漢語命名實體識別模型的性能。由于漢語缺少大小寫信息,以及漢語分詞引入的錯誤,漢語命名實體識別的難度遠大于英語命名實體識別,現存的英語命名實體識別系統效果普遍好于漢語上的系統。幸運的是,通常應用于機器翻譯任務的大量中英雙語平行語料提供了一座從英語命名實體到漢語命名實體的橋梁。通過詞匯的對齊,英語命名實體的信息(包括邊界和類型)可以被映射到漢語中,用來標注漢語的命名實體。本文中,我們利用現有的一個英語命名實體識別系統和平行語料自動地生成大規模的漢語命名實體識別語料。

2.2 相關工作
An等(2003)[100]和Whitelaw等(2008)[101]利用搜索引擎檢索網絡文本資源來生成命名實體識別訓練語料。他們利用一些種子實體,在搜索引擎中檢索,獲取包含這些實體的句子。An將這些句子直接作為訓練語料,構建了一個韓語命名實體語料庫,并且在其上訓練的模型得到了與人工標注語料相近的結果。Whitelaw則利用這些句子以及網頁HTML結構等信息獲取模板,然后利用模板抽取更廣泛的命名實體訓練實例。這種方法的不足之處在于種子集合的構建同樣是比較耗費人力物力的。Richman和Schone (2008) [102]、 Nothman等 (2008, 2013) [103, 104] 以及Ling和Weld(2012)[14]運用了類似的方法從維基百科生成命名實體識別語料。他們首先將維基百科上的文章進行分類,比如分為人名、地名、機構名和其他。然后利用文章之間的鏈接關系,將錨文本進行標注,從而獲得命名實體訓練語料。但文章分類時同樣需要事先花費人力來構建一些種子。

第 3 章 基于自學習的開放域命名實體邊界識別 .................................... 40
3.1 引言........................................ 40
3.2 相關工作................. 41
第 4 章 基于多信息源的開放域命名實體類別獲取 ................................. 57
4.1 引言.................................. 57
4.2 相關工作........................ 58
4.2.1 基于模式匹配的方法 ................ 58
第 5 章 基于詞匯分布表示的開放域命名實體類別層次化........................ 75
5.1 引言................................. 75
5.2 相關工作......................................... 76
5.2.1 語義層次化相關工作 ................. 76

第 5 章 基于詞匯分布表示的開放域命名實體類別層次化

5.1 引言
但通過進一步的觀察,我們發現上下位關系要比簡單的向量之間的差更加復雜。因此,我們利用一個映射矩陣來刻畫上下位關系,即一個詞匯的分布表示乘以這個映射矩陣約等于其上位詞分布表示。進一步,我們通過分段的映射矩陣來更好地刻畫不同的上下位關系。接著,我們利用這些映射來判斷給定的詞對是否符合上下位關系。據我們所知,這是第一次將詞匯分布表示應用于上下位關系的判斷。我們人工構建了一個評測集用于實驗對比,包括418個中文開放域命名實體及其上位詞的層次關系。據我們所知,這也是第一個中文上位詞層次關系語料庫。我們的方法在這個評測集上取得了73.74%的F1值,顯著好于其他方法。另外,我們的方法和Suchanek等(2008)的方法[58]具有很好的互補性,將兩者結合,可以進一步將F1值提高到80.29%。
 

5.2 相關工作
基于模式匹配的方法不直接產生語義的層次化體系,而是抽取成對的上下位關系,然后這些上下位關系可以組合成一個層次化體系[64,72]。上一章也提到,基于手工模式的方法僅能覆蓋復雜多樣的語言現象中的一小部分,導致召回率不高;基于自動生成模板的方法對句法分析和語料質量的要求較高,因此實際應用是效果也不理想。另一類方法基于詞語分別相似度,它們基于一個假設,即一個上位詞的上下文范圍要比其下位詞的上下文更加寬泛,嚴格來說,后者是前者的一個真子集[79,81](詳見4.2.2小節)
...........

結 論
 

鑒于此,本文基于多個信息來源,模擬人的行為在整個互聯網范圍內搜索和挖掘命名實體的類別,取得了較好的效果。進一步,我們還挖掘了類別之間在語義上的上下位層次關系,并構建命名實體知識庫。具體地,本文的主要研究內容和成果可以概括如下:首先,針對漢語命名實體識別因語料不足而導致的領域過擬合問題,本文提出了一種基于雙語平行語料的命名實體語料自動構建方法。通過雙語平行語料中的詞匯對齊為橋梁,本文將英語命名實體的標注信息映射到漢語中,并通過多種策略篩選高質量的句子組成漢語命名實體訓練語料。其次,針對漢語尚缺少開放域命名實體邊界識別訓練語料的挑戰,本文提出一種基于自學習的邊界識別模型訓練方法。由于其他語言也沒有成熟的開放域命名實體邊界識別工具,所以并不能直接使用上述基于雙語平行語料的方法構建漢語開放域命名實體邊界識別的訓練語料。而通過分析開放域命名實體的特點,我們發現開放域命名實體包括專有名詞和名詞復合短語兩種形式,因此可以分別構建這兩部分訓練語料。
...........

參考文獻(略)


原文地址:http://www.bnzqvc.live/dxbslw/11673.html,如有轉載請標明出處,謝謝。

您可能在尋找博士論文方面的范文,您可以移步到博士論文頻道(http://www.bnzqvc.live/dxbslw/)查找


彩票6加1怎么玩 彩金捕鱼季最新手机版下载 蜜芽靠什么赚钱 梦幻游戏新手怎么赚钱 丸龟制面加盟赚钱吗 麻将上下分是是骗人的 箱包五金赚钱吗 净水器换滤芯赚钱 彩客网苹果 买房增值能赚钱吗 在新沂送外卖赚钱不 手机ag捕鱼王骗局 什么行业人力资源最赚钱 开饮品加盟店赚钱吗 热购彩票首页 如何发百度文库的文章赚钱 赚钱轻松 炒股票