基于深度學習的文本摘要生成技術之計算機研究

來源: www.bnzqvc.live 作者:vicky 發布時間:2019-11-16 論文字數:29588字
論文編號: sb2019101811332628245 論文語言:中文 論文類型:碩士畢業論文
本文是一篇計算機論文,本文采用深度學習的方法實現了基于 Seq2Seq+Attention 機制以及基于 Transformer 框架的單文本摘要生成模型,分別在 LCSTS 數據集以及 NLPCC 的數據集上做了相關的驗證分析,


第一章  引言

1.1 研究背景與意義
隨著互聯網進程的加快,互聯網上的信息量也隨之指數級的增漲,據中國互聯網絡信息中心的數據調查,2009 年我國網民數量為 3.38 億人,國際出口帶寬數為747,541.4Mbps,2014 年我國網民數量為 6.32 億人,國際出口帶寬數為 3,776,909Mbps,網民數量在五年內翻了一番,有接近一半的國人都成為了網絡用戶,國際出口帶寬數也翻了五倍,到了 2018 年,我國網民規模已經達到了 8.02 億之多,互聯網普及率為也達到了 57.7%,國際出口帶寬則為 8,826,302Mbps,較 14 年提升了 133%,由此可見,我國信息化進程在飛速的推進。 
國際數據公司(IDC)的發布的研究報告,2008 年,也就是 10 年前全球產生的數據量為 0.49ZB(1ZB=1024EB,1EB=1024PB,1PB=1024TB,1TB=1024GB),一年之后,全球產生的數據量增長為 0.8ZB,兩年之后,增長為 1.2ZB,三年后,增長為 1.82ZB,截止到 2012 年,人類現存的所有印刷材料所產生的數據量僅有 200PB,而全人類在整個歷史中總共說過的話的數據量大約有 5EB。而在 IBM 的研究聲明中,也可以看到在過去的兩年中,產生了人類歷史中 90%的數據。此外,IBM 還研究表明,全世界總共的數據規模在 2020 年之時將 會達到當年的 44 倍。由此,不難看出大數據時代已經來臨了。
而隨著大數據時代的來臨,人們每天接觸的數據量也在日益激增,如何從海量的數據中快速找到自己所需的數據,成為了迫切的需要,因此,文本摘要重新為人們所重視,文本摘要提取[1]的研究也由之前的無人問津變的炙手可熱。
.............................

1.2 文本摘要提取的國外研究現狀
20 世紀五十年代,美國 IBM 公司的 Luhn[15]就提出了自動文摘的概念,并據此進行了研究,他提出利用詞頻的信息來統計文本中的高頻詞,然后以高頻詞作為特征來加權,提取出文中的關鍵句作為摘要。這種方法在當時已經非常的超前了,但是也有一些比較大的缺憾,就是一些比較重要的低頻詞信息被忽略了。
20 世紀八十年代末,美國的學者們開始將統計方法和自然語言處理中的一些知識相結合,通過對文章的語法信息以及內容進行分析,來提取文本中的重要信息作為摘要。
20 世紀九十年代末,谷歌的兩位創始人 Larry  Page 和 Sergey  Brin 從學術界用來評判論文重要性的方法——“論文引用次數”中獲得靈感,建了評價網頁重要性的方法PageRank[16],而之后的幾年里,Mihalcea  R 和 Tarau  P  以此方法為基礎,改進出了用以計算文本中句子重要性的方法 Text Rank[17],TextRank[18]算法將詞視為“萬維網上的節點”,根據詞之間的共現關系來計算每個詞的重要性,以此來計算文本中句子的值,得出文本的摘要。
21 世紀初期,密西根大學的 Gunes  Erkan 和 Dragomir  R Radev 提出了一種基于圖論的自然語言處理方法[19],主要通過句子之間的相似度來對文本和詞匯進行分類,并根據相似程度來為每個句子評分,最終根據評分,以一定的閾值將分數較高的句子作為文章的摘要句。
............................

第二章  相關知識介紹

2.1  抽取式文本摘要提取相關技術介紹
常用的文本摘要提取技術[43][44]通常是基于統計或基于規則的抽取式摘要,通過計算句子的權重或者計算句子之間的相似度等方法來抽取文本中的摘要句,本文中,我們選擇這幾種方法與基于深度學習的方法做對比。
2.1.1基于 TF-IDF 的文本摘要提取技術
TF-IDF 是一種非常常見的基于統計的方法,TF 為詞頻,即文本中一個詞出現的次數;IDF 為逆文檔頻率,是對詞語普遍重要性的一種度量。TF-IDF 算法的主要思想是:如果某個詞語在某一特定文本中的詞頻很高,但是它在其他文本中的頻率卻很低,就可以說明這個詞有很好的類別區分作用,那么它的權重也就越高,也就越關鍵。相反,如果在某一特定文本中的頻率很高,但是在其他文本中的頻率也很高,這個詞的權重就會很低,也就不那么關鍵。TF-IDF 的具體計算方式如公式(2-1)所示:

.............................

2.2文本向量表示相關技術介紹
文本向量化表示就是將文本轉化為計算機能夠直接進行處理的格式化數據,而這一步也是深度學習輸入數據的必要一步和關鍵一步。本文所用的文本向量化表示工具為Word2Vec。
Word2Vec 是谷歌發明的一種開源的詞嵌入工具,該工具能夠生成詞向量,然后通過所生成的詞向量,我們可以很好的對詞與詞之間的相似性進行度量。在 Word2Vec 出現之前,人們在進行自然語言處理任務之時,常使用 One-Hot  Encoder 的方式來進行向量化,就是用“0”和“1”來表示一個詞。假如有這么一段話,“我 喜歡 學習 新技術”中,“我”就可以表示為[1,0,0,0],“喜歡”為[0,1,0,0],“學習”為[0,0,1,0],“新技術”為[0,0,0,1],但是這樣的話,各個向量之間相互獨立,看不出有什么關系,而且向量維度的大小取決于語料庫中字詞的多少,如果字詞數量過大,就容易使這個矩陣變的過于稀疏,繼而造成維度災難。而 Word2Vec 的誕生很好的解決了這個問題,Word2Vec 能夠將 One-Hot  Encoder 轉化成低緯度的連續值,也就是稠密向量,而且向量中意思相近的詞也會被映射到向量空間中的相近位置。Word2Vec 有兩種訓練方式,分別是 CBOW(Continuous  Bag of Words)模型以及 Skip-Gram 模型。
........................
第三章 文本摘要提取方法研究 ................................... 16
3.1 基于傳統的文本摘要抽取技術的實現 ........................................... 16
3.1.1 基于 TF-IDF 的文本摘要抽取的實現 ...................................... 16
3.1.2 基于 TextRank 的文本摘要抽取的實現 .................................... 17
第四章 文本信息提取系統的設計與實現 ................................................ 38
4.1 系統設計 ........................ 38
4.2 系統設計 .................................. 38
第五章 總結與展望 .............................. 44
5.1 總結 ............................... 44
5.2 展望 .................................... 44

第四章  文本信息提取系統的設計與實現

4.1 系統設計
文本信息提取系統從功能結構上可以分為文本預處理模塊,文本提取模塊,文本生成模塊以及文件操作模塊。其中,文本預處理模塊包括中文分詞和去停用詞功能;文本提取模塊包括傳統的關鍵詞抽取,關鍵短語抽取以及文本摘要抽取模塊;文本生成模塊包括了基于深度學習的文本摘要生成模塊,可以用以生成文本的標題;文件操作模塊包含文件加載操作和文件另存操作,方便用戶直接對文本進行操作。系統功能結構圖如圖 4-1 所示。 

..............................

第五章  總結與展望

5.1 總結
隨著互聯網進程的加快,大數據時代已經到來了,與海量數據相對應的是信息抽取相關技術也越來越被更多的學者所關注,而信息抽取中,最為重要,實用價值也最高的,當屬文本摘要抽取,而海量的數據也為文本摘要生成的產生和發展提供了強有力的保證,本文針對各種文本摘要生成技術,也展開了深入的研究,并借助該研究內容以及相關的準備工作,設計并實現了文本信息抽取系統。本文的工作總結如下:
1) 通過充分的調查以及國內外期刊論文的閱讀,對文本摘要抽取領域有了比較深入的了解,也對文本摘要抽取的發展歷程有了清晰的概念,為之后的研究指明了主題和方向。同時對一些傳統的方法進行了相關的學習以及實現,了解了傳統方法的優點以及其局限性;
2) 數據集的選擇和詞向量的訓練。由于目前的中文文本摘要語料庫數量相對較少,而深度學習算法對語料庫的規模依賴程度相對較高,因此選擇了哈爾濱工業大學的LCSTS 數據集來作為本文的訓練集和測試集,該語料庫有接近 70 萬條新聞正文和其對應的標題,比較適合用來做短文本摘要生成。由于選擇的數據集是新聞數據集,因此,本文選擇了搜狗實驗室的新聞數據集來訓練詞向量,該數據集大小為 250 萬條,生成的詞向量規模為 399502 個詞語,每個詞語為 300 維的向量;
3) 基于深度學習的文本摘要生成技術研究。詳細介紹了兩種文本摘要生成技術的研究,Seq2Seq+Attention 機制模型在 Encoder 和 Decoder 中都采用了 LSTM,充分利用了上下文的信息,提高了生成的摘要的語義相關度。而基于 Transformer 的文本摘要生成模型的構建中,本文采用了 6 個 Encoder 和 Decoder 來建模,最大化的提升生成摘要和原文的語義相關度,經測試,兩種模型相對于傳統的方法,都有著較好的表現;
4) 文本信息抽取系統的設計與實現。借助文本摘要的研究以及在研究中對相關知識的實現,設計并實現了文本信息抽取系統,該系統包含了文本預處理,文本信息提取,文本信息生成,文件操作等模塊。此外,針對該系統的性能,與開源的工具做了簡單的對比,實驗結果表明,該系統擁有良好的實際應用價值。
參考文獻(略)

原文地址:http://www.bnzqvc.live/jsjlw/28245.html,如有轉載請標明出處,謝謝。

您可能在尋找計算機論文方面的范文,您可以移步到計算機論文頻道(http://www.bnzqvc.live/jsjlw/)查找


上一篇:社交網絡不良言論用戶識別之計算機研究
下一篇:沒有了
彩票6加1怎么玩 地下城勇士工作室 人人河北麻将官网 火锅店比汉堡店赚钱吗 足球即时比分 有辆小货车怎么最赚钱 我中了彩票苹果 在家做手工赚钱有什么项目 乐赢彩票苹果 利用几个手机赚钱 捷豹彩票网址 有辆奔驰e怎么赚钱 贵州11选5 股息赚钱吗 快速赛车 epc项目赚钱吗 3d试机号