社交網絡不良言論用戶識別之計算機研究

來源: www.bnzqvc.live 作者:vicky 發布時間:2019-11-13 論文字數:25855字
論文編號: sb2019101612450428217 論文語言:中文 論文類型:碩士畢業論文
本文是一篇計算機論文,筆者以微博用戶為研究對象,對不良言論用戶的識別展開了研究。識別不良言論用戶的關鍵在于準確的檢測出用戶發布的文本內容中是否含有不良信息。

第一章  緒論

1.1  研究背景與意義
隨著互聯網的技術更新,社交網絡在人們的日常生活中愈發重要,許多社交網絡媒體應運而生并快速發展。在諸類社交網站中,新浪微博由于操作簡單、傳播迅速、靈活度高等特點,從傳統社交網絡中脫穎而出,已成為最普及、最重要的社交服務網站之一,成為廣大網民共享、獲取和傳播信息的一種新的互動形式。它極大地方便了人們的交流互動,成為人們在線交流和傳播情感的主要平臺,用戶可以在微博上自由的發表個人的意見和觀點,宣泄自己的情感。據第 43 次《中國互聯網絡發展狀況統計報告》[1]顯示,截至 2018 年 12 月,中國網民規模達到8.29 億,全年新增網民 5653 萬,互聯網普及率達 59.6%,比 2017 年底增加了3.8 個百分點。截至 2018 年 12 月,新浪微博月活躍用戶 4.62 億,日均活躍用戶達 2 億[2]。因此,新浪微博作為國內信息獲取的主要來源,具有重要的研究意義。
然而,另一方面,隨著社交媒體的爆炸式增長,社交網絡給人們帶來便利的同時,也產生了許多異常用戶。這些用戶將其作為牟取利益的平臺,通過社交網絡在社交媒體中以語言文字、圖片、視頻等形式發布大量不利于民族團結、不利于社會穩定、惡意攻擊、辱罵他人等的不良內容。國外的 Twitter、Facebook,國內的網易、新浪等在線社交系統的許多用戶經常受到各種異常用戶的困擾,這不僅擾亂了社交平臺的正常營銷和推廣,違反了平臺管理規范,侵犯了公眾的利益,污染了社交網絡環境,還對社會造成了不良的影響。因此,識別和檢測社交網絡中的發表這些不良內容的用戶對凈化網絡環境、維持網絡秩序、提高用戶上網體驗、促進社會的和諧發展等具有重要作用。
............................

1.2  國內外研究現狀
現有對不良言論用戶的識別多是從用戶發布的文本內容進行檢測的,而且這些文本內容多是敏感性、攻擊性、辱罵性的。目前國內針對不良言論用戶的研究很少,參考文獻也比較少。不良言論用戶是本文的重點研究對象,針對此類用戶的研究,將重點放在了該用戶發表的言論上。
近年來,諸多專家學者對社交媒體安全性的研究有了長足的發展,與此相關的一個方面是檢測博客、微博、論壇等社交網絡中以各種形式出現的具有攻擊性、敏感性、辱罵性、煽動性和仇恨性的不良文本。現有對這個問題的研究,大多數都是使用黑名單、規則表達式和分類技術來過濾不良內容。文獻[3]手工編寫了一個辱罵性詞典,里面包含了不同程度的單詞短語,并且詞典中給每一個詞匯分配了權重。Gitari 等人[4]建立了一個包含仇恨動詞的詞典,用于檢測仇恨性的言論。文獻[5]認為一個句子中含有黑名單列表中的詞不一定就是不良的,在使用黑名單列表的基礎上加入了編輯距離,檢測故意拼寫錯誤的詞。文獻[6]將不良言論檢測問題視為詞義消歧問題,使用基于規則的方法生成特征,分類精確度達到 94%,但由于只考慮了淺層的句法,無法檢測到更多的語言模式,導致召回率僅為 60%。Silva 等人[7]根據句子結構構造了一個基本表達式來檢測 Whisper和 Twitter 中的仇恨言論,并采用人工的方式對這些言論進行了細粒度的劃分。Davidson 等人[8]將 Twitter 中的推文標記為三類:仇恨言論、攻擊性言論和兩者都不是,然后使用邏輯回歸的方法對其進行分類,但受到主觀意愿的影響,導致這些言論的分類有一定的誤判,并且無法檢測出一些新出現的術語。為了彌補以往的句子攻擊檢測方法中存在的不足,文獻[9]在考慮了詞匯特征和句法特征的基礎上,提出了一種基于攻擊性詞匯和句法結構的句子層次分析的新方法(LSF),實驗結果表明,LSF 句子攻擊預測和用戶攻擊估計算法在精度、召回率和 F 值方面均優于傳統學習的方法。Sood 等人[10]將情感分析與仇恨言論相結合,先采用一種專門檢測負極性的分類器對帖子進行情感分類,然后再對在仇恨言論進行分類。基于黑名單和規則表達式的方法,嚴重依賴于黑名單列表和規則,并且無法檢測出一些混淆的字詞或短語,同時還會影響言論和表達的自由;基于分類的技術,對注釋數據較為依賴,耗費了大量的人力物力,并且在面對新出現的不良術語時,顯得無能為力。
...............................

第二章  相關知識與理論技術

2.1  社交網絡中不良言論用戶相關概念
2.1.1  社交網絡異常用戶分類體系
社交網絡中的用戶分為正常用戶和異常用戶。異常用戶是指在社交網絡中,個人或群體的行為不符合正常用戶模式定義的特征行為或與其同齡人以明顯不同的方式進行的互動,其表現為在同一結構中與其他用戶行為不同的活動。
文獻[28]根據文本表達內容以及目的(如騷擾、廣告、引導輿論走向、欺詐等)的不同,將社交網絡中的異常用戶劃分為了 7 個類別,分類體系如下圖 2-1所示。

在對社交網絡諸多異常用戶進行分析調研之后,本文發現研究最多的幾類異常用戶多是僵尸用戶、垃圾用戶、惡意用戶、虛假用戶等,對最后一類用戶即不良言論用戶的研究很少,此類用戶在社交平臺傳遞不良信息,嚴重污染了社會風氣,破壞了民族團結,危害社會穩定和長治久安。因此,準確的識別出此類用戶具有重要現實意義。基于此,本文對社交網絡中的不良言論用戶展開了研究
..........................

2.2  特征選擇
特征選擇是一種降維技術,通過去除不相關的、冗余的或噪聲特征,按照一定的選取規則,從原始特征中選取相關特征的一個子集的過程。將文本進行向量空間表示后,得到的向量維數較高且數據稀疏,因此需要采用特征選擇方法解決這些問題,同時提高學習精度、降低計算成本,使其具有更好的學習效果。下面對幾種常用的特征選擇方法進行介紹。
2.2.1  文檔頻率
文檔頻率指的是整個文本中包含的指定特征項的文本數[32-33]。通過該方法進行特征選擇的基本思想是:計算出特征詞在每個類別文檔中的文檔頻率,全部計算完后,根據給定的閾值將文檔頻率低于閾值的去掉,對保留的特征詞按照頻率大小進行降排序,并從中選取一定的特征詞作為特征。
2.2.2  互信息
互信息是指系統中當一個變量出現時,另一個變量不確定性的減少量,體現了兩個變量間的關聯程度[34-35]。為了進行更清楚地描述,首先介紹一些相關的定義。

...........................
第三章  社交網絡不良言論用戶識別 ............................... 17
3.1 研究的問題 .................................... 17
3.2 不良言論用戶識別總體設計 ....................................... 18
3.3 基于多特征融合的不良言論檢測 ........................................... 19
第四章  實驗以及結果分析 ..................................... 30
4.1 不良言論檢測 .................................. 30
4.1.1 實驗環境與數據 ........................................ 30
4.1.2 評價指標 ................................. 30
第五章  總結與展望 ............................... 37
5.1 研究工作總結 ...................................... 37
5.2  今后研究方向 .............................. 37

第四章   實驗以及結果分析

4.1 不良言論檢測
4.1.1 實驗環境與數據
實驗環境在一臺內存為 8GB、CPU 為 Intel core i5 3230M,2.5GHz、硬盤 500G的 64 位的 Windows 7 系統下進行,開發工具為 PyCharm Community Edition 3.3,使用 keras 庫通過底層調用 Tensorflow 框架的方式實現 CNN、LSTM 等網絡的構建,實驗數據如表 4-1 所示。所有數據集按照 8:1:1 的比例分配給訓練集、驗證集和測試集。

...........................

第五章  總結與展望
5.1 研究工作總結
針對社交網絡不良言論用戶的識別研究,本文將重點放在用戶的言論檢測上。首先使用網絡爬蟲采集微博用戶數據,得到原始的用戶言論數據;原始的數據存在大量噪聲,直接進行分類的效果不好,本文通過分析微博數據中不良言論的特點,提出了針對不良言論的數據預處理操作,其中包括文本去噪、分詞、去停用詞等,然后提取文本特征進行不良言論檢測。在此基礎上,對微博不良言論用戶進行識別。本文主要研究內容如下:
(1)通過分析社交網絡用戶的屬性及行為特征,針對目前研究的異常用戶概念冗余、定位模糊等問題,給出了社交網絡中異常用戶的定義及其劃分依據,將異常用戶劃分為七類,并給出了本文的主要研究對象—不良言論用戶。
(2)分析了不良言論文本的特點,提出了針對不良言論檢測的改進的文本預處理流程,利用詞向量相似度計算的方式,對本文采集的不良言論進行不良詞的擴充,構建了一個高質量的不良詞典。
(3)通過對從社交網絡中獲取的不良言論數據的特點進行分析,發現不良言論具有變形字使用較多、負面傾向明顯、語義復雜等特點,提出了基于Bi-gram特征、情感特征和語義特征相融合的特征提取方法,對不良言論進行檢測,在此基礎上,利用不良言論檢測模型對微博不良言論用戶進行識別。
(4)利用本文提出的方法在本文構建的不良言論數據集及不良言論用戶數據集上進行了實驗,實驗結果表明,本文提出的方法對提高不良言論的檢測準確率及不良言論用戶的識別準確率上有一定的幫助。
參考文獻(略)

原文地址:http://www.bnzqvc.live/jsjlw/28217.html,如有轉載請標明出處,謝謝。

您可能在尋找計算機論文方面的范文,您可以移步到計算機論文頻道(http://www.bnzqvc.live/jsjlw/)查找


上一篇:基于轉移的神經網絡哈薩克語句法分析之計算機研究
下一篇:沒有了
彩票6加1怎么玩 北京 赚钱 分分彩 18年赚钱项目小投资 隆彩娱乐苹果 买主播视频赚钱 内蒙古快三 太平洋保险 赚钱吗 北京pk10 女主穿古代写话本赚钱 日本棒球比分 即时指数即时指数 英雄杀孙武 网球比分1234 如何加盟电影院怎么赚钱吗 陕西闲麻将下载 微信捕鱼明星礼包码