基于卷積神經網絡的多人骨架提取算法之計算機研究

來源: www.bnzqvc.live 作者:vicky 發布時間:2019-09-24 論文字數:33699字
論文編號: sb2019090509303427637 論文語言:中文 論文類型:碩士畢業論文
本文是一篇計算機論文,本文主要的研究關注點在于多人的骨架特征點的提取,在對圖片和視頻兩個方向的識別進行了探索。
本文是一篇計算機論文,本文中總結了一些針對單人以及多人識別現階段比較優秀的算法,針對靜態圖片的多人骨架提取,本文首先分析了自上而下和自底向上兩種針對多人骨架提取的研究方法的差異,并在自底向上方向探討了人體關節點的提取以及親和域向量對關節點分配的優化,并在現有識別效果較好的深度學習模型殘差網絡的基礎上進行了針對此課題的細節上的改進,最后以 MPII 圖數據庫作為數據集,對比得出此方法在此領域有良好的識別效果。

1 緒論

1.1 研究工作的背景與意義
在現代社會中,對于人體的研究是當前科學家與各位學者所研究的重點,而對于研究人體的行為則是對于人的研究中的重中之重。在現實中對于人體行為的識別有很多待解決的困難點,例如人體姿態多樣性的識別,當人體在做瑜伽或者進行地板翻滾動作時,人體的姿態與平時人體常態下的姿態是截然不同的,而人們多樣的服飾也會影響在實驗中對于人體骨架提取的效果。在現階段中針對這些困難點,研究學者們化繁為簡,將人體簡化為線狀的骨架來進行提取,這樣可以一定程度上快速進行識別進而分析人體的動作與行為,也為過后其他方向的視覺研究方向奠定了研究基礎。
在傳統時期科技水平落后,電子計算機等科技產品還未廣泛應用,人們對于人體動作的研究只能靠簡單的人工工具設計來進行度量,或者是通過人們本身的眼力與經驗來進行人體行為的判斷,這樣的研究方法損耗了大量的人力以及金錢,所以傳統時期也即信息時代未來臨之前,對于人體行為的識別有許多不足。
隨著電子計算機的快速發展,科技水平指數級的增高,信息時代來臨使得電腦處理數據的水平越來越迅速,一定程度上解放了人力,節約了時間,并且相對于個人判斷所有的主觀性與經驗性,電子計算機對于識別的精度與客觀性具有非常大的優勢,因此相關對于人體動作的識別在處于高速發展的階段。
在實際的行為分析中,人們會對計算機所識別的人體動作作為判斷的基準,接著賦予特定動作以特殊含義,比如在實際監控場景中,攝像頭會捕捉人體的動作來判斷人們是否在進行危險動作或者多人斗毆,針對小孩的監控會識別是否在進行不安全的攀爬等,而在運動領域與舞蹈領域,專家會根據識別的人體骨架圖來對運動員或者舞蹈演員的動作進行判斷或與標準行為的對比來進行打分,運動員與舞蹈演員也可以根據分析結果來對自己的動作進行糾正與改進。
............................

1.2 國內外研究現狀及難點
1.2.1 國內外研究現狀
在 1973 年,Fischler 和 Elschlager 提出圖形結構(PS,Pictorial Structures)[1],也是最早提出的人體骨架模型,這種模型能很好的表征人體的結構特點,也能快速的從圖片中獲取人體識別圖,其經典程度在現階段大多對于人體骨架提取的方案都是基于此模型進行后續的研究,例如 Andriluka[2]等人就將此模型進行實際應用,對人體在圖片中檢測其二維骨架信息。但是隨著深度相機的發展,針對深度圖像對于人體骨架的提取取得了長足的進步,但是深度圖片的獲取需要昂貴的設備,在考慮廉價性等因素,大多數針對此問題的研究使用 RGB 圖像來進行處理。
對于人體骨節點在 RGB 圖片中提取主要分為兩個時間段,一是傳統時期,這個時間段通常采用人工設計特征利用圖模型來進行關鍵點的檢測。二是深度學習時期,這個時間點主要使用卷積神經網絡來進行關節點的提取。
傳統方法時期在手工設計特征提取主要的方法有:HOG、形狀內容描述子[3]、其他方法的綜合[4]。而傳統方法建模采用的最多就是樹結構模型[5-7],這種方法會把人體的關鍵點表示成圖節點,但是這種方法過于依賴單個模型的準確性。基于此思路過后的建模方法是將多個人體的建模模型進行整合[8-14],有的研究者也在加一些循環的邊來加強模型檢測的魯棒性[15-19]。但是有些研究者開始分析本源,他們對樹形結構的建模產生懷疑,于是使用非樹的結構進行人體建模,比如對人體關鍵點之間的相似性進行檢測、或者采用其他圖模型建模等[20-24]。
相較于傳統時期的方法,在近幾年,隨著電腦硬件水平的提高,電子計算機計算能力飛速發展,圖像處理技術也隨著顯卡的發展 GPU 等的進步有了明顯的提高,現有的研究者也大多使用深度學習的方法來處理之前使用傳統方法的研究,其中卷積神經網絡是深度學習中最常用的方法,也是最有效的方法之一。卷積神經網絡相較于傳統的神經網絡更加的高效與方便,其優越性在于不用人們手工的去設計方案和提取特征,而是根據設計者的目標需要自動的學習輸入的圖片中所想要的特征。在二十世紀九十年代,卷積神經網絡最先被研究者 LeCun[25]等應用到圖片處理,當時使用卷積神經網絡對手寫數字進行識別,接下來后續的研究者 Krizhevsky 和 Hinton 將此方法應用在了圖片的分類上[26],并相較于之前的方法取得了較好的效果。因為良好的針對圖片特征的提取[27],現在對于圖片中人體骨架的研究[28-30]大多使用此方法。
..............................

2 相關理論和技術

2.1 卷積神經網絡概述
卷積神經網絡是一類包含卷積計算且具有深度結構的前饋神經網絡,對卷積神經網絡的研究始于二十世紀 80 至 90 年代,時間延遲網絡和 LeNet-5[48]是最早出現的卷積神經網絡。在二十一世紀后,隨著深度學習理論的提出和數值計算設備的改進,卷積神經網絡得到了快速發展并被大量應用于計算機視覺、自然語言處理等領域。本小節從卷積神經網絡結構與訓練方法以及優化算法三個方面對卷積神經網絡進行闡述。
2.1.1 卷積神經網絡

..........................

2.2 常用卷積神經網絡
2.2.1 VGG-Net
VGG-Net[50]在 2014 年提出,該網絡在一定程度上論證了卷積神經網絡的層數與識別的效果有很大的關系,常用基于此網絡使用的模型有 VGG-16 與 VGG-19,但兩者本質原理沒有區別。VGG 主要的特點是使用 33? 的卷積核代替之前網絡使用的大卷積核,這樣設計的原因是在感受野相同的情況下加深網絡的深度。

VGG 網絡主要的優點是結構簡潔,VGG-16 只由 13 個卷積層和三個全連接層組成,VGG 網絡還側面的驗證了網絡深度越深,網絡整體的精度也會隨之升高。但 VGG 網絡也有其的不足之處,主要的缺點是 VGG 網絡會占用過大的計算機資源,參數量過多,在訓練時訓練時間過長。
.........................
3 基于圖片的多人骨架提取................................ 17
3.1 多人提取算法概論.................................... 17
3.1.1 自頂向下............................ 17
3.1.2 自底向上................................ 18
4 基于視頻的多人骨架提取.................................. 33
4.1 視頻中關節點檢測......................................... 33
4.2 基于 RNN 的多人骨架提取算法.....................................33
5 全文總結與展望............................ 49
5.1 本文總結......................................... 49
5.2 未來工作................................... 49

4 基于視頻的多人骨架提取

4.1 視頻中關節點檢測
在實際生活中對于多人骨架識別領域在視頻中的應用價值高于基于圖片的識別。相對于靜態圖片,針對視頻的識別更加的復雜。視頻的信息量遠高于圖片,識別難度較大。現階段使用的方法大多尋找視頻中單幀所包含的空間場景也即空間信息,還有尋找相鄰幀之間攜帶的目標運動信息也即時間信息。
傳統方法中對視頻的識別往往工作量過多,需要人工進行特征提取設計。深度學習方法能夠直接利用原始視頻進行端到端的訓練,為視頻行為識別提供了高效的特征表示。
本章主要采用兩種方法來針對視頻中的多人人體進行骨架提取,在第一個方法中引入改進的 RNN[62]也即 GRU[63]來學習視頻中時序的信息來優化視頻的識別效果;在第二個方法中將視頻的多人骨架提取與目標識別跟蹤方法進行聯系,使用 IOU 跟蹤算法[64]來尋找視頻幀于幀之間的關系,最終得到識別效果。
...........................

5 全文總結與展望

5.1 本文總結
人體骨架提取是計算機視覺領域的一個非常重要的研究項目,它在人機交互,視頻監控、行人識別、人體姿態骨架等領域起著重要作用。在目前階段,基于圖片針對單人的骨架提取有了很高很精準的識別效果,但是在識別多人的場景下,識別難度會有指數級的提高,現階段在此方面的識別還有很大的提高空間。
本文中總結了一些針對單人以及多人識別現階段比較優秀的算法,針對靜態圖片的多人骨架提取,本文首先分析了自上而下和自底向上兩種針對多人骨架提取的研究方法的差異,并在自底向上方向探討了人體關節點的提取以及親和域向量對關節點分配的優化,并在現有識別效果較好的深度學習模型殘差網絡的基礎上進行了針對此課題的細節上的改進,最后以 MPII 圖數據庫作為數據集,對比得出此方法在此領域有良好的識別效果。
接下來本文探討了針對視頻的多人骨架提取算法。視頻在某方面跟靜態圖片的識別有非常多的相似性,視頻在某一方面可以看作多幀圖片在時間域上的連續,所以尋找多幀之間在時間域上的關系對于視頻識別有著重要關系。本文主要使用了兩種方案對此問題進行研究。在第一個方案中基于之前針對靜態圖片的識別方法的基礎上,探討了 RNN 對于人體關節點在時空域上的優化,并使用了改進的 RNN 模型 GRU 來做為尋找關節點聯系的模型。在第二個方案中在單幀圖片中采用自底向上的思路,利用 Faster R-CNN 進行人體檢測框的檢測,并在人體檢測框中進行各人的骨架提取,接下來利用 IOU 跟蹤算法尋找幀于幀在時空域上的聯系來優化識別的效果,通過在 PoseTrack 數據集上做對比實驗,兩種方法都取得了良好的識別效果,最終對兩種方案在運行效率與速度上進行了分析。
參考文獻(略)

原文地址:http://www.bnzqvc.live/jsjlw/27637.html,如有轉載請標明出處,謝謝。

您可能在尋找計算機論文方面的范文,您可以移步到計算機論文頻道(http://www.bnzqvc.live/jsjlw/)查找


上一篇:基于深度學習的餐飲業菜品銷量預測之計算機研究
下一篇:基于光譜哈希的圖像分割方法之計算機研究
彩票6加1怎么玩 腾讯游戏赚钱的原因 天津快乐十分 首富怎样赚钱 大丰彩票游戏 哈尔滨麻将教学视频 英雄联盟电影 微信房卡麻将正规代理 赌博签到赚钱 篮球比分牌 支付宝挂机赚钱是真的吗 电竞比分举荐尚牛比分 电竞比分实时app 浙江十一选五 男的唱歌直播哪里赚钱 贵州十一选五 手机赚钱 趣步