自拍偷在线精品自拍偷|国产无码一区二区久久|最新版天堂资源中文官网|国产精品第一页爽爽影院|国产精品一区二区av不卡|久久久波多野av一区无码|国产欧美日本亚洲精品一4区|亚洲精品天堂在线观看2020

當(dāng)前位置：首頁 > 網(wǎng)站建設(shè) > 正文內(nèi)容

bootstrap項(xiàng)目源碼(bootstrap結(jié)課作業(yè)源碼)

網(wǎng)站建設(shè)1年前 (2023-08-26)687

計(jì)算機(jī)視覺life”，選擇“星標(biāo)”

快速獲得最新干貨

本文轉(zhuǎn)載自知乎：披星戴月的奔波，我愛計(jì)算機(jī)視覺整理

三維全身人體網(wǎng)格重建(3D Whole-Body Mesh Recovery)是三維人體重建領(lǐng)域的一個(gè)基礎(chǔ)任務(wù)，是人類行為建模的一個(gè)重要環(huán)節(jié)，用于從單目圖像中捕獲出準(zhǔn)確的全身人體姿態(tài)和形狀，在人體重建、人機(jī)交互等許多下游任務(wù)中有著廣泛的應(yīng)用。

來自粵港澳大灣區(qū)研究院(IDEA)與清華大學(xué)深研院的研究者們提出了首個(gè)用于全身人體網(wǎng)格重建的一階段算法OSX，通過模塊感知的Transformer網(wǎng)絡(luò)，高效、準(zhǔn)確地重建出全身人體網(wǎng)格，并提出了一個(gè)大規(guī)模、關(guān)注真實(shí)應(yīng)用場(chǎng)景的上半身人體重建數(shù)據(jù)集UBody.

本文提出的算法從投稿至今(2022.11~2023.04)，是AGORA榜單SMPL-X賽道的第一名。該工作已經(jīng)被計(jì)算機(jī)視覺頂會(huì)CVPR2023接收，算法代碼和預(yù)訓(xùn)練模型已經(jīng)全部開源。

文章：https://arxiv.org/abs/2303.16160

代碼：https://github.com/IDEA-Research/OSX

項(xiàng)目主頁：https://osx-ubody.github.io/

單位：IDEA，清華大學(xué)深研院

三維全身人體網(wǎng)格重建(3D Whole-Body Mesh Recovery)是人類行為建模的一個(gè)重要環(huán)節(jié)，用于從單目圖像中估計(jì)出人體姿態(tài)(Body Pose), 手勢(shì)(Hand Gesture)和臉部表情(Facial Expressions)，該任務(wù)在許多下游現(xiàn)實(shí)場(chǎng)景中有著廣泛的應(yīng)用，例如動(dòng)作捕捉、人機(jī)交互等。得益于SMPLX等參數(shù)化模型的發(fā)展，全身人體網(wǎng)格重建精度得到了提升，該任務(wù)也得到越來越多的關(guān)注。

展開全文

相比于身體姿態(tài)估計(jì)(Body-Only Mesh Recovery)，全身人體網(wǎng)格重建需要額外估計(jì)手和臉部的參數(shù)，而手和臉部的分辨率往往較小，導(dǎo)致難以通過一個(gè)一階段的網(wǎng)絡(luò)，將全身參數(shù)估計(jì)出來。之前的方法大多采用多階段的復(fù)制-粘貼(Copy-Paste)框架，提前檢測(cè)出手和臉的包圍框(Bounding Box)，將其裁剪出來并放大，輸入三個(gè)獨(dú)立的網(wǎng)絡(luò)，分別估計(jì)出身體(Body), 手(Hand), 和臉(Face)的參數(shù)，再進(jìn)行融合。這種多階段的做法可以解決手和臉分辨率過小的問題，然而，由于三部分的參數(shù)估計(jì)相對(duì)獨(dú)立，容易導(dǎo)致最后的結(jié)果以及三部分之間的連接不夠自然和真實(shí)，同時(shí)也會(huì)增加模型的復(fù)雜度。為了解決以上問題，我們提出了首個(gè)一階段的算法OSX，我們使用一個(gè)模塊感知的Transformer模型，同時(shí)估計(jì)出人體姿態(tài), 手勢(shì)和臉部表情。該算法在較小計(jì)算量和運(yùn)行時(shí)間的情況下，在3個(gè)公開數(shù)據(jù)集(AGORA, EHF, 3DPW)上，超過了現(xiàn)有的全身人體網(wǎng)格重建算法.

我們注意到，目前的全身人體網(wǎng)格重建數(shù)據(jù)集，大部分是在實(shí)驗(yàn)室環(huán)境或者仿真環(huán)境下采集的，而這些數(shù)據(jù)集與現(xiàn)實(shí)場(chǎng)景有著較大的分布差異。這就容易導(dǎo)致訓(xùn)練出來的模型在應(yīng)用于現(xiàn)實(shí)場(chǎng)景時(shí)，重建效果不佳。此外，現(xiàn)實(shí)中的許多場(chǎng)景，如直播、手語等，人往往只有上半身出現(xiàn)在畫面中，而目前的數(shù)據(jù)集全部都是全身人體，手和臉的分辨率往往較低。為了彌補(bǔ)這方面數(shù)據(jù)集的缺陷，我們提出了一個(gè)大規(guī)模的上半身數(shù)據(jù)集UBody，該數(shù)據(jù)集涵蓋了15個(gè)真實(shí)場(chǎng)景，包括100萬幀圖片和對(duì)應(yīng)的全身關(guān)鍵點(diǎn)(2D Whole-Body Keypoint), 人體包圍框(Person BBox)、人手包圍框(Hand BBox)以及SMPLX標(biāo)簽。下圖是UBody的部分?jǐn)?shù)據(jù)可視化。

圖1 UBody數(shù)據(jù)集展示

本工作的貢獻(xiàn)點(diǎn)可以概括為：

我們提出了首個(gè)一階段的全身人體網(wǎng)格重建算法OSX，能夠用一個(gè)簡(jiǎn)單、高效的方式，估計(jì)出SMPLX參數(shù)。

我們的算法OSX在三個(gè)公開數(shù)據(jù)集上，超過了現(xiàn)有的全身人體網(wǎng)格重建算法。

我們提出了一個(gè)大規(guī)模的上半身數(shù)據(jù)集UBody，用以促進(jìn)全身人體網(wǎng)格重建這個(gè)基礎(chǔ)任務(wù)在現(xiàn)實(shí)場(chǎng)景中的應(yīng)用。

我們提出了首個(gè)一階段的全身人體網(wǎng)格重建算法OSX，能夠用一個(gè)簡(jiǎn)單、高效的方式，估計(jì)出SMPLX參數(shù)。

我們的算法OSX在三個(gè)公開數(shù)據(jù)集上，超過了現(xiàn)有的全身人體網(wǎng)格重建算法。

如下圖所示，我們提出了一個(gè)模塊感知(Component-Aware)的Transoformer模型，來同時(shí)估計(jì)全身人體參數(shù)，再將其輸入SMPLX模型，得到全身人體網(wǎng)格。我們注意到，身體姿態(tài)(Body Pose)估計(jì)需要利用到全局的人體依賴信息，而手勢(shì)(Hand Gesture)和臉部表情(Facial Expression)則更多的聚焦于局部的區(qū)域特征。因而，我們?cè)O(shè)計(jì)了一個(gè)全局編碼器和一個(gè)局部解碼器，編碼器借助于全局自注意力機(jī)制(Global Self-attention)，捕獲人體的全身依賴關(guān)系，估計(jì)出身體姿態(tài)和形狀(Body Pose and Shape)，解碼器則對(duì)特征圖進(jìn)行上采樣，使用關(guān)鍵點(diǎn)引導(dǎo)的交叉注意力機(jī)制(Cross-Attention)，用以估計(jì)手和臉部的參數(shù)。

圖2 OSX網(wǎng)絡(luò)結(jié)構(gòu)示意圖 2.2 全局編碼器

在全局編碼器中，人體圖片首先被切為多個(gè)互不重蛩的塊，這些塊通過一個(gè)卷積層，加上位置編碼，轉(zhuǎn)換為特征令牌(Feature Token) ，接著，我們?cè)賹⑵渑c若干個(gè)由可學(xué)習(xí)參數(shù)構(gòu)成的人體令牌(Body Token) 進(jìn)行連接，輸入全局編碼器。全局編碼器由多個(gè)Transformer塊組成，每個(gè)塊包含一個(gè)多頭自注意力、一個(gè)前饋網(wǎng)絡(luò)和兩個(gè)層歸一化模塊(Layer Normization). 經(jīng)過這些塊之后，人體各個(gè)部分之間的信息得到了交互，body token 捕捉了人體的全身依賴關(guān)系，輸入全連接層，回歸出人體姿態(tài)和形狀. Feature token則進(jìn)行重組(Reshape)，轉(zhuǎn)換為特征圖，供解碼器使用。

2.3 高分辨率局部解碼器

在解碼器中，我們首先對(duì)特征圖進(jìn)行上采樣，以解決手和臉分辨率過低的問題。具體的，我們使用一個(gè)可微分的感興趣區(qū)域?qū)R (Region of Interest Alignment)操作，將手和臉部的特征圖進(jìn)行上采樣，因而獲得多尺度的手、臉高分辨率特征。接著，我們定義多個(gè)模塊令牌(Component Token) ，每一個(gè)token代表一個(gè)關(guān)鍵點(diǎn)，將這些token輸入解碼器，通過關(guān)鍵點(diǎn) 引導(dǎo)的交叉注意力機(jī)制，從高分辨率特征中捕獲有用的信息，更新Component Token:

最終，這些模塊token通過全連接層，轉(zhuǎn)換為手勢(shì)和臉部表情，并與身體姿態(tài)和形狀一起，輸入SMPLX模型，轉(zhuǎn)換為人體網(wǎng)格。

3. 上半身數(shù)據(jù)集UBody介紹 3.1 數(shù)據(jù)集亮點(diǎn)

為了縮小全身人體網(wǎng)格重建這一基礎(chǔ)任務(wù)與下游任務(wù)的差異，我們從15個(gè)現(xiàn)實(shí)場(chǎng)景，包括音樂演奏、脫口秀、手語、魔術(shù)表演等，收集了超過100萬的圖片，對(duì)其進(jìn)行標(biāo)注。這些場(chǎng)景與現(xiàn)有的數(shù)據(jù)集AGORA相比，由于只包含上半身，因而手和臉的分辨率更大，具有更加豐富的手部動(dòng)作和人臉表情。同時(shí)，這些場(chǎng)景含有非常多樣的遮擋、交互、切鏡、背景和光照變化，因而更加具有挑戰(zhàn)性，更加符合現(xiàn)實(shí)場(chǎng)景。此外，UBody是視頻的形式，每個(gè)視頻都包含了音頻(Audio)，因而未來也可以應(yīng)用于多模態(tài)等任務(wù)。

圖3 UBody 15個(gè)場(chǎng)景展示 3.2 IDEA自研高精度全身動(dòng)捕標(biāo)注框架

為了標(biāo)注這些大規(guī)模的數(shù)據(jù)，我們提出了一個(gè)自動(dòng)化標(biāo)注方案，如下圖所示，我們首先訓(xùn)練一個(gè)基于ViT的關(guān)鍵點(diǎn)估計(jì)網(wǎng)絡(luò)，估計(jì)出高精度的全身人體關(guān)鍵點(diǎn)。接著，我們使用一個(gè)多階段漸進(jìn)擬合技術(shù)(Progreesive Fitting)，將OSX輸出的人體網(wǎng)格轉(zhuǎn)換為三維關(guān)鍵點(diǎn)(3D Keypoints)，并投影到圖像平面，與估計(jì)的二維關(guān)鍵點(diǎn)(2D Keypoints)計(jì)算損失，用以優(yōu)化OSX網(wǎng)絡(luò)參數(shù)，直至估計(jì)出來的網(wǎng)格與2D關(guān)鍵點(diǎn)能夠高度貼合。

圖4 全身動(dòng)捕標(biāo)注框架圖

以下是UBody數(shù)據(jù)集的15個(gè)場(chǎng)景及其標(biāo)注結(jié)果的展示：

SignLanguage Singing OnlineClass Olympic Entertainment Fitness LiveVlog Conference TVShow ConductMusic Speech TalkShow MagicShow 4. 實(shí)驗(yàn)結(jié)果 4.1 定量實(shí)驗(yàn)對(duì)比

OSX從投稿至今(2022.11~2023.04)，是AGORA榜單上SMPLX賽道的榜首，在AGORA-test (https://agora-evaluation.is.tuebingen.mpg.de/)上的定量對(duì)比結(jié)果如下表所示：

表1 OSX與SOTA算法在AGORA-test上的定量結(jié)果

在AGORA-val上的定量對(duì)比結(jié)果如下表所示：

表2 OSX與SOTA算法在AGORA-val上的定量結(jié)果

在EHF和3DPW的定量結(jié)果如下：

表3 OSX與SOTA算法在EHF及3DPW上的定量結(jié)果

可以看出，OSX由于使用了模塊感知的Transformer網(wǎng)絡(luò)，能夠同時(shí)保證全局依賴關(guān)系的建模和局部特征的捕獲，在現(xiàn)有數(shù)據(jù)集，特別是AGORA這一較為困難的數(shù)據(jù)集上，顯著超過了之前的方法。

4.2 定性實(shí)驗(yàn)對(duì)比

在AGORA上的定性對(duì)比結(jié)果如圖所示：

從左到右依次為：輸入圖, ExPose, Hand4Whole, OSX(Ours)

在EHF上的定性對(duì)比結(jié)果如圖所示：

從左到右依次為：輸入圖, ExPose, Hand4Whole, OSX(Ours)

在UBody數(shù)據(jù)集上的對(duì)比結(jié)果如圖所示：

從左到右依次為：輸入圖, ExPose, Hand4Whole, OSX(Ours)

可以看出，我們的算法OSX能夠估計(jì)出更加準(zhǔn)確的身體姿勢(shì)，手部動(dòng)作和臉部表情，重建出來的人體網(wǎng)格更加準(zhǔn)確，與原圖貼合的更好，更加魯棒。

5. 總結(jié)

OSX是首個(gè)一階段全身人體網(wǎng)格重建的算法，通過一個(gè)模塊感知的Transformer模型，同時(shí)估計(jì)了body pose, hand pose和facial experssion，在三個(gè)公開榜單上取得了目前最好whole-body mesh recovery最好的結(jié)果。此外，我們提出了一個(gè)大規(guī)模的上半身場(chǎng)景數(shù)據(jù)集UBody，用以促進(jìn)人體網(wǎng)格重建任務(wù)在下游場(chǎng)景中的應(yīng)用。我們的代碼已經(jīng)進(jìn)行了開源，希望能夠推動(dòng)該領(lǐng)域的發(fā)展。

6. 聯(lián)系我們

我們團(tuán)隊(duì)正在招聘有才華、有自驅(qū)力、有創(chuàng)造力的研究型實(shí)習(xí)生，主要研究以人為中心的視覺理解和生成任務(wù)。有興趣的同學(xué)可以發(fā)送簡(jiǎn)歷至zengailing@idea.edu.cn。

我們建立了全國(guó)最大的機(jī)器人SLAM開發(fā)者交流社區(qū)，包括小白入門圖文/視頻教程、學(xué)習(xí)過程疑難點(diǎn)解答、每日最新論文/開源代碼/數(shù)據(jù)集分享、在線學(xué)習(xí)小組、筆試面試題、實(shí)習(xí)/校招/社招崗位推薦、星主直播交流等。

2018 年創(chuàng)立、 4600+ 會(huì)員、 7500+ 主題分享、 9900+ 問答評(píng)論、 170+ 教學(xué)視頻

領(lǐng)域：機(jī)器人SLAM、三維視覺、自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)、無人機(jī)、圖像處理

直播：每月 6/16/26日固定直播，涵蓋大佬分享、學(xué)習(xí)經(jīng)驗(yàn)、求職面試、實(shí)習(xí)歷程、行業(yè)內(nèi)幕

教程：圖文視頻教程：涉及代碼調(diào)試、OpenCV、PCL、G2O、Ceres、視覺SLAM十四講、LVISAM、R3LIVE……

答疑：每日星主答疑、嘉賓答疑、星友互助答疑，搜索關(guān)鍵字幾乎所有問題都能找到答案

資訊：每日論文分享、行業(yè)資訊匯總、每周匯總、精華匯總

活動(dòng) ：學(xué)習(xí)小組、行業(yè)資源對(duì)接、會(huì)員激勵(lì)、有償招募助教/兼職

求職：經(jīng)驗(yàn)分享、內(nèi)推職位、SLAM面試題、筆試練習(xí)

……

現(xiàn)在加入免費(fèi)送5年SLAM答疑精華手冊(cè)（共938頁）

學(xué)機(jī)器人SLAM/3D視覺，就上 cvlife.net ！

點(diǎn)擊領(lǐng)取學(xué)習(xí)資料 → 機(jī)器人SLAM學(xué)習(xí)資料大禮包

獨(dú)家重磅課程官網(wǎng)：cvlife.net

全國(guó)最大的機(jī)器人SLAM開發(fā)者社區(qū)

技術(shù)交流群

— 版權(quán)聲明 —

本公眾號(hào)原創(chuàng)內(nèi)容版權(quán)屬計(jì)算機(jī)視覺life所有；從公開渠道收集、整理及授權(quán)轉(zhuǎn)載的非原創(chuàng)文字、圖片和音視頻資料，版權(quán)屬原作者。如果侵權(quán)，請(qǐng)聯(lián)系我們，會(huì)及時(shí)刪除。

掃描二維碼推送至手機(jī)訪問。

版權(quán)聲明：本文由飛速云SEO網(wǎng)絡(luò)優(yōu)化推廣發(fā)布，如需轉(zhuǎn)載請(qǐng)注明出處。

本文鏈接：http://www.thonggone.com/post/53981.html

標(biāo)簽: bootstrap項(xiàng)目源碼

分享給朋友：

返回列表

上一篇：裝修找獨(dú)立設(shè)計(jì)師還是裝修公司(裝修設(shè)計(jì)找裝修公司還是設(shè)計(jì)公司)

下一篇：蘋果交易貓手游交易平臺(tái)官網(wǎng)(蘋果交易貓手游交易平臺(tái)官網(wǎng)下載)

“bootstrap項(xiàng)目源碼(bootstrap結(jié)課作業(yè)源碼)” 的相關(guān)文章

天津網(wǎng)站優(yōu)化（天津網(wǎng)站搜索優(yōu)化）

今天給各位分享天津網(wǎng)站優(yōu)化的知識(shí)，其中也會(huì)對(duì)天津網(wǎng)站搜索優(yōu)化進(jìn)行解釋，如果能碰巧解決你現(xiàn)在面臨的問題，別忘了關(guān)注本站，現(xiàn)在開始吧！本文目錄一覽： 1、天津網(wǎng)站優(yōu)化服務(wù)哪家比較好些？求幫忙 2、天津網(wǎng)站優(yōu)化：網(wǎng)站關(guān)鍵詞優(yōu)化怎么做 3、天津做SEO網(wǎng)站優(yōu)化合理的價(jià)位是多少 4、天津如何給網(wǎng)站...

imovie視頻模板素材（imovie素材庫）

本篇文章給大家談?wù)刬movie視頻模板素材，以及imovie素材庫對(duì)應(yīng)的知識(shí)點(diǎn)，希望對(duì)各位有所幫助，不要忘了收藏本站喔。本文目錄一覽： 1、怎么用imovie剪輯視頻 2、imovie教程 imovie介紹 3、如何利用imovie制作電影剪輯 4、imovie剪輯 5、視頻編輯|...

臘八節(jié)背景圖片素材（臘八節(jié)背景圖片素材無水?。?/a>

本篇文章給大家談?wù)勁D八節(jié)背景圖片素材，以及臘八節(jié)背景圖片素材無水印對(duì)應(yīng)的知識(shí)點(diǎn)，希望對(duì)各位有所幫助，不要忘了收藏本站喔。本文目錄一覽： 1、請(qǐng)總結(jié)出中國(guó)的所有節(jié)日與日期，并附2張以上圖片 2、課文北京的春節(jié)臘八節(jié)的連環(huán)畫怎么畫 3、臘八節(jié)賀卡怎么做圖片？請(qǐng)總結(jié)出中國(guó)的所有節(jié)日與日期，并...

ppt模板免費(fèi)下載的網(wǎng)站有哪些（哪里有免費(fèi)的ppt模板）

本篇文章給大家談?wù)刾pt模板免費(fèi)下載的網(wǎng)站有哪些，以及哪里有免費(fèi)的ppt模板對(duì)應(yīng)的知識(shí)點(diǎn)，希望對(duì)各位有所幫助，不要忘了收藏本站喔。本文目錄一覽： 1、ppt模板下載網(wǎng)站求推薦？ 2、免費(fèi)ppt模板網(wǎng)站有哪些 3、免費(fèi)ppt模板去哪找 4、哪里可以下載PPT模板？ ppt模板下載網(wǎng)站求...

如何查看手機(jī)APP的源代碼（怎么查看APP的源代碼）

今天給各位分享如何查看手機(jī)APP的源代碼的知識(shí)，其中也會(huì)對(duì)怎么查看APP的源代碼進(jìn)行解釋，如果能碰巧解決你現(xiàn)在面臨的問題，別忘了關(guān)注本站，現(xiàn)在開始吧！本文目錄一覽： 1、怎樣查看 Android APP 源代碼 2、怎樣在安卓設(shè)備上查看軟件源代碼 3、用手機(jī)怎么查看網(wǎng)頁的源代碼 4、用什...

咖啡網(wǎng)站設(shè)計(jì)模板中文模板（咖啡網(wǎng)頁設(shè)計(jì)素材）

本篇文章給大家談?wù)効Х染W(wǎng)站設(shè)計(jì)模板中文模板，以及咖啡網(wǎng)頁設(shè)計(jì)素材對(duì)應(yīng)的知識(shí)點(diǎn)，希望對(duì)各位有所幫助，不要忘了收藏本站喔。本文目錄一覽： 1、網(wǎng)頁設(shè)計(jì)中#ooffee是什么？ 2、如何制作LOGO 3、一套咖啡廳完整的VI設(shè)計(jì)有哪些東西？ 4、誰幫我寫一份咖啡書吧的設(shè)計(jì)說明？網(wǎng)頁設(shè)計(jì)中...

自拍偷在线精品自拍偷|国产无码一区二区久久|最新版天堂资源中文官网|国产精品第一页爽爽影院|国产精品一区二区av不卡|久久久波多野av一区无码|国产欧美日本亚洲精品一4区|亚洲精品天堂在线观看2020

陜西飛速云網(wǎng)絡(luò)科技有限公司

bootstrap項(xiàng)目源碼(bootstrap結(jié)課作業(yè)源碼)

“bootstrap項(xiàng)目源碼(bootstrap結(jié)課作業(yè)源碼)” 的相關(guān)文章

天津網(wǎng)站優(yōu)化（天津網(wǎng)站搜索優(yōu)化）

imovie視頻模板素材（imovie素材庫）

臘八節(jié)背景圖片素材（臘八節(jié)背景圖片素材無水?。?/a>

ppt模板免費(fèi)下載的網(wǎng)站有哪些（哪里有免費(fèi)的ppt模板）

如何查看手機(jī)APP的源代碼（怎么查看APP的源代碼）

咖啡網(wǎng)站設(shè)計(jì)模板中文模板（咖啡網(wǎng)頁設(shè)計(jì)素材）

版權(quán)所有：陜西飛速云網(wǎng)絡(luò)科技有限公司陜ICP備2021009819號(hào)

網(wǎng)站XML地圖 網(wǎng)站TXT地圖

bootstrap項(xiàng)目源碼(bootstrap結(jié)課作業(yè)源碼)

“bootstrap項(xiàng)目源碼(bootstrap結(jié)課作業(yè)源碼)” 的相關(guān)文章

版權(quán)所有：陜西飛速云網(wǎng)絡(luò)科技有限公司 陜ICP備2021009819號(hào)

版權(quán)所有：陜西飛速云網(wǎng)絡(luò)科技有限公司陜ICP備2021009819號(hào)