1 月 24 日消息,最近,Meta AI 推出了這樣一個(gè)“雜食者”(Omnivore)模型,可以對(duì)不同視覺(jué)模態(tài)的數(shù)據(jù)進(jìn)行分類(lèi),包括圖像、視頻和 3D 數(shù)據(jù)。
比如面對(duì)最左邊的圖像,它可以從深度圖、單視覺(jué) 3D 圖和視頻數(shù)據(jù)集中搜集出與之最匹配的結(jié)果。
這在之前,都要分用不同的模型來(lái)實(shí)現(xiàn);現(xiàn)在一個(gè)模型就搞定了。
而且 Omnivore 易于訓(xùn)練,使用現(xiàn)成的標(biāo)準(zhǔn)數(shù)據(jù)集,就能讓其性能達(dá)到與對(duì)應(yīng)單模型相當(dāng)甚至更高的水平。
實(shí)驗(yàn)結(jié)果顯示,Omnivore 在圖像分類(lèi)數(shù)據(jù)集 ImageNet 上能達(dá)到 86.0% 的精度,在用于動(dòng)作識(shí)別的 Kinetics 數(shù)據(jù)集上能達(dá) 84.1%,在用于單視圖 3D 場(chǎng)景分類(lèi)的 SUN RGB-D 也獲得了 67.1%。
另外,Omnivore 在實(shí)現(xiàn)一切跨模態(tài)識(shí)別時(shí),都無(wú)需訪問(wèn)模態(tài)之間的對(duì)應(yīng)關(guān)系。
不同視覺(jué)模態(tài)都能通吃的“雜食者”
Omnivore 基于 Transformer 體系結(jié)構(gòu),具備該架構(gòu)特有的靈活性,并針對(duì)不同模態(tài)的分類(lèi)任務(wù)進(jìn)行聯(lián)合訓(xùn)練。
模型架構(gòu)如下:
Omnivore 會(huì)將輸入的圖像、視頻和單視圖 3D 圖像轉(zhuǎn)換為 embedding,并饋送到 Transformer 中。
雖然它可以使用任何 vision transformer 架構(gòu)來(lái)處理 patch embedding,但鑒于 Swin transformer 在圖像和視頻任務(wù)上的強(qiáng)大性能,這里就使用該架構(gòu)作為基礎(chǔ)模型。
具體來(lái)說(shuō),Omnivore 將圖像轉(zhuǎn)為 patch,視頻轉(zhuǎn)為時(shí)空 tube(spatio-temporal tube),單視圖 3D 圖像轉(zhuǎn)為 RGB patch 和深度 patch。
然后使用線性層將 patches 映射到到 embedding 中。其中對(duì) RGB patch 使用同一線性層,對(duì)深度 patch 使用單獨(dú)的。
總的來(lái)說(shuō),就是通過(guò) embedding 將所有視覺(jué)模式轉(zhuǎn)換為通用格式,然后使用一系列時(shí)空注意力(attention)操作來(lái)構(gòu)建不同視覺(jué)模式的統(tǒng)一表示。
研究人員在 ImageNet-1K 數(shù)據(jù)集、Kinetics-400 數(shù)據(jù)集和 SUN RGB-D 數(shù)據(jù)集上聯(lián)合訓(xùn)練出各種 Omnivore 模型。
這種方法類(lèi)似于多任務(wù)學(xué)習(xí)和跨模態(tài)對(duì)齊,但有 2 點(diǎn)重要區(qū)別:
1、不假設(shè)輸入觀測(cè)值對(duì)齊(即不假設(shè)圖像、視頻和 3D 數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系);
2、也不假設(shè)這些數(shù)據(jù)集共享相同的標(biāo)簽空間(label space)。
性能超 SOTA
實(shí)驗(yàn)方面,首先將 Omnivore 與各視覺(jué)模態(tài)對(duì)應(yīng)的特定模型(下表中指 Specific)進(jìn)行比較。
一共有三種不同的模型尺寸:T、S 和 B。
預(yù)訓(xùn)練模型在七個(gè)下游任務(wù)上都進(jìn)行了微調(diào)。
圖像特定模型在 IN1K 上預(yù)訓(xùn)練。視頻特定模型和單視圖 3D 特定模型均使用預(yù)訓(xùn)練圖像特定模型的 inflation 進(jìn)行初始化,并分別在 K400 和 SUN RGB-D 上進(jìn)行微調(diào)。
結(jié)果發(fā)現(xiàn),Omnivore 在幾乎所有的下游任務(wù)上的性能都相當(dāng)于或優(yōu)于各特定模型。
其中尺寸最大的 Swin-B 實(shí)現(xiàn)了全部任務(wù)上的 SOTA。
將 Omnivore 與具有相同模型架構(gòu)和參數(shù)數(shù)量的特定模型比較也是相同的結(jié)果。
其中 Omnivore 在 IN1K、K400 和 SUN 數(shù)據(jù)集上從頭開(kāi)始聯(lián)合訓(xùn)練,而特定模態(tài)的模型針對(duì)每個(gè)數(shù)據(jù)集專(zhuān)門(mén)訓(xùn)練:
ImageSwin 模型從零開(kāi)始訓(xùn)練,VideoSwin 和 DepthSwin 模型則從 ImageSwin 模型上進(jìn)行微調(diào)。
接下來(lái)將 Omnivore 與圖像、視頻和 3D 數(shù)據(jù)分類(lèi)任務(wù)上的 SOTA 模型進(jìn)行比較。
結(jié)果仍然不錯(cuò),Omnivore 在所有預(yù)訓(xùn)練任務(wù)中都表現(xiàn)出了優(yōu)于 SOTA 模型的性能(下圖從上至下分別為圖像、視頻和 3D 數(shù)據(jù))。
此外,在 ImageNet-1K 數(shù)據(jù)集上檢索給定 RGB 圖像的深度圖也發(fā)現(xiàn),盡管 Omnivore 沒(méi)有接受過(guò)關(guān)于 1K 深度圖的訓(xùn)練,但它也能夠給出語(yǔ)義相似的正確答案。
最后,作者表示,盡管這個(gè)“雜食者”比傳統(tǒng)的特定模式模型有了很多進(jìn)步,但它有一些局限性。
比如目前它僅適用于單視圖 3D 圖像,不適用于其他 3D 表示,如體素圖(voxels)、點(diǎn)云圖等。
關(guān)鍵詞: 模型 圖像 模態(tài) 數(shù)據(jù) omnivore 架構(gòu) 視頻 雜食者 視覺(jué) sota
網(wǎng)站首頁(yè) |網(wǎng)站簡(jiǎn)介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
Copyright © 2000-2020 www.xnbt.net All Rights Reserved.
中國(guó)網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書(shū)面授權(quán) 不得復(fù)制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com
主站蜘蛛池模板: 国产v在线播放| 国产精品久久久久影院| 免费a级黄色片| 精品国产柚木在线观看| 欧美怡红院免费全部视频| 中文字幕无线码中文字幕免费| 国产欧美日韩在线观看精品| 香港台湾日本三级纶理在线视| 18末成年禁止观看试看一分钟| 岛国片在线免费观看| 国产中文字幕电影| 久久只这里是精品66| 美女的扒开尿口让男人桶动态图| 波多野结衣加勒比| 国产99精品在线观看| 日韩中文精品亚洲第三区| 又大又硬又黄又刺激的免费视频| 美女毛片在线观看| 亚洲精品午夜久久久伊人| 一本久久精品一区二区| x8x8在线观看| 成品大香煮伊在2021一| 免费国产不卡午夜福在线| 99久久国产综合精麻豆| 特级大片| 国产成人精品一区二区三在线观看| 亚洲视频免费播放| jealousvue熟睡入侵中| 国产一级片观看| 久久久久久91| 直接观看黄网站免费视频 | 国产精品国色综合久久| 2021国产麻豆剧果冻传媒影视| 99麻豆视频| 久草这里只有精品| 国产乱子伦一区二区三区| 日本爆乳片手机在线播放| 狠狠色狠狠色综合网| 蜜桃成熟时3之蜜桃仙子电影 | 欧美中文字幕无线码视频 | 亚洲免费视频一区二区三区|