...

AI十級「找茬」選手,非這(zhè)個(gè)書生車時(shēng)莫屬,節後開源!

2022-01-23

新(xīn)智元報(bào)道

編輯:好(hǎo)(hǎo)困桃子(zǐ)

為(wèi)了(le)測試,研發團隊的大哥都爬樹上(shàng)行裡了(le)!什(shén)麼模型竟然隻需 月站10% 的訓練數據,性能(néng)就(jiù)能(néng)超越同行,還會音些免費開源?

考驗你眼力的時(shí)候到了(le)!

隻看一(yī)眼,看出什(shén)麼了(le)嘛?

一(yī)塊木地闆?

隻答(dá)對了(le)一(yī)半,其實圖中還有一到金(yī)隻喵。

下(xià)一(yī)個(gè)問題,這(zhè)是什(shén)麼品種的貓?暗好啊...這(zhè)...

承認吧(ba),你是辨别不出來(lái)的,但(dàn暗了)是這(zhè)個(gè) AI「一(yī)眼」就(jiù)姐笑搞定了(le)。

而這(zhè)麼厲害的 AI 還有個(gè)詩意的國她名字,叫「書生(shēng)」。

更厲害的是,基于「書生(shēng)」的通用視(shì錯黃)覺開源平台 OpenGVLab 将會在春讀可節後全部公開!

通用?視(shì)覺?

近幾年,語言模型的發展可謂是相當迅猛,百花齊放(fàng)。

小到 3.54 億參數的 BERT,大到 5300 億參數的威震天-圖靈她樂,以及 1.6 萬億參數的混合模型 Switch Tra些街nsformer,順便還有首次常識問答(dá)超越人(rén)類的 KEA少跳R。

那麼,視(shì)覺模型這(zhè)邊又如(rú)何呢(n刀身e)?

目前的 CV 領域主要是圖像匹配文本 CLIP 信爸和文本生(shēng)成圖像 DALL·E這(zhè)種單一器的(yī)模型。

但(dàn)是 NLP 方向的各種成績都表明,發展預訓練大模型不僅僅能(錢煙néng)夠處理(lǐ)多種複雜任務(wù)、适用多種場(chǎng)景和模态雪國,而且能(néng)夠增加模型的複用率,減少了(le)模型定制化高風(huà)開發的開銷進而也(yě)降低(dī)了(le)成本。日可

而且,通用模型也(yě)是通往通用人(ré媽遠n)工智能(néng)的必經之路(lù)。

和通用語言模型類似,通用視(shì)覺模型的出是愛發點和訓練思路(lù)也(yě)需要事(shì)先通要坐過收集海量的無監督數據。然後通過自監督等方式來(lái)訓練,得分請到通用的預訓練模型。最後根據具體(tǐ)好年的下(xià)遊任務(wù)再将通用預訓練模型遷移到具體(tǐ)任務(wù)懂遠上(shàng)去解決具體(tǐ)問題。

不過,從任務(wù)角度看,通用視(shì)覺模型主要還是解聽吧決純視(shì)覺任務(wù),也(yě)涉及一(yī)些(xiē)視(s錢拍hì)覺語言相關(guān)的多模态任務到為(wù),而通用語言模型主要在解決語言相關(guān)的任務(南麗wù)。而從模型訓練角度看,兩者的模型結構鐵算存在一(yī)些(xiē)差異,具體(tǐ)訓練的監督形式也(y也購ě)不一(yī)樣。

但(dàn)是想要實現(xiàn)模型的通用性頻亮,很難。

首當其沖的就(jiù)是,訓練數據不夠用。

訓練一(yī)個(gè)性能(néng)合格的深度學習模型,所需的數據采視路集量,少則十幾萬,多則千百萬張圖片,比如(rú自厭)自動駕駛和人(rén)臉識别,對于數據的需求,達到十億級别,但(dàn)場木性能(néng)仍未飽和。

在現(xiàn)實應用中,AI 需要大量業務工輛(wù)數據和用戶互聯網行為(wèi)數據的融合北畫,而企業可以應用的數據則非常有限。

數據都采集不到,就(jiù)更不用提什(sh這亮én)麼「高質量」了(le)。

此外,模型對于數據的學習效率又低(dī)花業,無疑又是雪上(shàng)加霜。

于是,N個(gè)任務(wù)就(jiù)需司厭要開發N個(gè)高度定制的模型同時(s錯黃hí),每個(gè)模型在訓練的時(shí)候又需構建标注數據集進行專項訓練中學,并持續進行權重和參數優化(huà)。

時(shí)間(jiān)、人(rén)力刀電以及資源的成本直接拉滿。

即便如(rú)此,依然有人(rén)想要挑戰花嗎一(yī)番。

2021 年 11 月(yuè)(yuè),上(shàng)海人(rén信慢)工智能(néng)實驗室聯合商(shān船高g)湯科技 SenseTime、香港中文大學懂樹、上(shàng)海交通大學共同發布了(le)新(xīn)一機體(yī)代通用視(shì)覺技術體(tǐ)系——「書生(shēng)」就人(INTERN)。

論文地址:https://arxiv.org/abs/2111.08687

通才是如(rú)何練成?

作(zuò)為(wèi)通用視(shì)覺技術體(tǐ)系的「書生(shēn樂麗g)」有三個(gè)基礎設施模塊,分(fēn)喝商别為(wèi):

  • 通用視(shì)覺數據系統(GV-Dataset)

  • 通用視(shì)覺網絡結構(GV-Architecture)

  • 通用視(shì)覺評測基準(GV-Benchmark)

這(zhè)三個(gè)基礎模塊有什(shén)場讀麼作(zuò)用?

它們就(jiù)像「百科全書」、「高樓基底」一(yī)樣。「書生(shēng)道不」通才的道路(lù)上(shàng)學到的海量這上知識和建模、評測等基礎能(néng)力就(jiù)靠這但照(zhè)三個(gè)基礎模塊了(le)。

具體(tǐ)點講,其中,在通用視(shì)覺數據系統中包書弟含了(le)大量的高質量數據集:

1. 超大量級精标注數據:除了(le)整合現(xiàn)南如有開源數據集,還進行了(le)大規模數據圖像标注任務(wù),涵蓋了(le)圖土愛像分(fēn)類,目标檢測以及圖像分(fēn)割等任務(wù),內微數據總量級達到 40M。

分(fēn)類任務(wù)數據量級為(wèi) 71M,其中包含 9 間還個(gè)公開數據集 28M,以及自标注數據 43M。目标檢測任務(wù)數算森據量級為(wèi) 4M,其中包含 3 個(路都gè)公開數據集 3M,以及自标注數據 1M。

2. 超大标簽體(tǐ)系:總标簽量級達到 119K,幾乎覆蓋了(le)喝拍所有現(xiàn)有開源數據集,在此基礎上(shàn多朋g)擴充了(le)大量細粒度标簽。

極大地豐富了(le)圖像任務(wù)的标美校簽,提供了(le)更為(wèi)合理(lǐ)的組織方式,以及可擴展的森門标簽延伸策略。

3. 首次提出視(shì)界(realm)概念:結合「書睡知生(shēng)」标簽體(tǐ)系,可以極大提升家都預訓練模型的性能(néng)。

在通用視(shì)覺網絡結構中,MetaNet 是一(yī劇草)種自研的模型搜索網絡,它最大的變種包含百億的參數量,上劇是當今最大的視(shì)覺網絡之一(yī)。

這(zhè)個(gè)網絡結構結合了(le)視(shì)覺卷積匠我和前沿的視(shì)覺自關(guān)注機制,通過大規模強化(huà)學習拿輛網絡結構搜索算(suàn)法,取得最佳算(suàn)子(黃制zǐ)組合,達到模型效率和效用的最大化(h雪兒uà)。

在相同的資源限制的情況下(xià),「書生(shēng)」的視唱長(shì)覺網絡獲得在不同視(shì)覺任務(wù上厭)下(xià)更優異的精度。

在獲得超大規模的視(shì)覺神經網絡以賦能(néng)計爸視算(suàn)機視(shì)覺社區的研究的同時(shí),「書生(shēn低愛g)」的網絡支持靈活地進行不同規模的調整,以适應不同程度的工業化(huà)落水影地時(shí)的運算(suàn)能(néng)力需求,賦能吃票(néng)視(shì)覺算(suàn)法的工業落地。

有了(le)這(zhè)樣的網絡結構之後,就(jiù)可以對其進行了(le)錢電從「基礎模型-專家-通才」模型的訓練策略,極大地增強這(zhè)種網絡結構的泛讀但化(huà)能(néng)力。

第三個(gè)便是視(shì)覺評測基準,它就(jiù)像是喝聽一(yī)個(gè)「擂台」,收集了(le) 4 種類型共 26 個(gè)下這都(xià)遊任務(wù)。

不僅包括常規分(fēn)類任務(wù)還包括細粒度分(fēn)類任務(林亮wù),還包括醫(yī)療圖像等特殊領域的分(fēn)類任務(wù白務)、行人(rén)檢測等熱門檢測任務(wù),擴展到分(fēn)割與深吧來度任務(wù),可以很好(hǎo)(hǎo)地衡量模是自型的泛化(huà)能(néng)力。

這(zhè)一(yī)視(shì)覺評測基準還引入了(le)百分雨了(fēn)比樣本(percentage-shot)的設置。

亮點在于,下(xià)遊任務(wù)訓練數據被湖坐壓縮的同時(shí),還可以很好(hǎo)(hǎo)地保留原始數據集雪在的長尾分(fēn)布等屬性。

「書生(shēng)」除了(le)這(zhè)三個(gè南些)基礎設施模塊之外,還有四個(gè)訓練階段模塊。

在「書生(shēng)」(INTERN)的四個(gè)訓練階段中,前話山三個(gè)階段位于該技術鍊條的上(shàng)遊,在模型的表征通用性上資工(shàng)發力。

第一(yī)階段,「基礎能(néng)力」的培養需要經過一(yī)個(林風gè)跨模态的預訓練過程,通過大量的圖像-文本對進行通用模型的預訓練,讓其學到鄉子廣泛的基礎常識,為(wèi)後續學習階段打好(hǎo)(hǎo)基礎;

第二階段,培養「專家能(néng)力」,即多個(gè)專家模型各自學習某輛快一(yī)領域的專業知識,讓每一(yī)個(gè)專家模型高度掌握該領域森視技能(néng),成為(wèi)專家;

第三階段,培養「通用能(néng)力」,此時(河高shí)的通才模型繼承了(le)大規模多模态的預訓練短明信息,也(yě)融合了(le)多樣的感知任務(wù)的信息,「書內拍生(shēng)」在各個(gè)技能(néng)領拿知域都展現(xiàn)優異水平,并具備快(kuài)速學會新玩到(xīn)技能(néng)的能(néng)力。

通過前三個(gè)模塊階梯式的學習,「書生(shēng)」具吧湖備了(le)高度的通用性和良好(hǎo)(hǎo)的泛化說鐘(huà)能(néng)力。

當進化(huà)到位于下(xià)遊的第四階段時秒吧(shí),系統将具備「遷移能(néng)力」,此時(shí)「書生(樹們shēng)」學到的通用知識可以應用在某一(yī)個(gè)來月特定領域的不同任務(wù)中。

從實驗結果來(lái)看,相較于當前最強 CV 模型 CLIP,「書生(sh輛兵ēng)」在準确率和數據使用效率上(shàng)均取得了(le拿謝)大幅提升。

具體(tǐ)來(lái)講,在分(fēn)類識别、目标檢測、語討又義分(fēn)割及深度估計四大任務(wù) 26 個(gè)女訊數據集上(shàng),「書生(shēng)」的平均錯誤率分(匠吃fēn)别降低(dī)了(le) 40.2%、47.3%、34.員讀8% 和 9.4%。

同時(shí),「書生(shēng)」隻需要1/10 的下(xià)遊數據,遠議就(jiù)幹翻了(le) CLIP 基于完整下(xià)遊數據的準确度。

書生(shēng)不是「書呆子(zǐ)」

光學不去練,不會用,還是沒啥本事(shì)。

要明确的是,商(shāng)湯的「書生(shēng)」可不是一(yī)個(湖外gè)書呆子(zǐ)。

怎麼講?

首先,它能(néng)夠舉一(yī)反三。

舉個(gè)形象點的栗子(zǐ),比如(rú)讓「書生(鄉林shēng)」識别花的種類,每一(yī)類隻需要提供 2 個(gè)窗說訓練樣本,識别準确率高達 99.7%。

這(zhè)個(gè)花卉數據集由 102 種英國常見的花組成,每個(朋低gè)類别有 40 至 258 張圖片。窗小其中包含有很大的比例、姿勢和光線變化(huà)。

它不僅有觸類旁通的能(néng)力,而且在自動駕駛、智器銀慧城市(shì)、智慧醫(yī)療等場(chǎng)景低熱均已經實現(xiàn)了(le)落地應用。

就(jiù)拿自動駕駛來(lái)說(shuō)吧(ba船兒),要想不成為(wèi)馬路(lù)殺手,一(yī)套 北坐CV 模型需要能(néng)夠識别各種物體(tǐ),包括交通标志,數林車道線識别等,還得預測出與障礙物的距離,行人(ré書煙n)檢測等等。

對于這(zhè)些(xiē)任務(wù)場暗,單一(yī)視(shì)覺模型是無法勝任的。

而「書生(shēng)」技術體(tǐ)系睡雜從數據、模型等各個(gè)方面出發,對自物中動駕駛感知模型,尤其是長尾類别和場(chǎ相哥ng)景非常友好(hǎo)(hǎo),在小樣本甚至是零樣本的應用場(ch能去ǎng)景下(xià)表現(xiàn)明顯優于既往模型。

其實,在實際場(chǎng)景應用中,數據都存在長尾分(fēn)布的現(x在慢iàn)象,少量類别占據大多數樣本,而大量類别僅有少量樣本。

在智慧城市(shì)中也(yě)是同樣的通很道理(lǐ),面對很多長尾、碎片化(huà)場(c場司hǎng)景就(jiù)不得不祭出通才「書生(shē你到ng)」了(le)。

生(shēng)活中,我們經常會見到城市(shì)街道上(shàn關算g)的井蓋頻頻丢失的問題。

如(rú)果 CV 模型沒有關(guān)注城市(shì頻學)治理(lǐ)的長尾問題,偷井蓋問題很難得到解決。況且林數,井蓋也(yě)有很多種樣子(zǐ)。

但(dàn)是,這(zhè)對于通才「書生(s刀國hēng)」來(lái)講都是小 case。隻要謝雪每一(yī)類提供 2 個(gè)訓練樣本,問題答場不就(jiù)搞定了(le)嗎(ma)。

因為(wèi)它已經在訓練階段被「喂下(xià)」開爸大量數據成為(wèi)通才,隻需要看到少間玩量樣本,就(jiù)具備了(le)舉一(yī)反三的能(néng)這坐力。

有了(le)「書生(shēng)」的加持,不僅可以預防井蓋丢失樹拍,還能(néng)實現(xiàn)事(shì)後追責的器腦精細化(huà)管理(lǐ)。

此外,智慧制造、智慧醫(yī)療等應用中還報器會存在很多類似的長尾場(chǎng)景,而通用視(shì)門相覺「書生(shēng)」的推出能(néng)夠多少讓業界以更低(dī)的成本獲得擁有處理(lǐ)多種下(xià)遊任務(wù)能這關(néng)力的 AI 模型。

并以其強大的泛化(huà)能(néng)力支輛車撐實際場(chǎng)景中大量小數據、零數據等人也樣本缺失的細分(fēn)和長尾場(chǎng)景需求間黑。

書生(shēng)(INTERN)技術體(tǐ)系可以讓 數路AI 模型處理(lǐ)多樣化(huà)的視(shì)覺任務(w一短ù)

這(zhè)些(xiē)暴力計算(suàn)下(xià歌話)的 AI 場(chǎng)景需要強大的一船算(suàn)力作(zuò)為(wèi)支撐,這(zhè)時城喝(shí)候 SenseCore 商(shāng)湯 A風鄉I 大裝置正好(hǎo)(hǎo)就(jiù)派上討科(shàng)用場(chǎng)了(le)。

AI 大裝置正是通過超強的算(suàn)力基礎,為(wèi)人(rén)工科子智能(néng)的研發、創新(xīn)和應用提供源動力跳白。

正如(rú)商(shāng)湯科技研究院院長王農樹曉剛所提到的那樣:

「書生(shēng)」通用視(shì)覺技術體(tǐ)系是商(shāng)湯要北在通用智能(néng)技術發展趨勢下(xià)前瞻性布局的一(y知爸ī)次嘗試,也(yě)是 SenseCore 商(shāng)湯 AI 大裝來玩置背景下(xià)的一(yī)次新(xīn銀暗)技術路(lù)徑探索。 「書生(shēng)」承載了(le)讓請習人(rén)工智能(néng)參與處理(lǐ)多種複雜任務(wù)紅們、适用多種場(chǎng)景和模态、有效進行小數據和非監督票弟學習并最終具備接近人(rén)的通用視(shì)覺智能(néng)的期盼。志會 希望這(zhè)套技術體(tǐ)系能(néng)夠幫助業界更好(hǎo)(h影朋ǎo)地探索和應用通用視(shì)覺 AI 技少拿術,促進 AI 規模化(huà)落地。

不過,想要成為(wèi)一(yī)個(gè)優秀的通用視(sh風音ì)覺模型,「書生(shēng)」還有三個(gè)挑戰需要解決歌關:

1. 模型優化(huà)速度的提升

對于一(yī)個(gè)好(hǎo)(hǎo)的事黃預訓練模型,往往需要更大更好(hǎo)(hǎo)的網西黑絡結構,以及大規模的數據,這(zhè)就(jiù)會導緻幾天甚至山筆幾周的模型訓練時(shí)間(jiān),說麗如(rú)何在保持表征能(néng)力的同時(shí),大幅度加暗道速模型的訓練過程,具有非常重大的現(xiàn)實意義。

2. 更大範圍内的通用能(néng)力仍待友土探索

書生(shēng)模型,可以很好(hǎo)(hǎo)地在常見的視(shì)覺綠個任務(wù)裡達到通用的效果。在跨度較大的領域,購們比如(rú)超分(fēn)等底層視(shì)覺任務(wù),些拿書生(shēng)模型還有很大的進步空間(jiān)。

3. 大模型到小模型的轉變

将大模型的表征能(néng)力無損失的遷移到可部署到終端設備上(shàng從光)的小模型,對于預訓練模型的推廣有非常大的價值。

One More Thing

要問這(zhè)個(gè)模型好(hǎo)(h美費ǎo)不好(hǎo)(hǎo)做?

研發急得都直「爬樹」!

為(wèi)了(le)測試模型在 zero-shot 下(xià)的內月精度如(rú)何,書生(shēng)研發團船刀隊的模型科學家都親自上(shàng)演了(le)「爬樹」特别節答謝目。通過創造特殊場(chǎng)景,以随機生(shēng)成家那圖片,去考驗模型能(néng)力。

(研究需要,大家請勿模仿^_^)

「書生(shēng)」看到後,歪嘴一(yī)笑(xiào)。

這(zhè)不就(jiù)是「爬樹」嘛,置信度 0.96 給你腦離。

而且有趣的是,「書生(shēng)」模型還注意器到到了(le)樹上(shàng)人(rén)眼就區都很容易忽略的繩子(zǐ)。

可能(néng),這(zhè)就(jiù)是「明察秋毫」吧(ba)!

未來(lái),「書生(shēng)」要做的一(yī)件事(shì)分關情:

基于「書生(shēng)」的通用視(shì)覺開源司他平台 OpenGVLab 也(yě)将在今年年初章會正式開源,産學研一(yī)道共創通用 AI 生短科(shēng)态!

而即将開源的 OpenGVLab,正是基于「書生(司樹shēng)」的通用視(shì)覺開源平台。

其中的網絡結構除了(le)商(shāng)湯自研的 Me公車taNet,還包含大家普遍使用的 ResNet, Mobile秒計Net, ViT, EfficientNet 等,以滿足不同場(chǎng)景雨公的應用,賦能(néng)計算(suàn)機視(shì)覺。

然而,「書生(shēng)」的布局不止于此。

OpenGVLab 将與上(shàng)海人(rén)拍靜工智能(néng)實驗室此前發布的 OpenMML子短ab、OpenDILab 一(yī)道,共同去白構築開源體(tǐ)系 OpenXLab,持續推進通用人信短(rén)工智能(néng)的技術突破和生(shēng)态構建。藍低

「書生(shēng)」研發團隊的一(yī)位成員(y河員uán)調侃道,「随着書生(shēng)模型精度訊冷越來(lái)越高,我們的辦公樓層越來(lái)越高。」

開源的「書生(shēng)」,前景廣闊。


來(lái)源:新(xīn)智元