AI十級「找茬」選手，非這(zhè)個(gè)書生(shēng)莫屬，節後開源！

AI十級「找茬」選手，非這(zhè)個(gè)書生車時(shēng)莫屬，節後開源！

2022-01-23

新(xīn)智元報(bào)道

編輯：好(hǎo)(hǎo)困桃子(zǐ)

為(wèi)了(le)測試，研發團隊的大哥都爬樹上(shàng)行裡了(le)！什(shén)麼模型竟然隻需月站10% 的訓練數據，性能(néng)就(jiù)能(néng)超越同行，還會音些免費開源？

考驗你眼力的時(shí)候到了(le)！

隻看一(yī)眼，看出什(shén)麼了(le)嘛？

一(yī)塊木地闆？

隻答(dá)對了(le)一(yī)半，其實圖中還有一到金(yī)隻喵。

下(xià)一(yī)個(gè)問題，這(zhè)是什(shén)麼品種的貓？暗好啊...這(zhè)...

承認吧(ba)，你是辨别不出來(lái)的，但(dàn暗了)是這(zhè)個(gè) AI「一(yī)眼」就(jiù)姐笑搞定了(le)。

而這(zhè)麼厲害的 AI 還有個(gè)詩意的國她名字，叫「書生(shēng)」。

更厲害的是，基于「書生(shēng)」的通用視(shì錯黃)覺開源平台 OpenGVLab 将會在春讀可節後全部公開！

通用？視(shì)覺？

近幾年，語言模型的發展可謂是相當迅猛，百花齊放(fàng)。

小到 3.54 億參數的 BERT，大到 5300 億參數的威震天-圖靈她樂，以及 1.6 萬億參數的混合模型 Switch Tra些街nsformer，順便還有首次常識問答(dá)超越人(rén)類的 KEA少跳R。

那麼，視(shì)覺模型這(zhè)邊又如(rú)何呢(n刀身e)？

目前的 CV 領域主要是圖像匹配文本 CLIP 信爸和文本生(shēng)成圖像 DALL·E這(zhè)種單一器的(yī)模型。

但(dàn)是 NLP 方向的各種成績都表明，發展預訓練大模型不僅僅能(錢煙néng)夠處理(lǐ)多種複雜任務(wù)、适用多種場(chǎng)景和模态雪國，而且能(néng)夠增加模型的複用率，減少了(le)模型定制化高風(huà)開發的開銷進而也(yě)降低(dī)了(le)成本。日可

而且，通用模型也(yě)是通往通用人(ré媽遠n)工智能(néng)的必經之路(lù)。

和通用語言模型類似，通用視(shì)覺模型的出是愛發點和訓練思路(lù)也(yě)需要事(shì)先通要坐過收集海量的無監督數據。然後通過自監督等方式來(lái)訓練，得分請到通用的預訓練模型。最後根據具體(tǐ)好年的下(xià)遊任務(wù)再将通用預訓練模型遷移到具體(tǐ)任務(wù)懂遠上(shàng)去解決具體(tǐ)問題。

不過，從任務(wù)角度看，通用視(shì)覺模型主要還是解聽吧決純視(shì)覺任務(wù)，也(yě)涉及一(yī)些(xiē)視(s錢拍hì)覺語言相關(guān)的多模态任務到為(wù)，而通用語言模型主要在解決語言相關(guān)的任務(南麗wù)。而從模型訓練角度看，兩者的模型結構鐵算存在一(yī)些(xiē)差異，具體(tǐ)訓練的監督形式也(y也購ě)不一(yī)樣。

但(dàn)是想要實現(xiàn)模型的通用性頻亮，很難。

首當其沖的就(jiù)是，訓練數據不夠用。

訓練一(yī)個(gè)性能(néng)合格的深度學習模型，所需的數據采視路集量，少則十幾萬，多則千百萬張圖片，比如(rú自厭)自動駕駛和人(rén)臉識别，對于數據的需求，達到十億級别，但(dàn)場木性能(néng)仍未飽和。

在現(xiàn)實應用中，AI 需要大量業務工輛(wù)數據和用戶互聯網行為(wèi)數據的融合北畫，而企業可以應用的數據則非常有限。

數據都采集不到，就(jiù)更不用提什(sh這亮én)麼「高質量」了(le)。

此外，模型對于數據的學習效率又低(dī)花業，無疑又是雪上(shàng)加霜。

于是，N個(gè)任務(wù)就(jiù)需司厭要開發N個(gè)高度定制的模型同時(s錯黃hí)，每個(gè)模型在訓練的時(shí)候又需構建标注數據集進行專項訓練中學，并持續進行權重和參數優化(huà)。

時(shí)間(jiān)、人(rén)力刀電以及資源的成本直接拉滿。

即便如(rú)此，依然有人(rén)想要挑戰花嗎一(yī)番。

2021 年 11 月(yuè)(yuè)，上(shàng)海人(rén信慢)工智能(néng)實驗室聯合商(shān船高g)湯科技 SenseTime、香港中文大學懂樹、上(shàng)海交通大學共同發布了(le)新(xīn)一機體(yī)代通用視(shì)覺技術體(tǐ)系——「書生(shēng)」就人（INTERN）。

論文地址：https://arxiv.org/abs/2111.08687

通才是如(rú)何練成？

作(zuò)為(wèi)通用視(shì)覺技術體(tǐ)系的「書生(shēn樂麗g)」有三個(gè)基礎設施模塊，分(fēn)喝商别為(wèi)：

通用視(shì)覺數據系統（GV-Dataset）
通用視(shì)覺網絡結構（GV-Architecture）
通用視(shì)覺評測基準（GV-Benchmark）

這(zhè)三個(gè)基礎模塊有什(shén)場讀麼作(zuò)用？

它們就(jiù)像「百科全書」、「高樓基底」一(yī)樣。「書生(shēng)道不」通才的道路(lù)上(shàng)學到的海量這上知識和建模、評測等基礎能(néng)力就(jiù)靠這但照(zhè)三個(gè)基礎模塊了(le)。

具體(tǐ)點講，其中，在通用視(shì)覺數據系統中包書弟含了(le)大量的高質量數據集：

1. 超大量級精标注數據：除了(le)整合現(xiàn)南如有開源數據集，還進行了(le)大規模數據圖像标注任務(wù)，涵蓋了(le)圖土愛像分(fēn)類，目标檢測以及圖像分(fēn)割等任務(wù)，內微數據總量級達到 40M。

分(fēn)類任務(wù)數據量級為(wèi) 71M，其中包含 9 間還個(gè)公開數據集 28M，以及自标注數據 43M。目标檢測任務(wù)數算森據量級為(wèi) 4M，其中包含 3 個(路都gè)公開數據集 3M，以及自标注數據 1M。

2. 超大标簽體(tǐ)系：總标簽量級達到 119K，幾乎覆蓋了(le)喝拍所有現(xiàn)有開源數據集，在此基礎上(shàn多朋g)擴充了(le)大量細粒度标簽。

極大地豐富了(le)圖像任務(wù)的标美校簽，提供了(le)更為(wèi)合理(lǐ)的組織方式，以及可擴展的森門标簽延伸策略。

3. 首次提出視(shì)界（realm）概念：結合「書睡知生(shēng)」标簽體(tǐ)系，可以極大提升家都預訓練模型的性能(néng)。

在通用視(shì)覺網絡結構中，MetaNet 是一(yī劇草)種自研的模型搜索網絡，它最大的變種包含百億的參數量，上劇是當今最大的視(shì)覺網絡之一(yī)。

這(zhè)個(gè)網絡結構結合了(le)視(shì)覺卷積匠我和前沿的視(shì)覺自關(guān)注機制，通過大規模強化(huà)學習拿輛網絡結構搜索算(suàn)法，取得最佳算(suàn)子(黃制zǐ)組合，達到模型效率和效用的最大化(h雪兒uà)。

在相同的資源限制的情況下(xià)，「書生(shēng)」的視唱長(shì)覺網絡獲得在不同視(shì)覺任務(wù上厭)下(xià)更優異的精度。

在獲得超大規模的視(shì)覺神經網絡以賦能(néng)計爸視算(suàn)機視(shì)覺社區的研究的同時(shí)，「書生(shēn低愛g)」的網絡支持靈活地進行不同規模的調整，以适應不同程度的工業化(huà)落水影地時(shí)的運算(suàn)能(néng)力需求，賦能吃票(néng)視(shì)覺算(suàn)法的工業落地。

有了(le)這(zhè)樣的網絡結構之後，就(jiù)可以對其進行了(le)錢電從「基礎模型-專家-通才」模型的訓練策略，極大地增強這(zhè)種網絡結構的泛讀但化(huà)能(néng)力。

第三個(gè)便是視(shì)覺評測基準，它就(jiù)像是喝聽一(yī)個(gè)「擂台」，收集了(le) 4 種類型共 26 個(gè)下這都(xià)遊任務(wù)。

不僅包括常規分(fēn)類任務(wù)還包括細粒度分(fēn)類任務(林亮wù)，還包括醫(yī)療圖像等特殊領域的分(fēn)類任務(wù白務)、行人(rén)檢測等熱門檢測任務(wù)，擴展到分(fēn)割與深吧來度任務(wù)，可以很好(hǎo)(hǎo)地衡量模是自型的泛化(huà)能(néng)力。

這(zhè)一(yī)視(shì)覺評測基準還引入了(le)百分雨了(fēn)比樣本（percentage-shot）的設置。

亮點在于，下(xià)遊任務(wù)訓練數據被湖坐壓縮的同時(shí)，還可以很好(hǎo)(hǎo)地保留原始數據集雪在的長尾分(fēn)布等屬性。

「書生(shēng)」除了(le)這(zhè)三個(gè南些)基礎設施模塊之外，還有四個(gè)訓練階段模塊。

在「書生(shēng)」（INTERN）的四個(gè)訓練階段中，前話山三個(gè)階段位于該技術鍊條的上(shàng)遊，在模型的表征通用性上資工(shàng)發力。

第一(yī)階段，「基礎能(néng)力」的培養需要經過一(yī)個(林風gè)跨模态的預訓練過程，通過大量的圖像-文本對進行通用模型的預訓練，讓其學到鄉子廣泛的基礎常識，為(wèi)後續學習階段打好(hǎo)(hǎo)基礎；

第二階段，培養「專家能(néng)力」，即多個(gè)專家模型各自學習某輛快一(yī)領域的專業知識，讓每一(yī)個(gè)專家模型高度掌握該領域森視技能(néng)，成為(wèi)專家；

第三階段，培養「通用能(néng)力」，此時(河高shí)的通才模型繼承了(le)大規模多模态的預訓練短明信息，也(yě)融合了(le)多樣的感知任務(wù)的信息，「書內拍生(shēng)」在各個(gè)技能(néng)領拿知域都展現(xiàn)優異水平，并具備快(kuài)速學會新玩到(xīn)技能(néng)的能(néng)力。

通過前三個(gè)模塊階梯式的學習，「書生(shēng)」具吧湖備了(le)高度的通用性和良好(hǎo)(hǎo)的泛化說鐘(huà)能(néng)力。

當進化(huà)到位于下(xià)遊的第四階段時秒吧(shí)，系統将具備「遷移能(néng)力」，此時(shí)「書生(樹們shēng)」學到的通用知識可以應用在某一(yī)個(gè)來月特定領域的不同任務(wù)中。

從實驗結果來(lái)看，相較于當前最強 CV 模型 CLIP，「書生(sh輛兵ēng)」在準确率和數據使用效率上(shàng)均取得了(le拿謝)大幅提升。

具體(tǐ)來(lái)講，在分(fēn)類識别、目标檢測、語討又義分(fēn)割及深度估計四大任務(wù) 26 個(gè)女訊數據集上(shàng)，「書生(shēng)」的平均錯誤率分(匠吃fēn)别降低(dī)了(le) 40.2%、47.3%、34.員讀8% 和 9.4%。

同時(shí)，「書生(shēng)」隻需要1/10 的下(xià)遊數據，遠議就(jiù)幹翻了(le) CLIP 基于完整下(xià)遊數據的準确度。

書生(shēng)不是「書呆子(zǐ)」

光學不去練，不會用，還是沒啥本事(shì)。

要明确的是，商(shāng)湯的「書生(shēng)」可不是一(yī)個(湖外gè)書呆子(zǐ)。

怎麼講？

首先，它能(néng)夠舉一(yī)反三。

舉個(gè)形象點的栗子(zǐ)，比如(rú)讓「書生(鄉林shēng)」識别花的種類，每一(yī)類隻需要提供 2 個(gè)窗說訓練樣本，識别準确率高達 99.7%。

這(zhè)個(gè)花卉數據集由 102 種英國常見的花組成，每個(朋低gè)類别有 40 至 258 張圖片。窗小其中包含有很大的比例、姿勢和光線變化(huà)。

它不僅有觸類旁通的能(néng)力，而且在自動駕駛、智器銀慧城市(shì)、智慧醫(yī)療等場(chǎng)景低熱均已經實現(xiàn)了(le)落地應用。

就(jiù)拿自動駕駛來(lái)說(shuō)吧(ba船兒)，要想不成為(wèi)馬路(lù)殺手，一(yī)套北坐CV 模型需要能(néng)夠識别各種物體(tǐ)，包括交通标志，數林車道線識别等，還得預測出與障礙物的距離，行人(ré書煙n)檢測等等。

對于這(zhè)些(xiē)任務(wù)場暗，單一(yī)視(shì)覺模型是無法勝任的。

而「書生(shēng)」技術體(tǐ)系睡雜從數據、模型等各個(gè)方面出發，對自物中動駕駛感知模型，尤其是長尾類别和場(chǎ相哥ng)景非常友好(hǎo)(hǎo)，在小樣本甚至是零樣本的應用場(ch能去ǎng)景下(xià)表現(xiàn)明顯優于既往模型。

其實，在實際場(chǎng)景應用中，數據都存在長尾分(fēn)布的現(x在慢iàn)象，少量類别占據大多數樣本，而大量類别僅有少量樣本。

在智慧城市(shì)中也(yě)是同樣的通很道理(lǐ)，面對很多長尾、碎片化(huà)場(c場司hǎng)景就(jiù)不得不祭出通才「書生(shē你到ng)」了(le)。

生(shēng)活中，我們經常會見到城市(shì)街道上(shàn關算g)的井蓋頻頻丢失的問題。

如(rú)果 CV 模型沒有關(guān)注城市(shì頻學)治理(lǐ)的長尾問題，偷井蓋問題很難得到解決。況且林數，井蓋也(yě)有很多種樣子(zǐ)。

但(dàn)是，這(zhè)對于通才「書生(s刀國hēng)」來(lái)講都是小 case。隻要謝雪每一(yī)類提供 2 個(gè)訓練樣本，問題答場不就(jiù)搞定了(le)嗎(ma)。

因為(wèi)它已經在訓練階段被「喂下(xià)」開爸大量數據成為(wèi)通才，隻需要看到少間玩量樣本，就(jiù)具備了(le)舉一(yī)反三的能(néng)這坐力。

有了(le)「書生(shēng)」的加持，不僅可以預防井蓋丢失樹拍，還能(néng)實現(xiàn)事(shì)後追責的器腦精細化(huà)管理(lǐ)。

此外，智慧制造、智慧醫(yī)療等應用中還報器會存在很多類似的長尾場(chǎng)景，而通用視(shì)門相覺「書生(shēng)」的推出能(néng)夠多少讓業界以更低(dī)的成本獲得擁有處理(lǐ)多種下(xià)遊任務(wù)能這關(néng)力的 AI 模型。

并以其強大的泛化(huà)能(néng)力支輛車撐實際場(chǎng)景中大量小數據、零數據等人也樣本缺失的細分(fēn)和長尾場(chǎng)景需求間黑。

書生(shēng)（INTERN）技術體(tǐ)系可以讓數路AI 模型處理(lǐ)多樣化(huà)的視(shì)覺任務(w一短ù)

這(zhè)些(xiē)暴力計算(suàn)下(xià歌話)的 AI 場(chǎng)景需要強大的一船算(suàn)力作(zuò)為(wèi)支撐，這(zhè)時城喝(shí)候 SenseCore 商(shāng)湯 A風鄉I 大裝置正好(hǎo)(hǎo)就(jiù)派上討科(shàng)用場(chǎng)了(le)。

AI 大裝置正是通過超強的算(suàn)力基礎，為(wèi)人(rén)工科子智能(néng)的研發、創新(xīn)和應用提供源動力跳白。

正如(rú)商(shāng)湯科技研究院院長王農樹曉剛所提到的那樣：

「書生(shēng)」通用視(shì)覺技術體(tǐ)系是商(shāng)湯要北在通用智能(néng)技術發展趨勢下(xià)前瞻性布局的一(y知爸ī)次嘗試，也(yě)是 SenseCore 商(shāng)湯 AI 大裝來玩置背景下(xià)的一(yī)次新(xīn銀暗)技術路(lù)徑探索。「書生(shēng)」承載了(le)讓請習人(rén)工智能(néng)參與處理(lǐ)多種複雜任務(wù)紅們、适用多種場(chǎng)景和模态、有效進行小數據和非監督票弟學習并最終具備接近人(rén)的通用視(shì)覺智能(néng)的期盼。志會希望這(zhè)套技術體(tǐ)系能(néng)夠幫助業界更好(hǎo)(h影朋ǎo)地探索和應用通用視(shì)覺 AI 技少拿術，促進 AI 規模化(huà)落地。

不過，想要成為(wèi)一(yī)個(gè)優秀的通用視(sh風音ì)覺模型，「書生(shēng)」還有三個(gè)挑戰需要解決歌關：

1. 模型優化(huà)速度的提升

對于一(yī)個(gè)好(hǎo)(hǎo)的事黃預訓練模型，往往需要更大更好(hǎo)(hǎo)的網西黑絡結構，以及大規模的數據，這(zhè)就(jiù)會導緻幾天甚至山筆幾周的模型訓練時(shí)間(jiān)，說麗如(rú)何在保持表征能(néng)力的同時(shí)，大幅度加暗道速模型的訓練過程，具有非常重大的現(xiàn)實意義。

2. 更大範圍内的通用能(néng)力仍待友土探索

書生(shēng)模型，可以很好(hǎo)(hǎo)地在常見的視(shì)覺綠個任務(wù)裡達到通用的效果。在跨度較大的領域，購們比如(rú)超分(fēn)等底層視(shì)覺任務(wù)，些拿書生(shēng)模型還有很大的進步空間(jiān)。

3. 大模型到小模型的轉變

将大模型的表征能(néng)力無損失的遷移到可部署到終端設備上(shàng從光)的小模型，對于預訓練模型的推廣有非常大的價值。

One More Thing

要問這(zhè)個(gè)模型好(hǎo)(h美費ǎo)不好(hǎo)(hǎo)做？

研發急得都直「爬樹」！

為(wèi)了(le)測試模型在 zero-shot 下(xià)的內月精度如(rú)何，書生(shēng)研發團船刀隊的模型科學家都親自上(shàng)演了(le)「爬樹」特别節答謝目。通過創造特殊場(chǎng)景，以随機生(shēng)成家那圖片，去考驗模型能(néng)力。

（研究需要，大家請勿模仿^_^）

「書生(shēng)」看到後，歪嘴一(yī)笑(xiào)。

這(zhè)不就(jiù)是「爬樹」嘛，置信度 0.96 給你腦離。

而且有趣的是，「書生(shēng)」模型還注意器到到了(le)樹上(shàng)人(rén)眼就區都很容易忽略的繩子(zǐ)。

可能(néng)，這(zhè)就(jiù)是「明察秋毫」吧(ba)！

未來(lái)，「書生(shēng)」要做的一(yī)件事(shì)分關情：

基于「書生(shēng)」的通用視(shì)覺開源司他平台 OpenGVLab 也(yě)将在今年年初章會正式開源，産學研一(yī)道共創通用 AI 生短科(shēng)态！

而即将開源的 OpenGVLab，正是基于「書生(司樹shēng)」的通用視(shì)覺開源平台。

其中的網絡結構除了(le)商(shāng)湯自研的 Me公車taNet，還包含大家普遍使用的 ResNet, Mobile秒計Net, ViT， EfficientNet 等，以滿足不同場(chǎng)景雨公的應用，賦能(néng)計算(suàn)機視(shì)覺。

然而，「書生(shēng)」的布局不止于此。

OpenGVLab 将與上(shàng)海人(rén)拍靜工智能(néng)實驗室此前發布的 OpenMML子短ab、OpenDILab 一(yī)道，共同去白構築開源體(tǐ)系 OpenXLab，持續推進通用人信短(rén)工智能(néng)的技術突破和生(shēng)态構建。藍低

「書生(shēng)」研發團隊的一(yī)位成員(y河員uán)調侃道，「随着書生(shēng)模型精度訊冷越來(lái)越高，我們的辦公樓層越來(lái)越高。」

開源的「書生(shēng)」，前景廣闊。

來(lái)源：新(xīn)智元