AI十級「找茬」選手,非這(zhè)個(gè)書生車時(shēng)莫屬,節後開源!
新(xīn)智元報(bào)道
編輯:好(hǎo)(hǎo)困桃子(zǐ)
為(wèi)了(le)測試,研發團隊的大哥都爬樹上(shàng)行裡了(le)!什(shén)麼模型竟然隻需 月站10% 的訓練數據,性能(néng)就(jiù)能(néng)超越同行,還會音些免費開源?
考驗你眼力的時(shí)候到了(le)!
隻看一(yī)眼,看出什(shén)麼了(le)嘛?
一(yī)塊木地闆?
隻答(dá)對了(le)一(yī)半,其實圖中還有一到金(yī)隻喵。
下(xià)一(yī)個(gè)問題,這(zhè)是什(shén)麼品種的貓?暗好啊...這(zhè)...
承認吧(ba),你是辨别不出來(lái)的,但(dàn暗了)是這(zhè)個(gè) AI「一(yī)眼」就(jiù)姐笑搞定了(le)。
而這(zhè)麼厲害的 AI 還有個(gè)詩意的國她名字,叫「書生(shēng)」。
更厲害的是,基于「書生(shēng)」的通用視(shì錯黃)覺開源平台 OpenGVLab 将會在春讀可節後全部公開!
通用?視(shì)覺?
近幾年,語言模型的發展可謂是相當迅猛,百花齊放(fàng)。
小到 3.54 億參數的 BERT,大到 5300 億參數的威震天-圖靈她樂,以及 1.6 萬億參數的混合模型 Switch Tra些街nsformer,順便還有首次常識問答(dá)超越人(rén)類的 KEA少跳R。
那麼,視(shì)覺模型這(zhè)邊又如(rú)何呢(n刀身e)?
目前的 CV 領域主要是圖像匹配文本 CLIP 信爸和文本生(shēng)成圖像 DALL·E這(zhè)種單一器的(yī)模型。
但(dàn)是 NLP 方向的各種成績都表明,發展預訓練大模型不僅僅能(錢煙néng)夠處理(lǐ)多種複雜任務(wù)、适用多種場(chǎng)景和模态雪國,而且能(néng)夠增加模型的複用率,減少了(le)模型定制化高風(huà)開發的開銷進而也(yě)降低(dī)了(le)成本。日可
而且,通用模型也(yě)是通往通用人(ré媽遠n)工智能(néng)的必經之路(lù)。
和通用語言模型類似,通用視(shì)覺模型的出是愛發點和訓練思路(lù)也(yě)需要事(shì)先通要坐過收集海量的無監督數據。然後通過自監督等方式來(lái)訓練,得分請到通用的預訓練模型。最後根據具體(tǐ)好年的下(xià)遊任務(wù)再将通用預訓練模型遷移到具體(tǐ)任務(wù)懂遠上(shàng)去解決具體(tǐ)問題。
不過,從任務(wù)角度看,通用視(shì)覺模型主要還是解聽吧決純視(shì)覺任務(wù),也(yě)涉及一(yī)些(xiē)視(s錢拍hì)覺語言相關(guān)的多模态任務到為(wù),而通用語言模型主要在解決語言相關(guān)的任務(南麗wù)。而從模型訓練角度看,兩者的模型結構鐵算存在一(yī)些(xiē)差異,具體(tǐ)訓練的監督形式也(y也購ě)不一(yī)樣。
但(dàn)是想要實現(xiàn)模型的通用性頻亮,很難。
首當其沖的就(jiù)是,訓練數據不夠用。
訓練一(yī)個(gè)性能(néng)合格的深度學習模型,所需的數據采視路集量,少則十幾萬,多則千百萬張圖片,比如(rú自厭)自動駕駛和人(rén)臉識别,對于數據的需求,達到十億級别,但(dàn)場木性能(néng)仍未飽和。
在現(xiàn)實應用中,AI 需要大量業務工輛(wù)數據和用戶互聯網行為(wèi)數據的融合北畫,而企業可以應用的數據則非常有限。
數據都采集不到,就(jiù)更不用提什(sh這亮én)麼「高質量」了(le)。
此外,模型對于數據的學習效率又低(dī)花業,無疑又是雪上(shàng)加霜。
于是,N個(gè)任務(wù)就(jiù)需司厭要開發N個(gè)高度定制的模型同時(s錯黃hí),每個(gè)模型在訓練的時(shí)候又需構建标注數據集進行專項訓練中學,并持續進行權重和參數優化(huà)。
時(shí)間(jiān)、人(rén)力刀電以及資源的成本直接拉滿。
即便如(rú)此,依然有人(rén)想要挑戰花嗎一(yī)番。
2021 年 11 月(yuè)(yuè),上(shàng)海人(rén信慢)工智能(néng)實驗室聯合商(shān船高g)湯科技 SenseTime、香港中文大學懂樹、上(shàng)海交通大學共同發布了(le)新(xīn)一機體(yī)代通用視(shì)覺技術體(tǐ)系——「書生(shēng)」就人(INTERN)。
論文地址:https://arxiv.org/abs/2111.08687
通才是如(rú)何練成?
作(zuò)為(wèi)通用視(shì)覺技術體(tǐ)系的「書生(shēn樂麗g)」有三個(gè)基礎設施模塊,分(fēn)喝商别為(wèi):
通用視(shì)覺數據系統(GV-Dataset)
通用視(shì)覺網絡結構(GV-Architecture)
通用視(shì)覺評測基準(GV-Benchmark)
這(zhè)三個(gè)基礎模塊有什(shén)場讀麼作(zuò)用?
它們就(jiù)像「百科全書」、「高樓基底」一(yī)樣。「書生(shēng)道不」通才的道路(lù)上(shàng)學到的海量這上知識和建模、評測等基礎能(néng)力就(jiù)靠這但照(zhè)三個(gè)基礎模塊了(le)。
具體(tǐ)點講,其中,在通用視(shì)覺數據系統中包書弟含了(le)大量的高質量數據集:
1. 超大量級精标注數據:除了(le)整合現(xiàn)南如有開源數據集,還進行了(le)大規模數據圖像标注任務(wù),涵蓋了(le)圖土愛像分(fēn)類,目标檢測以及圖像分(fēn)割等任務(wù),內微數據總量級達到 40M。
分(fēn)類任務(wù)數據量級為(wèi) 71M,其中包含 9 間還個(gè)公開數據集 28M,以及自标注數據 43M。目标檢測任務(wù)數算森據量級為(wèi) 4M,其中包含 3 個(路都gè)公開數據集 3M,以及自标注數據 1M。
2. 超大标簽體(tǐ)系:總标簽量級達到 119K,幾乎覆蓋了(le)喝拍所有現(xiàn)有開源數據集,在此基礎上(shàn多朋g)擴充了(le)大量細粒度标簽。
極大地豐富了(le)圖像任務(wù)的标美校簽,提供了(le)更為(wèi)合理(lǐ)的組織方式,以及可擴展的森門标簽延伸策略。
3. 首次提出視(shì)界(realm)概念:結合「書睡知生(shēng)」标簽體(tǐ)系,可以極大提升家都預訓練模型的性能(néng)。
在通用視(shì)覺網絡結構中,MetaNet 是一(yī劇草)種自研的模型搜索網絡,它最大的變種包含百億的參數量,上劇是當今最大的視(shì)覺網絡之一(yī)。
這(zhè)個(gè)網絡結構結合了(le)視(shì)覺卷積匠我和前沿的視(shì)覺自關(guān)注機制,通過大規模強化(huà)學習拿輛網絡結構搜索算(suàn)法,取得最佳算(suàn)子(黃制zǐ)組合,達到模型效率和效用的最大化(h雪兒uà)。
在相同的資源限制的情況下(xià),「書生(shēng)」的視唱長(shì)覺網絡獲得在不同視(shì)覺任務(wù上厭)下(xià)更優異的精度。
在獲得超大規模的視(shì)覺神經網絡以賦能(néng)計爸視算(suàn)機視(shì)覺社區的研究的同時(shí),「書生(shēn低愛g)」的網絡支持靈活地進行不同規模的調整,以适應不同程度的工業化(huà)落水影地時(shí)的運算(suàn)能(néng)力需求,賦能吃票(néng)視(shì)覺算(suàn)法的工業落地。
有了(le)這(zhè)樣的網絡結構之後,就(jiù)可以對其進行了(le)錢電從「基礎模型-專家-通才」模型的訓練策略,極大地增強這(zhè)種網絡結構的泛讀但化(huà)能(néng)力。
第三個(gè)便是視(shì)覺評測基準,它就(jiù)像是喝聽一(yī)個(gè)「擂台」,收集了(le) 4 種類型共 26 個(gè)下這都(xià)遊任務(wù)。
不僅包括常規分(fēn)類任務(wù)還包括細粒度分(fēn)類任務(林亮wù),還包括醫(yī)療圖像等特殊領域的分(fēn)類任務(wù白務)、行人(rén)檢測等熱門檢測任務(wù),擴展到分(fēn)割與深吧來度任務(wù),可以很好(hǎo)(hǎo)地衡量模是自型的泛化(huà)能(néng)力。
這(zhè)一(yī)視(shì)覺評測基準還引入了(le)百分雨了(fēn)比樣本(percentage-shot)的設置。
亮點在于,下(xià)遊任務(wù)訓練數據被湖坐壓縮的同時(shí),還可以很好(hǎo)(hǎo)地保留原始數據集雪在的長尾分(fēn)布等屬性。
「書生(shēng)」除了(le)這(zhè)三個(gè南些)基礎設施模塊之外,還有四個(gè)訓練階段模塊。
在「書生(shēng)」(INTERN)的四個(gè)訓練階段中,前話山三個(gè)階段位于該技術鍊條的上(shàng)遊,在模型的表征通用性上資工(shàng)發力。
第一(yī)階段,「基礎能(néng)力」的培養需要經過一(yī)個(林風gè)跨模态的預訓練過程,通過大量的圖像-文本對進行通用模型的預訓練,讓其學到鄉子廣泛的基礎常識,為(wèi)後續學習階段打好(hǎo)(hǎo)基礎;
第二階段,培養「專家能(néng)力」,即多個(gè)專家模型各自學習某輛快一(yī)領域的專業知識,讓每一(yī)個(gè)專家模型高度掌握該領域森視技能(néng),成為(wèi)專家;
第三階段,培養「通用能(néng)力」,此時(河高shí)的通才模型繼承了(le)大規模多模态的預訓練短明信息,也(yě)融合了(le)多樣的感知任務(wù)的信息,「書內拍生(shēng)」在各個(gè)技能(néng)領拿知域都展現(xiàn)優異水平,并具備快(kuài)速學會新玩到(xīn)技能(néng)的能(néng)力。
通過前三個(gè)模塊階梯式的學習,「書生(shēng)」具吧湖備了(le)高度的通用性和良好(hǎo)(hǎo)的泛化說鐘(huà)能(néng)力。
當進化(huà)到位于下(xià)遊的第四階段時秒吧(shí),系統将具備「遷移能(néng)力」,此時(shí)「書生(樹們shēng)」學到的通用知識可以應用在某一(yī)個(gè)來月特定領域的不同任務(wù)中。
從實驗結果來(lái)看,相較于當前最強 CV 模型 CLIP,「書生(sh輛兵ēng)」在準确率和數據使用效率上(shàng)均取得了(le拿謝)大幅提升。
具體(tǐ)來(lái)講,在分(fēn)類識别、目标檢測、語討又義分(fēn)割及深度估計四大任務(wù) 26 個(gè)女訊數據集上(shàng),「書生(shēng)」的平均錯誤率分(匠吃fēn)别降低(dī)了(le) 40.2%、47.3%、34.員讀8% 和 9.4%。
同時(shí),「書生(shēng)」隻需要1/10 的下(xià)遊數據,遠議就(jiù)幹翻了(le) CLIP 基于完整下(xià)遊數據的準确度。
書生(shēng)不是「書呆子(zǐ)」
光學不去練,不會用,還是沒啥本事(shì)。
要明确的是,商(shāng)湯的「書生(shēng)」可不是一(yī)個(湖外gè)書呆子(zǐ)。
怎麼講?
首先,它能(néng)夠舉一(yī)反三。
舉個(gè)形象點的栗子(zǐ),比如(rú)讓「書生(鄉林shēng)」識别花的種類,每一(yī)類隻需要提供 2 個(gè)窗說訓練樣本,識别準确率高達 99.7%。
這(zhè)個(gè)花卉數據集由 102 種英國常見的花組成,每個(朋低gè)類别有 40 至 258 張圖片。窗小其中包含有很大的比例、姿勢和光線變化(huà)。
它不僅有觸類旁通的能(néng)力,而且在自動駕駛、智器銀慧城市(shì)、智慧醫(yī)療等場(chǎng)景低熱均已經實現(xiàn)了(le)落地應用。
就(jiù)拿自動駕駛來(lái)說(shuō)吧(ba船兒),要想不成為(wèi)馬路(lù)殺手,一(yī)套 北坐CV 模型需要能(néng)夠識别各種物體(tǐ),包括交通标志,數林車道線識别等,還得預測出與障礙物的距離,行人(ré書煙n)檢測等等。
對于這(zhè)些(xiē)任務(wù)場暗,單一(yī)視(shì)覺模型是無法勝任的。
而「書生(shēng)」技術體(tǐ)系睡雜從數據、模型等各個(gè)方面出發,對自物中動駕駛感知模型,尤其是長尾類别和場(chǎ相哥ng)景非常友好(hǎo)(hǎo),在小樣本甚至是零樣本的應用場(ch能去ǎng)景下(xià)表現(xiàn)明顯優于既往模型。
其實,在實際場(chǎng)景應用中,數據都存在長尾分(fēn)布的現(x在慢iàn)象,少量類别占據大多數樣本,而大量類别僅有少量樣本。
在智慧城市(shì)中也(yě)是同樣的通很道理(lǐ),面對很多長尾、碎片化(huà)場(c場司hǎng)景就(jiù)不得不祭出通才「書生(shē你到ng)」了(le)。
生(shēng)活中,我們經常會見到城市(shì)街道上(shàn關算g)的井蓋頻頻丢失的問題。
如(rú)果 CV 模型沒有關(guān)注城市(shì頻學)治理(lǐ)的長尾問題,偷井蓋問題很難得到解決。況且林數,井蓋也(yě)有很多種樣子(zǐ)。
但(dàn)是,這(zhè)對于通才「書生(s刀國hēng)」來(lái)講都是小 case。隻要謝雪每一(yī)類提供 2 個(gè)訓練樣本,問題答場不就(jiù)搞定了(le)嗎(ma)。
因為(wèi)它已經在訓練階段被「喂下(xià)」開爸大量數據成為(wèi)通才,隻需要看到少間玩量樣本,就(jiù)具備了(le)舉一(yī)反三的能(néng)這坐力。
有了(le)「書生(shēng)」的加持,不僅可以預防井蓋丢失樹拍,還能(néng)實現(xiàn)事(shì)後追責的器腦精細化(huà)管理(lǐ)。
此外,智慧制造、智慧醫(yī)療等應用中還報器會存在很多類似的長尾場(chǎng)景,而通用視(shì)門相覺「書生(shēng)」的推出能(néng)夠多少讓業界以更低(dī)的成本獲得擁有處理(lǐ)多種下(xià)遊任務(wù)能這關(néng)力的 AI 模型。
并以其強大的泛化(huà)能(néng)力支輛車撐實際場(chǎng)景中大量小數據、零數據等人也樣本缺失的細分(fēn)和長尾場(chǎng)景需求間黑。
書生(shēng)(INTERN)技術體(tǐ)系可以讓 數路AI 模型處理(lǐ)多樣化(huà)的視(shì)覺任務(w一短ù)
這(zhè)些(xiē)暴力計算(suàn)下(xià歌話)的 AI 場(chǎng)景需要強大的一船算(suàn)力作(zuò)為(wèi)支撐,這(zhè)時城喝(shí)候 SenseCore 商(shāng)湯 A風鄉I 大裝置正好(hǎo)(hǎo)就(jiù)派上討科(shàng)用場(chǎng)了(le)。
AI 大裝置正是通過超強的算(suàn)力基礎,為(wèi)人(rén)工科子智能(néng)的研發、創新(xīn)和應用提供源動力跳白。
正如(rú)商(shāng)湯科技研究院院長王農樹曉剛所提到的那樣:
「書生(shēng)」通用視(shì)覺技術體(tǐ)系是商(shāng)湯要北在通用智能(néng)技術發展趨勢下(xià)前瞻性布局的一(y知爸ī)次嘗試,也(yě)是 SenseCore 商(shāng)湯 AI 大裝來玩置背景下(xià)的一(yī)次新(xīn銀暗)技術路(lù)徑探索。 「書生(shēng)」承載了(le)讓請習人(rén)工智能(néng)參與處理(lǐ)多種複雜任務(wù)紅們、适用多種場(chǎng)景和模态、有效進行小數據和非監督票弟學習并最終具備接近人(rén)的通用視(shì)覺智能(néng)的期盼。志會 希望這(zhè)套技術體(tǐ)系能(néng)夠幫助業界更好(hǎo)(h影朋ǎo)地探索和應用通用視(shì)覺 AI 技少拿術,促進 AI 規模化(huà)落地。
不過,想要成為(wèi)一(yī)個(gè)優秀的通用視(sh風音ì)覺模型,「書生(shēng)」還有三個(gè)挑戰需要解決歌關:
1. 模型優化(huà)速度的提升
對于一(yī)個(gè)好(hǎo)(hǎo)的事黃預訓練模型,往往需要更大更好(hǎo)(hǎo)的網西黑絡結構,以及大規模的數據,這(zhè)就(jiù)會導緻幾天甚至山筆幾周的模型訓練時(shí)間(jiān),說麗如(rú)何在保持表征能(néng)力的同時(shí),大幅度加暗道速模型的訓練過程,具有非常重大的現(xiàn)實意義。
2. 更大範圍内的通用能(néng)力仍待友土探索
書生(shēng)模型,可以很好(hǎo)(hǎo)地在常見的視(shì)覺綠個任務(wù)裡達到通用的效果。在跨度較大的領域,購們比如(rú)超分(fēn)等底層視(shì)覺任務(wù),些拿書生(shēng)模型還有很大的進步空間(jiān)。
3. 大模型到小模型的轉變
将大模型的表征能(néng)力無損失的遷移到可部署到終端設備上(shàng從光)的小模型,對于預訓練模型的推廣有非常大的價值。
One More Thing
要問這(zhè)個(gè)模型好(hǎo)(h美費ǎo)不好(hǎo)(hǎo)做?
研發急得都直「爬樹」!
為(wèi)了(le)測試模型在 zero-shot 下(xià)的內月精度如(rú)何,書生(shēng)研發團船刀隊的模型科學家都親自上(shàng)演了(le)「爬樹」特别節答謝目。通過創造特殊場(chǎng)景,以随機生(shēng)成家那圖片,去考驗模型能(néng)力。
(研究需要,大家請勿模仿^_^)
「書生(shēng)」看到後,歪嘴一(yī)笑(xiào)。
這(zhè)不就(jiù)是「爬樹」嘛,置信度 0.96 給你腦離。
而且有趣的是,「書生(shēng)」模型還注意器到到了(le)樹上(shàng)人(rén)眼就區都很容易忽略的繩子(zǐ)。
可能(néng),這(zhè)就(jiù)是「明察秋毫」吧(ba)!
未來(lái),「書生(shēng)」要做的一(yī)件事(shì)分關情:
基于「書生(shēng)」的通用視(shì)覺開源司他平台 OpenGVLab 也(yě)将在今年年初章會正式開源,産學研一(yī)道共創通用 AI 生短科(shēng)态!
而即将開源的 OpenGVLab,正是基于「書生(司樹shēng)」的通用視(shì)覺開源平台。
其中的網絡結構除了(le)商(shāng)湯自研的 Me公車taNet,還包含大家普遍使用的 ResNet, Mobile秒計Net, ViT, EfficientNet 等,以滿足不同場(chǎng)景雨公的應用,賦能(néng)計算(suàn)機視(shì)覺。
然而,「書生(shēng)」的布局不止于此。
OpenGVLab 将與上(shàng)海人(rén)拍靜工智能(néng)實驗室此前發布的 OpenMML子短ab、OpenDILab 一(yī)道,共同去白構築開源體(tǐ)系 OpenXLab,持續推進通用人信短(rén)工智能(néng)的技術突破和生(shēng)态構建。藍低
「書生(shēng)」研發團隊的一(yī)位成員(y河員uán)調侃道,「随着書生(shēng)模型精度訊冷越來(lái)越高,我們的辦公樓層越來(lái)越高。」
開源的「書生(shēng)」,前景廣闊。