展會(huì )信息港展會(huì )大全

AI自給自足!用合成數據做訓練,效果比真實(shí)數據還好丨ICLR 2023
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-02-22 10:14:46   瀏覽:6376次  

導讀:Brilliant 投稿 量子位 | 公眾號 QbitAI AI生成的圖像太逼真,為什么不能拿來(lái)訓練AI呢? 可別說(shuō),現在還真有人這么做了。 來(lái)自香港大學(xué)、牛津大學(xué)和字節跳動(dòng)的幾名研究人員,決定嘗試一下能否使用高質(zhì)量AI合成圖片,來(lái)提升 圖像分類(lèi)模型 的性能。 為了避免AI...

Brilliant 投稿

量子位 | 公眾號 QbitAI

AI生成的圖像太逼真,為什么不能拿來(lái)訓練AI呢?

可別說(shuō),現在還真有人這么做了。

來(lái)自香港大學(xué)、牛津大學(xué)和字節跳動(dòng)的幾名研究人員,決定嘗試一下能否使用高質(zhì)量AI合成圖片,來(lái)提升圖像分類(lèi)模型的性能。

為了避免AI合成的圖像過(guò)于單一、或是質(zhì)量不穩定,他們還提出了幾類(lèi)提升數據多樣性和可靠性的方法,幫助AI合成更好的數據集(來(lái)喂給AI的同類(lèi)doge)。

結果他們發(fā)現,不僅效果不錯,有的AI在訓練后,效果竟然比用真實(shí)數據訓練還要好!

目前這篇論文已經(jīng)被ICLR 2023收錄。

把AI生成的數據喂給AI

作者們分別從零樣本(zero-shot)、少樣本(few-shot)圖像分類(lèi)、模型預訓練(pre-training)與遷移學(xué)習三個(gè)進(jìn)了探討,并給出了提升數據多樣性與可靠性的方法。

零樣本圖像分類(lèi)

零樣本(Zero-shot)圖像分類(lèi)任務(wù),指沒(méi)有任何標類(lèi)別的訓練圖,只有對標類(lèi)別的描述。

作者們先是提出了一種名為語(yǔ)言增強(Language Enhancement,LE)的法,用于增強合成數據多樣性。

具體來(lái)說(shuō),這種方法會(huì )給標簽“擴句”,如果原標簽是簡(jiǎn)單的“飛機”,那么經(jīng)過(guò)“擴句”后的提示詞就會(huì )變成“一架盤(pán)旋在海灘和城市上空的白色飛機”。

隨后,還采用了一種叫做CLIP過(guò)濾器(CLIP Filter)的法確保合成數據的可靠性,即過(guò)濾掉合成質(zhì)量不行的圖片,確保AI數據質(zhì)量過(guò)硬。

在17個(gè)數據集上,相此前效果最好的CLIP模型,相關(guān)模型均獲得了顯著(zhù)提升(4.31%/2.90%),展示了合成數據的有效性。

少樣本圖像分類(lèi)

少樣本圖像(Few-shot)分類(lèi)任務(wù),通常僅有極少數量(1~16張)的標類(lèi)別圖,與零樣本任務(wù)的區別是增加了類(lèi)別與任務(wù)特定領(lǐng)域信息。

因此,作者們決定將域內數據(in-domain)的知識于圖像成,即將少量的標類(lèi)別圖于噪聲疊加的初始狀態(tài)(Real Guidance),進(jìn)步發(fā)揮成模型的能,從而進(jìn)步提升性能。

預訓練與遷移學(xué)習

模型預訓練(pre-training)任務(wù),即將模型在量數據上進(jìn)訓練,將訓練后的模型作為“起始點(diǎn)”,來(lái)幫助提升下游任務(wù)的性能。

作者們利合成數據,對模型進(jìn)了預訓練,并對數據量、數據多樣性程度、預訓練模型結構和預訓練法進(jìn)了實(shí)驗研究。

最終發(fā)現:

合成數據進(jìn)預訓練。已經(jīng)可以達到甚超越真實(shí)數據預訓練的效果。

更的數據量和數據多樣性的合成數據,可以獲得更好的預訓練效果。

從模型結構和預訓練法來(lái)看,ViT-based模型(相比convolutional-based模型)、監督法(相比有監督法)會(huì )更適合合成數據下的預訓練。

論文認為,利成模型產(chǎn)的合成數據來(lái)幫助圖像分類(lèi)任務(wù)是可行的,不過(guò)也存在定的局限性。

例如,如何處理特定任務(wù)的domain gap和數據多樣性之間的trade-off,以及如何更有效地利潛在窮量的合成圖于預訓練,都是需要進(jìn)一步去解決的問(wèn)題。

作者介紹

一作何睿飛,香港大學(xué)在讀博士生@CVMI Lab,指導老師為齊曉娟老師,本科畢業(yè)于浙江大學(xué)竺可楨學(xué)院,研究方向是data-efficient learning, vision-language model, knowledge distillation, semi/self-supervised learning。CVMI Lab 正在招收計算機視覺(jué)與深度學(xué)習方向的博士生,感興趣的伙伴可以直接email老師!

對于將AI合成圖像用于預訓練模型這件事,你還能想到更高效的方法嗎?

歡迎感興趣的小伙伴一起討論~

贊助本站

人工智能實(shí)驗室
相關(guān)內容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗室 版權所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責聲明 | 隱私條款 | 工作機會(huì ) | 展會(huì )港