近期,阿里云人工智能平臺PAI的多篇論文在ACL2024上入眩論文成果是阿里云與阿里集團(tuán)安全部、華南理工大學(xué)金連文教授團(tuán)隊、華東師范大學(xué)何曉豐教授團(tuán)隊共同研發(fā)。ACL(國際計算語言學(xué)年會)是人工智能自然語言處理領(lǐng)域的頂級國際會議,聚焦于自然語言處理技術(shù)在各個應(yīng)用場景的學(xué)術(shù)研究。該會議曾推動了預(yù)訓(xùn)練語言模型、文本挖掘、對話系統(tǒng)、機(jī)器翻譯等自然語言處理領(lǐng)域的核心創(chuàng)新,在學(xué)術(shù)和工業(yè)界都有巨大的影響力。此次入選標(biāo)志著阿里云人工智能平臺PAI在自然語言處理和多模態(tài)算法、算法框架能力方面研究獲得了學(xué)術(shù)界認(rèn)可。
論文簡述
PAI-Diffusion中文開源文圖生成模型系列及云上推理服務(wù)
在過去幾年中,Stable Diffusion類文圖生成模型在AIGC領(lǐng)域嶄露頭角。阿里云人工智能PAI團(tuán)隊參考了Stable Diffusion的模型結(jié)構(gòu),結(jié)合中文語言的特點,通過對中文預(yù)訓(xùn)練數(shù)據(jù)的處理和過濾,以及訓(xùn)練過程的優(yōu)化,提出了PAI-Diffusion系列中文文圖生成模型,實現(xiàn)了圖像生成質(zhì)量的大幅提升和風(fēng)格多樣化。在這一工作中,PAI-Diffusion系列一共12個中文模型(包括基礎(chǔ)模型、LoRA、ControlNet等)全部開源,與開發(fā)者一起共同推動AI生成內(nèi)容技術(shù)的發(fā)展,創(chuàng)造出更有創(chuàng)意和影響力的作品。這一工作還包括了兩個PAI-Diffusion模型的推理工具。其中,Chinese SD WebUI是Stable Diffusion WebUI的插件,用于零代碼的方式生成用戶所需的圖像;Diffusers-API通過API調(diào)用的方式,支持支持中文模型的在線部署。詳細(xì)工作介紹參見論文和技術(shù)博客。上述工作也將在ACL 2024會議上進(jìn)行展示。
面向Stable Station的交互式多輪Prompt生成模型DiffChat
基于擴(kuò)散模型的文圖生成模型(例如Stable Diffusion)的效果有時會受到輸入文本即提示詞撰寫的影響。當(dāng)用戶對創(chuàng)作的圖像有特定需求或者希望執(zhí)行特定的內(nèi)容修改時,通常需要進(jìn)行反復(fù)多次的提示詞修改,且每次嘗試的結(jié)果都是不可預(yù)期的。 這造成了不可忽略的時間和計算資源的耗費;谶@一問題,我們提出了DiffChat,這是一個文到文的多輪生成模型,可以根據(jù)用戶的需求指令對原始提示詞進(jìn)行適當(dāng)?shù)男薷,得到新的提示詞來使得文到圖生成模型能夠生成更美觀且符合指令的圖像。整個過程做到了用戶和文圖生成模型的迭代交互,最終完成用戶的創(chuàng)作需求。
該方法首先通過提示詞美化和提示詞工程的方法建立了一個和該任務(wù)高度相關(guān)的數(shù)據(jù)集。 然后,在執(zhí)行有監(jiān)督微調(diào)訓(xùn)練后,為了進(jìn)一步提升模型性能,該方法提出了一種帶有美學(xué)、人類偏好和內(nèi)容完整度反饋的強(qiáng)化學(xué)習(xí)技術(shù)來進(jìn)一步優(yōu)化模型。同時,該方法還提出了動作空間動態(tài)修正和基于內(nèi)容完整度的狀態(tài)價值估計兩項技術(shù)進(jìn)行額外改進(jìn)。實驗結(jié)果表明,該方法顯著優(yōu)于一些具有競爭力的同類方法。
長尾知識對檢索增強(qiáng)大語言模型的作用
檢索增強(qiáng)生成(retrieval-augmented generation,RAG)通過檢索與用戶查詢相關(guān)的文檔,在提升大型語言模型(large language models,LLM)的知識能力方面表現(xiàn)出優(yōu)異的性能。然而,RAG只關(guān)注通過不加區(qū)分地使用檢索到的信息增強(qiáng)查詢來提高LLM的響應(yīng)質(zhì)量,很少關(guān)注LLM真正需要什么類型的知識來更準(zhǔn)確地回答原始查詢。在本文中,我們認(rèn)為長尾知識對RAG是至關(guān)重要的,因為LLM在大規(guī)模的預(yù)訓(xùn)練的時候已經(jīng)記住了通用高頻的世界知識。在此基礎(chǔ)上,提出了一種簡單有效的長尾知識檢測方法。具體地說,本文提出了一種新的基于統(tǒng)計和語義的生成性期望校準(zhǔn)誤差(GECE)度量方法來度量知識的“長尾性”。因此,只有當(dāng)輸入查詢涉及長尾知識時,我們才檢索相關(guān)文檔并將其注入到大模型中。實驗結(jié)果表明,與現(xiàn)有的RAG方法相比,該方法在平均推理時間上實現(xiàn)了4倍以上的加速,在下游任務(wù)上性能得到了一致的提高。
具體來說,pred和ref分別表示生成的文本和模型任務(wù)的標(biāo)準(zhǔn)結(jié)果。M(pred, ref)是模型對應(yīng)的METEOR score度量結(jié)果。平均token概率中的P(ti)表示由LLM產(chǎn)生的第i個token的概率,n是token序列長度。對于分母部分,α是平均詞頻。我們可以看到,長尾實例的α值較小,因此其倒數(shù)將較大。另外,ins是當(dāng)前實例的梯度,E(ins)是整個數(shù)據(jù)集的平均梯度。為了獲得梯度,我們僅通過使用數(shù)據(jù)集微調(diào)LLM來運行前向和后向梯度傳遞。我們可以看到,與數(shù)據(jù)集的平均得分相比,長尾實例具有更小的梯度ins,從而獲得更小的點積E(ins)ins。
面向大語言模型的知識編輯算法DAFNet
近年來,大型語言模型(LLM)雖然取得了令人印象深刻的研究成果,但仍存在幻覺現(xiàn)象,即產(chǎn)生虛假信息。模型編輯是修復(fù)LLMs中事實錯誤的任務(wù);然而,以往的工作大多將其視為一次性編輯任務(wù),很少關(guān)注LLM產(chǎn)生的不斷出現(xiàn)的錯誤。我們解決了順序模型編輯(SME)的任務(wù),旨在不斷糾正錯誤。設(shè)計了一種動態(tài)輔助融合網(wǎng)絡(luò)(DAFNet),以增強(qiáng)整個序列中事實知識之間的語義交互,防止多知識三元組編輯過程中的災(zāi)難性遺忘。
具體來說,(1) 對于關(guān)系三元組內(nèi)的語義融合,我們在LLMs中將編輯內(nèi)的注意流聚合為具有標(biāo)記級粒度的自回歸自注意力。我們進(jìn)一步利用多層對角互編輯注意力流更新整個序列級粒度的加權(quán)表示。(2) 考慮到序列編輯需要輔助參數(shù)來存儲知識,我們構(gòu)造了一個新的數(shù)據(jù)集DAFSet,實現(xiàn)了最近性、流行性、長尾性和魯棒性,增強(qiáng)了序列編輯的通用性。實驗結(jié)果表明,DAFNet在單輪編輯和順序編輯中均顯著優(yōu)于強(qiáng)基線。DAFSet的使用還不斷提高了其他基于輔助網(wǎng)絡(luò)的方法在各種場景中的性能。
產(chǎn)品化服務(wù)
上述科研成果也在人工智能平臺PAI的各個模塊進(jìn)行了深度的集成和整合,持續(xù)為PAI客戶提供AI模型訓(xùn)練和推理相關(guān)服務(wù)。其中,Chinese SD WebUI作為Stable Diffusion WebUI的插件與PAI-EAS無縫兼容,支持5分鐘內(nèi)一鍵在PAI-EAS拉起中文AIGC應(yīng)用。Diffusers-API與PAI-EAS進(jìn)行融合,使客戶更加容易在云上部署各類文圖生成大模型,用于生產(chǎn)環(huán)境的實時調(diào)用。此外,PAI-QuickStart集成了超過50個熱門大語言模型,及其多種訓(xùn)練和推理方式,使客戶更加簡單地微調(diào)和部署大語言模型。在未來,我們也將在PAI平臺上持續(xù)提供業(yè)界領(lǐng)先的算法和模型能力給廣大客戶。
論文匯總
論文名字:PAI-Diffusion: Constructing and Serving a Family of Open Chinese Diffusion Models for Text-to-image Synthesis on the Cloud
論文作者:汪誠愚、段忠杰、劉冰雁、鄒心怡、陳岑、賈奎、黃俊
論文pdf鏈接:https://arxiv.org/abs/2309.05534
論文名字:DiffChat: Learning to Chat with Text-to-Image Synthesis Models for Interactive Image Creation
論文作者:汪嘉鵬、汪誠愚、曹庭鋒、黃竣金連文
論文pdf鏈接:https://arxiv.org/abs/2403.04997
論文名字:On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models
論文作者:李東陽、嚴(yán)俊冰、張濤林、汪誠愚、何曉豐、黃龍濤、薛暉、黃俊
論文pdf鏈接:https://arxiv.org/pdf/2406.16367
論文名字:DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models
論文作者:張濤林、陳頎周、李東陽、汪誠愚、何曉豐、黃龍濤、薛暉、黃俊
論文pdf鏈接:https://arxiv.org/abs/2405.20588
阿里云人工智能平臺PAI長期招聘研究實習(xí)生。團(tuán)隊專注于深度學(xué)習(xí)算法研究與應(yīng)用,重點聚焦大語言模型和多模態(tài)AIGC大模型的應(yīng)用算法研究和應(yīng)用。