展會(huì )信息港展會(huì )大全

阿里云PAI大模型評測最佳實(shí)踐
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-06-20 09:05:58   瀏覽:9848次  

導讀:作者:施晨、之用、南茵、求伯、一耘、臨在 背景信息 內容簡(jiǎn)介 在大模型時(shí)代,隨著(zhù)模型效果的顯著(zhù)提升,模型評測的重要性日益凸顯?茖W(xué)、高效的模型評測,不僅能幫助開(kāi)發(fā)者有效地衡量和對比不同模型的性能,更能指導他們進(jìn)行精準地模型選擇和優(yōu)化,加速AI創(chuàng )...

作者:施晨、之用、南茵、求伯、一耘、臨在

背景信息

內容簡(jiǎn)介

在大模型時(shí)代,隨著(zhù)模型效果的顯著(zhù)提升,模型評測的重要性日益凸顯?茖W(xué)、高效的模型評測,不僅能幫助開(kāi)發(fā)者有效地衡量和對比不同模型的性能,更能指導他們進(jìn)行精準地模型選擇和優(yōu)化,加速AI創(chuàng )新和應用落地。因此,建立一套平臺化的大模型評測最佳實(shí)踐愈發(fā)重要。

本文為PAI大模型評測最佳實(shí)踐,旨在指引AI開(kāi)發(fā)人員使用PAI平臺進(jìn)行大模型評測。借助本最佳實(shí)踐,您可以輕松構建出既能反映模型真實(shí)性能,又能滿(mǎn)足行業(yè)特定需求的評測過(guò)程,助力您在人工智能賽道上取得更好的成績(jì)。最佳實(shí)踐包括如下內容:

如何準備和選擇評測數據集

如何選擇適合業(yè)務(wù)的開(kāi)源或微調后模型

如何創(chuàng )建評測任務(wù)并選擇合適的評價(jià)指標

如何在單任務(wù)或多任務(wù)場(chǎng)景下解讀評測結果

平臺亮點(diǎn)

PAI大模型評測平臺,適合您針對不同的大模型評測場(chǎng)景,進(jìn)行模型效果對比。例如:

不同基礎模型對比:Qwen2-7B-Instructvs.Baichuan2-7B-Chat

同一模型不同微調版本對比:Qwen2-7B-Instruct 在私有領(lǐng)域數據下訓練不同 epoch 版本效果對比

同一模型不同量化版本對比:Qwen2-7B-Instruct-GPTQ-Int4vs.Qwen2-7B-Instruct-GPTQ-Int8

考慮到不同開(kāi)發(fā)群體的特定需求,我們將以企業(yè)開(kāi)發(fā)者算法研究人員兩個(gè)典型群體為例,探討如何結合常用的公開(kāi)數據集(如MMLU、C-Eval等)與企業(yè)的自定義數據集,實(shí)現更全面準確并具有針對性的模型評測,查找適合您業(yè)務(wù)需求的大模型。最佳實(shí)踐的亮點(diǎn)如下:

端到端完整評測鏈路,無(wú)需代碼開(kāi)發(fā),支持主流開(kāi)源大模型,與大模型微調后的一鍵評測;

支持用戶(hù)自定義數據集上傳,內置10+通用NLP評測指標,一覽式結果展示,無(wú)需再開(kāi)發(fā)評測腳本;

支持多個(gè)領(lǐng)域的常用公開(kāi)數據集評測,完整還原官方評測方法,雷達圖全景展示,省去逐個(gè)下載評測集和熟悉評測流程的繁雜;

支持多模型多任務(wù)同時(shí)評測,評測結果圖表式對比展示,輔以單條評測結果詳情,方便全方位比較分析;

評測過(guò)程公開(kāi)透明,結果可復現。評測代碼開(kāi)源在與ModelScope共建的開(kāi)源代碼庫eval-scope中,方便細節查看與復現:

https://github.com/modelscope/eval-scope

前提條件

已開(kāi)通PAI并創(chuàng )建了默認工作空間。具體操作,請參見(jiàn)開(kāi)通PAI并創(chuàng )建默認工作空間。

如果選擇自定義數據集評測,需要創(chuàng )建OSS Bucket存儲空間,用來(lái)存放數據集文件。具體操作,請參見(jiàn)控制臺創(chuàng )建存儲空間。

使用費用

PAI大模型評測依托于PAI-快速開(kāi)始產(chǎn)品?焖匍_(kāi)始是PAI產(chǎn)品組件,集成了眾多AI開(kāi)源社區中優(yōu)質(zhì)的預訓練模型,并且基于開(kāi)源模型支持零代碼實(shí)現從訓練到部署再到推理的全部過(guò)程,給您帶來(lái)更快、更高效、更便捷的AI應用體驗。

快速開(kāi)始本身不收費,但使用快速開(kāi)始進(jìn)行模型評測時(shí),可能產(chǎn)生DLC評測任務(wù)費用,計費詳情請參見(jiàn)DLC計費說(shuō)明。

如果選擇自定義數據集評測,使用OSS存儲,會(huì )產(chǎn)生相關(guān)費用,計費詳情請參見(jiàn)OSS計費概述。

場(chǎng)景一:面向企業(yè)開(kāi)發(fā)者的自定義數據集評測

企業(yè)通常會(huì )積累豐富的私有領(lǐng)域數據。如何充分利用好這部分數據,是企業(yè)使用大模型進(jìn)行算法優(yōu)化的關(guān)鍵。因此,企業(yè)開(kāi)發(fā)者在評測開(kāi)源微調后的大模型時(shí),往往會(huì )基于私有領(lǐng)域下積累的自定義數據集,以便于更好地了解大模型在私有領(lǐng)域的效果。

對于自定義數據集評測,我們使用NLP領(lǐng)域標準的文本匹配方式,計算模型輸出結果和真實(shí)結果的匹配度,值越大,模型越好。使用該評測方式,基于自己場(chǎng)景的獨特數據,可以評測所選模型是否適合自己的場(chǎng)景。

以下將重點(diǎn)展示使用過(guò)程中的一些關(guān)鍵點(diǎn),更詳細的操作細節,請參見(jiàn)模型評測產(chǎn)品文檔。

1. 準備自定義評測集

1.1. 自定義評測集格式

1.基于自定義數據集進(jìn)行評測,需要提供JSONL格式的評測集文件

o文件格式:使用question標識問(wèn)題列,answer標識答案列。

o文件示例:llmuses_general_qa_test.jsonl

阿里云PAI大模型評測最佳實(shí)踐

2.符合格式要求的評測集,可自行上傳至OSS,并創(chuàng )建自定義數據集,詳情參見(jiàn)上傳OSS文件和創(chuàng )建及管理數據集。

1.2. 創(chuàng )建自定義評測集

1.登錄PAI控制臺。

2.在左側導航欄選擇AI資產(chǎn)管理>數據集,進(jìn)入數據集頁(yè)面

3.單擊創(chuàng )建數據集

4.填寫(xiě)創(chuàng )建數據集相關(guān)表單,從OSS中選擇您的自定義評測集文件

2. 選擇適合業(yè)務(wù)的模型2.1. 查找開(kāi)源模型

1.在PAI控制臺左側導航欄選擇快速開(kāi)始,進(jìn)入快速開(kāi)始頁(yè)面

2.單擊快速開(kāi)始提供的模型分類(lèi)信息,直接進(jìn)入到模型列表中,根據模型描述信息進(jìn)行查看。

阿里云PAI大模型評測最佳實(shí)踐

3.單擊進(jìn)入模型詳情頁(yè)后,對于可評測的模型,會(huì )展示評測按鈕。

a.支持模型類(lèi)型:當前模型評測支持HuggingFace所有AutoModelForCausalLM類(lèi)型的模型

2.2. 使用微調后的模型

1.使用快速開(kāi)始進(jìn)行模型微調,詳細步驟請參見(jiàn)模型部署及訓練

2.微調完成后,在快速開(kāi)始>任務(wù)管理>訓練任務(wù)中,單擊訓練好的任務(wù)名稱(chēng),進(jìn)入任務(wù)詳情頁(yè)后,對于可評測的模型,右上角會(huì )展示評測按鈕。

阿里云PAI大模型評測最佳實(shí)踐

3. 創(chuàng )建評測任務(wù)

1.在模型詳情頁(yè)右上角單擊評測,創(chuàng )建評測任務(wù)

2.在新建評測任務(wù)頁(yè)面,配置以下關(guān)鍵參數。

阿里云PAI大模型評測最佳實(shí)踐

3.任務(wù)創(chuàng )建成功后,將自動(dòng)分配資源,并開(kāi)始運行。

4.運行完成后,任務(wù)狀態(tài)顯示為已成功。

4. 查看評測結果4.1. 評測任務(wù)列表

1.在快速開(kāi)始頁(yè)面,單擊搜索框左側的任務(wù)管理。

2.在任務(wù)管理頁(yè)面,選擇模型評測標簽頁(yè)。

4.2. 單任務(wù)結果

1.在模型評測列表頁(yè),單擊評測任務(wù)的查看報告選項,即可進(jìn)入評測任務(wù)詳情頁(yè)

2.評測報告如下圖所示,選擇自定義數據集評測結果,將在雷達圖展示該模型在ROUGE和BLEU系列指標上的得分。此外還會(huì )展示評測文件每條數據的評測詳情。

阿里云PAI大模型評測最佳實(shí)踐

rouge-n類(lèi)指標計算N-gram(連續的N個(gè)詞)的重疊度,其中rouge-1和rouge-2是最常用的,分別對應unigram和bigram,rouge-l 指標基于最長(cháng)公共子序列(LCS)。

bleu (Bilingual Evaluation Understudy) 是另一種流行的評估機器翻譯質(zhì)量的指標,它通過(guò)測量機器翻譯輸出與一組參考翻譯之間的N-gram重疊度來(lái)評分。其中bleu-n指標計算n-gram的匹配度。

阿里云PAI大模型評測最佳實(shí)踐

3.最終評測結果會(huì )保存到您指定的OSS路徑中

4.3. 多任務(wù)對比

1.當需要對比多個(gè)模型的評測結果時(shí),可以將它們聚合在一個(gè)頁(yè)面上展示,以便于比較效果。

2.具體操作為在模型評測任務(wù)列表頁(yè),左側選擇想要對比的模型評測任務(wù),右上角單擊對比,進(jìn)入對比頁(yè)面。

3.自定義數據集評測對比結果

阿里云PAI大模型評測最佳實(shí)踐

場(chǎng)景二:面向算法研究人員的公開(kāi)數據集評測

算法研究通常建立在公開(kāi)數據集上。研究人員在選擇開(kāi)源模型,或對模型進(jìn)行微調后,都會(huì )參考其在權威公開(kāi)數據集上的評測效果。然而,大模型時(shí)代的公開(kāi)數據集種類(lèi)繁多,研究人員需要花費大量時(shí)間調研選擇適合自己領(lǐng)域的公開(kāi)數據集,并熟悉每個(gè)數據集的評測流程。為方便算法研究人員,PAI接入了多個(gè)領(lǐng)域的公開(kāi)數據集,并完整還原了各個(gè)數據集官方指定的評測metrics,以便獲取最準確的評測效果反饋,助力更高效的大模型研究。

在公開(kāi)數據集評測中,我們通過(guò)對開(kāi)源的評測數據集按領(lǐng)域分類(lèi),對大模型進(jìn)行綜合能力評估,例如數學(xué)能力、知識能力、推理能力等,值越大,模型越好,這種評測方式也是大模型領(lǐng)域最常見(jiàn)的評測方式。

以下將重點(diǎn)展示使用過(guò)程中的一些關(guān)鍵點(diǎn),更詳細的操作細節,請參見(jiàn)模型評測產(chǎn)品文檔。

1. 支持的公開(kāi)數據集

目前PAI維護的公開(kāi)數據集包括MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、CMMLU、TruthfulQA,其他公開(kāi)數據集陸續接中。

阿里云PAI大模型評測最佳實(shí)踐

2. 選擇適合的模型2.1. 查找開(kāi)源模型

1.在PAI控制臺左側導航欄選擇快速開(kāi)始,進(jìn)入快速開(kāi)始頁(yè)面

單擊快速開(kāi)始提供的模型分類(lèi)信息,直接進(jìn)入到模型列表中,根據模型描述信息進(jìn)行查看。

阿里云PAI大模型評測最佳實(shí)踐

3.單擊進(jìn)入模型詳情頁(yè)后,對于可評測的模型,會(huì )展示評測按鈕。

a.支持模型類(lèi)型:當前模型評測支持HuggingFace所有AutoModelForCausalLM類(lèi)型的模型

2.2. 使用微調后的模型

1.使用快速開(kāi)始進(jìn)行模型微調,詳細步驟請參見(jiàn)模型部署及訓練

2.微調完成后,在快速開(kāi)始>任務(wù)管理>訓練任務(wù)中,單擊訓練好的任務(wù)名稱(chēng),進(jìn)入任務(wù)詳情頁(yè)后,對于可評測的模型,右上角會(huì )展示評測按鈕。

阿里云PAI大模型評測最佳實(shí)踐

3. 創(chuàng )建評測任務(wù)

1.在模型詳情頁(yè)右上角單擊評測,創(chuàng )建評測任務(wù)

2.在新建評測任務(wù)頁(yè)面,配置以下關(guān)鍵參數。本文以MMLU數據集為例。

阿里云PAI大模型評測最佳實(shí)踐

3.任務(wù)創(chuàng )建成功后,將自動(dòng)分配資源,并開(kāi)始運行。

4.運行完成后,任務(wù)狀態(tài)顯示為已成功。

4. 查看評測結果

4.1. 評測任務(wù)列表

1.在快速開(kāi)始頁(yè)面,單擊搜索框左側的任務(wù)管理。

2.在任務(wù)管理頁(yè)面,選擇模型評測標簽頁(yè)。

4.2. 單任務(wù)結果

1.在模型評測列表頁(yè),單擊評測任務(wù)的查看報告選項,即可進(jìn)入評測任務(wù)詳情頁(yè)

2.評測報告如下圖所示,選擇公開(kāi)數據集評測結果,將在雷達圖展示該模型在公開(kāi)數據集上的得分。

o左側圖片展示了模型在不同領(lǐng)域的得分情況。每個(gè)領(lǐng)域可能會(huì )有多個(gè)與之相關(guān)的數據集,對屬于同一領(lǐng)域的數據集,我們會(huì )把模型在這些數據集上的評測得分取均值,作為領(lǐng)域得分。

o右側圖片展示模型在各個(gè)公開(kāi)數據集的得分情況。每個(gè)公開(kāi)數據集的評測范圍詳見(jiàn)該數據集官方介紹。

阿里云PAI大模型評測最佳實(shí)踐

3.最終評測結果會(huì )保存到您指定的OSS路徑中

4.3. 多任務(wù)對比

1.當需要對比多個(gè)模型的評測結果時(shí),可以將它們在聚合在一個(gè)頁(yè)面上展示,以便于比較效果。

2.具體操作為在模型評測任務(wù)列表頁(yè),左側選擇想要對比的模型評測任務(wù),右上角單擊對比,進(jìn)入對比頁(yè)面。

3.公開(kāi)數據集評測對比結果

阿里云PAI大模型評測最佳實(shí)踐

贊助本站

人工智能實(shí)驗室
相關(guān)內容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗室 版權所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責聲明 | 隱私條款 | 工作機會(huì ) | 展會(huì )港