67194熟妇人妻欧美日韩,韩国三级做爰高潮hd电影,2021av天堂网手机版,99视频国产精品免费观看,四虎亚洲精品成人a在线观看

阿里云PAI大模型評測最佳實踐

   2024-06-19 5271
核心提示:本文為PAI大模型評測最佳實踐,旨在指引AI開發(fā)人員使用PAI平臺進行大模型評測。借助本最佳實踐,您可以輕松構(gòu)建出既能反映模型真實性能,又能滿足行業(yè)特定需求的評測過程,助力您在人工智能賽道上取得更好的成績。
 作者:施晨、之用、南茵、求伯、一耘、臨在

背景信息

內(nèi)容簡介

在大模型時代,隨著模型效果的顯著提升,模型評測的重要性日益凸顯??茖W、高效的模型評測,不僅能幫助開發(fā)者有效地衡量和對比不同模型的性能,更能指導他們進行精準地模型選擇和優(yōu)化,加速AI創(chuàng)新和應(yīng)用落地。因此,建立一套平臺化的大模型評測最佳實踐愈發(fā)重要。

本文為PAI大模型評測最佳實踐,旨在指引AI開發(fā)人員使用PAI平臺進行大模型評測。借助本最佳實踐,您可以輕松構(gòu)建出既能反映模型真實性能,又能滿足行業(yè)特定需求的評測過程,助力您在人工智能賽道上取得更好的成績。最佳實踐包括如下內(nèi)容:

•  如何準備和選擇評測數(shù)據(jù)集

•  如何選擇適合業(yè)務(wù)的開源或微調(diào)后模型

•  如何創(chuàng)建評測任務(wù)并選擇合適的評價指標

•  如何在單任務(wù)或多任務(wù)場景下解讀評測結(jié)果

平臺亮點

PAI大模型評測平臺,適合您針對不同的大模型評測場景,進行模型效果對比。例如:

• 不同基礎(chǔ)模型對比:Qwen2-7B-Instruct vs. Baichuan2-7B-Chat

• 同一模型不同微調(diào)版本對比:Qwen2-7B-Instruct 在私有領(lǐng)域數(shù)據(jù)下訓練不同 epoch 版本效果對比

• 同一模型不同量化版本對比:Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8

考慮到不同開發(fā)群體的特定需求,我們將以企業(yè)開發(fā)者算法研究人員兩個典型群體為例,探討如何結(jié)合常用的公開數(shù)據(jù)集(如MMLU、C-eval等)與企業(yè)的自定義數(shù)據(jù)集,實現(xiàn)更全面準確并具有針對性的模型評測,查找適合您業(yè)務(wù)需求的大模型。最佳實踐的亮點如下:

• 端到端完整評測鏈路,無需代碼開發(fā),支持主流開源大模型,與大模型微調(diào)后的一鍵評測;

• 支持用戶自定義數(shù)據(jù)集上傳,內(nèi)置10+通用NLP評測指標,一覽式結(jié)果展示,無需再開發(fā)評測腳本;

• 支持多個領(lǐng)域的常用公開數(shù)據(jù)集評測,完整還原官方評測方法,雷達圖全景展示,省去逐個下載評測集和熟悉評測流程的繁雜;

• 支持多模型多任務(wù)同時評測,評測結(jié)果圖表式對比展示,輔以單條評測結(jié)果詳情,方便全方位比較分析;

• 評測過程公開透明,結(jié)果可復現(xiàn)。評測代碼開源在與ModelScope共建的開源代碼庫eval-scope中,方便細節(jié)查看與復現(xiàn):

https://github.com/modelscope/eval-scope

前提條件

• 已開通PAI并創(chuàng)建了默認工作空間。具體操作,請參見開通PAI并創(chuàng)建默認工作空間

• 如果選擇自定義數(shù)據(jù)集評測,需要創(chuàng)建OSS Bucket存儲空間,用來存放數(shù)據(jù)集文件。具體操作,請參見控制臺創(chuàng)建存儲空間。

使用費用

• PAI大模型評測依托于PAI-快速開始產(chǎn)品??焖匍_始是PAI產(chǎn)品組件,集成了眾多AI開源社區(qū)中優(yōu)質(zhì)的預訓練模型,并且基于開源模型支持零代碼實現(xiàn)從訓練到部署再到推理的全部過程,給您帶來更快、更高效、更便捷的AI應(yīng)用體驗。

• 快速開始本身不收費,但使用快速開始進行模型評測時,可能產(chǎn)生DLC評測任務(wù)費用,計費詳情請參見DLC計費說明。

• 如果選擇自定義數(shù)據(jù)集評測,使用OSS存儲,會產(chǎn)生相關(guān)費用,計費詳情請參見OSS計費概述。

場景一:面向企業(yè)開發(fā)者的自定義數(shù)據(jù)集評測

企業(yè)通常會積累豐富的私有領(lǐng)域數(shù)據(jù)。如何充分利用好這部分數(shù)據(jù),是企業(yè)使用大模型進行算法優(yōu)化的關(guān)鍵。因此,企業(yè)開發(fā)者在評測開源微調(diào)后的大模型時,往往會基于私有領(lǐng)域下積累的自定義數(shù)據(jù)集,以便于更好地了解大模型在私有領(lǐng)域的效果。

對于自定義數(shù)據(jù)集評測,我們使用NLP領(lǐng)域標準的文本匹配方式,計算模型輸出結(jié)果和真實結(jié)果的匹配度,值越大,模型越好。使用該評測方式,基于自己場景的獨特數(shù)據(jù),可以評測所選模型是否適合自己的場景。

以下將重點展示使用過程中的一些關(guān)鍵點,更詳細的操作細節(jié),請參見模型評測產(chǎn)品文檔。

1. 準備自定義評測集

1.1. 自定義評測集格式

       1. 基于自定義數(shù)據(jù)集進行評測,需要提供JSONL格式的評測集文件

o 文件格式:使用question標識問題列,answer標識答案列。

o 文件示例:llmuses_general_qa_test.jsonl

9.jpg

2. 符合格式要求的評測集,可自行上傳至OSS,并創(chuàng)建自定義數(shù)據(jù)集,詳情參見上傳OSS文件創(chuàng)建及管理數(shù)據(jù)集。

1.2. 創(chuàng)建自定義評測集

1. 登錄PAI控制臺。

2. 在左側(cè)導航欄選擇AI資產(chǎn)管理>數(shù)據(jù)集,進入數(shù)據(jù)集頁面

3. 單擊創(chuàng)建數(shù)據(jù)集

4. 填寫創(chuàng)建數(shù)據(jù)集相關(guān)表單,從OSS中選擇您的自定義評測集文件

2. 選擇適合業(yè)務(wù)的模型

2.1.  查找開源模型

1. 在PAI控制臺左側(cè)導航欄選擇快速開始,進入快速開始頁面

2. 單擊快速開始提供的模型分類信息,直接進入到模型列表中,根據(jù)模型描述信息進行查看。

 

3. 單擊進入模型詳情頁后,對于可評測的模型,會展示評測按鈕。

a. 支持模型類型:當前模型評測支持HuggingFace所有AutoModelForCausalLM類型的模型

2.2. 使用微調(diào)后的模型

1. 使用快速開始進行模型微調(diào),詳細步驟請參見模型部署及訓練

2. 微調(diào)完成后,在快速開始>任務(wù)管理>訓練任務(wù)中,單擊訓練好的任務(wù)名稱,進入任務(wù)詳情頁后,對于可評測的模型,右上角會展示評測按鈕。

 

 

3. 創(chuàng)建評測任務(wù)

1. 在模型詳情頁右上角單擊評測,創(chuàng)建評測任務(wù)

2. 在新建評測任務(wù)頁面,配置以下關(guān)鍵參數(shù)。

111.jpg

3. 任務(wù)創(chuàng)建成功后,將自動分配資源,并開始運行。

4. 運行完成后,任務(wù)狀態(tài)顯示為已成功。

4. 查看評測結(jié)果

4.1. 評測任務(wù)列表

1. 在快速開始頁面,單擊搜索框左側(cè)的任務(wù)管理。

2. 在任務(wù)管理頁面,選擇模型評測標簽頁。

4.2. 單任務(wù)結(jié)果

1. 在模型評測列表頁,單擊評測任務(wù)的查看報告選項,即可進入評測任務(wù)詳情頁

2. 評測報告如下圖所示,選擇自定義數(shù)據(jù)集評測結(jié)果,將在雷達圖展示該模型在ROUGE和BLEU系列指標上的得分。此外還會展示評測文件每條數(shù)據(jù)的評測詳情。

 

222.jpg

• rouge-n類指標計算N-gram(連續(xù)的N個詞)的重疊度,其中rouge-1和rouge-2是最常用的,分別對應(yīng)unigram和bigram,rouge-l 指標基于最長公共子序列(LCS)。

• bleu (Bilingual evaluation Understudy) 是另一種流行的評估機器翻譯質(zhì)量的指標,它通過測量機器翻譯輸出與一組參考翻譯之間的N-gram重疊度來評分。其中bleu-n指標計算n-gram的匹配度。

 

 

3. 最終評測結(jié)果會保存到您指定的OSS路徑中

4.3. 多任務(wù)對比

1. 當需要對比多個模型的評測結(jié)果時,可以將它們聚合在一個頁面上展示,以便于比較效果。

2. 具體操作為在模型評測任務(wù)列表頁,左側(cè)選擇想要對比的模型評測任務(wù),右上角單擊對比,進入對比頁面。

3. 自定義數(shù)據(jù)集評測對比結(jié)果

 

 


場景二:面向算法研究人員的公開數(shù)據(jù)集評測

算法研究通常建立在公開數(shù)據(jù)集上。研究人員在選擇開源模型,或?qū)δP瓦M行微調(diào)后,都會參考其在權(quán)威公開數(shù)據(jù)集上的評測效果。然而,大模型時代的公開數(shù)據(jù)集種類繁多,研究人員需要花費大量時間調(diào)研選擇適合自己領(lǐng)域的公開數(shù)據(jù)集,并熟悉每個數(shù)據(jù)集的評測流程。為方便算法研究人員,PAI接入了多個領(lǐng)域的公開數(shù)據(jù)集,并完整還原了各個數(shù)據(jù)集官方指定的評測metrics,以便獲取最準確的評測效果反饋,助力更高效的大模型研究。

在公開數(shù)據(jù)集評測中,我們通過對開源的評測數(shù)據(jù)集按領(lǐng)域分類,對大模型進行綜合能力評估,例如數(shù)學能力、知識能力、推理能力等,值越大,模型越好,這種評測方式也是大模型領(lǐng)域最常見的評測方式。

以下將重點展示使用過程中的一些關(guān)鍵點,更詳細的操作細節(jié),請參見模型評測產(chǎn)品文檔。

1. 支持的公開數(shù)據(jù)集

目前PAI維護的公開數(shù)據(jù)集包括MMLU、TriviaQA、HellaSwag、GSM8K、C-eval、CMMLU、TruthfulQA,其他公開數(shù)據(jù)集陸續(xù)接中。

 

555.jpg

 

      2. 選擇適合的模型

      2.1.  查找開源模型

1. 在PAI控制臺左側(cè)導航欄選擇快速開始,進入快速開始頁面

單擊快速開始提供的模型分類信息,直接進入到模型列表中,根據(jù)模型描述信息進行查看。

 


3. 單擊進入模型詳情頁后,對于可評測的模型,會展示評測按鈕。

a. 支持模型類型:當前模型評測支持HuggingFace所有AutoModelForCausalLM類型的模型

2.2. 使用微調(diào)后的模型

1. 使用快速開始進行模型微調(diào),詳細步驟請參見模型部署及訓練

2. 微調(diào)完成后,在快速開始>任務(wù)管理>訓練任務(wù)中,單擊訓練好的任務(wù)名稱,進入任務(wù)詳情頁后,對于可評測的模型,右上角會展示評測按鈕。

 

3. 創(chuàng)建評測任務(wù)

1. 在模型詳情頁右上角單擊評測,創(chuàng)建評測任務(wù)

2. 在新建評測任務(wù)頁面,配置以下關(guān)鍵參數(shù)。本文以MMLU數(shù)據(jù)集為例。

 

7777.jpg

 

3. 任務(wù)創(chuàng)建成功后,將自動分配資源,并開始運行。

4. 運行完成后,任務(wù)狀態(tài)顯示為已成功

4. 查看評測結(jié)果

4.1. 評測任務(wù)列表

1. 在快速開始頁面,單擊搜索框左側(cè)的任務(wù)管理。

2. 在任務(wù)管理頁面,選擇模型評測標簽頁。

4.2. 單任務(wù)結(jié)果

1. 在模型評測列表頁,單擊評測任務(wù)的查看報告選項,即可進入評測任務(wù)詳情頁

2. 評測報告如下圖所示,選擇公開數(shù)據(jù)集評測結(jié)果,將在雷達圖展示該模型在公開數(shù)據(jù)集上的得分。

o 左側(cè)圖片展示了模型在不同領(lǐng)域的得分情況。每個領(lǐng)域可能會有多個與之相關(guān)的數(shù)據(jù)集,對屬于同一領(lǐng)域的數(shù)據(jù)集,我們會把模型在這些數(shù)據(jù)集上的評測得分取均值,作為領(lǐng)域得分。

o 右側(cè)圖片展示模型在各個公開數(shù)據(jù)集的得分情況。每個公開數(shù)據(jù)集的評測范圍詳見該數(shù)據(jù)集官方介紹。

 

 

3. 最終評測結(jié)果會保存到您指定的OSS路徑中

4.3. 多任務(wù)對比

1. 當需要對比多個模型的評測結(jié)果時,可以將它們在聚合在一個頁面上展示,以便于比較效果。

2. 具體操作為在模型評測任務(wù)列表頁,左側(cè)選擇想要對比的模型評測任務(wù),右上角單擊對比,進入對比頁面。

3. 公開數(shù)據(jù)集評測對比結(jié)果

 

 
分享到: 0
收藏 0
 
更多>同類資訊
免責申明
推薦資訊
點擊排行
最新資訊更多>
最新供應(yīng)更多>
網(wǎng)站首頁  |  聯(lián)系方式  |  關(guān)于我們  |  問題解析  |  版權(quán)隱私  |  使用協(xié)議  |  網(wǎng)站地圖  |  排名推廣  |  廣告服務(wù)  |  積分換禮  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  粵ICP備1207862號

中國智能化網(wǎng)(zgznh®)--引領(lǐng)工業(yè)智能化產(chǎn)業(yè)發(fā)展 共享智能化+優(yōu)質(zhì)平臺

版權(quán)所有:深圳市智控網(wǎng)絡(luò)有限公司 學術(shù)指導:深圳市智能化學會

粵ICP備12078626號

深公網(wǎng)安備案證字第 4403101901094 號 | 粵公網(wǎng)安備 44030702001206號