模型評估
AI 工程師通常需要評估具有不同參數或提示的模型,以便與實際情況進行比較,並從比較中計算評估器值。AI 工具組讓您只需上傳提示資料集,即可輕鬆執行評估。
開始評估工作
-
在 AI 工具組檢視中,選取 [工具] > [評估] 以開啟 [評估] 檢視
-
選取 [建立評估],然後提供下列資訊
-
評估工作名稱: 預設名稱或您可以指定的名稱
-
評估器: 目前只能選取內建評估器。
-
判斷模型: 可以從清單中選取一個模型作為判斷模型,以便為某些評估器進行評估。
-
資料集: 選取範例資料集以供學習之用,或匯入具有
query
、response
、ground truth
欄位的 JSONL 檔案。
-
-
新的評估工作已建立,系統會提示您開啟新的評估工作詳細資料
-
驗證您的資料集,然後選取 [執行評估] 以開始評估。
監控評估工作
評估工作開始後,您可以從評估工作檢視中找到其狀態。
每個評估工作都有一個連結,可連至所使用的資料集、評估過程的記錄、時間戳記,以及評估詳細資料的連結。
尋找評估結果
評估工作詳細資料檢視會顯示表格,其中包含每個選取評估器的結果。請注意,某些結果可能具有彙總值。
您也可以選取 [在 Data Wrangler 中開啟],以使用 Data Wrangler 擴充功能開啟資料。