模型評估
AI 工程師通常需要使用不同的參數或提示來評估模型,以便與事實查核進行比較,並從比較中計算評估器值。AI 工具組可讓您透過上傳提示資料集,以最少的力氣執行評估。
啟動評估工作
-
在 AI 工具組檢視中,選取 [工具] > [評估] 以開啟 [評估] 檢視
-
選取 [建立評估],然後提供下列資訊
-
評估工作名稱:預設名稱或您可以指定的名稱
-
評估器:目前,只能選取內建評估器。
-
判斷模型:可以從清單中選取模型作為判斷模型,以評估某些評估器。
-
資料集:選取範例資料集以供學習用途,或匯入具有欄位
query
、response
、ground truth
的 JSONL 檔案。
-
-
新的評估工作已建立,系統會提示您開啟新的評估工作詳細資料
-
驗證您的資料集,然後選取 [執行評估] 以開始評估。
監控評估工作
評估工作開始後,您可以從評估工作檢視中找到其狀態。
每個評估工作都有一個連結,可連至使用的資料集、評估程序的記錄、時間戳記,以及連至評估詳細資料的連結。
尋找評估結果
評估工作詳細資料檢視會顯示每個選取評估器的結果表格。請注意,某些結果可能具有彙總值。
您也可以選取 [在 Data Wrangler 中開啟] 以使用 Data Wrangler 擴充功能開啟資料。