主題

編輯

模型評估

AI 工程師通常需要使用不同的參數或提示來評估模型，以便與事實查核進行比較，並從比較中計算評估器值。AI 工具組可讓您透過上傳提示資料集，以最少的力氣執行評估。

Start evaluation

啟動評估工作

在 AI 工具組檢視中，選取 [工具] > [評估] 以開啟 [評估] 檢視
選取 [建立評估]，然後提供下列資訊
- 評估工作名稱：預設名稱或您可以指定的名稱
- 評估器：目前，只能選取內建評估器。
- 判斷模型：可以從清單中選取模型作為判斷模型，以評估某些評估器。
- 資料集：選取範例資料集以供學習用途，或匯入具有欄位 query、response、ground truth 的 JSONL 檔案。
新的評估工作已建立，系統會提示您開啟新的評估工作詳細資料
驗證您的資料集，然後選取 [執行評估] 以開始評估。

監控評估工作

評估工作開始後，您可以從評估工作檢視中找到其狀態。

Running evaluation

每個評估工作都有一個連結，可連至使用的資料集、評估程序的記錄、時間戳記，以及連至評估詳細資料的連結。

尋找評估結果

評估工作詳細資料檢視會顯示每個選取評估器的結果表格。請注意，某些結果可能具有彙總值。

您也可以選取 [在 Data Wrangler 中開啟] 以使用 Data Wrangler 擴充功能開啟資料。

Screenshot the Data Wrangler extension, showing the evaluation results.

12/11/2024