🚀 在 VS Code 中免費取得

模型評估

AI 工程師通常需要使用不同的參數或提示來評估模型,以便與事實查核進行比較,並從比較中計算評估器值。AI 工具組可讓您透過上傳提示資料集,以最少的力氣執行評估。

Start evaluation

啟動評估工作

  1. 在 AI 工具組檢視中,選取 [工具] > [評估] 以開啟 [評估] 檢視

  2. 選取 [建立評估],然後提供下列資訊

    • 評估工作名稱:預設名稱或您可以指定的名稱

    • 評估器:目前,只能選取內建評估器。

      Screenshot of a Quick Pick with the list of built-in evaluators

    • 判斷模型:可以從清單中選取模型作為判斷模型,以評估某些評估器。

    • 資料集:選取範例資料集以供學習用途,或匯入具有欄位 queryresponseground truth 的 JSONL 檔案。

  3. 新的評估工作已建立,系統會提示您開啟新的評估工作詳細資料

    Open evaluation

  4. 驗證您的資料集,然後選取 [執行評估] 以開始評估。

    Run Evaluation

監控評估工作

評估工作開始後,您可以從評估工作檢視中找到其狀態。

Running evaluation

每個評估工作都有一個連結,可連至使用的資料集、評估程序的記錄、時間戳記,以及連至評估詳細資料的連結。

尋找評估結果

評估工作詳細資料檢視會顯示每個選取評估器的結果表格。請注意,某些結果可能具有彙總值。

您也可以選取 [在 Data Wrangler 中開啟] 以使用 Data Wrangler 擴充功能開啟資料。

Screenshot the Data Wrangler extension, showing the evaluation results.