🚀 在 VS Code 中

模型評估

AI 工程師通常需要評估具有不同參數或提示的模型,以便與實際情況進行比較,並從比較中計算評估器值。AI 工具組讓您只需上傳提示資料集,即可輕鬆執行評估。

Start evaluation

開始評估工作

  1. 在 AI 工具組檢視中,選取 [工具] > [評估] 以開啟 [評估] 檢視

  2. 選取 [建立評估],然後提供下列資訊

    • 評估工作名稱: 預設名稱或您可以指定的名稱

    • 評估器: 目前只能選取內建評估器。

      Screenshot of a Quick Pick with the list of built-in evaluators

    • 判斷模型: 可以從清單中選取一個模型作為判斷模型,以便為某些評估器進行評估。

    • 資料集: 選取範例資料集以供學習之用,或匯入具有 queryresponseground truth 欄位的 JSONL 檔案。

  3. 新的評估工作已建立,系統會提示您開啟新的評估工作詳細資料

    Open evaluation

  4. 驗證您的資料集,然後選取 [執行評估] 以開始評估。

    Run Evaluation

監控評估工作

評估工作開始後,您可以從評估工作檢視中找到其狀態。

Running evaluation

每個評估工作都有一個連結,可連至所使用的資料集、評估過程的記錄、時間戳記,以及評估詳細資料的連結。

尋找評估結果

評估工作詳細資料檢視會顯示表格,其中包含每個選取評估器的結果。請注意,某些結果可能具有彙總值。

您也可以選取 [在 Data Wrangler 中開啟],以使用 Data Wrangler 擴充功能開啟資料。

Screenshot the Data Wrangler extension, showing the evaluation results.