🚀 在 VS Code 中

VS Code Data Wrangler 快速入門指南

Data Wrangler 是一個以程式碼為中心的資料檢視和清理工具,已整合至 VS Code 和 VS Code Jupyter Notebooks 中。它提供豐富的使用者介面來檢視和分析您的資料、顯示具洞察力的欄統計資料和視覺化效果,並在您清理和轉換資料時自動產生 Pandas 程式碼。

以下範例說明從 Notebook 開啟 Data Wrangler,以使用內建操作分析和清理資料。然後,自動產生的程式碼會匯出回 Notebook。

a gif of opening Data Wrangler from a notebook, looking through the data, switching from Viewing to Editing mode, applying data transformations, and exporting the generated Python code back into the notebook

本頁面的目標是協助您快速開始使用 Data Wrangler。

設定您的環境

  1. 如果您尚未安裝 Python,請立即安裝(注意: Data Wrangler 僅支援 Python 3.8 或更高版本)。
  2. 安裝 Data Wrangler 擴充功能

當您第一次啟動 Data Wrangler 時,它會詢問您要連線至哪個 Python 核心。它也會檢查您的機器和環境,以查看是否已安裝必要的 Python 套件,例如 Pandas。

開啟 Data Wrangler

任何時候您在 Data Wrangler 中,您都處於沙箱環境中,這表示您可以安全地探索和轉換資料。在您明確匯出變更之前,原始資料集不會被修改。

從 Jupyter Notebook 啟動 Data Wrangler

如果您在 Notebook 中有 Pandas 資料框架,現在您會在執行 df.head()df.tail()display(df)print(df)df 之後,在儲存格底部看到在 Data Wrangler 中開啟 'df' 按鈕(其中 df 是資料框架的變數名稱)。

a screenshot showing the entry point into Data Wrangler from a notebook

直接從檔案啟動 Data Wrangler

您也可以直接從本機檔案(例如 .csv)啟動 Data Wrangler。若要執行此操作,請在 VS Code 中開啟任何包含您要開啟之檔案的資料夾。在檔案總管檢視中,以滑鼠右鍵按一下檔案,然後按一下在 Data Wrangler 中開啟

a screenshot showing the entry point into Data Wrangler from a file

UI 導覽

Data Wrangler 在處理您的資料時有兩種模式。以下章節將說明每種模式的詳細資訊。

  1. 檢視模式: 檢視模式最佳化了介面,讓您可以快速檢視、篩選和排序資料。此模式非常適合對資料集進行初始探索。
  2. 編輯模式: 編輯模式最佳化了介面,讓您可以對資料集套用轉換、清理或修改。當您在介面中套用這些轉換時,Data Wrangler 會自動產生相關的 Pandas 程式碼,並且可以將其匯出回您的 Notebook 以重複使用。

注意:依預設,Data Wrangler 會在檢視模式中開啟。您可以在設定編輯器 中變更此行為。

檢視模式介面

a screenshot showing the different components in the UI for Data Wrangler in Viewing mode

  1. 資料摘要面板會顯示整體資料集或特定欄(如果已選取)的詳細摘要統計資料。

  2. 您可以從欄的標頭選單中,對欄套用任何資料篩選/排序

  3. 在 Data Wrangler 的檢視編輯模式之間切換,以存取內建的資料操作。

  4. 快速深入解析標頭是您可以快速查看每個欄的寶貴資訊的地方。根據欄的資料類型,快速深入解析會顯示資料的分佈或資料點的頻率,以及遺失值和相異值。

  5. 資料網格為您提供可捲動的窗格,您可以在其中檢視整個資料集。


編輯模式介面

切換到編輯模式會在 Data Wrangler 中啟用其他功能和使用者介面元素。在以下螢幕擷取畫面中,我們使用 Data Wrangler 將最後一欄中的遺失值取代為該欄的中位數。

a screenshot showing the different components in the UI for Data Wrangler in Editing mode

  1. 操作面板是您可以搜尋所有 Data Wrangler 內建資料操作的地方。這些操作依類別組織。

  2. 清理步驟面板會顯示先前已套用的所有操作的清單。它讓使用者可以還原特定操作或編輯最近的操作。選取步驟將會醒目提示資料網格中的變更,並顯示與該操作關聯的產生程式碼。

  3. 匯出選單可讓您將程式碼匯出回 Jupyter Notebook,或將資料匯出到新檔案。

  4. 當您選取操作並預覽其對資料的影響時,網格會覆疊資料差異檢視,顯示您對資料所做的變更。

  5. 程式碼預覽區段會顯示在選取操作時 Data Wrangler 產生的 Python 和 Pandas 程式碼。當未選取任何操作時,它會保持空白。您可以編輯產生的程式碼,這會導致資料網格醒目提示對資料的影響。

範例:取代資料集中遺失的值

給定資料集,常見的資料清理工作之一是處理資料中存在的任何遺失值。以下範例說明如何使用 Data Wrangler 將欄中的遺失值取代為該欄的中位數。雖然轉換是透過介面完成的,但 Data Wrangler 也會自動產生取代遺失值所需的 Python 和 Pandas 程式碼。

an example of using Data Wrangler to replace missing values in your dataset

  1. 操作面板中,搜尋填滿遺失值操作。
  2. 在參數中指定您要用什麼來取代遺失值。在此案例中,我們將使用欄的中位數來取代遺失值。
  3. 驗證資料網格是否在資料差異中顯示正確的變更。
  4. 驗證 Data Wrangler 產生的程式碼是否符合您的預期。
  5. 套用操作,它將新增至您的清理步驟歷程記錄。

後續步驟

本頁面涵蓋如何快速開始使用 Data Wrangler。如需 Data Wrangler 的完整文件和教學課程,包括 Data Wrangler 目前支援的所有內建操作,請參閱以下頁面。

使用 Data Wrangler