🚀 在 VS Code 中免費取得

VS Code 中 Data Wrangler 快速入門指南

Data Wrangler 是一個以程式碼為中心的資料檢視和清理工具,已整合至 VS Code 和 VS Code Jupyter Notebooks 中。它提供豐富的使用者介面來檢視和分析您的資料、顯示深入的資料行統計資訊和視覺效果,並在您清理和轉換資料時自動產生 Pandas 程式碼。

以下範例說明如何從 Notebook 開啟 Data Wrangler,以使用內建作業分析和清理資料。然後,自動產生的程式碼會匯出回 Notebook。

a gif of opening Data Wrangler from a notebook, looking through the data, switching from Viewing to Editing mode, applying data transformations, and exporting the generated Python code back into the notebook

此頁面的目標是協助您快速開始使用 Data Wrangler。

設定您的環境

  1. 如果您尚未安裝 Python,請立即安裝 (注意: Data Wrangler 僅支援 Python 3.8 或更高版本)。
  2. 安裝 Data Wrangler 擴充功能

當您第一次啟動 Data Wrangler 時,它會詢問您想要連線到哪個 Python 核心。它也會檢查您的電腦和環境,以查看是否已安裝必要的 Python 套件,例如 Pandas。

開啟 Data Wrangler

只要您在 Data Wrangler 中,您就處於沙箱環境中,這表示您可以安全地探索和轉換資料。除非您明確匯出變更,否則不會修改原始資料集。

從 Jupyter Notebook 啟動 Data Wrangler

如果您的 Notebook 中有 Pandas 資料框架,您現在會在執行 df.head()df.tail()display(df)print(df)df 之後,在儲存格底部看到 在 Data Wrangler 中開啟 'df' 按鈕 (其中 df 是資料框架的變數名稱)。

a screenshot showing the entry point into Data Wrangler from a notebook

直接從檔案啟動 Data Wrangler

您也可以直接從本機檔案 (例如 .csv) 啟動 Data Wrangler。若要執行此動作,請在 VS Code 中開啟任何包含您想要開啟之檔案的資料夾。在檔案總管檢視中,以滑鼠右鍵按一下檔案,然後按一下 在 Data Wrangler 中開啟

a screenshot showing the entry point into Data Wrangler from a file

UI 導覽

使用資料時,Data Wrangler 有兩種模式。以下章節將說明每種模式的詳細資訊。

  1. 檢視模式: 檢視模式最佳化介面,讓您可以快速檢視、篩選和排序資料。此模式非常適合對資料集進行初始探索。
  2. 編輯模式: 編輯模式最佳化介面,讓您可以對資料集套用轉換、清理或修改。當您在介面中套用這些轉換時,Data Wrangler 會自動產生相關的 Pandas 程式碼,而且可以匯出回 Notebook 以供重複使用。

注意:依預設,Data Wrangler 會在檢視模式中開啟。您可以在設定編輯器 中變更此行為。

檢視模式介面

a screenshot showing the different components in the UI for Data Wrangler in Viewing mode

  1. 資料摘要面板會顯示整體資料集或特定資料行的詳細摘要統計資訊 (如果已選取)。

  2. 您可以從資料行的標頭功能表,對資料行套用任何資料篩選器/排序

  3. 在 Data Wrangler 的檢視編輯模式之間切換,以存取內建資料作業。

  4. 快速深入解析標頭可讓您快速查看每個資料行的寶貴資訊。根據資料行的資料類型,快速深入解析會顯示資料的分佈或資料點的頻率,以及遺失值和相異值。

  5. 資料格線提供可捲動的窗格,您可以在其中檢視整個資料集。


編輯模式介面

切換至編輯模式會在 Data Wrangler 中啟用其他功能和使用者介面元素。在下列螢幕擷取畫面中,我們使用 Data Wrangler 將最後一個資料行中的遺失值取代為該資料行的中位數。

a screenshot showing the different components in the UI for Data Wrangler in Editing mode

  1. 您可以在 [作業] 面板中搜尋 Data Wrangler 的所有內建資料作業。這些作業依類別組織。

  2. [清理步驟] 面板會顯示先前已套用之所有作業的清單。使用者可以藉此復原特定作業,或編輯最近一次的作業。選取步驟會醒目提示資料格線中的變更,並顯示與該作業相關聯的產生程式碼。

  3. [匯出] 功能表可讓您將程式碼匯出回 Jupyter Notebook,或將資料匯出到新檔案。

  4. 當您選取作業並預覽其對資料的影響時,格線會覆疊一個 資料差異 檢視,顯示您對資料所做的變更。

  5. [程式碼預覽] 區段會顯示選取作業時 Data Wrangler 產生的 Python 和 Pandas 程式碼。未選取任何作業時,此區段會保持空白。您可以編輯產生的程式碼,這會導致資料格線醒目提示資料的影響。

範例:取代資料集中遺失的值

給定資料集,常見的資料清理工作之一是處理資料中任何遺失的值。以下範例說明如何使用 Data Wrangler 將資料行中的遺失值取代為該資料行的中位數。雖然轉換是透過介面完成的,但 Data Wrangler 也會自動產生取代遺失值所需的 Python 和 Pandas 程式碼。

an example of using Data Wrangler to replace missing values in your dataset

  1. [作業] 面板中,搜尋 [填滿遺失值] 作業。
  2. 在參數中指定您想要用什麼取代遺失值。在此案例中,我們將使用資料行的中位數取代遺失值。
  3. 驗證資料格線是否在資料差異中顯示正確的變更。
  4. 驗證 Data Wrangler 產生的程式碼是否符合您的預期。
  5. 套用作業,它將會新增至您的清理步驟歷程記錄中。

後續步驟

此頁面說明如何快速開始使用 Data Wrangler。如需 Data Wrangler 的完整文件和教學課程,包括 Data Wrangler 目前支援的所有內建作業,請參閱以下頁面。

使用 Data Wrangler