VS Code 中 Data Wrangler 快速入門指南
Data Wrangler 是一個以程式碼為中心的資料檢視和清理工具,已整合至 VS Code 和 VS Code Jupyter Notebooks 中。它提供豐富的使用者介面來檢視和分析您的資料、顯示深入的資料行統計資訊和視覺效果,並在您清理和轉換資料時自動產生 Pandas 程式碼。
以下範例說明如何從 Notebook 開啟 Data Wrangler,以使用內建作業分析和清理資料。然後,自動產生的程式碼會匯出回 Notebook。
此頁面的目標是協助您快速開始使用 Data Wrangler。
設定您的環境
- 如果您尚未安裝 Python,請立即安裝 (注意: Data Wrangler 僅支援 Python 3.8 或更高版本)。
- 安裝 Data Wrangler 擴充功能
當您第一次啟動 Data Wrangler 時,它會詢問您想要連線到哪個 Python 核心。它也會檢查您的電腦和環境,以查看是否已安裝必要的 Python 套件,例如 Pandas。
開啟 Data Wrangler
只要您在 Data Wrangler 中,您就處於沙箱環境中,這表示您可以安全地探索和轉換資料。除非您明確匯出變更,否則不會修改原始資料集。
從 Jupyter Notebook 啟動 Data Wrangler
如果您的 Notebook 中有 Pandas 資料框架,您現在會在執行 df.head()
、df.tail()
、display(df)
、print(df)
和 df
之後,在儲存格底部看到 在 Data Wrangler 中開啟 'df' 按鈕 (其中 df
是資料框架的變數名稱)。
直接從檔案啟動 Data Wrangler
您也可以直接從本機檔案 (例如 .csv
) 啟動 Data Wrangler。若要執行此動作,請在 VS Code 中開啟任何包含您想要開啟之檔案的資料夾。在檔案總管檢視中,以滑鼠右鍵按一下檔案,然後按一下 在 Data Wrangler 中開啟。
UI 導覽
使用資料時,Data Wrangler 有兩種模式。以下章節將說明每種模式的詳細資訊。
- 檢視模式: 檢視模式最佳化介面,讓您可以快速檢視、篩選和排序資料。此模式非常適合對資料集進行初始探索。
- 編輯模式: 編輯模式最佳化介面,讓您可以對資料集套用轉換、清理或修改。當您在介面中套用這些轉換時,Data Wrangler 會自動產生相關的 Pandas 程式碼,而且可以匯出回 Notebook 以供重複使用。
注意:依預設,Data Wrangler 會在檢視模式中開啟。您可以在設定編輯器 中變更此行為。
檢視模式介面
-
資料摘要面板會顯示整體資料集或特定資料行的詳細摘要統計資訊 (如果已選取)。
-
您可以從資料行的標頭功能表,對資料行套用任何資料篩選器/排序。
-
在 Data Wrangler 的檢視或編輯模式之間切換,以存取內建資料作業。
-
快速深入解析標頭可讓您快速查看每個資料行的寶貴資訊。根據資料行的資料類型,快速深入解析會顯示資料的分佈或資料點的頻率,以及遺失值和相異值。
-
資料格線提供可捲動的窗格,您可以在其中檢視整個資料集。
編輯模式介面
切換至編輯模式會在 Data Wrangler 中啟用其他功能和使用者介面元素。在下列螢幕擷取畫面中,我們使用 Data Wrangler 將最後一個資料行中的遺失值取代為該資料行的中位數。
-
您可以在 [作業] 面板中搜尋 Data Wrangler 的所有內建資料作業。這些作業依類別組織。
-
[清理步驟] 面板會顯示先前已套用之所有作業的清單。使用者可以藉此復原特定作業,或編輯最近一次的作業。選取步驟會醒目提示資料格線中的變更,並顯示與該作業相關聯的產生程式碼。
-
[匯出] 功能表可讓您將程式碼匯出回 Jupyter Notebook,或將資料匯出到新檔案。
-
當您選取作業並預覽其對資料的影響時,格線會覆疊一個 資料差異 檢視,顯示您對資料所做的變更。
-
[程式碼預覽] 區段會顯示選取作業時 Data Wrangler 產生的 Python 和 Pandas 程式碼。未選取任何作業時,此區段會保持空白。您可以編輯產生的程式碼,這會導致資料格線醒目提示資料的影響。
範例:取代資料集中遺失的值
給定資料集,常見的資料清理工作之一是處理資料中任何遺失的值。以下範例說明如何使用 Data Wrangler 將資料行中的遺失值取代為該資料行的中位數。雖然轉換是透過介面完成的,但 Data Wrangler 也會自動產生取代遺失值所需的 Python 和 Pandas 程式碼。
- 在 [作業] 面板中,搜尋 [填滿遺失值] 作業。
- 在參數中指定您想要用什麼取代遺失值。在此案例中,我們將使用資料行的中位數取代遺失值。
- 驗證資料格線是否在資料差異中顯示正確的變更。
- 驗證 Data Wrangler 產生的程式碼是否符合您的預期。
- 套用作業,它將會新增至您的清理步驟歷程記錄中。
後續步驟
此頁面說明如何快速開始使用 Data Wrangler。如需 Data Wrangler 的完整文件和教學課程,包括 Data Wrangler 目前支援的所有內建作業,請參閱以下頁面。