清理資料的十大方法

2022-04-28 19:54:02 字數 2468 閱讀 6614

全部隱藏

拼寫錯誤的單詞、棘手的尾隨空格、不必要的字首、錯誤的大小寫以及非列印字元都給人以不好的第一印象。上述只是使您的資料顯得凌亂的部分因素。行動起來吧,使用 microsoft office excel 對您的工作表進行一些必要的清理。

清理資料的基礎知識

您經常無法控制從外部資料來源(例如資料庫、文字檔案或網頁)匯入的資料的格式和型別。在對資料進行分析之前,通常需要先清理資料。幸運的是,office excel 具備多種功能,可幫助您準確地以您想要的格式來獲取資料。

某些情況下,您的任務會很明確,而 office excel 則包含具體的功能,可為您執行相應的任務。例如,您可以方便地使用拼寫檢查器來清理包含注釋或說明的列中的拼寫錯誤的單詞。或者,如果您要刪除重複行,則可以使用「刪除重複項」對話方塊快速實現此操作。

其他情況下,您可能需要使用公式對乙個或多個列進行操作,將匯入的值轉換為新值。例如,如果要刪除尾隨空格,則可以通過新建一列來清理資料,具體步驟是:使用公式向下填充新列,將新列的公式轉換為值,然後刪除原始列。

清理資料的基本步驟如下:

1. 從外部資料來源匯入資料。

2. 在單獨的工作簿中建立原始資料的副本。

3. 確保以行和列的**形式顯示資料,並且每列中的資料都相似;所有的列和行都可見;範圍內沒有空白行。為了獲得最佳結果,請使用 excel 表。

4. 首先執行不需要對列進行操作的任務,例如拼寫檢查或使用「查詢和替換」對話方塊。

5. 然後執行需要對列進行操作的任務。對列進行操作的一般步驟為:

1. 在需要清理的原始列 (a) 旁邊插入新列 (b)。

2. 在新列 (b) 的頂部新增將要轉換資料的公式。

3. 在新列 (b) 中向下填充公式。在 excel 表中,將使用向下填充的值自動建立計算列。

4. 選擇並複製新列 (b),然後將其作為值貼上到新列 (b) 中。

5. 刪除原始列 (a),這樣,新列 b 將轉換為 a。

若要定期清理相同的資料來源,請考慮錄製乙個巨集或者編寫**,使整個流程自動化。

拼寫檢查

使用拼寫檢查器既可以查詢拼寫錯誤的單詞,還可以將產品名稱或公司名稱等值新增到自定義詞典中,以查詢使用不一致的情況。

刪除重複行

重複行是匯入資料時的常見問題。較好的做法是,首先篩選唯一值以確認結果符合您的要求,然後再刪除重複值。

查詢和替換文字

您可能要刪除通用前導字串(例如其後緊跟冒號和空格的標籤)或字尾(例如字串後面的已無效或不必要的插入語)。通過查詢該文字的例項,然後將其替換為空文字或其他文字,可以實現該操作。

更改文字大小寫

某些情況下,文字表現為混用的形式,這尤其表現在其大小寫形式方面。您可以使用三個大小寫轉換函式中的乙個或多個函式,將文字轉換為小寫字母(如電子郵件位址)、大寫字母(如產品**)或專有名稱(如名稱或書名)。

刪除文字中的空格和非列印字元

某些文字值包含前導空格、尾隨空格或多個嵌入空格字元(unicode (unicode:unicode consortium 開發的一種字元編碼標準。該標準採用多(於一)個位元組代表每一字元,實現了使用單個字符集代表世界上幾乎所有書面語言。

) 字符集值 32 和 160),或非列印字元(unicode 字符集值 0 到 31、127、129、141、143、144 和 157)。在排序、篩選或搜尋時,這些字元有時可能會引發意外結果。例如,在外部資料來源中,使用者可能會無意地犯一些拼寫錯誤,例如新增多餘空格字元,或者從外部源匯入的文字資料可能包含嵌入文字中的非列印字元。

由於輕易不會注意到這些字元,可能會很難理解出現的意外結果。若要刪除這些不需要的字元,您可以使用 trim、clean 和 substitute 函式的組合。

修復數字和數字標識

數字存在以下兩種主要問題時,您需要對資料進行清理:數字被意外匯入為文字時,以及需要按照組織的標準對負號進行更改時。

修復日期和時間

由於存在許多不同的日期格式,並且這些格式的數字部分**或其他包含斜槓或連字元的字串可能會令人迷惑,因此日期和時間通常需要進行轉換和重新設定格式。

合併和拆分列

從外部資料來源匯入資料之後的任務通常是將兩列或更多列合併為一列,或者將某一列拆分為兩列或多列。例如,您可能要將乙個包含完整姓名的字段拆分為姓氏和名字兩列。或者,您可能希望將包含位址欄位的列拆分為單獨的街道、城市、區域和郵政編碼列。

反之亦然。您可能希望「姓氏」列和「名字」列合併為乙個「全名」列,或者將各單獨的位址列合併為一列。其他可能要求合併為一列或拆分為多列的常見值包括產品**、檔案路徑和 internet 協議 (ip) 位址。

轉換和重新排列列和行

office excel 中的多數分析和格式功能都假定資料存在於單個二維平面表中。某些情況下,您可能希望將行轉換為列,並將列轉換為行。其他情況下,資料甚至不是以**形式構建的,您需要通過一種方式將資料從非**形式轉換為**形式。

通過連線或匹配調整表資料

資料庫管理員有時候會使用 office excel 來查詢和更正兩個或多個表進行連線時的匹配錯誤。這可能要調整自不同工作表的**,例如,檢視兩個表中的所有記錄或比較表並查詢不匹配的行。

認識自己的十大方法

俗話說,人貴有自知之明 正確的認識自己,客觀的評價自己,對接人待物和處理問題,對事業的發展和生活的美滿,會有極大的好處。乙個人不能正確評價自己,就會產生心理障礙,表現出對自我的不滿和排斥,或者盲目自高自大,成為自大狂。因此,我們應可能的了解自我 認識自我,這樣才能更好的把握自我,發展自我。如何認識自...

古玩收藏十大方法

藝術品知識 一 1 經常在古玩業界內進行長期的觀察,並且在接觸中採取,偷聽 偷學 偷記的方法 2 尋找真正的行家,並觀察學習行家們之間的專業交易知識和交易方式 3 投入可投入的資金,借行家們的眼力進行偷買或試買,並且上手考查學習 4 把偷買試買的古玩反饋到市場進行買賣中的真假及 測試及認證 5 想辦...

日常保護心臟的十大方法

心血管疾病一直以來是困擾老年人朋友的頭等麻煩,也是令人聞風喪膽的健康殺手。其實,在日常的生活中,養成健康的生活飲食習慣,是有利於促進心臟健康的。一下就是百草王堂養生專家為大家總結的保護心臟的十大方法,一起來學習學習吧。1.警惕壓力過大的幾個症狀。當乙個人感到壓力時,身體會釋放減壓物質,所以一般的壓力...