資料標準化

2022-09-20 10:33:04 字數 1780 閱讀 2444

一、為何要將資料標準化?

由於不同變數常常具有不同的單位和不同的變異程度。 不同的單位常使係數的實踐解釋發生困難。例如:

第1個變數的單位是kg,第2個變數的單位是cm,那麼在計算絕對距離時將出現將兩個事例中第1個變數觀察值之差的絕對值(單位是kg)與第2個變數觀察值之差的絕對值(單位是cm )相加的情況。使用者會說5kg的差異怎麼可以與3cm的差異相加? 不同變數自身具有相差較大的變異時,會使在計算出的關係係數中,不同變數所佔的比重大不相同。

例如如果第1個變數(兩水稻品種公尺粒中的脂肪含量)的數值在2%到4%之間,而第2個變數(兩水稻品種的畝產量)的數值範圍都在1000與5000之間。為了消除量綱影響和變數自身變異大小和數值大小的影響,故將資料標準化。

二、資料標準化的方法:

1、對變數的離差標準化

離差標準化是將某變數中的觀察值減去該變數的最小值,然後除以該變數的極差。即

x』ik=[xik -min (xk)]/rk

經過離差標準化後,各種變數的觀察值的數值範圍都將在〔0,1〕之間,並且經標準化的資料都是沒有單位的純數量。離差標準化是消除量綱(單位)影響和變異大小因素的影響的最簡單的方法。 有一些關係係數(例如絕對值指數尺度)在定義時就已經要求對資料進行離差標準化,但有些關係係數的計算公式卻沒有這樣要求,當選用這類關係係數前,不妨先對資料進行標準化,看看分析的結果是否為有意義的變化。

2,對變數的標準差標準化

標準差標準化是將某變數中的觀察值減去該變數的平均數,然後除以該變數的標準差。即

x』ik = (xik - )/sk

經過標準差標準化後,各變數將有約一半觀察值的數值小於0,另一半觀察值的數值大於0,變數的平均數為0,標準差為1。經標準化的資料都是沒有單位的純數量。對變數進行的標準差標準化可以消除量綱(單位)影響和變數自身變異的影響。

但有人認為經過這種標準化後,原來數值較大的的觀察值對分類結果的影響仍然佔明顯的優勢,應該進一步消除大小因子的影響。儘管如此,它還是當前用得最多的資料標準化方法。

3,先對事例進行標準差標準化,再對變數進行標準差標準化

第一步,先對事例進行標準差標準化,即將某事例中的觀察值減去該事例的平均數,然後除以該事例的標準差。即

x』ik = (xik - )/si

第二步,再對變數進行標準差標準化,即將某變數中的觀察值減去該變數的平均數,然後除以該變數的標準差。即

x』』ik = (x』ik - 』k)/s』k

使用這種標準化的目的也在於消除性狀間的量綱(單位)影響和變異大小因子的影響,使性狀間具有可比性。

4,先對變數、後對事例、再對變數的標準差標準化

這種標準化的目的也在於消除性狀間的量綱(單位)影響和變異大小因子的影響,使性狀間具有可比性。具體做法是:

第一步,先對變數進行標準差標準化,即將某變數中的觀察值減去該變數的平均數,然後除以該變數的標準差。即

x』ik = (xik - )/sk

第二步,後對事例進行標準差標準化,即將某事例中的觀察值減去該事例的平均數,然後除以該事例的標準差。即

x』』ik = (x』ik - 』i)/s』i

第三步,再對變數進行標準差標準化,即將某變數中的觀察值減去該變數的平均數,然後除以該變數的標準差。即

x』』』ik = (x』』ik - 』』k)/s』』k

進行了前兩步之後,還要進行第三步的原因,主要是為了計算的方便。

插值問題忽略了觀測誤差的影響,而擬合問題則考慮了觀測誤差的影響。但由於觀測資料客觀上總是存在觀測誤差,而擬合函式大多數情況下是通過經驗公式獲得的,因此要正確揭示事物的內在規律,往往需要對大量的觀測資料進行分析,尤為重要的是進行統計分析。統計分析的方法有許多,如方差分析、回歸分析等。

資料標準化

一 為何要將資料標準化?由於不同變數常常具有不同的單位和不同的變異程度。不同的單位常使係數的實踐解釋發生困難。例如 第1個變數的單位是kg,第2個變數的單位是cm,那麼在計算絕對距離時將出現將兩個事例中第1個變數觀察值之差的絕對值 單位是kg 與第2個變數觀察值之差的絕對值 單位是cm 相加的情況。...

企業資料標準化

企業資料標準化的建立是企業資訊化的基礎工作,提高了資料的共享性,為廣東電網公司提供了統一的資訊檢視 資料規範及符合電力行業標準的編碼標準。建立廣東電網公司資料資訊資源的統一標準化管理的原則可以包括 統一標準的資料定義 減少資料定義的二義性 統一標準的企業資料模型 該企業資料模型必須是乙個全企業範圍的...

測井資料標準化

測井曲線標準化工作是為測井解釋儲集層引數,進行油藏描述的前期準備工作。在本專案中,測井曲線均來自紙質圖紙直接數位化而來。而之前並沒有進行過任何資料處理工作,同時不同時期測測井工作是通過不同儀器測進行的,這樣很難保其標準刻度器和操作方法是想同的,故各井測井資料間必然存在以刻度因素為住的誤差。為了使測井...