1利用Excel2019進行主成分分析

2022-12-25 06:54:02 字數 4307 閱讀 6026

第一步,錄入資料,並對進行標準化。

【例】一組古生物腕足動物貝殼標本的兩個變數:長度和寬度。

圖1 原始資料和標準化資料及其均值、方差

(取自張超、楊秉庚《計量地理學基礎》)

計算的詳細過程如下:

將原始資料繪成散點圖(圖2)。主持分分析原則上要求資料具有線性相關趨勢——如果資料之間不相關(即正交),則沒有必要進行主成分分析,因為主成分分析的目的就是用正交的變數代替原來非正交的變數;如果原始資料之間為非線性關係,則有必要對資料進行線性轉換,否則效果不佳。從圖2 可見,原始資料具有線性相關趨勢,且測定係數r2=0.

4979,相應地,相關係數r=0.7056。

對資料進行標準化。標準化的數學公式為

這裡假定按列標準化,式中

, 分別為第j列資料的均值和標準差,為第i行(即第i個樣本)、第j列(即第j個變數)的資料,為相應於的標準化資料,為樣本數目。

圖2 原始資料的散點圖

圖3 標準化資料的散點圖

對資料標準化的具體步驟如下: 求出各列資料的均值,命令為**erage,語法為:

**erage(起始單元格:終止單元格)。如圖1所示,在單元格b27中輸入「=**erage(b1:

b26)」,確定或回車,即得第一列資料的均值;然後抓住單元格b27的右下角(游標的十字變細)右拖至c27,便可自動生成第二列資料的均值。

求各列資料的方差。命令為varp,語法同均值。如圖1所示,在單元格b28中輸入「=varp(b2:

b26)」,確定或回車,可得第一列資料的方差,右拖至c28生成第二列資料的方差。

求各列資料的標準差。將方差開方便得標準差。也可利用命令stdevp直接生成標準差,語法和操作方法同均值、方差,不贅述。

標準化計算。如圖1所示,在單元格d2中輸入「=(b2-$b$27)/$b$29」,回車可得第一列第乙個資料「3」的標準化數值-1.786045,然後按住單元格d2的右下角下拖至d26,便會生成第一列資料的全部標準化數值;按照單元格d2的右下角右拖至e2,就能生成第二列第乙個資料「2」的標準化資料-1.

806077,抓住單元格e2的右下角下拖至e26便會生成第二列資料的全部標準化數值。

作標準化資料的散點圖(圖3)。可以看出,點列的總體趨勢沒有變換,兩種資料的相關係數與標準化以前完全相同。但回歸模型的截距近似為0,即有,斜率等於相關係數,即有。

求標準化資料的相關係數矩陣或協方差矩陣。求相關係數矩陣的方法是:沿著「工具(t)」→「資料分析(d)」的路徑開啟「分析工具(a)」選項框(圖4),確定,彈出「相關係數」對話方塊(圖5),在「輸入區域」的空白欄中輸入標準化資料範圍,並以單元格g1為輸出區域,具體操作方法類似於回歸分析。

確定,即會在輸出區域給出相關

圖4 分析工具選項框

圖5 相關係數對話方塊

係數矩陣的下三角即對角線部分,由於系對稱矩陣,上三角的數值與下三角相等,故未給出(圖6),可以通過「拷貝——轉置——粘帖」的方式補充空白部分。

圖6 標準化資料的相關係數和協方差

求協方差的方法是在「分析工具」選項框中選擇「協方差」(圖7),彈出「協方差」 選項框(圖8),具體設定與「相關係數」類似,不贅述。結果見圖6,可以看出,對於標準化資料而言,協方差矩陣與相關係數矩陣完全一樣。因此,二者任取其一即可。

圖7 在分析工具選項框中選擇「協方差」

圖8 協方差選項框

計算特徵根。我們已經得到相關係數矩陣為

,而二階單位矩陣為

,於是根據公式,我們有

按照行列式化為代數式的規則可得

根據一元二次方程的求根公式,當時,我們有

據此解得,(對於本例,顯然,)。這便是相關係數矩陣的兩個特徵根。

求標準正交向量。將代入矩陣方程,得到

在係數矩陣中,用第一行加第二行,化為

由此得,令,則有,於是得基礎解系

,單位化為

單位化的公式為()。

完全類似,將代入矩陣方程,得到

用係數矩陣的第二行減去第一行,化為

於是得到,取,則有,因此得基礎解系為

,單位化為

這裡、便是標準正交向量。

求對角陣。首先建立標準正交矩陣p,即有

該矩陣的乙個特殊性質便是,即矩陣的轉置等於矩陣的逆。根據,可知

下面說明一下利用excel進行矩陣乘法運算的方法。矩陣乘法的命令為mmult,語法是mmult (矩陣1的單元格範圍,矩陣2的單元格範圍)。例如,用矩陣與矩陣c相乘,首先選擇乙個輸出區域如g1:

h2,然後輸入「=mmult(a1:b2,c1:d2)」,然後按下「ctrl+shift+enter」鍵(圖9),即可給出

再用乘得的結果與p陣相乘,便得對角矩陣

如果希望一步到位也不難,選定輸出區域如c3:d4,然後輸入「=mmult(mmult(a1:b2,c1:

d2),e1:f2)」 (圖10),同時按下「ctrl+shift+enter」鍵,立即得到結果(圖11)。顯然,對角矩陣對角線的數值恰是相關係數矩陣的特徵值。

圖9 矩陣乘法示例

圖10 矩陣連乘的命令與語法

至此,標準化的原始變數x與主成分之間z之間可以表作

顯然與之間正交。

圖11 乘法結果:對角矩陣

根據特徵根計算累計方差貢獻率。現已求得第一特徵根為,第二特徵根為,二者之和剛好就是矩陣的維數,即有,這裡m=2為變數數目(注意前面的n=25為樣本數目)。比較圖6或圖10中給出的相關係數矩陣c與圖11中給出的對角矩陣d可以看出,tr.

(c)=1+1=2,tr.(d)=1.7056+0.

2944=2,即有tr.(c)= tr.(d),可見將相關係數亦即協方差矩陣轉換為對角矩陣以後,矩陣的跡(trace,即對角線元素之和)沒有改變,這意味著將原始變數化為主成分以後,系統的資訊量沒有減少。

現在問題是,如果我們只取乙個主成分代表原來的兩個變數,能反映原始變數的多少資訊?這個問題可以借助相關係數矩陣的特徵根來判斷。利用excel容易算出,第一特徵根佔特徵根總和即矩陣維數的85.

28%(見下表),即有

也就是說:

:1.7056,

:0.2944,

2, 這表明,如果僅取第乙個主成分,可以反映原來資料85.28%的資訊——換言之,捨棄第二個主成分,原來資料的資訊僅僅損失14.72%,但分析變數的自由度卻減少乙個,整個分析將會顯得更加簡明。

計算主成分載荷。根據公式,容易算出

計算公因子方差和方差貢獻。根據上述計算結果可以比較公因子方差和方差貢獻。再考慮全部的兩個主成分的時候,對應於和的公因子方差分別為

對應於第一主成分z1和第二主成分z2的方差貢獻分別為

可以看出(圖12): 第一,方差貢獻等於對應主成分的特徵根,即有

第二,公因子方差相等或彼此接近,即有

第一,公因子方差之和等於方差貢獻之和,即有

第乙個規律是我們決定提取主成分數目的判據與之一,第二個規律是我們判斷提取主成分數目是否合適的判據之一,第三個規律是我們判斷提取主成分後是否損失資訊的判據之一。去掉次要的主成分以後,上述規律理當仍然滿足。這時如果第二個規律不滿足,就意味著主成分的提取是不合適的。

此外,上述規律也是我們檢驗計算結果是否正確的判據之一。

圖12 公因子方差、方差貢獻的計算結果及其與特徵根的貢獻

計算主成分得分。根據主成分與原始變數的關係,應有

或者對於本例而言,式中

,, 這裡,為前面計算的標準化特徵向量。於是有

化為代數形式便是

式中的x均為標準化資料。對進行轉置,可得

圖13 計算特徵向量的公式及語法

圖14 計算主成分得分

根據這個式子,利用excel計算主成分得分的步驟如下:

將特徵向量複製到標準化資料的附近;

選中乙個與標準化資料佔據範圍一樣大小的數值區域(如g2:h26);

輸入如下計算公式「=mmult(標準化資料的範圍,特徵向量的範圍)」,在本例中就是「=mmult(b2:c26,e2:f3)」(圖13);

同時按下「ctrl+shift+enter」鍵。

計算主成分得分的均值和方差,可以發現,均值為0(由於誤差之故,約等於0),方差等於特徵根。

最後,可以對主成分得分進行標準化。已知主成分得分的均值為0,我們不按總體方差進行標準化,而按樣本方差進行標準化。

圖15 主成分得分的標準化結果

樣本方差的計算公式為

相應地,標準差為

標準化公式同前面給出的一樣。結果見表15。注意,這裡之所以按樣本方差進行標準化,主要目的是為了與spss的計算結果進行比較。

分別以z1、z2為座標軸,將主成分得分(包括標準化的得分)點列標繪於座標圖中,可以發現,點列分布沒有任何趨勢:回歸結果表明,回歸係數和相關係數均為零,即有,,(圖16,圖17)。這從幾何圖形上顯示:

主成分之間是正交的,即有(試將圖16、圖17與圖2、圖3對比)。

圖16 主成分得分的相關係數為零

圖17 主成分得分的相關係數為零(標準化)

利用Excel2019製作專業的銷售資料分析報告

第一,快速實現資料的價值 我們銷售人員在分析資料時,往往會提出以下的問題 1 各地區產品銷售有哪些異常情況?2 產品的年度銷售額突破1200萬的地區有哪些?3 哪種產品的市場銷售前景最好?4 銷售業績排在前3名的員工是誰?5 利用microsoft office excel 2007全新的條件格式功...

Excel2019知識要點

第五章 excel 2010電子 講義 第一節 excel基礎知識 excel 2010是微軟公司辦公自化軟體office中的另一重要成員,是windows平台下乙個著名的電子 軟體,具有製作 處理資料,分析資料,建立圖表等功能。一 excel的啟動與退出 1 啟動 方法一 開始 程式 micros...

Excel2019應用技巧

對於資訊量比較大的工作表,通過滾動條來查閱資料難免會出現遺漏或重複的情況,通過拆分視窗和凍結窗格的形式則可以避免上述問題。拆分視窗。具體的操作步驟如下。找準要進行拆分的位置,選中單元格。單擊 視窗 拆分 選單項,視窗完成拆分。拆分後的每一部分通過滾動條都可以進行完整檢視 要撤銷拆分只需選中任意單元格...