6典型相關與對應分析

2023-01-04 17:51:01 字數 4691 閱讀 7783

7.1.1 典型相關分析的概念與步驟

1. 典型相關分析的基本思想

典型相關分析採用主成分的思想濃縮資訊,根據變數間的相關關係,尋找少數幾對綜合變數(實際觀測變數的線性組合),用它們替代原始觀測變數,從而將二組變數的關係集中到少數幾對綜合變數的關係上,通過對這些綜合變數之間相關性的分析,回答兩組原始變數間相關性的問題。除了要求所提取的綜合變數所含的資訊量盡可能大以外,提取時還要求第一對綜合變數間的相關性最大,第二對次之,依次類推。

這些綜合變數被稱為典型變數,或典則變數,第1對典型變數間的相關係數則被稱為第1典型相關係數。典型相關係數能簡單、完整地描述兩組變數間關係的指標。當兩個變數組均只有乙個變數時,典型相關係數即為簡單相關係數;當其中的一組只有乙個變數時,典型相關係數即為復相關係數。

7.1.4 用cancorr過程實現典型相關分析

1. cancorr過程

cancorr過程的常用語法格式如下:

proc cancorr 《選項列表》;

with 《變數列表》;

var 《變數列表》;

run;

其中proc cancorr語句、with語句是每個過程中必不可少的,其餘語句可視情況使用。

下面分別介紹各語句的用法和功能。

(1) proc cancorr語句:標示典型相關分析開始,可以規定輸入輸出資料集,指定分析方法和控制輸出結果的顯示等。語句中可設定的常用選項及其功能見表7-3。

(2) var語句:列出要進行典型相關分析的第一組變數,變數必須是數值型的。如果var語句被忽略,所有未被其他語句提到的數值型變數都將被視為第一組變數。

(3) with語句:列出要進行典型相關分析的第二組變數,變數必須是數值型的。該語句是每乙個proc cancorr中必不可少的。

表7-3 常用選項及其功能

2. 使用cancorr過程

【例7-3】家庭特徵與家庭消費之間的關係。為了了解家庭的特徵與其消費模式之間的關係。調查了70個家庭的下面兩組變數:

x1:每年去餐館就餐的頻率,x2:每年外出看電影的頻率;

y1:戶主的年齡,y2:家庭的年收入,y3:戶主受教育程度。

試分析兩組變數之間的關係。假定變數的相關係數陣如表所示

如下**,利用變數的相關係數矩陣作典型相關分析:

data jt(type=corr);

input name $ 1-2 (x1 x2 y1-y3) (6.);

cards;

x1 1.00 0.80 0.26 0.67 0.34

x2 0.80 1.00 0.33 0.59 0.34

y1 0.26 0.33 1.00 0.37 0.21

y2 0.67 0.59 0.37 1.00 0.35

y3 0.34 0.34 0.21 0.35 1.00

;proc cancorr edf=70 redundancy;

var x1 x2;

with y1-y3;

run;

說明: 1) 在資料集名jt後用type = corr表明資料的型別為相關矩陣,而不是原始資料。

2) input語句中用「name $」讀取左側的變數名,「1-2」表示變數名的字元落在第1、2列上,「(x1 x2 y1-y4)」表示各列資料所對應的變數名,「(6.)」表示讀取資料的寬度均為6列,其中相關係數佔4位,其後的空格佔2位;

3) 選擇項edf = n – 1,為典型相關分析提供乙個計算誤差自由度的參考值,因為該過程中沒有合適的選擇項可以將原始資料的樣本含量n準確地送入。如果忽略這一選擇項,將以預設值n = 10000作為樣本含量參與有關計算和統計檢驗,顯然不妥;

4) 選項redundancy表示輸出典型冗餘分析的結果

3. 結果分析

(1) 典型相關係數及顯著性檢驗

第一部分的4列依次是:典型相關係數、校正的典型相關係數、近似的標準誤以及典型決定係數(典型相關係數的平方)。從中可以看出,本例提取了2個典型相關係數,第乙個典型相關係數canr1 = 0.

687948,其校正值為0.673671,標準誤為0.062956,canr12 = 0.

473272;第二個典型相關係數為0.186865

第二部分是特徵根以及相應的統計量,從中可以看出,第一對典型變數所能解釋的變異已佔總變異的96.13%,另一對典型相關變數的作用很小,只解釋了總變異的3.87%,可以不予考慮。

右邊4列給出對典型相關係數的檢驗,具體採用似然比法,所求的似然比統計量近似服從f分布。第一行檢驗的是第一相關係數以及比它小的兩個相關係數是否為0,第一行的f值8.86,p值<0.

0001。後一行檢驗的p值遠大於置信水平0.05,故可以認為只有第乙個典型相關係數有統計學意義。

第三部分(圖7-21)輸出的是按照多元分析的原理進行的所有典型相關係數是否為0的檢驗,四種方法中一般參照wilks' lambda檢驗的結果。本例中4種方法的檢驗結果與前述完全一致。

(2) 典型變數係數與典型結構

第四部分(圖左)給出的是用原始變數表達的典型變數係數。考慮標準化後的係數,即第五部分(圖右)給出的典型變數和標準化變數(對原始變數標準化)間的換算公式。由於使用原始變數的相關係數陣作為輸入資料,所以這兩部分相同。

來自消費模式指標的第一典型變數v1為(原始變數的右上角帶「*」表示為標準化變數):

v1 = 0.7689 x1*+0.2721 x2*

它是x1*(每年去餐館就餐的頻率)和x2*(每年外出看電影的頻率)的加權和,在x1*上的權重更大些。

來自家庭特徵指標的第一典型變數w1為:

w1 = 0.0491 y1* + 0.8975 y2* + 0.1900 y3*

它在y2*(家庭的年收入)上的係數最大。這一對典型變數主要是反映x1*(每年去餐館就餐的頻率)和y2*(家庭的年收入)的相關關係。

第六部分(圖7-24)為典型相關結構,分別是各組原始變數與典型變數兩兩之間的相關係數矩陣。

可以看出:x1和x2與第1典型變數v1的相關係數皆為正值,分別為0.9866和0.8872,可見v1可以作為消費特性的指標。

家庭特徵指標的所有變數與第1典型變數w1的相關係數分別為:0.4211,0.9822和0.5145,可見典型變數w1主要代表了了家庭收入。

v1和w1的典型相關係數為0.6879,這就說明家庭的消費與乙個家庭的收入之間其關係是很密切的。

第二對典型變數中v2與x2的相關係數為0.4614,可以看出v2可以作為文化消費特性的指標,第二對典型變數中w2與y1和y3之間的分別相關係數為0.8464和0.

3013,可見典型變數w2主要代表了家庭成員的年齡特徵和教育程度,v2和w2的相關係數為0.1869,說明文化消費與年齡和受教育程度之間有一定關係。

(3) 典型冗餘分析

第七部分給出典型冗餘分析的結果(圖7-25、7-26),由於本例是對相關係數矩陣作分析故兩個結果相同。

兩對典型變數解釋配對變數組方差的累計比例分別為42.08%和23.157%。

消費指標通過它的第乙個典型變數解釋的共享方差的比例是88.03%,而被對方第乙個典型變數w1解釋的方差比例為41.66%,其比值41.

66% / 88.03%= 0.4733恰為can r2(canonical r-square),通過它的第二個典型變數解釋的共享方差的比例是11.

97%,被對方第二個典型變數w2解釋的方差比例為0.42%,其比值為0.0349。

家庭特徵指標通過它的第乙個典型變數解釋的共享方差的比例是46.89%,而被對方第乙個典型變數v1解釋的方差比例為22.19%,通過它的第二個典型變數解釋的共享方差的比例是27.

31%,而被對方第二個典型變數v2解釋的方差比例為0.95%。

第八部分給出各原始變數和配對組的典型變數間的復相關係數(multiple correlations)的平方,即原始變數與典型變數的判定係數,如x1與第1典型變數w1的相關係數為0.6787,則其判定係數為0.67872 = 0.

4607。

由復相關係數的平方可看出,消費指標的典型變數v1對y2(0.4566)有一些**能力,但對y1(0.0839)和y3(0.

1253)有微弱的**能力。而來自家庭特徵指標的典型變數w1對x1(0.4607)和x2(0.

3725)有較好的**能力。

7.2.2 使用corresp過程實現對應分析

1. corresp過程

proc corresp 《選項列表》:

var 《變數列表》;

tables 《行變數列表》,《列變數列表》;

id 《變數》;

run;

其中的proc corresp語句、tables語句或者var語句是必須使用的,除了這兩個語句,其他語句都是可以選擇的,下面分別介紹各語句的用法和功能

(1) proc corresp語句

標示對應分析開始,可以規定輸入輸出資料集,指定分析方法和控制輸出結果的顯示等。語句中可設定的常用選項及其功能見表7-5。

(2) var語句

輸入資料為**格式時使用,不能與tables同時使用。變數必須是數值型的。

(3) id語句

id語句只能與var語句一起使用,如果使用了tables或者mca選項,就不能使用該語句。該語句只能規定乙個字元變數。自動用id語句的變數值作為輸出**列的標籤,並且儲存在輸出資料集中。

4) tables語句

tables語句用行變數和列變數構造乙個列聯表,行變數和列變數之間用逗號分隔。不可與id和var語句同時使用。

對二維列聯表資料的對應分析

【例7-4】調查了三個民族的血型分布資料如表7-6所示,試作對應分析。

表7-6 三個民族不同血型出現的頻數

主成份分析與典型相關分析

通過變換 用低維 主成份 近似高維 較全面 資訊 4.1 主成份分析 1.二維的例子 設,觀測資料,若的相關係數,則在直線上.作則在軸上,分散性 樣本方差 最大,即選擇使的最大,基本上反映了二維資訊.完整的 分別稱為第一主成份和第二主成份.2.總體主成份 主成份至多個 1 定義設,協方差為 1 作 ...

典型相關分析評價指標體系

本節我們介紹典型相關分析如何評價指標體系。我們通過運用典型相關分析的方法對影響企業資訊化成熟度關鍵因素的指標體系進行評價,以此來說明典型相關分析可以評價指標體系。典型相關分析是利用綜合變數對之間的相關關係來反映兩組指標之間的整體相關性的多元統計分析方法。為了研究兩組變數的相關性,我們可以把兩組變數的...

失效模式與效應分析 FMEA 管理辦法OK

確保設計 開發及製程之經驗能累積,並於設計 開發過程早期發現問題點,以達到期預防之功效。2.適用範圍 凡本公司有架設apqp活動專案之產品設計 製程設計等失效模式與影響分析皆適用之。3.權責 3.1.設計單位為d fmea之主導部門,apqp小組協助之。3.2.工程單位為p fmea之主導部門,ap...