0802 第二節回歸分析簡介及其在均勻設計中的應用

2022-05-24 19:09:03 字數 3140 閱讀 1066

第二節回歸分析簡介及其在均勻設計中的應用

回歸分析是資料分析的有力工具,它能揭示變數之間的相互關係,因此在均勻設計的資料分析中成為主要的手段,回歸分析方法和理論十分豐富,有關書籍數以百計,這裡僅作一梗概介紹,細節可以參看有關書籍,如[26,29,30]資料處理可使用統計軟體包sas,spss,minitab,bmdp,s等,國內許多部門如中國均勻設計學會為均勻設計及其資料分析製作了專用統計軟體包,使用更為方便。

2.1 一元線性回歸模型

由於均勻設計的資料分析要利用回歸分析,因此需要對回歸分析作一扼要介紹。一元線性回歸是處理兩個變數之間關係的最簡單的模型。本章將詳細討論這個模型。

一元線性回歸雖簡單,但從中可以了解回歸分析方法的基本思想/方法和應用。

我們首先通過乙個例子說明如何建立一元線性回歸方程。

例3 為了估計山上積雪融化後對下游灌溉的影響,在山上建立了乙個觀測站,測量了最大積雪深度(x)與當年灌溉面積(y),得到連續10年的資料。

為了研究這些資料中所蘊含的規律性,我們把各年最大積雪深度作橫座標,相應的灌溉面積作縱座標,將這些資料點標在平面直角座標圖上,如圖9,這個圖稱為散點圖。

從圖9看到,資料點大致落在一條直線附近,這告訴我們變數x與y之間的關係大致可看作是線性關係,從圖9還看到,這些點又不都在一條直線上,這表明x與y的關係並沒有確切到給定x就可以唯一地確定y的程度。事實上,還有許多其他因素對y產生影響,如當年的平均氣溫,當年的降雨量等等,這些都是影響y取什麼值的隨機因素。如果我們只研究x與y的關係,可以假定

有如下結構式:

y=α+βx+ε (2.1)

式中α,β 稱為回歸係數,x為自變數,y為因變數,ε表示隨機誤差,常常假定ε遵從正態分佈n(0,σ2),這表示誤差為正和負的機會一樣多,σ2 表示誤差的大小。式中α,β,σ2 通常是未知的,它們要通過資料的資訊來估計

設{(xi,yi),i=1,…n}為一組資料,若用回歸方程(2.1)來擬合,則當x=時的估計值為

2.2)

自然,我們希望求α和β使與很接近.也就是說,我們要決定一條直線,使其與所有的點都比較接近,最流行求α,β 估計值的辦法是用最小二乘法,令

2.3)

最小二乘法是求α和β使q達極小,使q達極小的α和β值記為a和b.利用微積分中求極值的辦法求得

2.4)

式中2.5)

利用這些公式到例3,得:

於是b=415.606/230.656=1.802

a=36.53-1.802×18.88=2.511

從而回歸方程為

試將該直線畫在圖9上,可以看到擬合的效果是不錯的,衡量擬合效果的好壞,如下的方法是十分有用的。

(a) 相關係數

相關係數用於描敘變數x和y的線性相關的程度,並常用r來表示,r的值介於[-1,1]之間,它的意義由圖10可以知道。r的絕對值越接近於1表示x和y之間的線性關係越密切;r〉0,兩者呈正比關係,叫正相關;r〈 0兩者呈負相關。r的值接近於0,兩者沒有線性相關關係。

圖10中(c)表示x和y沒有任何關係,(d)表示x和y有非線性相關關係,r的計算公式為

2.6)

式中2.7)

對例3764.861

r=415.6050.9894

後者很接近於1,故最大積雪深度與灌溉面積有很密切的線性相關關係,且是正相關.但是,相關係數有乙個缺點,就是它接近1的程度與樣本的組數n是有關的,當n較小時,相關係數的絕對值容易接近於1,當n較大時,相關係數的絕對值容易偏小。特別當n=2時,因為兩點決定一條直線,所以相關係數的絕對值總為1,在許多統計書中[29]給出相關係數的起碼值,當相關係數的絕對值大於表中之值時才可以認為x和y有線性關係。

此例當顯著性水平α=1%時,表中的起碼值為0.765,今計算r=0.9894 > 0.

765,故最大積雪深度與灌溉面積有高度的線性關係。

在有些統計軟體中,常給出,這時便於區別記為。

(b)方差分析和f檢驗

因變數的波動可用來表達,這個波動是由兩個因素造成的;乙個是x的變化引起y相應的變化,另乙個是隨機誤差。前者造成y的波動可用回歸平方和來表達,後者用殘差平方和來度量。它們分別用和來表示,從數學上可以匯出

=2.8)

當x和y為線性回歸模型(2.1)時,它們有如下更方便的計算公式

=2.9)

利用統計量

f2.10)

可以來檢驗回歸方程(2.1)是否可信.當方程可信時f 〉,這裡為f表中的臨界值,1和n-2為自由度,α為顯著水平.對例3可以算得

=1.802×415.606=748.922

=764.961-748.922=16.039

f=8×748.922/16.039=373.55

當α=1%時。用f值和f表上的臨界值相比,若f 〉,表明y的變化主要是由x的變化造成的,回歸方程(2.1)可信;若f值小於,回歸方程不可信。

可信的程度也可分成不同等級,在本書中,α=5%時可信用「*」 表示,α=1%時可信用「**」 表示。上述計算結果常列成方差分析表,如表10所示。

表10 方差分析表

(c) 殘差分析

稱為殘差,它能提供許多有用的資訊,表11給出了例3的10個殘差,利用殘差可以提供如下資訊:

(i)σ之估計

2.11)

給出了回歸方程的精度,它稱為殘差標準差,若隨機誤差遵從正態分佈n(0,),則y的預報落在之內的概率大約為95%,對例3可以算得=1.416,且10個均落於2×1.416之內。

(ii)資料和模型之診斷

由殘差之大小,可以發現異常(或叫離群)資料,可以發現模型(2.1)是否合適,是否要用非線性回歸模型等,這些已形成一整套理論,稱為回歸診斷,有興趣的讀者可參見文獻[31]。

2.2多元線性回歸模型

當影響因變數y的自變數不止乙個時,比如有m個,…,,這時y和x之間的線性回歸方程為

2.12)

其中為回歸係數,ε為隨機誤差,常假定。

設為觀測值,回歸分析的首要任務是利用它們來估計和σ,它們的最小二乘估計記作求估計值需要解下面的線性方程組

2.13)

其中當求得後,計算

2.14)

回歸方程(2.12)建立後,檢驗其是否可信可用方差分析,這時公式(2.8)依然有效,但

方差分析表(參看表10)將成為表12之形式,其中

2.15)

表12 方差分析表

它將與f的臨界值來比較,其比較的結果和結論請參見上節的討論,反映回歸精度的σ的估計公式為

2.16)

第二節隨機變數及其分布

為了對隨機試驗進行全面和深入的研究,從中揭示出客觀存在的統計規律性,我們常把隨機試驗的結果與實數對應起來,即把隨機試驗的結果數量化,引入隨機變數的概念。隨機變數的概率論與數理統計的最基本的概念之一。2 1隨機變數的概念 在隨機現象中,許多隨機試驗的結果是可以用數量表示的。有些隨機試驗的結果雖然與數量...

第二節 醣類

教學目標 1.使學生掌握醣類的主要代表物 葡萄糖 蔗糖 澱粉 纖維素的組成和重要性質,以及它們之間的相互轉變和跟烴的衍生物的關係.2.了解合理攝入營養物質的重要性,認識營養均衡與人體健康的關係。3.使學生掌握葡萄糖蔗糖澱粉的鑑別方法.教學重點 難點 認識醣類的組成和性質特點。教學方法 討論 實驗 調...

第二節原子

教師活動 對比分子的特徵,引導學生歸納出原子的特徵。學生活動 閱讀教材,思考 討論並找出原子的特徵。板書 2.特徵 1 原子有一定的體積和質量。2 原子在不停地運動。3 原子間有一定間隔。4 原子是構成物質的一種微粒。5 原子在化學變化中不可再分,只是發生重新組合。鞏固提問 1 用原子和分子的概念解...