經典線性回歸模型自變數選擇

2022-05-21 04:30:35 字數 2699 閱讀 6377

§2.9 自變數選擇

資訊時代的乙個重要特徵是資料便宜資訊值錢,我們經常要從海量資料中挖掘有用資訊。比如影響產品質量的因素,從生產過程、員工培訓過程到原材料**過程,可能多達幾百個,甚至上千個。對這些質量指標和影響因素製造商在日常生產管理過程中都有記錄。

現在的問題是如何從這眾多的影響因素中找出影響產品質量的重要因素。有時只需判斷乙個自變數對因變數是否有重要影響,而不需要了解它們之間的精確定量關係。比如判斷原材料**對產品質量是否有重要影響比了解它們之間的精確定量關係更重要。

線性回歸模型的自變數選擇就是用於有眾多自變數時識別重要自變數的方法。用於線性回歸模型自變數選擇的方法可分為兩類:全域性擇優法和逐步回歸法。

一、全域性擇優法

全域性擇優法就是用衡量回歸模型與資料擬合程度的準則,從全部可能的回歸模型中選擇對資料擬合最優的回歸模型。對於乙個包含p個自變數的回歸問題,全部可能的回歸模型有個,全域性擇優法要求出每個回歸模型的準則值,然後找出最優的回歸模型。

回歸模型對資料的擬合程度可用殘差平方和來表示。殘差平方和越小,模型擬合的越好。但殘差平方和的大小與因變數的計量單位有關,因此我們定義了決定係數。

決定係數越大,模型擬合的越好。決定係數不僅與因變數的計量單位無關,而且能說明在因變數的變異中,歸功於自變數變化的部分所佔比例。但不論是用殘差平方和還是用決定係數來度量線性擬合模型擬合程度,都會得出模型中包含越多自變數擬合就越好的結論。

但在樣本容量給定的情況下,自變數越多,模型就越複雜,模型引數估計就越不精確,導致模型應用的效果就越差。因此我們需要能綜合用殘差平方和表示的模型擬合精度和用模型中包含的自變數個數表示的模型複雜程度的準則,以便選擇出最優的回歸模型。回歸分析中用於選擇自變數的準則很多。

由於殘差平方和rssp和決定係數r2只考慮模型擬合精度,因而只能作為自變數個數相同時自變數選擇的準則。殘差均方s2和修正決定係數是乙個綜合模型擬合精度和模型複雜程度的準則。綜合性準則除了殘差均方和修正決定係數外,還有如下一些準則:

·mallows cp準則

其中,s2為包含全部自變數的擬合模型的殘差均方,rssp為當前擬合模型的殘差平方和,p為當前擬合模型的自變數個數。

·資訊準則

資訊準則根據公式

計算,其中loglik= -n/2為當前擬合模型的對數似然函式,npar為當前擬合模型的引數個數,當k=2時稱為aic準則,當k=log(n)時稱為bic準則。在小樣本情況下,aic準則的表現不太好,為此人們提出的修正aic準則aicc,其計算公式為

r中計算當前擬合模型資訊準則的函式有(其中fit為當前擬合模型物件)

aic(fit, k = 2) k=2(預設)時計算

k= log(n)時計算

extractaic(fit, scale, k = 2) 指定scale=s2,計算當前擬合模型的cp準則

不指定scale,k=2(預設)時計算

不指定scale,k=log(n)時計算

r的附加程式包qpcr中的函式aicc(fit)可計算當前擬合模型的修正資訊準則

·**平方和準則

其中,,表示刪除第i個案例後,用剩餘的(n-1)個案例估計的擬合模型對第i個案例的**誤差。r的附加程式包qpcr中的函式press(fit)可計算**平方和。此函式的返回值是乙個列表,其中包含三個元素,

(1) 名字為stat的**平方和;

(2) 名字為residuals的**殘差向量;

(3) 名字為的p2,其計算公式為:

r的的附加程式包leaps中的函式leaps( )和regsubsets( )均可用來完成全域性最優的選擇。leaps( )依據cp準則、修正r2準則和r2準則來選擇全域性最優回歸模型;regsubsets( )函式則只能選出不同自變數個數的區域性最優的模型,我們再從這些區域性的最優模型中選出全域性最優的模型。

例:高速公路事故資料

考慮汽車意外事故率(事故數/百萬行車)與一些可能的相關之間的關係。資料報括2023年在明尼蘇達州的39段高速公路。

adt 以千計的平均是流量(估計)

trks 卡車容量在全部容量中的百分比

lane 在兩個方向上的交通車道總數

acpt 路段中每英里的進入點

sigs 路段中每英里訊號交換數

itg 路段中每英里的快車道型別交換數

slim 時速限制(在2023年)

len 段的長度(英里)

lwid 道路寬度(英呎)

shld 道路的外側路肩寬度

hwy 公路型別的因子變數,0:州際高速公路、1:首要幹道高速公路、2:主

幹道高速公路、3:其它

rate 2023年每百萬公里行車的事故率

考慮log(rate)對log(len), log(adt), log(trks), log(sigs1), slim, shld, lane, acpt, itg, lwid, hwy的回歸, 其中sigs1=(sigs*len+1)/len

leaps( )函式的一般用法為

leaps(x=, y=, method=c("cp", "adjr2", "r2"),int=true, nbest=10, names=null)

其中,x=用來指定自變數的矩陣;

y=用來指定因變數的向量;

method=用來指定準則,預設為cp準則;

int=表示模型是否包含常數項的邏輯值,預設為true,表示包含常數項。

nbest=用來指定要報告的不同個數自變數的區域性最優模型數。

names=用來指定自變數名稱的字元向量。

多元線性回歸模型案例分析

中國人口自然增長分析 一 研究目的要求 中國從1971年開始全面開展了計畫生育,使中國總和生育率很快從1970年的5.8降到1980年2.24,接近世代更替水平。此後,人口自然增長率 即人口的生育率 很大程度上與經濟的發展等各方面的因素相聯絡,與經濟生活息息相關,為了研究此後影響中國人口自然增長的主...

第四講含定性自變數的回歸模型與聯立方程模型

一 含定性自變數的回歸模型 1 定性變數 虛擬變數 的概念 一般的線性回歸模型變數取值都有具體數值,然而實際問題中經常會碰到這樣一些變數,如性別 職稱 歷史時期 計畫經濟或市場經濟 等,它們不是用數值度量的,被稱為定性變數。含有定性變數的線性回歸問題可分為自變數含定性變數和因變數含定性變數兩種情況,...

一元線性回歸模型實驗報告

以中國1985 2009年財政收入y和國內生產總值 gdp 為例以gdp為橫軸,y為縱軸的散點圖 以gdp為解釋變數,y為被解釋變數,建立一元線性回歸方程 yi 0 1 gdpi 圖3 回歸分析結果 可得出0 3225.757 1 0.197398財政收入隨國內生產總值變化的一元線性回歸方程為 32...