總結線性回歸分析的基本步驟

步驟一、建立模型

知識點：

1、總體回歸模型、總體回歸方程、樣本回歸模型、樣本回歸方程

①總體回歸模型：研究總體之中自變數和因變數之間某種非確定依賴關係的計量模型。

特點：由於隨機誤差項u的存在，使得y和x不在一條直線/平面上。

例1：某鎮共有60個家庭，經普查，60個家庭的每週收入（x）與每週消費（y）資料如下：

作出其散點圖如下：

②總體回歸方程（線）：由於假定，因此因變數的均值與自變數總處於一條直線上，這條直線就稱為總體回歸線（方程）。

總體回歸方程的求法：以例1的資料為例

1）對第乙個xi，求出e(y|xi)。

由於，因此任意帶入兩個xi和其對應的e(y|xi)值，即可求出，並進而得到總體回歸方程。

如將代入可得：

以上求出反映了e(y|xi)和xi之間的真實關係，即所求的總體回歸方程為：，其圖形為：

③樣本回歸模型：總體通常難以得到，因此只能通過抽樣得到樣本資料。如在例1中，通過抽樣考察，我們得到了20個家庭的樣本資料：

那麼描述樣本資料中因變數y和自變數x之間非確定依賴關係的模型就稱為樣本回歸模型。

④樣本回歸方程（線）：通過樣本資料估計出，得到樣本觀測值的擬合值與解釋變數之間的關係方程稱為樣本回歸方程。如下圖所示：

⑤四者之間的關係：

ⅰ：總體回歸模型建立在總體資料之上，它描述的是因變數y和自變數x之間的真實的非確定型依賴關係；樣本回歸模型建立在抽樣資料基礎之上，它描述的是因變數y和自變數x之間的近似於真實的非確定型依賴關係。這種近似表現在兩個方面：

一是結構引數是其真實值的一種近似估計；二是殘差是隨機誤差項u的乙個近似估計；

ⅱ：總體回歸方程是根據總體資料得到的，它描述的是因變數的條件均值e(y|x)與自變數x之間的線性關係；樣本回歸方程是根據抽樣資料得到的，它描述的是因變數y樣本**值的擬合值與自變數x之間的線性關係。

ⅲ：回歸分析的目的是試圖通過樣本資料得到真實結構引數的估計值，並要求估計結果足夠接近真實值。由於抽樣資料有多種可能，每一次抽樣所得到的估計值都不會相同，即的估計量是乙個隨機變數。

因此必須選擇合適的引數估計方法，使其具有良好的統計性質。

2、隨機誤差項u存在的原因：

①非重要解釋變數的省略

②人的隨機行為

③數學模型形式欠妥

④歸併誤差（如一國gdp的計算）

⑤測量誤差等

3、多元回歸模型的基本假定

①隨機誤差項的期望值為零

②隨機誤差項具有同方差性

③隨機誤差項彼此之間不相關

④解釋就變數x1,x2,···,xk為確定型變數，與隨機誤差項彼此不相關。

⑤解釋就變數x1,x2,···,xk之間不存在精確的（完全的）線性關係，即解釋變數的樣本觀測值矩陣x為滿秩矩陣：rank(x)=k+1⑥隨機誤差項服從正態分佈，即：ui~n(0,2)，i=1,2,···,n

步驟二、引數估計

知識點：

1、最小二乘估計的基本原理：殘差平方和最小化。

2、引數估計量：

1 一元回歸：

2 多元回歸：

3、最小二乘估計量的性質（gauss-markov定理）：

在滿足基本假設的情況下，最小二乘估計量是的最優線性無偏估計量（blue估計量）

步驟三、模型檢驗

1、經濟計量檢驗（後三章內容）

2、統計檢驗

①擬合優度檢驗

知識點：

ⅰ：擬合優度檢驗的作用：檢驗回歸方程對樣本點的擬合程度

ⅱ：擬合優度的檢驗方法：計算（調整的）樣本可決係數

，注意掌握離差平方和、回歸平方和、殘差平方和之間的關係以及它們的自由度。

計算方法：通過方差分析表計算

例2：下表列出了三變數（二元）模型的回歸結果：

1）樣本容量為多少？

解：由於tss的自由度為n-1，由上表知n-1＝14，因此樣本容量n=15。

2）求ess

解：由於tss＝ess＋rss，故ess＝tss－rss＝77

3） ess和rss的自由度各為多少？

解：對三變數模型而言，k=2，故ess的自由度為n-k-1＝12

rss的自由度為k＝2

4）求

解：，②回歸方程的顯著性檢驗（f檢驗）

目的：檢驗模型中的因變數與自變數之間是否存在顯著的線性關係

步驟：1、提出假設：

2、構造統計量：

3、給定顯著性水平，確定拒絕域

4、計算統計量值，並判斷是否拒絕原假設

例3：就例2中的資料，給定顯著性水平，對回歸方程進行顯著性檢驗。

解：由於統計量值，

又，而故拒絕原假設，即在1%的顯著性水平下可以認為回歸方程存在顯著的線性關係。

附：檢驗的關係：

由於③解釋變數的顯著性檢驗（t檢驗）

目的：檢驗模型中的自變數是否對因變數存在顯著影響。

知識點：

多元回歸：，其中為中位於第i+1行和i+1列的元素；

一元回歸：

變數顯著性檢驗的基本步驟：

1、提出假設：

2、構造統計量：

3、給定顯著性水平，確定拒絕域

4、計算統計量值，並判斷是否拒絕原假設

例4：根據19個樣本資料得到某一回歸方程如下：

試在5%的顯著性水平下對變數的顯著性進行檢驗。

解：由於，故t檢驗的拒絕域為。對自變數而言，其t統計量值為，落入

拒絕域，故拒絕的原假設，即在5%的顯著性水平下，可以認為自變數對因變數有顯著影響；

對自變數而言，其t統計量值為，未落入拒絕域，故不能拒絕的原假設，即在5%的顯著性水平下，可以認為自變數對因變數y的影響並不顯著。

④回歸係數的置信區間

目的：給定某一置信水平，構造某一回歸引數的乙個置信區間，使落在該區間內的概率為

基本步驟：

1、構造統計量

2、給定置信水平，查表求出水平的雙側分位數

3、求出的置信度為的置信區間

例5：根據例4的資料，求出的置信度為95%的置信區間。

解：由於，故的置信度為95%的置信區間為：

3、經濟意義檢驗

目的：檢驗回歸引數的符號及數值是否與經濟理論的預期相符。

例6：根據26個樣本資料建立了以下回歸方程用於解釋美國居民的個人消費支出：

其中：y為個人消費支出（億元）；x1為居民可支配收入（億元）；x2為利率（%）

1）先驗估計的符號；

解：由於居民可支配收入越高，其個人消費水平也會越高，因此預期自變數x1回歸係數的符號為正；而利率越高，居民儲蓄意願越強，消費意願相應越低，因此個從消費支出與利率應該存在負相關關係，即應為負。

2）解釋兩個自變數回歸係數的經濟含義；

解：表示，居民可支配收入每增加1億元，其個人消費支出相應會增加0.93億元，即居民的邊際消費傾向mpc＝0.93；

表示，利率提高1個百分點，個人消費支出將減少2.09億元。

截距項表示居民可支配收入和利率為零時的個人消費支出為-10.96億元，它沒有明確的經濟含義。

3）檢驗是否顯著不為1；（）

解：1）提出假設：

2）構造統計量：

3）給定顯著性水平，查表得，故拒絕域為

4）計算統計量值：由於

則，落入拒絕域。故拒絕的原假設。即在5%的顯著性水平下，可認為邊際消費傾向mpc顯著不為1。

4）檢驗顯否顯著不為零；（）

解：1）提出假設：

2）構造統計量：

3）給定顯著性水平，查表得，故拒絕域為

4）計算統計量值：由於，落入拒絕域，故拒絕原假設。即在5%的顯著性水平下，可以認為顯著異於零。

5）計算值；

解：由於

6）計算每個回歸係數的標準差；

解：由於

7）給出置信水平為95%的置信區間；

解：由於，故置信水平為95%的置信區間為

8）對回歸方程進行顯著性檢驗；

解：提出假設：

構造統計量

確定拒絕域：

計算統計量並進行判斷：

由於故拒絕原假設，即在5%的顯著性水平下認為回歸方程的線性關係顯著成立。

步驟四：經濟**

點**：可以看著是y的條件均值和個別值的**值，分別稱為均值**和個值**；

性質：是和的乙個無偏估計量。

區間**：均值的區間**

**步驟：1）確定統計量：

其中2）給定置信水平，確定的**區間為：

個值的區間**

**步驟：1）確定統計量：

其中2）給定置信水平，確定的**區間為：

作業：為解釋某地對酒的消費，根據20年的樣本資料得到了如下回歸方程：

其中：：每一成年人每年對酒的消費量（公升）；

：酒類的平均**（元）；　　　：個人可支配收入（元）

：酒類經營許可證數量（張）　　：酒類廣告投入（萬元）

已知，對角線上的元素分別為，，

，，，回歸方程的殘差平方和

1）先驗地，你認為各自變數回歸係數的符號為什麼？

2）請完成以下方差分析表：

3）計算值

4）對4個自變數進行顯著性檢驗，並分析其經濟含義；

5）給出置信水平為95%的區間估計；

6）對方程進行顯著性檢驗；

一元線性回歸的基本假設有哪些

一元線性回歸的基本假設有哪些，數學表示式如何 1回歸模型是正確設定的 2解釋變數x是確定性變數，不是隨機變數，在重複抽樣中取固定值 e i 0i 1,2,n var i 2i 1,2,n cov i,j 0 i j i,j 1,2,n 3解釋變數x在所抽取的樣本中具有變異性，而且隨著樣本容量的無限增...

事故原因分析的基本步驟

事故調查原因的基本步驟 xueexi 隱藏窗體頂端窗體底端事故原因分析的基本步驟事故原因分析的基本步驟 1 整理和閱讀調查材料 2 分析傷害方式 a 受傷部位 b 受傷性質 c 起因物 d 致害物 e 傷害方式 f 不安全狀態 g 不安全行為 3 確定事故的直接原因 4 確定事故的間接原因企...

總結 線性回歸分析的基本步驟

相關與線性回歸的SPSS分析

一元線性回歸的基本假設有哪些

事故原因分析的基本步驟

相關推薦

總結線性回歸分析的基本步驟