Logistic回歸模型

1 logistic回歸模型的基本知識

1.1 logistic模型簡介

主要應用在研究某些現象發生的概率，比如**漲還是跌，公司成功或失敗的概率，以及討論概率與那些因素有關。顯然作為概率值，一定有，因此很難用線性模型描述概率與自變數的關係，另外如果接近兩個極端值，此時一般方法難以較好地反映p的微小變化。為此在構建與自變數關係的模型時，變換一下思路，不直接研究，而是研究的乙個嚴格單調函式，並要求在接近兩端值時對其微小變化很敏感。

於是logit變換被提出來：

1）其中當從時，從，這個變化範圍在模型資料處理上帶來很大的方便，解決了上述面臨的難題。另外從函式的變形可得如下等價的公式：

2）模型(2)的基本要求是，因變數（y）是個二元變數，僅取0或1兩個值，而因變數取1的概率就是模型要研究的物件。而，其中表示影響的第個因素，它可以是定性變數也可以是定量變數，。為此模型(2)可以表述成：

3）顯然，故上述模型表明是的線性函式。此時我們稱滿足上面條件的回歸方程為logistic線性回歸。

logistic線性回歸的主要問題是不能用普通的回歸方式來分析模型，一方面離散變數的誤差形式服從伯努利分布而非正態分佈，即沒有正態性假設前提；二是二值變數方差不是常數，有異方差性。不同於多元線性回歸的最小二乘估計法則(殘差平方和最小)，logistic變換的非線性特徵採用極大似然估計的方法尋求最佳的回歸係數。因此評價模型的擬合度的標準變為似然值而非離差平方和。

定義1 稱事件發生與不發生的概率比為優勢比(比數比 odds ratio 簡稱or)，形式上表示為

or4）

定義2 logistic回歸模型是通過極大似然估計法得到的，故模型好壞的評價準則有似然值來表徵，稱

-2為估計值的擬合似然度，該值越小越好，如果模型完全擬合，則似然值為1，而擬合似然度達到最小，值為0。其中表示的對數似然函式值。

定義3 記為估計值的方差-協方差矩陣，為的標準差矩陣，則稱

5）為的wald統計量，在大樣本時，近似服從分布，通過它實現對係數的顯著性檢驗。

定義4 假定方程中只有常數項，即各變數的係數均為0，此時稱

6）為方程的顯著性似然統計量，在大樣本時，近似服從分布。

1.2 logistic模型的分類及主要問題

根據研究設計的不同，。還兼具兩分類和多分類之分，分組與未分組之分，有序與無序變數之分。具體如下：

兩分類非條件logistic回歸：分組資料的logistic回歸，未分組資料的logistic回歸；

多分類非條件logistic回歸：無序變數logistic回歸，無序變數logistic回歸；

條件logistic回歸：1:1型、1:m型和m:n型logistic回歸。

關於logistic回歸，主要研究的內容包括：

1．模型引數的估計及檢驗

2．變數模型化及自變數的選擇

3．模型評價和**問題

4．模型應用

2 logistic模型的引數估計及演算法實現

2.1 兩分類分組資料非條件logistic回歸

因變數(反應變數)分為兩類，取值有兩種，設事件發生記為y=1，不發生記為 y=0，設自變數是分組資料，取有限的幾個值；研究事件發生的概率與自變數的關係，其logistic回歸方程為：

或例2.1.1 分組資料[1] 在一次住房展銷會上，與房地產商簽訂初步購房意向書的有n=325人，在隨後的3個月時間內，只有一部分顧客購買了房屋。

購買房屋的顧客記為1，否則記為0。以顧客的年家庭收入(萬元)作為自變數,對資料統計後如表2.1.

1所示，建立logistic回歸模型。

表2.1.1 購房分組資料

例2.1.2 藥物療效資料[2] 為考察某藥物療效，隨機抽取220例病人並分配到**組和對照組，**組採用**藥物，對照組採用安慰劑。

**一段時間後觀察病人的療效，得到表2.1.2資料。

設y為療效指標(y=1 有效，y=0無效)，為**組指標(1為**組，0為對照組)，為年齡組指標(1為》45歲，0為其他)。

表2.1.2 藥物療效資料

上述兩個例子資料都是經過統計加工後的分組資料，對此類資料進行logistic回歸，首先要明確應變數對應事件的發生概率如何確定和進行logit變換，其次才能建立logistic回歸。為便於資料處理，我們將此類資料的格式作個約定，排列格式為（組序號，自變數，該組事件發生數，該組總例數）。

表2.1.3 分組資料的標準格式

經過改造後，可得我們關心的事件的發生的頻率為。其中為分組數，然後作logit變換，即。變換後的資料，形式上已經可以採用一般的線性回歸的處理方式來估計回歸引數了。此時方程變為：

當然這樣處理並沒有解決異方差性，當較大時，的近似方差為：

7）所以選擇權重，最後採用加權最小二乘法估計引數。

注意，分組資料的logistic回歸只適用於大樣本分組資料，對小樣本的為分組資料不適用，並且以組數為回歸擬合的樣本量，明顯降低了擬合精度，在實際應用中必須謹慎。

求解演算法及步驟：

1．依據分組資料的標準格式，計算頻率、logit變換和權重

2．構建加權最小二乘估計：

8）令，，

則方程又變成一般的線性回歸模型9）

3．構造增廣矩陣利用消去法得矩陣，得到估計

其中為殘差平方和, 回歸方差

各係數檢驗採用

總平方和，回歸平方和

總平方和求解相當於擬合方程的殘差平方和，故得上式st

所以方程的檢驗為

例2.1.1的求解過程如下（由lllstat統計軟體計算）：

表2.1.4 資料logit變換及權重

表2.1.5 回歸模型基本資訊

表2.1.6 分組logistic回歸係數檢驗

表2.1.7

本例logistic模型的回歸方程：

對於多分類無序自變數的logistic回歸，即某個自變數為m個水平的名義變數（如**方法a,b,c），只需要引入m-1（2個）個啞變數，然後採用上述方法進行分析。

例2.1.3 研究三種**方法對不同性別病人的**效果[2]，資料如表2.1.4

表2.1.4 性別和**法對某病**情況的影響

由於**方法有三種，沒有等級關係，所以屬於無序的名義變數，故引入兩個啞變數分別代表a和b**，其中表示方法a,表示方法b,表示方法c，將上述資料轉化成標準格式，得表2.1.5。

表2.1.5 性別和**法對某病**情況的影響

對於分類資料，也可以採用極大似然法進行引數估計，具體見2.2節最後部分內容。

2.2 兩分類未分組(連續)非條件logistic回歸

應變數取值為0和1，設事件發生記為y=1，否則為0，設自變數，n組觀測資料記為,。記，，則與的logistic回歸模型是：

（10）

易知，是均值為的0-1型分布，其分布律為

，則的似然函式和對數似然函式分別為：

代入,得

11）記，選取的估計使得達到極大，這就是logistic回歸模型的極大似然估計，該過程的求解需要採用牛頓迭代法。

Logistic回歸模型

Logistic模型及其應用

多元線性回歸模型案例分析

經典線性回歸模型自變數選擇

Logistic回歸模型

Logistic模型及其應用

多元線性回歸模型案例分析

經典線性回歸模型自變數選擇

相關推薦