Logistic回歸模型

2023-02-09 13:12:02 字數 3393 閱讀 7662

1 logistic回歸模型的基本知識

1.1 logistic模型簡介

主要應用在研究某些現象發生的概率,比如**漲還是跌,公司成功或失敗的概率,以及討論概率與那些因素有關。顯然作為概率值,一定有,因此很難用線性模型描述概率與自變數的關係,另外如果接近兩個極端值,此時一般方法難以較好地反映p的微小變化。為此在構建與自變數關係的模型時,變換一下思路,不直接研究,而是研究的乙個嚴格單調函式,並要求在接近兩端值時對其微小變化很敏感。

於是logit變換被提出來:

1) 其中當從時,從,這個變化範圍在模型資料處理上帶來很大的方便,解決了上述面臨的難題。另外從函式的變形可得如下等價的公式:

2) 模型(2)的基本要求是,因變數(y)是個二元變數,僅取0或1兩個值,而因變數取1的概率就是模型要研究的物件。而,其中表示影響的第個因素,它可以是定性變數也可以是定量變數,。為此模型(2)可以表述成:

3) 顯然,故上述模型表明是的線性函式。此時我們稱滿足上面條件的回歸方程為logistic線性回歸。

logistic線性回歸的主要問題是不能用普通的回歸方式來分析模型,一方面離散變數的誤差形式服從伯努利分布而非正態分佈,即沒有正態性假設前提;二是二值變數方差不是常數,有異方差性。不同於多元線性回歸的最小二乘估計法則(殘差平方和最小),logistic變換的非線性特徵採用極大似然估計的方法尋求最佳的回歸係數。因此評價模型的擬合度的標準變為似然值而非離差平方和。

定義1 稱事件發生與不發生的概率比為優勢比(比數比 odds ratio 簡稱or),形式上表示為

or4)

定義2 logistic回歸模型是通過極大似然估計法得到的,故模型好壞的評價準則有似然值來表徵,稱

-2為估計值的擬合似然度,該值越小越好,如果模型完全擬合,則似然值為1,而擬合似然度達到最小,值為0。其中表示的對數似然函式值。

定義3 記為估計值的方差-協方差矩陣,為的標準差矩陣,則稱

5)為的wald統計量,在大樣本時,近似服從分布,通過它實現對係數的顯著性檢驗。

定義4 假定方程中只有常數項,即各變數的係數均為0,此時稱

6)為方程的顯著性似然統計量,在大樣本時,近似服從分布。

1.2 logistic模型的分類及主要問題

根據研究設計的不同,。還兼具兩分類和多分類之分,分組與未分組之分,有序與無序變數之分。具體如下:

兩分類非條件logistic回歸:分組資料的logistic回歸,未分組資料的logistic回歸;

多分類非條件logistic回歸:無序變數logistic回歸,無序變數logistic回歸;

條件logistic回歸:1:1型、1:m型和m:n型logistic回歸。

關於logistic回歸,主要研究的內容包括:

1. 模型引數的估計及檢驗

2. 變數模型化及自變數的選擇

3. 模型評價和**問題

4. 模型應用

2 logistic模型的引數估計及演算法實現

2.1 兩分類分組資料非條件logistic回歸

因變數(反應變數)分為兩類,取值有兩種,設事件發生記為y=1,不發生記為 y=0,設自變數是分組資料,取有限的幾個值;研究事件發生的概率與自變數的關係,其logistic回歸方程為:

或例2.1.1 分組資料[1] 在一次住房展銷會上,與房地產商簽訂初步購房意向書的有n=325人,在隨後的3個月時間內,只有一部分顧客購買了房屋。

購買房屋的顧客記為1,否則記為0。以顧客的年家庭收入(萬元)作為自變數,對資料統計後如表2.1.

1所示,建立logistic回歸模型。

表2.1.1 購房分組資料

例2.1.2 藥物療效資料[2] 為考察某藥物療效,隨機抽取220例病人並分配到**組和對照組,**組採用**藥物,對照組採用安慰劑。

**一段時間後觀察病人的療效,得到表2.1.2資料。

設y為療效指標(y=1 有效,y=0無效),為**組指標(1為**組,0為對照組),為年齡組指標(1為》45歲,0為其他)。

表2.1.2 藥物療效資料

上述兩個例子資料都是經過統計加工後的分組資料,對此類資料進行logistic回歸,首先要明確應變數對應事件的發生概率如何確定和進行logit變換,其次才能建立logistic回歸。為便於資料處理,我們將此類資料的格式作個約定,排列格式為(組序號,自變數,該組事件發生數,該組總例數)。

表2.1.3 分組資料的標準格式

經過改造後,可得我們關心的事件的發生的頻率為。其中為分組數,然後作logit變換,即。變換後的資料,形式上已經可以採用一般的線性回歸的處理方式來估計回歸引數了。此時方程變為:

當然這樣處理並沒有解決異方差性,當較大時,的近似方差為:

7)所以選擇權重,最後採用加權最小二乘法估計引數。

注意,分組資料的logistic回歸只適用於大樣本分組資料,對小樣本的為分組資料不適用,並且以組數為回歸擬合的樣本量,明顯降低了擬合精度,在實際應用中必須謹慎。

求解演算法及步驟:

1.依據分組資料的標準格式,計算頻率、logit變換和權重

2.構建加權最小二乘估計:

8)令,,

則方程又變成一般的線性回歸模型9)

3.構造增廣矩陣利用消去法得矩陣,得到估計

其中為殘差平方和, 回歸方差

各係數檢驗採用

總平方和,回歸平方和

總平方和求解相當於擬合方程的殘差平方和,故得上式st

所以方程的檢驗為

例2.1.1的求解過程如下(由lllstat統計軟體計算):

表2.1.4 資料logit變換及權重

表2.1.5 回歸模型基本資訊

表2.1.6 分組logistic回歸係數檢驗

表2.1.7

本例logistic模型的回歸方程:

對於多分類無序自變數的logistic回歸,即某個自變數為m個水平的名義變數(如**方法a,b,c),只需要引入m-1(2個)個啞變數,然後採用上述方法進行分析。

例2.1.3 研究三種**方法對不同性別病人的**效果[2],資料如表2.1.4

表2.1.4 性別和**法對某病**情況的影響

由於**方法有三種,沒有等級關係,所以屬於無序的名義變數,故引入兩個啞變數分別代表a和b**,其中表示方法a,表示方法b,表示方法c,將上述資料轉化成標準格式,得表2.1.5。

表2.1.5 性別和**法對某病**情況的影響

對於分類資料,也可以採用極大似然法進行引數估計,具體見2.2節最後部分內容。

2.2 兩分類未分組(連續)非條件logistic回歸

應變數取值為0和1,設事件發生記為y=1,否則為0,設自變數,n組觀測資料記為,。記,,則與的logistic回歸模型是:

(10)

易知,是均值為的0-1型分布,其分布律為

, 則的似然函式和對數似然函式分別為:

代入,得

11) 記,選取的估計使得達到極大,這就是logistic回歸模型的極大似然估計,該過程的求解需要採用牛頓迭代法。

Logistic模型及其應用

如果應變數為分類的變數,則不符合一般回歸分析模型的要求,可用logistic回歸來分析。簡單的logistic回歸需呼叫sas中logistic過程完成,一些較複雜的則需要呼叫catmod過程來實現。我們重點介紹logistic過程的用法,通過例項說明如何實現簡單的logistic回歸分析。8.5....

多元線性回歸模型案例分析

中國人口自然增長分析 一 研究目的要求 中國從1971年開始全面開展了計畫生育,使中國總和生育率很快從1970年的5.8降到1980年2.24,接近世代更替水平。此後,人口自然增長率 即人口的生育率 很大程度上與經濟的發展等各方面的因素相聯絡,與經濟生活息息相關,為了研究此後影響中國人口自然增長的主...

經典線性回歸模型自變數選擇

2.9 自變數選擇 資訊時代的乙個重要特徵是資料便宜資訊值錢,我們經常要從海量資料中挖掘有用資訊。比如影響產品質量的因素,從生產過程 員工培訓過程到原材料 過程,可能多達幾百個,甚至上千個。對這些質量指標和影響因素製造商在日常生產管理過程中都有記錄。現在的問題是如何從這眾多的影響因素中找出影響產品質...