Logistic模型及其應用

2023-02-09 12:24:04 字數 3393 閱讀 7906

如果應變數為分類的變數,則不符合一般回歸分析模型的要求,可用logistic回歸來分析。

簡單的logistic回歸需呼叫sas中logistic過程完成,一些較複雜的則需要呼叫catmod過程來實現。我們重點介紹logistic過程的用法,通過例項說明如何實現簡單的logistic回歸分析。

8.5.1 語法格式

proc logistic data=資料集 【選項】;

model 應變數=自變數/選項;

by 變數;

freq 變數;

weight 變數;

output out=資料集 key=新變數名;

8.5.2 語法說明

logistic過程,用最大似然法對應變數擬合乙個logistic模型。除了proc logistic和model語句為必需,其他都可省略。

【過程選項】

outest=資料集名指定統計量和引數估計輸出的新資料集名。

noprint 禁止統計結果在output視窗中輸出。 order=data|formatted|internal 規定擬和模型的應變數的水平順序

data :應變數的順序與資料集**現的順序一致

formatted:按照格式化值的順序,為預設的選項,相當於應變數所賦

值的大小順序

internal:按照非格式化值的順序

descending|des 顛倒應變數的排列順序,如果同時指定了選項order,則系統先按照order規定的順序排列,然後則降序排列。就是說,如果應變數的賦值,死亡為1,存活0,為了得到死亡對存活的概率(或者說是死亡的風險),應選擇此選項,否則得到的是存活對死亡的概率。

【model語句】

model語句指定模型的自變數、應變數,模型選項及結果輸出選項,如要擬和互動作用項,需先產生乙個表示互動作用的新變數。可以擬合帶有乙個或多個自變數的logistic回歸模型,用最大似然估計法估計模型的引數,列印出模型估計的過程和模型引數的可信區間。

model語句中常用的選項有:

noint 在模型中不擬合常數項,在條件的logistic回歸中用到。

selection= forward(或f)| backward(或b)| stepwise|score 規定變數篩選的方法,分別為向前、向後、逐步和最優子集法。預設時為none,擬合全回歸模型。

sle=概率值,指定變數進入模型的顯著水平,預設為0.05

sls=概率值,指定變數保留在模型的顯著水平,預設為0.05

cl|waldcl,要求估計所有回歸引數的可信區間

clodds=pl|wald|both, 要求計算or值的可信區間

plrl,對所有自變數估計or的可信區間

8.5.3 應用例項

例8.4 某工作者在**腎細胞癌轉移的有關臨床病理因素研究中,收集了一批行**性腎切除術患者的腎癌標本資料,現從中抽取26例資料作為示例進行logistic回歸分析。

表中有關符號意義說明:

i: 樣品序號

x1:確診時患者的年齡(歲)

x2:腎細胞癌血管內皮生長因子(vegf),其陽性表述由低到高共3個等級

x3:腎細胞癌組織內微血管數(mvc)

x4:腎癌細胞核組織學分級,由低到高共ⅳ級

x5:腎細胞癌分期,由低到高共ⅳ期

y: 腎細胞癌轉移情況(有轉移y=1; 無轉移y=0)。

假設資料已經存在於c:\user;

本題的應變數為二分類變數,用最簡單的logistic回歸模型進行配合,採用逐步篩選法篩選變數,程式如下:

libname a 'c:\user';

data

input x1-x5 y;

cards;

59 2 43.4 2 1 0

...60 3 149.8 4 3 1

proc logistic des; 選項des指定按照y=1|y=0的概率來擬合模型

model y=x1-x5/selection=stepwise;用逐步回歸法擬合模型

run;

過程名後面如果不指定選項des,則系統按照y=0的概率擬和模型(y=0|y=1),可嘗試一下去掉此選項,會發現不僅應變數的排序水平顛倒了,而且所有的引數估計符號相反,or值為原來的倒數。程式執行的主要輸出結果如下:

the logistic procedure

data set: 計算所用的資料集名 response variable: y 應變數 response levels:

2 應變數的水平數 number of observations: 26 觀察單位數 link function: logit 聯絡函式

response profile

ordered value y count

1 1 9 2 0 17

根據order和des選項對應變數的重新排序,給出排序值和及每個水平相應的例數,擬合排序為1對應的應變數水平的概率

model fitting information and testing global null hypothesis beta=0 對模型的總的檢驗,無效假設為總體的β=0,

intercept intercept and criterion only covariates chi-square for covariates

aic 35.542 17.826 .

sc 36.800 21.600 .

-2 log l 33.542 11.826 21.

716 with 2 df (p=0.0001)(相當於似然比χ2檢驗) score . .

15.844 with 2 df (p=0.0004)(相當於pearsonχ2檢驗)

模型的總的檢驗,p值均小於0.05,故模型總體有意義。 analysis of maximum likelihood estimates

parameter standard wald pr> standardized odds variable df estimate error chi-square chi-square estimate ratio 自由度引數估計標準誤 waldχ2 p值標準化回歸係數比值比 intercpt 1 -12.3285 5.4305 5.

1540 0.0232 . .

x2 1 2.4134 1.1960 4.

0719 0.0436 1.185510 11.

172 x4 1 2.0963 1.0879 3.

7131 0.0540 1.230697 8.

136association of predicted probabilities and observed responses **數和觀測數的關聯性分析

concordant = 94.1% somers' d = 0.902 discordant = 3.

9% gamma = 0.920 tied = 2.0% tau-a = 0.

425 (153 pairs) c = 0.951

Logistic回歸模型

1 logistic回歸模型的基本知識 1.1 logistic模型簡介 主要應用在研究某些現象發生的概率,比如 漲還是跌,公司成功或失敗的概率,以及討論概率與那些因素有關。顯然作為概率值,一定有,因此很難用線性模型描述概率與自變數的關係,另外如果接近兩個極端值,此時一般方法難以較好地反映p的微小變...

函式模型及其應用

6 購買手機的 全球通 卡,使用須付 基本月租費 每月需交的固定費用 50元,在市內通話時每分鐘另收話費0.40元 購買 神州行 卡,使用時不收 基本月租費 但在市內通話時每分鐘話費為0.60元 若某使用者每月手機費預算為120元,則它購買 卡才合算 7 某商場購進一批單價為6元的日用品,銷售一段時...

9函式模型及其應用

1.在某個物理實驗中,測量得變數x和變數y的幾組資料,如下表 則對x,y最適合的擬合函式是 2.某家具的標價為132元,若降價以九折 即優惠10 仍可獲利10 相對進貨價 則該家具的進貨價是 a.118元 b.105元 c.106元 d.108元 3.某電視新產品投放市場後第乙個月銷售100臺,第二...