Logistic模型及其應用

如果應變數為分類的變數，則不符合一般回歸分析模型的要求，可用logistic回歸來分析。

簡單的logistic回歸需呼叫sas中logistic過程完成，一些較複雜的則需要呼叫catmod過程來實現。我們重點介紹logistic過程的用法，通過例項說明如何實現簡單的logistic回歸分析。

8.5.1 語法格式

proc logistic data=資料集【選項】；

model 應變數=自變數/選項;

by 變數；

freq 變數；

weight 變數；

output out=資料集 key=新變數名;

8.5.2 語法說明

logistic過程，用最大似然法對應變數擬合乙個logistic模型。除了proc logistic和model語句為必需，其他都可省略。

【過程選項】

outest=資料集名指定統計量和引數估計輸出的新資料集名。

noprint 禁止統計結果在output視窗中輸出。 order=data|formatted|internal 規定擬和模型的應變數的水平順序

data ：應變數的順序與資料集**現的順序一致

formatted：按照格式化值的順序，為預設的選項，相當於應變數所賦

值的大小順序

internal：按照非格式化值的順序

descending|des 顛倒應變數的排列順序，如果同時指定了選項order，則系統先按照order規定的順序排列，然後則降序排列。就是說，如果應變數的賦值，死亡為1，存活0，為了得到死亡對存活的概率（或者說是死亡的風險），應選擇此選項，否則得到的是存活對死亡的概率。

【model語句】

model語句指定模型的自變數、應變數，模型選項及結果輸出選項，如要擬和互動作用項，需先產生乙個表示互動作用的新變數。可以擬合帶有乙個或多個自變數的logistic回歸模型，用最大似然估計法估計模型的引數，列印出模型估計的過程和模型引數的可信區間。

model語句中常用的選項有：

noint 在模型中不擬合常數項，在條件的logistic回歸中用到。

selection= forward(或f)| backward（或b）| stepwise|score 規定變數篩選的方法，分別為向前、向後、逐步和最優子集法。預設時為none，擬合全回歸模型。

sle=概率值，指定變數進入模型的顯著水平，預設為0.05

sls=概率值，指定變數保留在模型的顯著水平，預設為0.05

cl|waldcl，要求估計所有回歸引數的可信區間

clodds=pl|wald|both，要求計算or值的可信區間

plrl，對所有自變數估計or的可信區間

8.5.3 應用例項

例8.4 某工作者在**腎細胞癌轉移的有關臨床病理因素研究中，收集了一批行**性腎切除術患者的腎癌標本資料，現從中抽取26例資料作為示例進行logistic回歸分析。

表中有關符號意義說明：

i：樣品序號

x1：確診時患者的年齡(歲)

x2：腎細胞癌血管內皮生長因子(vegf)，其陽性表述由低到高共3個等級

x3：腎細胞癌組織內微血管數(mvc)

x4：腎癌細胞核組織學分級，由低到高共ⅳ級

x5：腎細胞癌分期，由低到高共ⅳ期

y：腎細胞癌轉移情況(有轉移y=1; 無轉移y=0)。

假設資料已經存在於c:\user；

本題的應變數為二分類變數，用最簡單的logistic回歸模型進行配合，採用逐步篩選法篩選變數，程式如下：

libname a 'c:\user';

data

input x1-x5 y;

cards;

59 2 43.4 2 1 0

...60 3 149.8 4 3 1

proc logistic des; 選項des指定按照y=1|y=0的概率來擬合模型

model y=x1-x5/selection=stepwise;用逐步回歸法擬合模型

run;

過程名後面如果不指定選項des，則系統按照y=0的概率擬和模型（y=0|y=1），可嘗試一下去掉此選項，會發現不僅應變數的排序水平顛倒了，而且所有的引數估計符號相反，or值為原來的倒數。程式執行的主要輸出結果如下：

the logistic procedure

data set: 計算所用的資料集名 response variable: y 應變數 response levels:

2 應變數的水平數 number of observations: 26 觀察單位數 link function: logit 聯絡函式

response profile

ordered value y count

1 1 9 2 0 17

根據order和des選項對應變數的重新排序，給出排序值和及每個水平相應的例數，擬合排序為1對應的應變數水平的概率

model fitting information and testing global null hypothesis beta=0 對模型的總的檢驗，無效假設為總體的β=0，

intercept intercept and criterion only covariates chi-square for covariates

aic 35.542 17.826 .

sc 36.800 21.600 .

-2 log l 33.542 11.826 21.

716 with 2 df (p=0.0001)（相當於似然比χ2檢驗） score . .

15.844 with 2 df (p=0.0004)（相當於pearsonχ2檢驗）

模型的總的檢驗，p值均小於0.05，故模型總體有意義。 analysis of maximum likelihood estimates

parameter standard wald pr> standardized odds variable df estimate error chi-square chi-square estimate ratio 自由度引數估計標準誤 waldχ2 p值標準化回歸係數比值比 intercpt 1 -12.3285 5.4305 5.

1540 0.0232 . .

x2 1 2.4134 1.1960 4.

0719 0.0436 1.185510 11.

172 x4 1 2.0963 1.0879 3.

7131 0.0540 1.230697 8.

136association of predicted probabilities and observed responses **數和觀測數的關聯性分析

concordant = 94.1% somers' d = 0.902 discordant = 3.

9% gamma = 0.920 tied = 2.0% tau-a = 0.

425 (153 pairs) c = 0.951

Logistic模型及其應用

Logistic回歸模型

函式模型及其應用

9函式模型及其應用

Logistic模型及其應用

Logistic回歸模型

函式模型及其應用

9函式模型及其應用

相關推薦