如果應變數為分類的變數,則不符合一般回歸分析模型的要求,可用logistic回歸來分析。
簡單的logistic回歸需呼叫sas中logistic過程完成,一些較複雜的則需要呼叫catmod過程來實現。我們重點介紹logistic過程的用法,通過例項說明如何實現簡單的logistic回歸分析。
8.5.1 語法格式
proc logistic data=資料集 【選項】;
model 應變數=自變數/選項;
by 變數;
freq 變數;
weight 變數;
output out=資料集 key=新變數名;
8.5.2 語法說明
logistic過程,用最大似然法對應變數擬合乙個logistic模型。除了proc logistic和model語句為必需,其他都可省略。
【過程選項】
outest=資料集名指定統計量和引數估計輸出的新資料集名。
noprint 禁止統計結果在output視窗中輸出。 order=data|formatted|internal 規定擬和模型的應變數的水平順序
data :應變數的順序與資料集**現的順序一致
formatted:按照格式化值的順序,為預設的選項,相當於應變數所賦
值的大小順序
internal:按照非格式化值的順序
descending|des 顛倒應變數的排列順序,如果同時指定了選項order,則系統先按照order規定的順序排列,然後則降序排列。就是說,如果應變數的賦值,死亡為1,存活0,為了得到死亡對存活的概率(或者說是死亡的風險),應選擇此選項,否則得到的是存活對死亡的概率。
【model語句】
model語句指定模型的自變數、應變數,模型選項及結果輸出選項,如要擬和互動作用項,需先產生乙個表示互動作用的新變數。可以擬合帶有乙個或多個自變數的logistic回歸模型,用最大似然估計法估計模型的引數,列印出模型估計的過程和模型引數的可信區間。
model語句中常用的選項有:
noint 在模型中不擬合常數項,在條件的logistic回歸中用到。
selection= forward(或f)| backward(或b)| stepwise|score 規定變數篩選的方法,分別為向前、向後、逐步和最優子集法。預設時為none,擬合全回歸模型。
sle=概率值,指定變數進入模型的顯著水平,預設為0.05
sls=概率值,指定變數保留在模型的顯著水平,預設為0.05
cl|waldcl,要求估計所有回歸引數的可信區間
clodds=pl|wald|both, 要求計算or值的可信區間
plrl,對所有自變數估計or的可信區間
8.5.3 應用例項
例8.4 某工作者在**腎細胞癌轉移的有關臨床病理因素研究中,收集了一批行**性腎切除術患者的腎癌標本資料,現從中抽取26例資料作為示例進行logistic回歸分析。
表中有關符號意義說明:
i: 樣品序號
x1:確診時患者的年齡(歲)
x2:腎細胞癌血管內皮生長因子(vegf),其陽性表述由低到高共3個等級
x3:腎細胞癌組織內微血管數(mvc)
x4:腎癌細胞核組織學分級,由低到高共ⅳ級
x5:腎細胞癌分期,由低到高共ⅳ期
y: 腎細胞癌轉移情況(有轉移y=1; 無轉移y=0)。
假設資料已經存在於c:\user;
本題的應變數為二分類變數,用最簡單的logistic回歸模型進行配合,採用逐步篩選法篩選變數,程式如下:
libname a 'c:\user';
data
input x1-x5 y;
cards;
59 2 43.4 2 1 0
...60 3 149.8 4 3 1
proc logistic des; 選項des指定按照y=1|y=0的概率來擬合模型
model y=x1-x5/selection=stepwise;用逐步回歸法擬合模型
run;
過程名後面如果不指定選項des,則系統按照y=0的概率擬和模型(y=0|y=1),可嘗試一下去掉此選項,會發現不僅應變數的排序水平顛倒了,而且所有的引數估計符號相反,or值為原來的倒數。程式執行的主要輸出結果如下:
the logistic procedure
data set: 計算所用的資料集名 response variable: y 應變數 response levels:
2 應變數的水平數 number of observations: 26 觀察單位數 link function: logit 聯絡函式
response profile
ordered value y count
1 1 9 2 0 17
根據order和des選項對應變數的重新排序,給出排序值和及每個水平相應的例數,擬合排序為1對應的應變數水平的概率
model fitting information and testing global null hypothesis beta=0 對模型的總的檢驗,無效假設為總體的β=0,
intercept intercept and criterion only covariates chi-square for covariates
aic 35.542 17.826 .
sc 36.800 21.600 .
-2 log l 33.542 11.826 21.
716 with 2 df (p=0.0001)(相當於似然比χ2檢驗) score . .
15.844 with 2 df (p=0.0004)(相當於pearsonχ2檢驗)
模型的總的檢驗,p值均小於0.05,故模型總體有意義。 analysis of maximum likelihood estimates
parameter standard wald pr> standardized odds variable df estimate error chi-square chi-square estimate ratio 自由度引數估計標準誤 waldχ2 p值標準化回歸係數比值比 intercpt 1 -12.3285 5.4305 5.
1540 0.0232 . .
x2 1 2.4134 1.1960 4.
0719 0.0436 1.185510 11.
172 x4 1 2.0963 1.0879 3.
7131 0.0540 1.230697 8.
136association of predicted probabilities and observed responses **數和觀測數的關聯性分析
concordant = 94.1% somers' d = 0.902 discordant = 3.
9% gamma = 0.920 tied = 2.0% tau-a = 0.
425 (153 pairs) c = 0.951
Logistic回歸模型
1 logistic回歸模型的基本知識 1.1 logistic模型簡介 主要應用在研究某些現象發生的概率,比如 漲還是跌,公司成功或失敗的概率,以及討論概率與那些因素有關。顯然作為概率值,一定有,因此很難用線性模型描述概率與自變數的關係,另外如果接近兩個極端值,此時一般方法難以較好地反映p的微小變...
函式模型及其應用
6 購買手機的 全球通 卡,使用須付 基本月租費 每月需交的固定費用 50元,在市內通話時每分鐘另收話費0.40元 購買 神州行 卡,使用時不收 基本月租費 但在市內通話時每分鐘話費為0.60元 若某使用者每月手機費預算為120元,則它購買 卡才合算 7 某商場購進一批單價為6元的日用品,銷售一段時...
9函式模型及其應用
1.在某個物理實驗中,測量得變數x和變數y的幾組資料,如下表 則對x,y最適合的擬合函式是 2.某家具的標價為132元,若降價以九折 即優惠10 仍可獲利10 相對進貨價 則該家具的進貨價是 a.118元 b.105元 c.106元 d.108元 3.某電視新產品投放市場後第乙個月銷售100臺,第二...