虛擬變數(dummy variable)
在實際建模過程中,被解釋變數不但受定量變數影響,同時還受定性變數影響。例如需要考慮性別、民族、不同歷史時期、季節差異、企業所有制性質不同等因素的影響。這些因素也應該包括在模型中。
由於定性變數通常表示的是某種特徵的有和無,所以量化方法可採用取值為1或0。這種變數稱作虛擬變數,用d表示。虛擬變數應用於模型中,對其回歸係數的估計與檢驗方法與定量變數相同。
1. 截距移動
設有模型,
yt = 0 + 1 xt + 2d + ut ,
其中yt,xt為定量變數;d為定性變數。當d = 0 或1時,上述模型可表達為,
0 + 1xt + utd = 0ytd = 1
yt0+2d = 0
0 + 2) + 1xt + ut , (d = 10
xtd = 1或0表示某種特徵的有無。反映在數學上是截距不同的兩個函式。若2顯著不為零,說明截距不同;若2為零,說明這種分類無顯著性差異。
例:中國成年人體重y(kg)與身高x(cm)的回歸關係如下:
105 + x d = 1 (男)
y = - 100 + x - 5d =
100 + x d = 0 (女)
注意:① 若定性變數含有m個類別,應引入m-1個虛擬變數,否則會導致多重共線性, 稱作虛擬變數陷阱(dummy variable trap)。
② 關於定性變數中的哪個類別取0,哪個類別取1,是任意的,不影響檢驗結果。
③ 定性變數中取值為0所對應的類別稱作基礎類別(base category)。
④ 對於多於兩個類別的定性變數可採用設乙個虛擬變數而對不同類別採取賦值不同的方法處理。如:
1 (大學)
d = 0 (中學)
1 (小學)。
2. 斜率變化
以上只考慮定性變數影響截距,未考慮影響斜率,即回歸係數的變化。當需要考慮時,可建立如下模型:
yt = 0 + 1 xt + 2 d + 3 xt d + ut ,
其中xt為定量變數;d為定性變數。當d = 0 或1時,上述模型可表達為,
0 + 2 ) + (1 + 3)xt + ut , (d = 1ytd = 1
yt0 + 2d = 0
0 + 1 xt + utd = 00xt
通過檢驗 3是否為零,可判斷模型斜率是否發生變化。
例1:季節資料模型
我國市場用煤銷量的季節性資料(1982-1988,《中國統計年鑑》1987,1989)見下圖與表。由於受取暖用煤的影響,每年第四季度的銷售量大大高於其它季度。鑑於是季節資料可設三個季節變數如下:
1 (4季度1 (3季度1 (2季度)
d1d2d3 =
0 (1, 2, 3季度0 (1, 2, 4季度0 (1, 3, 4季度)
全國按季節市場用煤銷售量資料
注:以季節資料d1為例,eviews命令是d1= @seas(4)。
以時間t為解釋變數(2023年1季度取t = 1)的煤銷售量(y)模型如下:
y = 2431.20 + 49.00 t + 1388.09 d1 + 201.84 d2 + 85.00 d31)
26.04) (10.81) (13.43) (1.96) (0.83)
r2 = 0.95, dw = 1.2, = 191.7, f=100.4, t=28, t0.05 (28-5) = 2.07
由於d2,d3的係數沒有顯著性,說明第2,3季度可以歸併入基礎類別第1季度。於是只考慮加入乙個虛擬變數d1,把季節因素分為第四季度和第
一、二、三季度兩類。從上式中剔除虛擬變數d2,d3,得煤銷售量(y)模型如下:
y = 2515.86 + 49.73 t + 1290.91 d12)
(32.03 (10.63) (14.79)
r2 = .94, dw = 1.4, = 198.7, f = 184.9, t=28, t0.05 (25) = 2.06
進一步檢驗斜率是否有變化,在上式中加入變數t d1,
y = 2509.07 + 50.22 t + 1321.19 d1 - 1.95 t d13)
(28.24) (9.13) (6.85) (-0.17)
r2 = .94, dw = 1.4, = 202.8, f = 118.5, t=28, t0.05 (24) = 2.06
由於回歸係數 -1.95所對應的t值是 -0.17,可見斜率未發生變化。因此以模型 (2) 作為最後確立的模型。
若不採用虛擬變數,得回歸結果如下,
y = 2731.03 + 57.15 t4)
(11.6) (4.0)
r2 = 0.38, dw = 2.5, = 608.8, t = 28, t0.05 (26) = 2.06
與(2)式相比,回歸式(4)顯得很差。
例2:用虛擬變數區別不同歷史時期
中國進出口**總額資料(1950-1984)見上表。試檢驗改革前後該時間序列的斜率是否發生變化。定義虛擬變數d如下
0 (1950 - 1977)
d1 (1978 - 1984)
中國進出口**總額資料(1950-1984單位:百億元人民幣)
以時間time為解釋變數,進出口**總額用trade表示,估計結果如下:
trade = 0.37 + 0.066 time - 33.96d + 1.20 time d
1.86) (5.53) (-10.98) (12.42)
0.37 + 0.066 timed = 0, 1950 - 1977)
講義1計量經濟學介紹
什麼是計量經濟學?計量經濟學是經濟理論 資料以及統計技術的集合,正是這三者的互動影響使得計量成為一門有趣而富有挑戰性的學科。econometrics is much easier without data 巨集觀計量經濟學關注的是加總的經濟關係,用收集到的經濟資料驗證巨集觀經濟理論的正確性。時間序列...
計量經濟學
第七套一 單項選擇題 1 用模型描述現實經濟系統的原則是 b a.以理論分析作先導,包括的解釋變數越多越好 b.以理論分析作先導,模型規模大小要適度 c.模型規模越大越好 這樣更切合實際情況 d.模型規模大小要適度,結構盡可能複雜 2 arch檢驗方法主要用於檢驗 a a 異方差性 b.自相關性 d...
計量經濟學總結
計量經濟學 是經濟的乙個分支學科,是以揭示經濟活動中客觀存在的數量關係為內容的分支學科。是經濟理論 統計學和數學三者的結合 計量經濟學的研究步驟 1.確定變數和數學關係式 模型設定 2.分析變數間具體的數量關係 估計引數 3.檢驗所得結論的可靠性 模型檢驗 4.做經濟分析和經濟 模型應用 設立乙個良...