多元統計實驗報告

關於某校導師研究生指標的分配問題

班級：***

姓名：***

學號：***

目錄1．問題背景4

2．實驗要求4

3．資料預處理4

3.1 資料分離

3.2 數量化

3.3 歸一化

4．建模及求解6

4.1多元線性回歸填補模型6

4.1.1 多元線性回歸模型簡介

4.1.1.1 向前選擇法

4,1.1.2 向後消去法

4.1.1.3 逐步刪選法

4.1.2 多元線性回歸填補模型

4.1.2.1 建模

4.1.2.1 求解

a. 向前選擇法

b. 向後消去發

c. 逐步刪選法

4.2判別分析填補模型9

4.2.1 判別分析模型簡介

4.2.1.1 概論

4.2.1.2 分類

4.2.1.3 常用判別方法

a. 距離判別法

b. fisher判別法

c. bayes判別法

4.2.2 判別分析填補模型

4.2.2.1 建模

4.2.2.2 求解

4.3主成分分析驗證模型12

4.3.1 主成分分析簡介

4.3.1.1 概論

4.3.1.2 數學模型

4.3.1.3 主成分分析步驟

4.3.2 主成分分析驗證模型

4.3.2.1 建模

4.3.2.2 求解

4.4典型相關分析驗證模型15

4.4.1 典型相關性分析簡介

4.4.1.1 概論

4.4.1.2 數學模型

4.4.2 典型相關性分析驗證模型

4.4.2.1 建模

4.4.2.2 求解

a. 典型相關結果

b. 多種多元統計結果比較

c. 典型變數的標準線性方程

d. 原始變數與典型變數的相關度

4.5聚類分析18

4.5.1 聚類分析簡介

4.5.1.1 概論

4.5.1.2 常用方法

a. 最短距離法

b. 平均距離法

c. ward法

4.5.1 聚類分析

4.5.1.1 建模

4.5.1.2 求解

a. 聚類圖形表示

b. ward聚類詳解

c. 基於ward分類的**

5．體會及建議24

6．sas程式25

7．附錄28

1．問題背景

高等學校研究生招生指標分配問題，對研究生的培養質量、教育資源利用率、學科建設和科研成果的取得有直接影響。傳統的碩士研究生名額分配方案主要參考導師崗位級別進行分配。這種單因素的指標分配策略顯然不是科學的，為了更好地提公升研究生的培養質量和對教育資源地充分利用，一套更科學的研究生指標分配方案亟需提出。

附件1中的資料是2007-2023年某高校碩士研究生招生情況，其中有10組資料由於客觀原因造成缺損。

2．實驗要求

2.1 建立數學模型，利用多元線性回歸法對資料中的缺損項進行填補

2.2 建立數學模型，利用判別分析法對資料中的缺損項進行填補

2.3 利用主成分分析法驗證「傳統的碩士研究生名額分配方案主要參考導師崗位

級別進行分配」的正確性

2.4 利用典型相關分析法驗證「傳統的碩士研究生名額分配方案主要參考導師崗

位級別進行分配」的正確性

2.5 利用聚類分析法對資料進行分類，並建立數學模型對2023年研究生數進行

更合理的分配

3．資料與處理

3.1資料分離

由於原始資料中有10組資料有缺損，為了更方便地分析資料先將資料分離成兩大組資料，第一大組為完整的資料，第二大組的資料為有缺損的資料。

3.2資料數量化

分析資料我們發現「學科分類」和「崗位級別」是非數量型資料，為了後續分析首先要將非數量型資料數量化。

由於「崗位級別」在一定程度上反映了導師的能力，從一級崗道七級崗具有某種趨勢的漸變，因此不妨做如表3.1的數量化處理：

表3.1

不同學科之間的差異具有多元性，即不同學科在不同指標上的差異可能具有不同的表現。由於我們研究的目標是「招生人數」，因此我們不妨以「招生人數」為參考來數量化「學科分類」，即根據「招生人數」從小到大來對「學科分類」排序，以實現「學科分類」的數量化。數量化結果如表3.

2所示。

表3.2

3.3資料標準化

由於各個指標都不同的量綱，為了更為準確地反映資料間的關係，需要對資料進行歸一化。選用最大最小值歸一化法來歸一化資料：

式中，表示歸一化後第i個教師第j個指標的數值，表示歸一化前第i個教師第j個指標的數值，、分別表示歸一化前第j個指標的最大、最小值。

附錄2為原始資料經過預處理後的資料。

4．建模及求解

4.1 多元線性回歸填補模型

4.1.1 多元線性回歸模型簡介

在實際問題中，乙個變數往往受到多個變數的影響。這些影響是複雜多樣的，其中最簡單的一種影響形式就是多個變數的線性組合，即多元線性回歸模型。其數學模型如下：

式中，為因變數，為相互獨立的自變數，為模型引數，，我們可以認為為隨機項。在實際問題中，往往是已知自變數和因變數來估計模型的引數，最常用的估計方法為最小二乘估計。

定理設回歸模型滿足，則：

（1）最小二乘估計：

（2）殘差：，滿足和

（3）殘差平方和：

實際問題中，對於觀察到的自變數往往不是完全獨立的。因此，為了使線性回歸模型能夠更準確地描述客觀事實，一般會對自變數進行刪選。常用的方法有向前選擇法（forward）、向後消去法（backward）和逐步刪選法（stepwise）。

4.1.1.1 向前選擇法

在向前選擇法中，初始模型中沒有變數。對於每個未加入模型的自變數，向前計算它對模型貢獻大小的f統計量，並與slentry的值進行比較。若大於slentry則加入到模型中，否則不加入。

在向前選擇法中，自變數一旦被加入到模型中就不再被踢出。模型的典型slentry值為0.05.

4.1.1.2 向後消去法

在向後消去法中，所有變數都被包含在模型中。對於每乙個模型中的變數，計算它的f統計量，並與slentry值進行比較。若比slentry小則被踢出。

典型slentry的值為0.05.

4.1.1.3 逐步刪選法

逐步刪選法是向前選擇法的改進。區別在於，對於加入到模型中的變數還有可能被踢出。具體來說，是在每次加入變數後要對模型中的所有變數進行檢驗，刪除那些在slentry水平上不顯著的變數。

重複上述加入和踢出變數的過程，，逐步刪選法才結束。

4.1.2 多元線性回歸填補模型

4.1.2.1 建模

模型中的自變數有學科分類、崗位級別、經費、英文**數、中文**數、專利數、優碩數等七個，因變數為招生數。模型的具體數學描述如下：

利用完整資料可得到模型的引數：

由於缺損資料缺失的資料項都只有「崗位級別」，因此將除「崗位級別」外的其他資料代入模型中，即可求得崗位級別的理論值。然後用最短距離法來估計它的實際值。表4.

1為各崗位級別歸一化後對應的統計值。

表4.1

分別求七個級別統計值與理論值的距離：

式中z為崗位級別的理論值。則距離最短的那個級別極為它的真實級別。

4.1.2.2 求解

a.向前選擇法

向前選擇法的執行結果如圖4.1所示。

圖4.1

利用向前選擇法得到的線性回歸模型為：

沒有通過檢測。

將缺損資料代入模型中，計算「崗位級別」理論值，並用最短距離法估計出它的真實值。結果如表4.2所示。

表4.2

b.向後消去法

向後消去法執行得到的結果如圖4.2所示。

圖4.2

利用向後消去法得到的線性回歸模型為：

沒有通過檢測。

將缺損資料代入模型中，計算「崗位級別」理論值，並用最短距離法估計出它的真實值。結果如表4.3所示。

表4.3

c.逐步刪選法

逐步刪選法的執行結果如圖4.3所示。

圖4.3

利用向後消去法得到的線性回歸模型為：

沒有通過檢測。

將缺損資料代入模型中，計算「崗位級別」理論值，並用最短距離法估計出它的真實值。結果如表4.4所示。

表4.4

4.2判別分析填補模型

4.2.1 判別分析模型簡介

4.2.1.1 概論

判別分析是在已知總體確切分類的情況下，判別某個樣本歸屬哪一類的統計方法。判別分析的前提是要知道大量的分類明確的訓練資料，根據訓練資料建立判別函式，然後根據判別函式來判別某乙個樣本的歸屬。其基本流程如圖4.

4所示。

圖4.4

4.2.1.2 分類

根據判別中的組數，可以分為兩組判別分析和多組判別分析；

根據判別函式的形式，可以分為線性判別和非線性判別；

根據判別式處理變數的方法不同，可以分為逐步判別、序貫判別等；

多元統計實驗報告

多元統計分析實驗報告

實驗報告統計

統計實驗報告

多元統計實驗報告

多元統計分析實驗報告

實驗報告 統計

統計實驗報告

相關推薦

實驗報告統計