第二章的描述統計分析

通過試驗或調查收集的原始資料資料，一般具有「大量」和「雜亂無章」的特點，不能直接考察其潛在的特徵。所以首先要進行描述統計分析，使人們對資料特徵有大致的了解。資料資料的描述統計分析包括資料整理和特徵數計算兩個內容。

資料只有經過整理和計算特徵數，才能從中提取有用的資訊，系統地、準確地反映現象的特徵和規律性。資料整理是對原始資料審核、分組、彙總、描述和歸納，使之條理化和便於統計分析和推斷的形式的工作過程。

統計整理的主要內容：

（1）資料資料的審核與訂正，主要是檢查資料中是否有在記錄和登記過程中的人為錯誤、是否有異常資料存在，如小數點錯位、數字末尾少寫或多寫乙個0等，有無由於測量儀器的系統偏差，保證資料的可靠性。

（2）統計資料的分組與彙總，以顯示研究物件內部結構、型別和特徵。

（3）由原始資料或彙總資料計算各種資料資料的數字特徵。

（4）用統計表或統計圖展示資料，以便通過簡單形式直觀反映資料的基本特徵和變化趨勢。

2.1異常資料的判斷和處理

異常資料是指觀察資料中存在的過大或過小的值。異常資料可能只是資料中內在隨機變異性的一種極端表現，也可能是因為試驗過程中出現的操作錯誤或條件改變所導致。對於前一種異常資料，必須予以保留並與其他資料一起參與統計分析過程。

對於後一種資料，必須捨棄或修正。因此乙個過大或過小的值是否為真的異常值，需要首先進行判斷，判斷的方法是進行測驗。如果資料服從正態分佈，檢驗的方法有格拉布斯（grubbs）、奈爾、迭克生（dixon）、平均絕對離差、標準誤差檢驗等方法。

這裡主要介紹格拉布斯檢驗方法。

格拉布斯檢驗

格拉布斯檢驗用於總體方差未知的異常值檢驗，檢驗的統計量為t

或式中是樣本資料的平均數，s是樣本標準差，x(1) 是樣本內最小次序觀察可疑極端值，x(n) 是樣本內最大次序觀察可疑極端值。

根據樣本資料的個數以及顯著性概率值，查格拉布斯去異常值資料的臨界值表，得臨界值，當最小值或最大值對應的統計量t大於臨界值時，判斷該值異常，剔除該值。剔除異常值後，需要對剩下的資料重新進行異常值檢驗，即重複進行以上過程，直到沒有異常值為止。

表2.1 格拉布斯去異常值資料的臨界值（tg）表

2.2 資料的分類

統計資料是指反應事物、現象或過程的資料資料，包括原始資料和次級資料。與一般資料相比，統計資料有如下特點：（1）數字性：

一般資料有數字形式，也有文字形式，但統計資料都應是數字形式（或可轉換為數字形式）；（2）大量性：統計資料是大量相象或對同類相象觀察所取得的資料資料，而不是個別相象的少量或個別資料；（3）具體性：統計資料是已經實現事實的記載，而不是擬議中的資料資料，故各種質量標準或技術規範等資料不是統計資料。

資料的分類是統計歸納的基礎，根據資料的收集方法及資料的取值特性，通常可將資料分為以下型別。

2.2.1 連續性資料

連續性資料(continuous data)是指在一定範圍內可取任何實數值的資料資料，例如動物個體的體重、奶牛的產奶量、羊的產毛量等指標（變數）進行測定所得到的資料，它們通常是用度量衡等計量工具測量後得到的，因而也稱為計量資料。連續性資料的連續性受實際測定規模和測量工具精度的限制，實際得到的資料並不是完全連續的，也就是說這種連續性只是理論上的。

2.2.2 離散性資料

離散性資料(discrete data)是在一定範圍內只取有限種可能值的資料資料。又可進一步分為

（1）計數資料(counting data)：是用計數的方式得到的資料資料，它們必須用整數來表示，如對豬的產仔數、雞的產蛋數等指標（變數）的記錄資料。

（2）分類資料(categorical data)：可自然地或人為地分為兩個或多個不同類別的資料，主要的分類形式有：

公稱尺度（nominal scale）不同類別之間沒有等級之分，例如對性別（公、母），基因型（aa、aa、aa），毛色（紅、白、黑等）等的分類，這類資料雖然本來是用文字表示的，但可將它們轉換為數字，例如對於性別可用1代表公，0代表母；反之亦可，用0代表公，1代表母。

等級尺度（ranked scale）不同類別之間有內在的等級之分，例如產品的分級（一級、二級，**等），成績的分級（優、良、中等），體高的分級（高、中、矮），等等。這類資料通常用自然數1、2、3等來表示。

要注意的是當我們將用文字表示的分類資料轉換為數字表示後，不同數字僅代表不同的型別，而不代表大小，例如2（代表二級）並不意味是1（代表一級）的2倍。

2.3 資料的頻率分布

頻率分布反映一組資料中不同觀測值的出現頻率。不同的資料型別其頻率分布有不同的計算和表示方式，下面分別介紹。

2.3.1 離散性資料的頻數（率）分布

對於分類資料，其頻數（率）分布（frequency distribution）就是屬於不同類別的觀測值出現的次數（頻數）和所佔的比例（頻率）。對於計數資料，也採用同樣的方法，以每個自然值代表一類，計算各類中觀察值出現的頻數和頻率。表2-1和表2-2分別給出了70頭經產母豬窩產仔數資料及其頻數（率）分布。

表2-1 70頭經產母豬窩產仔數資料單位：頭

表2-2 70頭經產母豬窩產仔數資料的頻數（率）分布表

2.3.2 連續性資料的頻數（率）分布

連續性資料的頻率分布計算相對複雜一些，首先要將資料進行分組，然後將各個觀測值分別納入相應的組內，計算各組中觀測值的頻數和頻率。現以表2-3中所列200頭金華豬二月齡體重資料為例，說明其方法與步驟。

表2-3 200頭金華豬二月齡體重資料單位：kg

（1）資料分組

將觀測值的值域劃分為若干個兩兩不相交的長度（間距）相同的區間，每個區間為一組。分組的步驟如下：

求全距全距又稱範圍或極差（range）是樣本資料中變數的最大值與最小值之差，用r表示。表2-3中，帶有下劃線的資料19.3和8.

5分別為最大值和最小值。由此求得全距為r=19.3-8.

5=10.8。

確定組陣列數的多少取決於樣本中資料的多少（樣本含量），通常是參考表2-4而人為確定的，對於本例可初步確定為12組。

表2-4 樣本含量與組數的關係

確定組距每組的最大值與最小值之差稱為組距，各組的組距是相同的，通常用i表示。組距的大小是根據全距等於組數與組距之積的關係計算所得，為方便進一步的分組可以將計算得到的小數化為整數（不管小數點後有幾位小數）。本例i = 10.

8 12 = 0.9，取整數1作為組距。

求組中值與組限各組的兩個極限值稱作組限，最小值稱為組下限，最大值稱為組上限，它們的平均數就是組中值，即組中值=（組下限+組上限）/2，因而組下限 = 組中值0.5×組距。一般是先人為確定第一組的組中值，然後依次計算其他各組的組中值（等於上一組的組中值加組距）以及各組的組限。

在確定第一組的組中值時，為避免將資料中的最小值排除在第一組之外，一般選第一組的組中值接近或等於資料中的最小值，本例的最小值為8.5，因此可確定第一組的組中值為8.5，根據已確定的組距為1可以得出第一組的組下限為8，然後加上乙個組距就為第二組的組下限，依次類推，一直至最後一組的組上限包括資料中的最大值為止。

於是分組如下：8-9、9-10、、19-20。為避免前一組的組上限等於後一組的組下限所引起該數值分組時的歸屬問題，通常採用將該數值向後一組靠的原則，這樣分組就更改如下：

7-7.9、8-8.9、、19-19.

9，或採用開口式分組，即只給出組下限：7—、8—、、19—。

第二章的描述統計分析

考試成績的描述統計分析及其評定

費用管理統計分析功能描述

第二章統計的整理與描述

第二章的描述統計分析

考試成績的描述統計分析及其評定

費用管理統計分析功能描述

第二章統計的整理與描述

相關推薦