第四章資料分布特徵的描述

2021-03-03 22:03:19 字數 4788 閱讀 3894

第一節資料分布的集中趨勢

一、描述分布集中趨勢的主要指標及其作用

1、描述分布集中趨勢的主要指標:平均數、眾數、中位數

2、作用:

(1)反映總體各單位變數分布的集中趨勢和一般水平;

(2)便於比較同類現象在不同單位間的發展水平;

(3)能夠比較同類現象在不同時期的發展變化趨勢或規律;

(4)分析現象之間的依存關係時也常借助於平均指標。

二、數值型資料集中趨勢的測定

(一)算術平均數

算術平均數(arithmetic mean)也稱為均值(mean),是全部資料算術平均的結果。算術平均法是計算平均指標最基本、最常用的方法。計算公式為:

很多社會經濟現象,總體標誌總量常常是總體單位變數值的算術總和。例如,工人工資總額是總體中每個工人工資的總和,某地區小麥總產量是所有耕地小麥產量的總和。在總體標誌總量和總體單位總量的基礎上,就可以計算平均指標。

算術平均數與強度相對數都是兩個總量指標的比值,也都是有名數,都反映了相互聯絡的兩個現象之間的數量對比關係,計算方法也非常相似。但它們卻是兩個性質不同的統計指標,主要區別有兩點:

其一,子項指標與母項指標的關係不同。平均數的子項指標與母項指標屬於同乙個統計總體,是同一統計總體的總體標誌總量與總體單位總量的比值,而強度相對數則是來自兩個不同總體但有聯絡的總量指標之比;

其二,算術平均數的子項指標(標誌總量)隨著母項指標(總體單位數)的變動而變動,二者互相適應,而強度相對數的子項指標同母項指標之間不存在這樣的關係。

算術平均數在統計學中具有重要的地位,是集中趨勢的最主要度量值,通常用(讀作)表示。根據所掌握資料形式的不同,算術平均數有簡單算術平均數和加權算術平均數。

1.簡單算術平均數(****** arithmetic mean)

未經分組整理的原始資料,其算術平均數的計算就是直接將一組資料的各個數值相加除以數值個數。設統計資料為…,則算術平均數的計算公式為:

3.11)

[例3.3] 某班級40名同學統計學的考試成績原始資料如表3.1—2所示。

表3.2 40名同學統計學原始成績

該班40名同學統計學的平均成績為:

(分)2.加權算術平均數(weighted arithmetic mean)

根據分組整理的資料計算算術平均數,就要以各組變數值出現的次數或頻數為權數計算加權的算術平均數。設原始資料被分成組,各組的變數值為…,各組變數值的次數或頻數分別為…,則加權的算術平均數為:

3.12)

[例3.4] 根據例3.3提供的40名同學的統計學成績原始資料分組整理如表3.1—3,根據此表資料計算平均成績。

表3. 3 40名同學統計學成績彙總表

根據(3.12)式得

根據(3.12)式計算的平均成績是76.5分,而與根據(3.

11)式計算的平均成績77.23分相比,相差0.73分,顯然77.

23分是準確的平均成績,因為(3.11)式所用的是原始資料的全部資訊。而(3.

12)式是用各組的組中值代表各組的實際資料,使用代表值時是假定各組資料在各組中是均勻分布的,但實際情況與這一假定會有一定的偏差,使得利用分組資料計算的平均數與實際的平均值會產生誤差,它是實際平均值的近似值。

加權算術平均數其數值的大小,不僅受各組變數值()大小的影響,而且受各組變數值出現的頻數即權數()大小的影響。如果某一組的權數大,說明該組的資料較多,那麼該組資料的大小對算術平均數的影響就越大,反之,則越小。實際上,我們將(3.

12)式變形為下面的形式,就更能清楚地看出這一點。

3.13)

由(3.13)式可以清楚地看出,加權算術平均數受各組變數值()和各組權數即頻率大小的影響。頻率越大,相應的變數值計入平均數的份額也越大,對平均數的影響就越大;反之,頻率越小,相應的變數值計入平均數的份額也越小,對平均數的影響就越小。

這就是權數權衡輕重作用的實質。

當我們掌握的權數不是各組變數值出現的頻數,而是頻率時,可直接根據(4.3.3)式計算算術平均數。

如例3. 2,根據各組的頻數計算的頻率分別為:0.

05、0.2、0.4、0.

25、0.1,各組頻率之和為1,則用頻率計算的加權算術平均數為:

分)從計算結果看,用頻率加權計算的結果與用頻數加權計算的結果是一致的。

需要指出的是,當各組變數值出現的頻數()或頻率相等時,權數的作用就消失了,這就意味著各組變數值對總平均的結果所起的作用是一樣的,此時,加權算術平均數就等於簡單算術平均數。

在實際生活中,我們也會經常遇到由相對數計算平均數的情況。一般地說,求相對數的平均數應採用加權平均的方法,此時,用於加權平均的權數不再是頻數或頻率,而應根據相對數的含義,選擇適當的權數。下面舉乙個例項說明。

[例3.5] 某公司所屬10個企業資金利潤率分組資料如表3.4,要求計算該公司10個企業的平均利潤率。

表3.4 某公司所屬10個企業資金利潤率分組資料

該例子的平均物件是各企業的資金利潤率,表中的企業數雖然是次數或頻數,但卻不是合適的權數。要正確計算公司10個企業的平均資金利潤率,因為資金利潤率=利潤總額/資金總額,所以計算平均資金利潤率需要以資金總額為權數,才能符合該指標的性質。因此,該公司10個企業的平均利潤率為:

算術平均數在統計學中具有重要的地位,它是進行統計分析和統計推斷的基礎。從統計思想上看,算術平均數是一組資料的重心所在,它是消除了一些隨機因素影響後或者資料誤差相互抵消後的必然性的結果。例如每年分季度的觀測資料,各年同季的資料由於受一些偶然性隨機因素的影響,其數值表現出一定的差異性,但將各年同季的資料加以平均,計算的算術平均數,就消除了一些隨機因素的影響,反映出季節變動必然性的數量特徵。

再如,對同一事物進行多次測量,由於測量誤差所致,或者其它因素的偶然影響,使得測量結果不一致,但利用算術平均數作為其代表值,則可以使誤差相互抵消,反映出事物固有的數量特徵。另外,算術平均數具有下面一些重要的數學性質,這些數學性質在實際中有著廣泛的應用,同時也體現了算術平均數的統計思想。

各變數值與其算術平均數的離差之和等於零,即

或各變數值與其算術平均數的離差平方和最小,即

(最小) 或 (最小)

(二)調和平均數(harmonic mean)

在實際工作中,經常會遇到只有各組變數值和各組標誌總量而缺少總體單位數的情況,這時就要用調和平均數法計算平均指標。

為了方便調和平均數的概念和計算方法的說明,我們先看乙個簡單的例子。

[例3.6] 市場上早、中、晚蔬菜的**分別是早晨: 0.

67公斤/元,中午0.5公斤/元,晚上0.4公斤/元。

現在,我們分別按四種方法在購買蔬菜,分別計算平均**(不管按什麼方法購買,平均**都應該等於花費的現金除所買蔬菜的數量):

第一種買法:早、中、晚各買一公斤

則蔬菜平均**為: =0.523(元/公斤)

第二種買法:早晨買1公斤,中午買2公斤,晚上買3公斤

則蔬菜平均**為: =

=0.523(元/公斤)

第三種買法:早、中、晚各買一元

在這種情況下,計算蔬菜平均**比上述兩種方法稍微複雜一些,我們得先計算出一元錢所購買蔬菜的數量,然後再計算蔬菜的平均**。

要計算蔬菜的平均**,首先應該計算出早、中、晚各花費1元錢所購買蔬菜的數量:

其中:早晨購買蔬菜的數量==1.5(公斤);

中午購買蔬菜的數量==2(公斤);

晚上購買蔬菜的數量==2.5(公斤)。

蔬菜平均**為:(元/公斤)

這種計算平均指標的方法同算術平均法有很大的不同,由於資料中缺乏總體單位總量,所以,就不可能直接用算術平均的方法計算平均指標。為了達到計算目的,首先要用變數值的倒數計算出總體單位總量來,然後再計算平均指標,調和平均數法因此而得名,也正是由於這個原因,調和平均數又稱為倒數平均數。

第四種買法,早晨買1,中午買2,晚上買3元錢

和第三種買法一樣,我們還是得先計算出早晨、中午和晚上所購買蔬菜的數量,然後再計算平均**。

早晨購買蔬菜的數量==1.5(公斤);

中午購買蔬菜的數量==4(公斤);

晚上購買蔬菜的數量==7.5(公斤)。

蔬菜平均**為: =(元/公斤)

在上述計算平均**的過程中,早、中、晚三個時段購買蔬菜所花費的現金是計算平均**的權數,這種方法我們稱為加權調和平均法。

由以上分析過程得出調和平均數的定義:

調和平均數是各個變數值倒數的算術平均數的倒數,習慣上用(h)表示。計算公式為:

簡單調和平均數:

3.14)

加權調和平均數

3.15)

在實際工作中,調和平均數通常是作為算術平均數的變形使用的,也就是由於受所掌握資料的限制,有時不能直接採用算術平均數的計算公式計算平均數,這就需要使用調和平均數的形式進行計算。為了更好地理解調和平均數的應用場合,我們看下面的例子。

[例3.6] 某商品有三種不同的規格,銷售單價與銷售量如表3.5所示,求這三種不同規格商品的平均銷售單價。

表3.5某商品三種規格的銷售資料

從平均**的實際意義看,其計算方法應該是:

根據題中給出的原始資料(三種規格的銷售單價和銷售量),可以求出銷售額()資料,因此計算平均**在形式上採用的是加權算術平均數公式,即

(元/件)

如果已知的不是銷售量資料,而是銷售額,如表3.1—6所示,就應改變計算方法。

表3.6 某商品三種規格的銷售資料

根據表3.6給出的原始資料(三種規格的銷售單價與銷售額)計算平均**時,就無法直接採用加權算術平均數形式。這時,需要根據銷售單價和銷售額資料先求出銷售量資料,再用總銷售額除以總銷售量即得平均**,即加權調和平均。

根據表4.3.5的資料,代入(4.

3.5)式得平均**為:

這與採用加權算術平均數公式的計算結果完全相等。事實上,(4.3.

5)式只是加權算術平均數的另一種表現形式,式中(銷售額)實際上是銷售單價與銷售量的乘積,即=,這從下面的式中可以清楚地看出來。

第3章資料分布特徵的統計描述習題

1 有n輛汽車在同一距離的公路上行駛的速度資料,確定汽車平均每小時行駛速度的平均數公式是 c ab c d 2 權數對加權算術平均數的影響,取決於 b a.權數所在組標誌值的大小 b.權數的大小 c.各組單位數的多少d.總體單位數的多少 3 2.是非標誌不存在變異時,意味著 b,c a.各標誌值遇到...

第四章定性資料的統計描述

前面一直在講定量資料 定性資料也叫計數資料,變數的觀測值是定性的,表現為互不相容的類別或屬性。數一數 無單位 包括 二分類 多分類 如 定性資料的統計描述用什麼指標?例 甲 乙兩學院流感,甲學院流感發病60人甲學生2000人 乙學院流感發病30人乙學生1000人 甲學院流感發病率 乙學院流感發病率 ...

第四章Grads資料轉換和資料描述檔案2019

內容提要 一 grads所能處理的資料格式 二 資料資料的準備 binary ascii碼資料檔案向二進位制資料檔案的轉換 三 資料描述檔案的構成 四 其它資料檔案簡介 cdf grib 五 grads控制檔案簡介 一 grads所能處理的資料格式 binary 自製,直接 順序訪問,fortran...