目錄第四章資料的描述性分析 2
第一節集中趨勢的描述 3
一、數值平均數 3
二、位置平均數 7
三、用excel計算反映集中趨勢的的描述統計量 9
第二節離散程度的描述 10
一、離散程度的絕對指標 10
二、離散程度的相對指標 13
三、資料的標準化 13
四、總方差、組內方差和組間方差 14
五、用excel計算反映離中趨勢的的描述統計量 15
第三節分布偏態與峰度的測度 16
一、原點矩與中心矩 16
二、分布的偏態 16
三、分布的峰度 17
四、用excel計算反映分布趨勢的描述統計量 18
五、資料分析工具—描述統計 19
英文摘要與關鍵詞 21
習題 22
通過本章的學習,我們應該知道:
1. 描述集中趨勢的指標及其計算
2. 描述離散程度的指標及其計算
3. 分布的偏態和峰度如何計算
4. 如何用計算機完成上述計算
通過調查獲得、經過整理後展現的資料已經可以反映出被研究物件的一些狀態與特徵,但認知程度還比較膚淺,反映的精確度不夠,為此,我們要使用各類代表性的數量特徵值來準確地描述這些資料。對單變數截面資料的特徵描述,主要有四個方面:集中趨勢、離散程度、偏態與峰度。
集中趨勢(central tendency)反映的是一組資料向某一中心值靠攏的傾向,在中心值附近的資料數目較多,而遠離中心值的較少。對集中趨勢進行描述就是尋找資料一般水平的中心值或代表值。根據取得這個中心值的方法不同,我們把測度集中趨勢的指標分為兩類:
數值平均數和位置平均數。
數值平均數是同質總體內各個個體某一數量標誌的具體表現在一定時間、地點、條件下所達到的一般水平,是反映現象總體綜合數量特徵的重要指標,又稱為平均指標。
研究總體中各個個體的某個數量標誌是各不相同的。如某個生產小組10名工人由於是按計件取酬的,所以他們的工資各不相同,分別是1000元、1480元、1540元、1600元、1650元、1650元、1740元、1800元、1900元、2500元。要說明這10名工人的工資的一般水平,顯然不能用某乙個工人的工資作代表,而應該計算他們的平均工資,用它作為代表值。
平均工資 = = 1686 (元)
這個1686元是在這組10名工人的工資基礎上計算出來的,彼此之間工資上的差異在計算過程中被抽象化了,結果得到的就是這10名工人工資的一般水平,即找到了乙個代表值。
數值平均數有三種形式:算術平均數、調和平均數和幾何平均數。
(一)算術平均數
算術平均數(arithmetic mean)是總體中各個體的某個數量標誌的總和與個體總數的比值,一般用符號表示。算術平均數是集中趨勢中最主要的測度值。它的基本公式是:
由於所掌握的資料形式不同,算術平均數可以推導出兩組公式:
1. 簡單算術平均數
根據未經分組整理的原始資料計算算術平均數。設一組資料為,則:
4.1)
【例4.1】 有五名學生的身高分別為1.65、1.69、1.70、1.71和1.75公尺,求他們的平均身高。
【解】 (公尺)
簡單算術平均數之所以簡單,就是因為各個變數值出現的次數均相同,例4.1中每個變數值出現的次數都是1。因此,只要把各項變數值簡單相加再用項數去除就可求出平均數。
2. 加權算術平均數
根據分組整理的資料計算平均數。設原始資料被分成n組,各組的變數值分別為,各組變數值出現的次數分別為,則:
4.2)
計算加權算術平均數運用的變數數列資料有兩種:單項變數數列和組距變數數列。單項變數數列直接對各組變數值進行加權平均計算;組距變數數列需要先求出各組變數值的組中值,然後,對組中值進行加權平均計算。
【4.2】根據某車間200名工人加工零件的資料,計算平均每個工人的零件生產量,資料見表4.1。
表4.1 某車間職工加工零件平均數計算表
【解】根據公式(4.2),得:
(個)從以上計算過程可以看出,次數f的作用:當變數值比較大的次數多時,平均數就接近於變數值大的一方;當變數值比較小的次數多時,平均數就接近於變數值小的一方。可見,次數對變數值在平均數中的影響起著某種權衡輕重的作用,因此被稱為權數。
但是,如果各組的次數(權數)均相同時,即:時,則權數的權衡輕重作用也就消失了。這時,加權算術平均數會變成簡單算術平均數。即:
4.3)
可見,簡單算術平均數實質上是加權算術平均數在權數相等條件下的乙個特例。
簡單算術平均數其數值的大小只與變數值的大小有關。加權算術平均數其數值的大小不僅受各組變數值大小的影響,而且還受各組變數值出現的次數即權數大小的影響。
權數既可以用絕對數表示,也可以用相對數(比重)來表示。因此,加權算術平均數也可用以下形式:
4.4)
【例4.3】仍以表4.1資料為例,當已知各組工人人數佔全部工人人數的比重時,計算平均每個工人的零件生產量。
【解】根據公式(4.4),得:
= 45×0.1+55×0.2+65×0.4+75×0.25+85×0.05=64.5(個)
針對原始資料的不同形式,我們可以選擇適合的公式形式,往往異曲同工。用比重(頻率)公式計算出來的平均獎金額與原來用絕對數次數做權數計算的結果是完全相同的。這是因為權數的兩種形式,其計算公式在內容上是一致的。
3. 算術平均數的數學性質
算術平均數在統計學中有著重要的地位,它是進行統計分析和統計推斷的基礎,下面兩個有關算術平均數的命題是其兩個重要的數學性質。
(1)各變數值與其平均數離差之和等於零,即:
4.5)
證明如下:
(2)各變數值與其平均數離差平方之和等於最小值,即:
4.6)
證明如下:
設為任意數,c為常數(c≠0),並令,則:
因為,所以,即:為最小值。
(二)調和平均數
在統計分析中,有時會由於種種原因沒有頻數的資料,只有每組的變數值和相應的標誌總量。這種情況下就不能直接運用算術平均方法來計算了,而需要以迂迴的形式,即用每組的標誌總量除以該組的變數值推算出各組的單位數,才能計算出平均數,我們可以用調和平均的方法完成這個計算。
調和平均數(harmonic mean)是各變數值倒數的算術平均數的倒數。由於它是根據變數值倒數計算的,所以又稱作倒數平均數,通常用表示。根據掌握的資料不同,調和平均數可分為簡單調和平均數和加權調和平均數兩種。
1. 簡單調和平均數
根據未經分組資料計算平均數。我們先來看乙個最簡單的例子。
【例4.4】假如某種蔬菜在早、中、晚市的每市斤的單價分別為0.5元、0.
4元、0.2元,若早、中、晚市各買一市斤,其平均**用簡單算術平均數計算,結果是0.37元。
但若早、中、晚市各買一元錢,其平均**是多少?
【解】計算方法應先把總重量計算出來,然後再將總金額除以總重量。即:
用公式表達即為:
4.7)
事實上簡單調和平均數是權數均相等條件下的加權調和平均數的特例。當權數不等時,就需要進行加權了。
2. 加權調和平均數
設m為加權調和平均數的權數,加權調和平均數公式即為:
4.8)
【例4.5】仍用前面對蔬菜計算平均**為例,如果現在早、中、晚市所花錢數不再是一元錢,而是如表4.2的情形,求購進的該種蔬菜的平均**。
表4.2 調和平均數計算表
【解】 平均**元
3. 調和平均數是算術平均數的變形
調和平均數是算術平均數的變形,推導如下:
調和平均數與算術平均數在本質上是一致的,不同的原始資料條件在計算平均數時,可以選擇不同的公式。
(三)幾何平均數
幾何平均數(geometric mean)是n個變數值連乘積的n次方根。幾何平均數是計算平均比率和平均速度最適用的一種方法。通常用表示。
根據掌握的資料資料不同,幾何平均數可分為簡單幾何平均數和加權幾何平均數兩種。
1. 簡單幾何平均數
根據未經分組資料計算平均數。幾何平均數的計算公式如下:
4.9)
【例4.6】某產品生產需要經過六道工序,每道工序的合格率分別為98%、91%、93%、98%、98%、91%,求這六道工序的平均合格率。
描述性分析
描述性統計分析 本文運用spss軟體的資料分析對調查問卷的資料進行了描述性統計,如圖表5 1,表5 2,表5 3,分別介紹了樣本個人資訊,創業基本內容,是否接受創業教育。表5 1 通過分析,在調查的60份問卷中,58份有效,得出樣本的性別比列男性佔46.7 女性佔50 基本保持平衡。在選擇的年級中,...
描述性分析方法複習要點
mba dmd課程 第三講複習要點 1.描述性統計適用於何種情況 提示 分析樣本資料本身,分析總體資料,如普查資料 2.推斷性統計適用於何種情況 提示 用樣本資料推斷總體特徵 3.質別變數與量別變數的區別 舉例 上市公司資料中,行業 有無風投背景等變數是質別變數,淨資產收益率等是量別變數 4.分析單...
用Excel進行資料分析描述性統計分析
在資料分析的時候,一般首先要對資料進行描述性統計分析 descriptive analysis 以發現其內在的規律,再選擇進一步分析的方法。描述性統計分析要對調查總體所有變數的有關資料做統計性描述,主要包括資料的頻數分析 資料的集中趨勢分析 資料離散程度分析 資料的分布 以及一些基本的統計圖形,常用...