第十章單變數描述統計

2021-03-03 23:15:50 字數 3615 閱讀 4595

調查所得的原始資料經過審核、整理與彙總後,還需要進行系統的統計分析,才能揭示出調查資料所包含的眾多資訊,才能得出調查的結論。根據變數數量的差別統計分析劃分為單變數分析、雙變數分析和多變數分析。在這一講中我們先介紹單變數的統計分析。

單變數統計分析可以分為兩個大的方面,即描述統計和推論統計。描述統計是用最簡單的概括形式反映出大量資料資料所容納的基本資訊。推論統計是用樣本調查中所得到的資料資料來推斷總體的情況。

這一講我們講解單變數的描述統計方法。

一、變數的分布 (distributions)

變數的分布分為兩類,一類是頻數分布,一類是頻率分布。頻數分布就是變數的每一取值出現的次數;頻率分布是用變數每一取值的頻數除以總個案數,它是乙個相對指標,可以用來比較不同樣本。頻數分布與頻率分布一般以統計表與統計圖的形式表達。

1、 統計表

(1)統計表就是以**的形式來表示變數的分布。如下表所示:

表9-1甲校學生的父親職業

數值中的小數的取捨:

通俗的做法是「四捨五入」。「四捨」沒有問題,但無原則的「五入」就會產生一定的誤差。例如數值6.

25、4.45、3.75、和7.

15的總合是21.60。如果對原數的最後一位小數作簡單的四捨五入,原數就變成6.

3、4.5、3.8、7.

2,其總合是21.8,把原來的總合變大了。近代統計學有一項新原則,就是「前單五入」,即「五」前面是單數就進製,若是雙數就捨掉(0也算雙數)。

(2)對於定序及以上層次的變數我們更多的是使用累加頻數和累加頻率。如下所示:

表9-2甲校學生之父親教育水平

2、 統計圖

統計圖是以圖形表示變數的分布情況。與統計表相比,統計圖更直觀、生動、醒目,但不夠精確。統計圖有圓瓣圖、條形圖、直方圖和折線圖。

(1)圓瓣圖:多用於描述定類變數的分布,主要目的為顯示各部分在整體中所佔的比重,以及各部分之間的比較。如表9-1的資料可用下圖(圖1)所示:

農民部分=360°×52.4%=188.64°

工人部分=360°×27.6%=99.36°

幹部部分=360°×20.2%=72°

(圖一)甲校學生的父親職業分布

(2)條形圖:多用於描述定類與定序變數的分布,它是以長條的高度表示變數不同取值的頻數(率)分布的,其中長條的寬度沒有意義,一般均畫成等寬長條。為求清楚,長條之間可以分開。

如表9-2的資料可用下圖(圖2)所示:

(圖二)甲校學生的父親教育水平

(3)直方圖:直方圖是由緊挨著的長條構成的,但與長條圖不同,它的條的寬度是有意義的,實際上它不是用長條的高度而是用長條的面積表示頻數(率)的大小,長條的縱軸高度表示頻數(頻率)密度,長條的寬度表示組距。直方圖僅適用於定距變數。

如表9-3的資料可用下圖(圖3)所示:

表9-3 甲校學生的家庭每月總收入

組限(class limits),就是每組的範圍,包括上限(upper limit)和下限(lower limit)。例如表9-3中的「700~899」組,上限是899,下限是700。但要注意,統計表上所標示的組限(stated limits)是讓讀者容易領會,但不是真實的組限(real limits)。

上表的真實組限是499.5~699.5、699.

5~899.5、899.5~1099.

5、1099.5~1299.5等等。

如果某家庭的收入與真實組限之值相同,一般是採用四捨五入的原則,如把699.5元歸「700~899」組。真實組限與標示組限的關係,可以下式表示:

真實下限=標示下限-0.5

真實上限=標示上限+0.5

組距(class width),就是組的真實上限與真實下限之差,如上表的「700~899」組的組距是:899.5-699.5=200。

組中點(class midpoint),就是真實上限與真實下限的平均數,如「700~899」組的中點是:(699.5+899.5)÷2=799.5。

(4)折線圖:折線圖是用直線連線直方圖中條形頂端的中點而成的。

二、集中趨勢分析

集中趨勢是從一組資料中抽象出乙個代表值,代表現象的共性和一般水平。這種方法有乙個特殊意義,就是可以根據這個代表值(或稱典型值)來估計或**每個研究物件(即個案)的數值。這樣的估計或**,當然會有錯誤,但由於所根據的數值最有代表性,故所發生之錯誤的總和理應是最小的。

集中趨勢測量指標有三類:眾數、中位值、平均數。

1、眾數

眾數(m。)就是出現頻數或頻率最多的變數值。因為眾數最有代表性,故此具有估計或**的意義,長遠來說,以眾數作**所犯的錯誤總數是最小的。求眾數的方法如下:

(1)對原始資料:如下例:1,2,3,5,5,5,6,6,7,9

其m。=5

(2)對單值分組資料:如下表9-3某實驗小組成員的年齡分布:

表9-3某實驗小組成員年齡分布

年齡數量

133144156168174183193其 m。=16

(3)組距分組資料:眾數是頻數最大的區間的組中值。如對於表9-5所示的資料其m。=350

2、中位數

中位數(md)是最中間的數值。它用於描述定序變數以上層次的變數。長遠來說,以中位數去估計定序變數的數值,所犯的錯誤總數是最小的。求中位數的方法如下:

(1)對原始資料:原始資料計算中位值的公式是:md位置=

例:9個人的日工資分別如下:47,42,50,51,92,112,71,83,108

首先,從小到大排列:42,47,50,51,71,83,92,108,112。

其次,由中位值的位置公式可知md== =5

最後,求md=71

如果n為偶數,則將位於最**的兩個數值的平均值作為中位值。

(2)對單值分組資料:

如下表9-4的資料:

表9-4學生的學業成績

由公式可知md位置= ==40.5從累加頻數中可知這個位置的值在丙值內,故md=丙。

(3)對組距分組資料:組距分組資料的中位值公式為:

md=l+×i

其中l為中位數所在組的下限值,cf(m-1)為中位數所在組以上的累計頻數,fm為中位數所在組的頻數,i為中位數所在組的組距。

例:表9-5某企業100名職工收入的分布

首先求出中間位置為(100+1)=50.5,再從累計頻數欄中找到中位數所在組為「300—399」這一組,最後利用公式計算

md=300+×100=375

平均數:僅適用於定距及定距以上變數,但有時也可用於定序變數,如求平均等級。長遠來說,以平均數估計定距變數的資料,錯誤最小。

(1)對原始資料:平均數的公式為=

其中∑x為各個個案數值之和,n表示全部個案數。

(2)對單值分組資料:平均數的公式用加權平均數公式:

如對下表9-6中的資料求平均數:

表9-6某年級150名學生的年齡分布

平均年齡為: ==19.3

(3)對組距分組資料:一般用組中值來代替變數值,然後按加權平均數公式來計算平均數。

總之,如要測量集中趨勢,即找出乙個最有代表性之值,定類變項的資料可用眾數;定序變項可用眾數,但以中位數較適宜,因為後者能夠應用資料中所具有的等級數學特質。定距變項可用眾數,也可用中位數,但以均值最適宜,因為均值能應用資料中所具有的分組資料中的加減數學特質。然而,有兩種情況下不宜用均值:

一種是在分組資料中的極端沒有組限時(如表9-的資料),不能求出均值,只能用中位值;另一種情況是變項中有個別的數值非常特殊(過高或過低),則均值的代表性就有疑問,用中位值較為合適。

實驗二SPSS的單變數描述統計

一 實驗目的 1 通過對單變數進行頻數分析,獲得某些描述統計量和描述數值範圍的統計量,了解變數的取值分布情況。2 通過單變數的描述統計分析,了解資料的基本統計特徵和對指定的變數值進行標準化處理。二.實驗內容 1 對問卷中某個定類或定序變數進行頻數分布分析,並對輸出結果進行分析 2 對問卷中某個定距及...

第十章職業培訓統計

8 簡述反映職業技能培訓基本情況各項指標。答 培訓機構基本情況統計,指標有 培訓機構數 培訓能力規模 教職工人數 專業設定種類 自有教學用地面積 自有教學和辦公房面積 自有資本金總額。參加培訓人員情況統計,指標有 參培人員 結業人員等。培訓經費收支統計,指標有 培訓經費收入總額和培訓經費支出總額等。...

第十章技術

第一節一般規定 一 基本規定 1 施工技術資料的形成應符合國家相關的法律 法規 施工質量驗收標準和規範 工程合同和設計檔案的規定。施工技術資料的依據,同時應符合地方規定。2 工程各參建單位應將施工技術資料的形成和積累納人施工管理的各個環節和有關人員的職責範圍。施工技術資料應有專人負責收集 整理及審核...