統計學複習綱要

2022-12-24 04:06:04 字數 5079 閱讀 2741

統計學複習綱要——2010~2011第一學期

一、 基本概念

第一章:導論

1.統計學的研究物件:資料

2.統計研究過程:收集、整理、分析、解釋資料

3.統計學的研究方法:統計描述、統計推斷

4.總體、樣本與個體

5.總體引數、統計量與個體資料

6.變數:說明現象特徵的概念,其具體表現就是資料。

7.資料:對現象某個變數測量的結果,一般表現為資料集

(1)按計量尺度分:定類(列名)、定序(順序)、定距(無絕對零點,0僅為一普通資料)、定比尺度(有絕對零點,0代表沒有),通常將定類資料與定序資料合稱定性資料或品質資料、屬性資料,將定距資料與定比資料合稱為數值型資料。

適用功能:

定類資料:頻數、眾數、異眾比率、列聯分析、檢驗

順序資料:除以上功能外,中位數、分位數、等級相關係數

數值資料:功能最全,除上述各項以外,能計算各種統計量、進行各種引數估計、假設檢驗等

(2)按收集方法分:觀察資料和實驗資料

(3)按描述物件與時間關係分:截面資料、時間序列資料和面板資料

第二章:資料的收集

1.資料的間接**——二手資料

2.資料的直接**——原始資料

調查資料:普查、統計報表制度、抽樣調查:概率抽樣非概率抽樣

概率抽樣:隨機原則、入樣概率可求、存在理論上的抽樣分布,可以推斷。最大優點是可以計算和控制推斷誤差。並計算必要樣本單位數目。

簡單隨機抽樣:最基本的抽樣方式、等概率、適用於總體單位比較少的情況。

分層抽樣:先分組,再從每一組中隨機抽樣。

整群抽樣:先分組,再抽組,抽中的組全面登記。

系統抽樣:先排序,再按一定的距離抽樣。

多階段抽樣:是多種抽樣方式的組合。

非概率抽樣:非隨機原則確定調查單位,沒有理論上的抽樣分布,不能進行推斷。方便抽樣、自願樣本、滾雪球抽樣、配額抽樣、判別抽樣(重點調查、典型抽樣、代表抽樣)

3.資料的誤差

抽樣誤差、非抽樣誤差

抽樣誤差:抽樣標準誤差、抽樣邊際誤差。

非抽樣誤差:抽樣框誤差、回答誤差、無回答誤差、調查員誤差、測量誤差

第三章:資料的描述(一)

分類資料:頻數、比例、百分比、比率;條形圖、餅圖。

順序資料:累積頻數、累積頻率;環形圖。

數值型資料:分組;直方圖、折線圖

分組:單變數分組、組距式分組(等距、異距)

上限、下限、組中值、開口組、閉口組

分組原則:不重不漏、區分資料質的區別。

最高組上限的確定、最低組的下限的確定

上組限不包括在組內

開口組的組中值:用相鄰組的組距作為該組的假定組距,進而確定組中值。

組中值代表本組的一般水平假定條件:本組資料分布均勻。

未分組資料:莖葉圖、箱線圖

時間序列資料:線圖(趨勢圖)

多變數資料:雷達圖

第四章:資料的描述(二)

1.集中趨勢和離散程度

集中趨勢說明資料集中的位置,也稱為位置統計量,是資料的重心,代表資料的一般水平。一般用算術平均數(均值)表示。

離散程度是指資料間的分散程度,也稱為位置統計量,說明資料間的距離,一般用方差或標準差表示。

離散程度越大,說明資料越分散,平均數的代表程度就越低,資料的穩定性就越差,或者說資料的波動性越強。反之亦然。

2.權數:也稱權重,可以是絕對數(如人數、單位數等),可以是相對數(比重、頻率)。

本質上是概率,是各組權數佔總權數的比重。說明各組變數值對總平均數的影響大小。在各組變數值不變時,權數絕對數成比例變化,即各組權數的比例不變,平均數就不會變化。

3.加權算術平均數:影響因素有各組變數值和權數

4.幾何平均數及適用條件:連續變化,平均比率或比例

5.眾數與中位數:

眾數:所有型別資料、不受極端值的影響,可能存在,也可能不存在,也可能有多個。偏態資料

中位數:順序資料和數值型資料,不受極端值的影響,偏態資料

6.資料分布與集中趨勢:

對稱:左偏:

右偏:7.離散程度

異眾比率、分位差、極差(全距)、平均差、標準差、離散係數

8.標準差與方差:以有量綱的具體量說明資料離散程度,適用於平均水平相等的同類資料間的離散程度比較。

9.離散係數:標準差係數,以無量綱的係數形式說明資料的離散程度,適用於平均數不等或性質不同的資料間的離散程度比較。

10.極差:最易受到極端值的影響,說明資料變化的最大可能範圍

第五、六、七章:抽樣推斷

1.總體分布、樣本分佈、抽樣分布

總體分布:總體中各個資料的分布

樣本分佈:樣本中各個資料的分布

抽樣分布:樣本統計量的概率分布

總體的分布通過直方圖觀察,但一般不可能得到所有的資料,也就不能直接觀察到總體分布。只要知道總體的分布型別和反映總體分布特徵的引數就能夠滿足需要。

樣本分佈也稱為經驗分布,樣本**於總體,會包含總體的資訊和特徵,特別當樣本容量較大時,樣本的分布會很接近總體分布,但樣本是隨機抽取的,一般與總體分布有一定差異。

抽樣分布是說明樣本分佈特徵的統計量的分布,對它的理解是建立在反覆抽樣的基礎上,樣本是隨機抽取的,不同的樣本會有不同的統計量值,乙個總體可以有很多個不同的樣本,這樣乙個統計量就會有很多不同的取值,這些不同值的分布就是抽樣分布。由於在實踐中對於同一總體我們不會反覆抽取很多樣本,因此,抽樣分布一般不能直接觀察到,僅是一種理論分布。

抽樣分布揭示了樣本統計量與總體引數的內在聯絡,為統計推斷提供了理論基礎。

2.總體單位與抽樣單位、樣本容量與樣本可能數目

3.統計量、總體引數及統計量的標準化

統計量是樣本資料的函式,在實際抽樣之前,由於是樣本隨機的,統計量也是隨機的,但在抽取樣本之後,樣本已經確定,統計量也就是確定的,不包含任何未知變數。

總體引數是說明統計總體的資料特徵值,一般是確定但未知的,是待估計的。

統計量的標準化是統計推斷的必要過程,是將具體的統計量轉化為已知分布的統計量,轉化以後就可以確定一定區間的概率。

4.統計誤差、抽樣誤差、抽樣標準誤差與抽樣邊際誤差

統計誤差是統計調查得到的值與客觀實際值之間的差異。包括抽樣誤差和非抽樣誤差。

非抽樣誤差又稱工作誤差或調查誤差,是指調查登記過程中由於登記、過錄、計算等原因引起的誤差。在全面調查和非全面調查中都有可能存在。

抽樣誤差也稱為隨機誤差,是指在堅持了隨機抽樣的情況下,由於樣本的隨機性造成樣本統計量與總體引數的差異。

樣本是隨機的,樣本的統計量也是隨機的,而總體引數是唯一的,因而抽樣誤差也是隨機的。

在總體引數未知的情況下,乙個具體樣本的統計量與總體引數的實際抽樣誤差是不能直接觀察到的,但在平均意義上,抽樣誤差是能夠計算求得並可以控制的。

抽樣誤差一般用抽樣標準誤差來表示。抽樣標準誤差是樣本統計量的標準差,在抽樣方法(重複或不重複)、抽樣方式(抽樣組織形式)和樣本容量一定的條件下,對乙個總體來講,抽樣標準誤差是一定的,不是隨機變數。在現實生活中,一般僅取乙個樣本,不可能將所有可能樣本都抽到,因此抽樣標準誤差僅是一種理論上的誤差,不可能直接觀察到。

影響因素有總體資料離散程度、樣本容量大小、抽樣組織形式、抽樣方法。

抽樣邊際誤差是抽樣推斷中所允許的誤差,又稱抽樣極限誤差,是指在一次抽樣估計中,配合一定置信水平所確定的誤差範圍,一般由調查需求者——客戶提出,即是人為規定的。最初規定時表現為有量綱的絕對數,在統計推斷中一般將其標準化,以抽樣標準誤差作為其計量單位,即以抽樣極限誤差對抽樣平均誤差的倍數來表示。

抽樣邊際誤差與抽樣標準誤差不存在確定的大小關係。抽樣標準誤差是客觀的,抽樣邊際誤差是人為規定的,可以比抽樣標準誤差大,也可以比抽樣標準誤差小。

抽樣極限誤差不是最大可能誤差,最大可能誤差是指所有可能樣本的統計量與總體引數的離差中的最大值。

5.正態分佈、標準正態分佈、t分布

6.無偏性、有效性與一致性

7.點估計:直接以樣本統計量的值作為引數的估計值,不能說明估計的誤差和可靠概率。

8. 區間估計:以乙個區間的形式說明總體引數可能的範圍。可以給出估計結果的誤差大小和可靠概率。

9. 置信區間與置信水平、估計精確性與可靠性

置信區間是由樣本統計量與抽樣邊際誤差確定的乙個隨機區間,它的區間寬度是由抽樣邊際誤差確定的,具體位置是由樣本統計量決定。區間的寬度表明估計誤差的大小,說明估計的精確性。

置信水平是乙個概率值,是所有可能的隨機置信區間中覆蓋總體引數真值的比例。說明估計結果的可靠性。一般來講置信水平是由統計需求者對統計工作提出的要求。

在其他條件如抽樣方法、方式、樣本容量等不變時,置信區間與置信水平是一對矛盾,即要提高精確性(縮小置信區間),就得降低可靠性(置信水平降低),若要提高可靠性(加大置信水平),就得容忍較大的誤差。

要想同時提高精確性和可靠性,就得增加樣本容量,或改進抽樣方式、方法。

10.最小樣本容量的確定

影響最小樣本容量的因素有總體資料的差異程度(總體方差)、置信水平、邊際誤差以及抽樣方式和方法。

總體差異程度越大、所要求的置信水平越高、邊際誤差越小,所需的樣本容量就越多。

11.假設檢驗的基本思想

通過樣本統計量與假設的總體引數比較來判斷假設是否正確。兩者一般不一致,產生差異的原因有:1.

條件差異;2.隨機差異。不同的差異原因產生的差異程度不同,一般情況下,隨機差異經常存在,但差異程度不大,如果差異程度較大,說明除隨機差異外還有其他條件差異。

假設檢驗的原理是小概率事件在一次試驗中不應該發生,或者說發生的概率很小。在正常條件下,樣本統計量與總體引數之間的差異比較小,即該差異較小的概率較大,而該差異較大的概率很小,也就是說在一次試驗中,樣本統計量與總體引數的差異如果較大,則說明產生差異的原因不只是隨機因素,應該還有其他原因。

12.假設檢驗依據的是小概率原理:反證法

若我們的假設是正確的,出現象樣本這樣的情況的概率是很小的,而這麼小概率的事件在一次抽樣或實驗中是不應該出現的,而現實卻出現了,說明我們的前提假設很可能是不成立的。

13.小概率標準即顯著性水平在抽樣前依需要確定;

多小的概率為小,即小概率「小」的程度由我們事先規定,當樣本這種情況出現的概率小於我們想象的概率時就拒絕原假設。即時,就可以拒絕原假設。

14.假設檢驗的結果的正確表述。

假設檢驗的結果只能是拒絕或不拒絕原假設,而不能證明原假設成立;

大概率事件不能證明原假設成立,因為出現這種情況的總體不是唯一的,但出現小概率事件在很大程度上說明原假設不成立。不能否定原假設時,只是目前的證據不足以否定原假設,但不能說原假設就是對的。

統計學複習

例1 某廠計畫完成工業增加值200萬元,實際完成220萬元,則 例2 3月份的計畫生產成本為100萬元,實際生產成本為120萬元,則其計畫完成相對數為 例5 某廠計畫2000年勞動生產率要比上年提高4 實際提高5 則 例6 某企業計畫產品單位成本比上年降低5 實際降低6 則 例7 某工廠在2005年...

統計學複習

第一章1.統計 包含三方面的含義,統計工作 或統計活動 統計資料和統計學。3.統計活動 一般包括統計設計 統計調查 統計整理 統計分析等這幾個階段依次進行。4.統計資料 統計資料是指統計工作過程中所產生的統計資料 統計報表 統計圖表 統計分析報告 文 以及與之相聯絡的其他資料的總稱。5.統計學 是指...

統計學複習

1 統計學是用以收集資料,分析資料和由資料得出結論的一組概念 原則和方法。2 統計的基本涵義包括三種不同的含義,即統計工作 統計資料 統計科學。統計工作即統計實踐活動,是人們利用各種科學的統計方法,蒐集 整理 分析和提供統計資料工作的總稱 統計資料即統計工作過程所取得的成果,是反映被調查研究的客觀事...