蘭州商學院
統計學院
統計建模作業
(第一次)
題目: 統計建模方法總結
班級: 09級統計三班
姓名王玥
學號: 20090601339
年月日統計方法
統計方法是指用以收集資料、分析資料和有資料得出結論所用的一系列方法的總稱。
一、統計與資料
統計方法是研究資料的方法,研究統計方法首先要研究資料,及研究資料的定義、資料的蒐集方法、資料的分類和資料的**等。
1、定義:變數的特點是從一次觀察到下一次觀察會出現不同結果。把觀察到的結果記錄下來就是資料。
2、資料的蒐集方法:
(1)普查:是專門組織的一次性全面調查,適用於蒐集某些不能或不適宜於定期的全面統計報表蒐集的統計資料,以摸清重大的國情、國力。
(2)抽樣調查:
第一,是一種非全面調查;
第二,按照隨機原則從總體中抽取一部分單位作為樣本進行觀察研究;
第三,能夠根據部分調查的實際資料對調查物件的總體的數量特徵進行推斷;
第四,在抽樣調查中會存在抽樣誤差,但這個誤差可以事先計算並加以控制;
第五,樣本是從總體中抽取的一部分元素的集合,構成樣本的元素的數目稱為樣本量;
第六,在實際調查中,抽樣方法主要有兩種,概率抽樣和非概率抽樣。常用的概率抽樣形式為:
a、簡單隨機抽樣(最基本的形式);
b、分層抽樣:先分「層」或「組」,再在每一層中進行抽;
c、整群抽樣:先分「組」或「群」,然後對抽中的乙個群的全體進行調查;
d、系統抽樣:又稱等距抽樣,特點為在總體中每隔一定距離抽選乙個被調查者。
e、多階段抽樣
(3)統計報表:對於大型國有企業來說,利用統計報表蒐集資料,具有時間快、成本低的優點。
(4)重點調查:在調查物件中選擇一部分重點單位進行的一種非全面調查。這些重點單位雖然數目不多,但它們具有所研究現象的數量在總體總量中佔據絕大部分的特點。
(5)典型調查:也是一種非全面的專門調查,在對被調查物件進行全面分析的基礎上,有意識地選擇若干具有典型意義的或有代表性的單位進行的調查。
3、資料的分類:
(1)定性變數(資料)與定量變數(資料)
定性資料的最大特點是它只能反映現象的屬性特點,而不能說明具體量的大小的差異;定性變數又可分為分類變數和順序變數。分類資料只能用來區分事物,而不能用來表明事物之間的大小、優劣關係;順序資料的資料之間雖然可以比較大小,卻無法計算相互之間大小、高低或優劣的距離。
定量變數可以用數值表示其觀察結果,而且這些數值具有明確的數值含義,不僅能分類而且能測量出來具體大小和差異。
(2)觀測資料和實驗資料
4、資料的**:
(1)直接**:即通過自己的調查或實驗活動,直接獲得的第一手資料。
(2)間接資料:即資料是由別人通過調查或實驗的方式蒐集的。使用者只是找到它們並加以使用。
主要渠道有:各類統計年鑑;各類專業期刊、報紙、書籍所提供的文獻參考資料;從網際網路、圖書館查閱到的相關資料,等等。
二、統計分析方法
統計分析資料的方法大體上可分為描述統計和推斷統計兩大類。其中,描述統計是研究資料蒐集、處理和描述的統計學方法;推斷統計則是研究如何利用樣本資料來推斷總體特徵的統計學方法,內容包括引數估計和假設檢驗兩大類。
(一) 描述性統計方法
1、可用頻數分布表和圖形來描述定性資料。
(1)頻數分布表:先把事物所有的類別都列出來,然後統計出每一類別的頻數,就是一張頻數分布表。頻數分布表中落在某一特定類別的資料個數稱為頻數。
(2)餅圖主要用於總體中各組成部分所佔比重的研究;條形圖用於觀察不同類別資料的多少或分布情況;環形圖可以比較不同變數之間的結構差異。
2、用頻數分布表展示定量資料
(1)對資料進行分組,一般的分組個數在5——15之間。
(2)確定組距,組距=上限-下限。
確定組距時,一般應當掌握以下原則:一是要考慮各組的劃分是否能區分總體內部各個組成部分的性質差別;二是要能準確地清晰地反映總體單位的分布特徵。
確定組距時,如研究的現象變動比較均勻,可以採用等距分組;否則採用不等距分組。
(3)統計出各級的頻數及頻數分布表(採取「上限不在內」的原則)。
3、定量資料的圖形表示
(1)直方圖:橫座標代表變數分組,縱座標代表各變數值出現的頻數。
(2)折線圖:用於表示現象的分配情況、現象在時間上的變化和兩個現象之間的依存關係等。
(3)散點圖:反映兩個變數的關係。
4、統計表的相關內容
(1)使用統計表的目的:一是在文章中使用它以支援自己的觀點;二是利用它組織資料。
(2)統計表一般由五個部分組成,即表頭、行標題、列標題、數字資料和表外附加。表頭應該放在表的上方;行標題和列標題一般放在表的第一行和第一列;表外附加通常放在統計表的下方。
(3)通常情況下,統計表的左右兩邊不能封口。
5、反映定量資料集中趨勢的統計量:平均數、中位數、眾數和分位數等。
平均數的主要缺點是更容易受少數極端數值的影響,對於嚴重偏態分布的資料,平均數的代表性較差。
中位數和眾數不受極端值的影響,具有統計上的穩健性,當資料為偏態分布,特別是偏斜程度較大時,可以考慮選擇中位數和眾數,這時它們的代表性要比平均數好。
6、反映定量資料離散趨勢的統計量:極差、四分位差、標準差和方差。(重點在於標準差、離散係數與標準分數的公式。)
標準差、方差與離散係數的判定標準:數值越大,說明它的各個觀測值分布的越分散,安的趨中程度就越差;反之,數值越小越好,代表性越強。
(二) 推斷統計方法
第一種、引數估計:
總體分布是總體中所有觀察值所形成的分布;總體中觀察值可以視為隨機變數。
1、數理統計學的相關證明:
(1)樣本均值的均值(或期望)就是總體均值,即;
(2)重置抽樣時,樣本均值的標準差為總體標準差的,或者說樣本均值的方差為總體方差的,即;
(3)不重置抽樣時,樣本均值的標準差為,其中,為修正係數,當總體為有限總體,n比較大而時,修正係數可以簡化為。
2、樣本均值的分布
(1)當總體服從正態分佈時,樣本均值一定服從正態分佈;
(2)若總體為未知的非正態分佈時,只要樣本容量n足夠大(通常要求),樣本均值仍會接近正態分佈;
(3)如果總體不是正態分佈,當n為小樣本時(通常n<30),樣本均值的分布則不服從正態分佈。
3、統計量的標準誤差,也稱為標準誤:
(1)樣本均值的標準誤差:;
(2)樣本比例的標準誤差:。
4、評價估計量的標準
(1)無偏性:指估計量抽樣分布的期望值等於被估計的總體引數。
(2)有效性:指估計量的方差盡可能小。
(3)一致性:指隨著樣本量的增大,點估計量的值越來越接近被估計總體的引數。
5、乙個總體均值的區間估計
(1)大樣本的估計():;
(2)小樣本的估計():,注意t值的自由度為n-1。
6、乙個總體比例的區間估計:。
7、估計總體均值時樣本量的確定——;
注意:(1)樣本量與置信水平成正比關係、與總體方差成正比、與允許的估計誤差的平方成反比;
(2)當允許誤差縮小為原來的50%時,樣本量要擴為原來的4倍;
(3)計算得出的樣本量如有小數,無論大小,一律進一位。
8、估計總體比例時樣本量的確定——;
注意:如未給出比例的具體數字,比例可取0.5以保證達到最大。
第二種、假設檢驗:
1、假設檢驗是先對總體引數或分布形式提出某種假設,然後利用樣本資訊和相關統計量的分布特徵去檢驗這個假定,做出是否拒絕原來假設的結論。
2、小概率事件:指在一次事件中幾乎不可能發生的事件。一般稱之為「顯著性水平」,用a表示,一般取值為:a=0.05或a=5%。
3、假設檢驗的步驟:
(1)提出原假設h0和備擇假設h1;
注意:如果備擇假設h1出現的是不等號,稱為雙尾檢驗;如果備擇假設h1出現的是大於號或小於號,稱為單尾檢驗。
(2)確定檢驗統計量;
(3)確定顯著性水平;
注意:第
一、拒絕正確原假設的錯誤常被稱為第一類錯誤或棄真錯誤;當備擇假設正確時,反而認為原假設正確的錯誤被稱為第二類錯誤或取偽錯誤。
第二、這兩類錯誤不可能同時犯,當然也不是必然犯其中錯誤之一。
第三、犯第一類錯誤的概率最大不超過a,但無法算出犯第二類錯誤的概率。一般情況下,人們認為犯第一類錯誤的後果更嚴重一些,因此通常會取乙個較小的值。
(4)根據資料計算檢驗統計量值和與這個統計量值相對應的概率值p值,並進行決策。
注意:第一,拒絕域的大小與顯著性水平有關。當樣本量固定時,拒絕域隨的減小而減小。
第二,檢驗決策準則:
雙側檢驗:統計量的值的絕對值》臨界值,或時,拒絕原假設;
左側檢驗:統計量的值《臨界值,或時,拒絕原假設;
右側檢驗:統計量的值》臨界值,或時,拒絕原假設。
4、總結:(1)假設檢驗依據的是小概率原理;
(2)小概率標準在抽樣前依需要確定;
(3)假設檢驗的結果只能是拒絕或不拒絕原來假設,而不能證明原假設成立;
(4)統計假設檢驗的結果不是絕對正確。
5、總體均值的假設檢驗:
(1)大樣本:
總體方差已知,統計量;總體方差未知,統計量。
(2)小樣本:統計量,注意:t的自由度為n-1。
6、總體比例的假設檢驗:統計量
第三種、相關分析:
1、乙個變數的變化完全決定另乙個變數的變化,這種確定性的關係稱為函式關係;另外還存在一種有著密切的聯絡但又不是嚴格的、確定的關係,稱為相關關係。
2、相關關係的分類
(1)線性相關與非線性相關或曲線相關;
(2)正相關與負相關;
3、相關係數(r)檢驗的統計量,t的臨界值為;
4、r的取值範圍:(-1.1)。
第四種、回歸分析:
1、一元線性回歸模型:
2、估計的線性回歸方程:
3、引數估計的基本思想:最小二乘法,即使得觀測值與其回歸值的離差越小越好,也就是使得達到最小。
4、回歸係數公式:
5、回歸係數的意義:
是直線的截距,表示當解釋變數為零時y的平均值;回歸係數是直線的斜率,表示解釋變數x每增加乙個單位,被解釋變數將相應地平均變化個單位。
試驗統計方法
2 數量性狀資料 觀察測定數量性狀而獲得的資料。3 連續性變數 量 測手段得到的計量資料 間斷性變數 計數方式得到的計數資料。4 質量性狀 能觀察到而不能直接測量的性狀。5 質量性狀轉化為數量性狀的方法 1 統計次數法 2 分級法。3 資料的整理 1 檢查和核對原始資料的目的是保證資料的在正確性和完...
試驗統計方法
農大函授2015年 試驗統計方法 作業 一 名詞解釋 30個 總體 統計數 隨機誤差 小概率事件 平均數 樣本容量 隨機誤差 試驗因素 方差 因素水平 一尾測驗 試驗因素 試驗水平 簡單效應 主效 互作 試驗方案 試驗指標 試驗誤差 唯一差異原則 區域性控制 對比法 間比法 完全隨機設計 隨機區組設...
試驗統計方法複習總結加解析
1 變數 資料所具有的變異特徵或性。2 觀察值 變數所測得的具體觀測資料,或每乙個體的某一性狀,特徵的測定資料。3 總體 具有共同性質的個體所組成的集體。4 個體 總體中的乙個成員。5 樣本 從總體中抽出的部分個體的總和。即總體的一部分樣本容量 樣本中所包含的個體數目。6 引數 由總體的全部觀察值而...