正態分佈與正態分佈檢驗

2023-01-09 17:12:05 字數 4074 閱讀 9208

一、正態分佈

正態分佈是最常見也是最重要的一種連續型資料分布,標準正態分佈是正態分佈的一種,

當 μ=0,σ=1時的正態分佈為標準正態分佈,為了應用方便,常將正態分佈通過z分數轉換為標準正態分佈,這種轉換後的分布也稱為u分布或z分布。

正態分佈的主要特徵:

1.集中性:正態曲線的高峰位於正**,即均數所在的位置,正態分佈的均值、中位數、眾數都相等

2.對稱性:正態曲線以均數為中心,左右對稱,曲線兩端永遠不與橫軸相交。

3.均勻變動性:正態曲線由均數所在處開始,分別向左右兩側逐漸均勻下降。

4.正態分佈有兩個引數,即均數μ和標準差σ,可記作n(μ,σ)。

二、正態分佈檢驗

有些統計方法只適用於正態分佈或近似正態分佈,因此在應用這些方法之前,通常要判斷資料是否服從正態分佈,或樣本是否來自正態總體,這就需要正態性檢驗

【任何正態檢驗原假設都是資料服從正態分佈】

圖p-p概率圖的原理是檢驗樣本實際累積概率分布與理論累積概率分布是否吻合,若吻合,則散點應圍繞在一條直線周圍,或者實際概率與理論概率之差分布在對稱於以0為水平軸的帶內(這種稱為去勢p-p圖),p-p圖常用來判斷正態分佈,但實際上它可以考察其他很多種分布。

圖q-q概率圖的原理是檢驗實際分位數與理論分位數之差分布是否吻合,若吻合,則散點應圍繞在一條直線周圍,或者實際分位數與理論分位數之差分布在對稱於以0為水平軸的帶內(這種稱為去勢q-q圖)。q是單詞quantile的縮寫,是分位數的意思。

p-p圖和q-q圖的用途完全相同,實際功能也類似,只是q-q圖比p-p-圖更加穩健一些,下面介紹q-q圖的具體製作方法:

構建正態q-q圖

首先,資料值經過排序,且累積分布值按照公式(i–0.5)/n進行計算,其中字母表示總數為n的值中的第i個值(累積分布值給出了某個特定值以下的值所佔的資料比例)。累積分布圖通過以比較方式繪製有序資料和累積分布值得到(如下圖中左上角的圖表所示)。

標準正態分佈(平均值為0標準方差為1的高斯分布,如下圖的中右上角的圖表所示)的繪製過程與此相同。生成這兩個累積分布圖後,對與指定分位數相對應的資料值進行配對並繪製在qq圖中(見下圖的底圖所示)。

構建普通q-q圖

普通qq圖用於評估兩個資料集的分布的相似程度。這些圖的建立和所述的正態qq圖的過程類似,不同之處在於第二個資料集不一定要服從正態分佈,使用任何資料集均可。如果兩個資料集具有相同的分布,普通qq圖中的點將落在45度直線上,如下圖

3.峰度檢驗和偏度檢驗

峰度(kurtosis)是用來反映頻數分布曲線頂端尖峭或扁平程度的指標,

偏度(skewness)是用來反映資料分布曲線非對稱程度的指標,

峰度和偏度最初是由皮爾遜用矩的概念演算而來,隨機變數x的3階標準矩稱為偏度,4階標準矩稱為峰度,由於標準正態分佈的期望μ=0,方差=1,可以得到標準正態分佈的偏度等於0,峰度等於3,在實際應用中,為了方便檢視,有的統計分析軟體如spss將峰度值做減3處理,使計算值和0比較,偏度的方向左偏或右偏,是指曲線長尾的方向,而不是高峰的方向。

峰度檢驗和偏度檢驗類似,都是構造相應的統計量,現以偏度檢驗為例:

所謂偏度檢驗就是檢驗如下假設:

檢驗結果如果接受ho,並不等價於接受原假設「樣本來自正態總體」,因為任何乙個對稱分布的偏度都為0,無法排除樣本來自非正態對稱分布的可能,因此偏度檢驗只能檢驗資料分布的對稱性,同樣,峰度檢驗也是如此,因此偏度和峰度檢驗無法做正態性檢驗,有些教材和文件中提出直接根據峰度係數和偏度係數判斷是否正態分佈,我認為並不嚴謹,至少還需要結合p-p圖或q-q圖觀察。

檢驗雖然偏度和峰度無法做正態性檢驗,但這兩個指標畢竟是正態分佈很重要的特徵,因此皮爾遜將這兩個統計量綜合起來進行檢驗,稱為r檢驗。

r檢驗假設樣本偏度和峰度相互獨立,但是對於小樣本,這個假設不一定成立,如果偏度和峰度之間具有相關性,那麼r檢驗犯第二類錯誤的概率會偏高,因此,r檢驗並不能算乙個好的正態檢驗方法。

正態性檢驗(j-b檢驗)

這是一種普通採用的基於偏度和峰度統計量的正態性檢驗方法,它根據偏度和峰度數值構建jb統計量:

其中s為偏度,k為峰度

在正態分佈的假設下,jb統計量漸進服從自由度為2的卡方分布,如果變數服從正態分佈,則jb統計量趨於0,否則jb統計量趨於無限大,如果jb統計量值較大,比如為11,則可以計算出卡方值大於11的概率為0.004,這個概率過小,因此不能認為樣本來自正態分佈。反之,成立。

jb統計量有乙個收斂速度慢的缺點,因此提出了一種修正的jb統計量,稱為ajb,在樣本量較小的情況下,ajb比jb效果更好。

無論jb還是ajb,都是漸進式的檢驗,因此不太適合小樣本檢驗,我認為樣本量至少要超過1000,另外,如果是多峰分布,不能使用j-b檢驗。

檢驗kolmogorov-smirnov檢驗(簡稱k-s檢驗)是檢驗單一樣本是否來自某一特定分布,換句話說就是檢驗兩個經驗分布是否不同或乙個經驗分布與另乙個理想分布是否不同。它的檢驗方法是以樣本資料的累積頻數分布與特定理論分布比較,若兩者間的差距很小,則推論該樣本取自某特定分布。它是一種基於ecdf(經驗累積分布函式,是樣本累積分布函式對實際累積分布函式的近似)檢驗,由於k-s檢驗構建的是乙個d統計量,因此也有人稱它為d檢驗,同樣被稱為d檢驗的還有乙個d'agostino'sk-squared正態性檢驗,k-s檢驗只適用於連續和定量資料,並且樣本量至少要50以上,實際上,k-s檢驗在樣本量小的時候不夠敏感,而在樣本量大的時候又過度敏感,這就是我們在檢驗大樣本時,通過影象看出資料近似正態分佈,但是卻無法通過k-s檢驗的原因。

在spss軟體中,規定k-s檢驗可以檢驗四種資料分布:正態、均勻、指數、泊松

檢驗是基於kolmogorov-smirnov檢驗的一種正態性檢驗,是對kolmogorov-smirnov檢驗的一種修正,當使用kolmogorov-smirnov做正態性檢驗時,總體的均值和方差是未知的,此時lilliefor提出用樣本的均值和方差進行替代,從而構建了另乙個d值,在小樣本情況下,經過lilliefor修正的kolmogorov-smirnov檢驗會比單純使用kolmogorov-smirnov檢驗更精確一些,但是隨著樣本量增大,kolmogorov-smirnov檢驗的功效會越來越好。

spss中探索性分析和非引數檢驗選單中均提供了kolmogorov-smirnov檢驗,但是探索性分析中的kolmogorov-smirnov檢驗是經過lilliefor修正的,所以很多朋友會奇怪為什麼相同的資料二者計算出的結果會不同,原因就在於此。

8.χ2擬合優度檢驗

擬合優度(goodnessoffit)是指回歸直線對觀測值的擬合程度,擬合優度檢驗用卡方統計量進行顯著性檢驗,當總體分布未知時,用樣本檢驗總體分布是否與某一理論分布一致。雖然擬合優度檢驗和k-s檢驗都採用頻數檢驗,但是擬合優度檢驗主要用於類別資料,如果用於定量資料,需要先將資料分組,並且要求多變數之間相互獨立,而k-s檢驗沒有這些限制,只要是連續或定量資料即可,因此擬合優度在基於連續變數的正態分佈檢驗上使用比較少。

檢驗)這是一種基於相關性的檢驗,通過構建乙個w統計量,來判斷是否符合正態分佈,因此也稱為w檢驗。w檢驗只適用於小樣本(n=8-50)情況下,w檢驗的演算法需要將資料從小到大排序,因此它容易受到異常值的影響。通常如果樣本量小於50,並且沒有特別的異常值,我們會選擇w檢驗作為檢驗標準,但是其他檢驗方法的功效都是隨著樣本量的增大而增大。

維基百科上有這樣一句話

,–wilk,kolmogorov–smirnov,lilliefors,andanderson–darlingtests.

大概意思是:shapiro-wilk,kolmogorov–smirnov,lilliefors,和anderson–darling這四種方法經實證測試比較,shapiro–wilk對於乙個給定的意義擁有最強功效,緊隨其後的是anderson-darling。翻譯能力有限,不知道是否正確,但是按它的意思,anderson-darling應該是繼w檢驗之後的第二選擇。

檢驗簡稱a-d檢驗,此檢驗是將樣本資料的經驗累積分布函式與假設資料呈正態分佈時期望的分布進行比較。如果實測差異足夠大,該檢驗將否定總體呈正態分佈的原假設。a-squared值也是表述資料正態分佈程度的一種,全稱是anderson-darling係數,不過,與p值相反的是,a-squared值越小,代表實際的分配和理論分配的差異,越接近0時,判斷為更加符合正態。

正態性檢驗

此檢驗通過計算資料與資料的正態分值之間的相關性來評估正態性。如果相關係數接近1,則總體就很有可能呈正態分佈。ryan-joiner統計量可以評估這種相關性的強度;如果它未達到適當的臨界值,您將否定總體呈正態分佈的原假設。

定積分與正態分佈

2011廣東各地高三上期末考試題分類彙編 定積分與正態分佈 廣東珠海市第四中學邱金龍整理 1 高州三中2011高三上期末考試試題 由拋物線和直線所圍成圖形的面積為 2 高州市大井中學2011高三上期末考試 函式的圖象與軸圍成圖形的面積為 3 廣州2011高三上期末 已知隨機變數服從正態分佈,且,若,...

正態分佈教學設計 隆建軍

人教版高三年級 正態分佈 教學設計 大河中學隆建軍 郵編 617061 聯絡 151 教材分析 1.教學內容的地位,作用與意義 正態分佈是高中數學新增內容之一,是統計中的重要內容。一方面,它是在學生學習了總體分布後給出的一種自然界最常見的一種分布,它是學生進一步應用正態分佈解決實際問題的理論依據,因...

標準正態分佈函式數值表

這是本人多年從事教學工作的總結,與大家一起分享,錯誤 疏落在所難免,歡迎大家批評指正!x x 1 x x x x0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.00.1 0.20.3 0.40.5 0.60.7 0.80.9 1.01.1 1....