大數定律與抽樣陷阱

2022-12-26 09:36:03 字數 3014 閱讀 4966

前面一篇文章——難以解釋的資料異常——發出來之後,朋友推薦我去讀《黑天鵝》,剛剛翻完這本書,發現書中的很多觀點和細節的表述都能給人啟發,尤其是「敘述謬論」和「過度解釋」這個兩點能對難以解釋的資料異常這篇文章中描述的內容給出另乙個側面的解釋。從作者塔勒布的後記和書中表述的觀點來看,讀過這本書的人可能很容易走入兩種認識的極端:

1、既然一些未知的黑天鵝事件可能對我們造成極大的影響,那我們就應該去努力**這些未知事件,以便做好充分的準備來應對這些事件。但作者在書中明確說了黑天鵝事件的不可**性;

2、既然我們無法**未知,並且未知事件可能對我們的生活造成翻天覆地的影響,我們只能不去做任何的**和準備,等待命運的審判。但書的副標題是「如何應對不可預知的未來」,所以作者塔勒布並不認為我們什麼都做不了,至少能夠認識到黑天鵝的存在,打破傳統思維的侷限性,謹慎地預防,黑天鵝是未知的未知,我們需要為已知的世界和已知的未知做好準備。

《黑天鵝》中多次提到大數定律可能會愚弄我們,作為數理統計和概率論中兩個經典的理論(中心極限定理和大數定律)之一,為什麼遇到黑天鵝事件時就會失效?或者說大數定律在遇到任何的小概率事件時都有可能「失效」,需要謹慎地認識,以防掉入應用中的陷阱。

大數定律

大數定律(law of large numbers),指在隨機試驗中,每次出現的結果不同,但是大量重複試驗出現的結果的平均值卻幾乎總是接近於某個確定的值。典型的例子就是拋硬幣的伯努利試驗,當拋硬幣的次數足夠多的時候,正反面出現的概率都接近於1/2。

常用的大數定律有伯努利大數定律和辛欽大數定律。其中伯努利大數定律指在n次獨立試驗中,事件a發生的頻率為p,當n足夠大時,p無限接近事件a真實的發生概率,即頻率的穩定性;辛欽大數定律指若n個獨立同分布的隨機變數存在數學期望,則當n越大時,其演算法平均數越接近於這些隨機變數的真實數學期望值,即均值的穩定性。

大數定律為統計推斷提供了充分的理論依據,我們可以通過抽樣的方法用樣本統計量的特徵去估計總體的特徵,而不需要去研究整個總體。當樣本的數量越大時,其對總體的估計就越接近總體的真實特徵。但在面對小概率事件時,大數定律對總體的估計會顯得無能為力,很多時候結論是失效的。

小概率事件

假設我們進行重複10000次的伯努利試驗,事件a、b、c發生的次數均滿足二項分布x~b(n, p),n代表試驗次數,p代表事件發生的概率。其中事件a發生的概率為10%、事件b發生的概率為1%、事件c發生的概率為0.1%。

我們知道,滿足二項分布的隨機變數的均值是np,方差為np(1-p),於是就可以用變異係數cv(具體內容參見衡量資料的離散程度這篇文章)來衡量這3個事件發生次數的變異性或者波動情況,可以得到如下的結果:

從上表中可以看出,當試驗的次數保持恆定時,事件發生的概率越低,則事件發生的次數會存在越大的波動性或者波動幅度,如果我們繼續降低事件發生概率,比如事件d發生概率為0.01%,也就是10000次試驗中發生的期望次數是1次,那麼事件d的cv就高達99.99%,完全無法預判其是否發生。

所以在相同的條件下,小概率事件一定比普遍發生的事件存在更大的變數,概率越小波動的幅度就越大。

抽樣誤差

隨著**資料量的不斷增大,資料的處理和統計需要更高的成本,於是有些分析就會借助抽樣的方法來處理資料,google analytics的免費版當資料量達到上限時就會採用抽樣的方式顯示結果報表。其實很多時候我們都在使用抽樣的方法分析資料,我們可能會用最近7天的資料來評估近段時間的流量變化、轉化情況等,但7天並不能完全代表近段時間,其實做的也是一種抽樣。下面來看看現實的**資料分析的例子:

轉化率(conversion rate)是**分析中非常重要的乙個指標,很多公司會把轉化率當做運營產品部門的kpi,但對於很多**而言,轉化率並不大,一般不會超過10%(根據**業務特徵的差異和對目標轉化的定義不同,轉化率在不同**間沒有乙個恆定的標準,也不具備可比性),如果**的內容質量不高或者使用者體驗不好,轉化率也很可能低於1%。這個時候如果用抽樣的方法來預估**整體的轉化情況,就很容易掉入抽樣誤差的陷阱。

**的轉化情況其實是乙個二項分布,即轉化或未轉化,滿足x~(n, p)。根據中心極限定理,二項分布的極限是正態分佈,一般認為當np和n(1-p)同時大於10時,二項分布近似地滿足x~n(np, np(1-p))的正態分佈,即均值為np,方差為np(1-p)。將二項分布除以n之後可以得到均值,即概率p的分布,當n大於30時,近似服從n(p, p(1-p)/n)的正態分佈,即均值為p,方差為p(1-p)/n,當n無限大時,樣本概率p與總體概率就不存在誤差,也就是滿足大數定律。

假如我們從**每天幾百萬次的訪問中抽樣1萬次訪問來預估整體的轉化率,當樣本的轉化率(即概率p)分別為10%、1%、0.1%時,預估的總體轉化率的變異係數同上表,分別為3.00%、9.

95%、31.60%(可以用均值為p,標準差為sqrt(p(1-p)/n)進行驗證),所以樣本轉化率越低,使用樣本轉化率去預估總體轉化率就會越不準確。

既然過小的轉化率在抽樣中可能導致預估的結果存在巨大的誤差,那麼如何合理地選擇樣本數量來控制這個誤差?上面已經提到,當二項分布的np和n(1-p)同時大於10時,可以認為近似滿足正態分佈,在正態分佈下面,就可以計算在一定置信水平下的置信區間(詳細計算方法見引數估計與置信區間中的區間估計),而要讓抽樣的誤差控制在可接受的範圍內,可以增加抽樣的樣本數來提公升樣本對總體估計的可信度。

假設我們將置信水平設定在90%(一般認為95%的置信水平是滿足統計學意義的,但網際網路的資料影響因素較多,普遍波動較大,不需要科研實驗那麼高的精確度,所以90%的置信水平足夠了),即z取到1.65,我們對轉化率的控制一般要求較高,假設在90%的置信水平下,樣本的置信區間必須控制在樣本轉化率的±10%,可以看下在這種條件下各種轉化率水平所需的抽樣樣本數必須滿足怎麼樣的條件:

上表的樣本數條件可以作為我們抽樣時的參考,具體的應用可以根據概率的大小和對置信水平、置信區間的需要進行計算得到。

最後再回到黑天鵝,通過上面對小概率事件和抽樣誤差的解釋,其實已經很明顯了。黑天鵝是極小概率事件,可能幾十年幾百年才遇到一次,而大數定律是乙個理想化的狀態,也就是n值趨近於無窮,我們很難在人生短短數十年經歷很多小概率事件,或者我們的知識閱歷的儲備無法包含這麼多的異常,很多事情在幾十年的「抽樣樣本」中是不存在的;同時因為時代在快速地變化,當前可能發生的事件可能僅限於當前這個環境,我們無法通過歷史去預見未來。於是我們完全沒法知道黑天鵝事件發生的可能性,甚至不知道它的存在,即黑天鵝事件是未知的,也是無法**的。

大數定律及其應用

本科畢業 2013屆 題目 大數定律及其應用 學院 數學與資訊科學學院 專業統計學 班級09統計 姓名學號 指導老師 完成日期 2013年4月1日 目錄 1 引言 2 2 大數定律的發展歷程 3 3 常見的大數定律及中心極限定理 4 3.1常見的大數定律 4 3.2常見的中心極限定理 5 4 大數定...

LBS與大資料

這兩類資料,從分析上來說,第一類資料更接近於傳統的空間分析思想,最多就是時空分析,把時間序列加入到空間分析模型中。而第二類的資料分析更偏向於傳統的資料分析和資料探勘,有報表,有警報,但是如果不把空間的位置加入,無疑會漏掉很多的資訊。lbs的資料,是gis資料裡面最符合大資料思想分支了,屬於傳統gis...

IQC職責與抽樣檢驗

iqc 全稱 in ing quality control 中文含義 來料質量控制 qa 全稱 quality assurance 中文含義 質量保證 qc 全稱 quality control中文含義 質量控制 為達到質量要求所採取地作業技術和活動。iso 9000 是一項國際貨標準,質量保證體系...