武大醫學統計學期末複習總結 名解和簡答

2021-10-30 07:34:22 字數 3916 閱讀 4078

名詞解釋

引數patameter:是指總體的統計指標,如總體均數、總體率等。總體引數是固定的常數。

多數情況下,總體引數是不易知道的,但可以通過隨機抽樣抽取具有代表性的樣本,用算得的樣本統計量估計未知的總體引數。

統計量statistic:是指樣本的統計指標,如樣本均數、樣本率等。樣本統計量可用來估計總體引數。總體引數是固定的常數,統計量實在總體引數附近波動的隨機變數。

系統誤差systematic error:是實驗過程中產生的誤差,它的值或恆定不變,或遵循一定的變化規律,其產生原因往往是克制的或可能掌握的。

隨機誤差random error:是一類不恆定的、隨機變化的誤差,由多種尚無法控制的因素引起。

i型錯誤 type i error:拒絕了實際上成立的h0,這類「棄真」的錯誤稱為i型錯誤,其概率大小用α來表示。

ii型錯誤type ii error:「接受」了實際上不成立的h0,這類「取偽」的錯誤稱為ii型錯誤,其概率大小用β來表示。

p值p-value:在h0成立的前提下,用樣本資料獲得的樣本統計量及比樣本統計量總計更極端的區間下的面積。

置信區間confidence bound / confidence interval, ci:按預先給定的概率(1-α)所確定的包含未知總體引數的乙個範圍。

多重共線性 multicollinearity:是指線性回歸模型中的解釋變數之間由於存在精確相關關係或高度相關關係而使模型估計失真或難以估計準確。

啞變數 dummy variable:如果是多分類指標,假定有g類,則用g-1個取值為0,1或-1的變數,稱為啞變數。

偏相關係數 partial correletion coefficient:表示在一組變數中,任一兩個變數在其它變數固定不變時,他們之間相關的密切程度和方向。或者說,扣除其它變數對它們的影響後,兩個變數之間的線性相關情況。

決定係數 coefficient of determination:回歸平方與總平方和之比,其數值反映了回歸貢獻的相對程度,其值約接近1,說明模型對資料的擬合程度越好。

隨機對照試驗 randomized controlled trial,rct:將研究物件隨機分組,對不同組實施不同的干預,以對照效果的不同。

接受者工作特徵曲線 receiver operator characteristic,roc曲線: 以不同截斷點時的(1-特異度)為橫軸,靈敏度為縱軸,作的真陽性率與假陽性率曲線。

簡答題:

1. 標準差與標準誤的區別與聯絡。√

區別:(1)含義不同:①標準差描述個體變數值x之間變異度的大小,s越大,變數值x越分散;反之變數越集中,均數的代表性就越強;②標準誤是描述樣本均數之間變異度的大小,標準誤越大,樣本均數與總體均數間差異越大,抽樣誤差越大;反之,樣本均數越接近總體均數,抽樣誤差越小。

(2)與n關係不同:n增大時,①s-σ(恆定);②標準誤減少並趨於0(不存在抽樣誤差);

(3)用途不同:①標準差表示x變異度的大小,計算cv,估計正常值範圍,計算標準誤等;②標準誤:引數估計和假設檢驗。

聯絡:二者均為變異度指標,樣本均數的標準差即為標準誤,標準差與標準誤成正比。

2. 資料的分類及統計學方法處理(描述、推斷)√

資料分類:計數資料(定性資料)、計量資料(定量資料)、等級資料。

統計描述:計數資料——相對數(率),結構相對數(構成比)、百分比相對比(or、rr);計量資料——均數±標準差;等級資料:中位數、四分位數間距等。

統計推斷:計數資料——卡方檢驗;計量資料——t檢驗、方差分析;等級資料——非引數檢驗。

3. 樣本含量與那些因素有關,是怎樣影響的?

樣本含量的估計取決於:

①假設檢驗的ⅰ型錯誤概率α大小:ⅰ型錯誤概率α越小,所需樣本含量越多。對於相同α,雙側檢驗比單側檢驗所需樣本含量多;

②假設檢驗的ⅱ型錯誤概率β或檢驗效能(1-β)的大小:ⅱ型錯誤概率β愈小或檢驗效能(1-β)愈大,所需樣本含量愈多;

③容許誤差δ的大小:容許誤差δ愈大,所需樣本含量愈小;

④總體的相關資訊:總體標準差σ愈大,所需樣本含量愈多;總體率π越接近0.05,所需樣本含量越多;總體相關係數ρ愈小,所需樣本含量愈多;變異指標cv愈大,所需樣本含量愈多。

4. 多重回歸、logistic回歸、cox回歸的區別與聯絡 √

多元線性回歸、logistic回歸、cox回歸的聯絡:①自變數可以是連續變數、有序分類變數和無序分類變數,為了將無序分類變數代入回歸模型,需要進行啞變數彼岸花,啞變數在回歸模型中是乙個整體,必須同時引入模型或同時從模型中剔除;②當自變數之間存在較強相關關係可能會導致共線性現象;③自變數之間可能會存在互動作用,通常採用兩個或兩個以上自變數相乘的積作為互動作用項;④均可採用逐步回歸篩選變數,其思路均是先考慮單變數分析再進行多元回歸分析;⑤均可進行影響因素的分析、混雜因素的校正、**分析等。

多元線性回歸、logistic回歸、cox回歸的區別:

5. 相關與回歸的區別與聯絡

區別:①資料要求上:回歸要求變數y服從正態,x可精確測定和嚴格控制;相關要求兩變數x、y均服從雙變數正態分佈。

②應用上:回歸說明兩變數依存關係(單向);相關說明兩變數相關關係(雙向)。

聯絡:對同一資料進行相關與回歸分析,則得相關係數r與回歸方程中的b正負相同。r為正表示兩變數間的相互關關係是同向變化;b為正表示x每增/減乙個單位,y平均增/減b個單位。

6. 非引數檢驗的適用條件與優缺點

使用條件:①總體分布為偏態分布或未知的計量資料;②資料兩端出現不確定值;③等級資料;④各組離散程度相差懸殊,總體方差不齊。

優點:不受總體分布的限制,適用範圍廣。

缺點:結果對總體分布的形狀差別不敏感,只對總體分布的位置差別敏感。增加犯ii類錯誤的概率。

7. 應用相對數的注意事項

①結構相對數不能代替強度相對數;②計算相對數應有足夠數量;③正確計算合計率;④注意資料的可比性:觀察物件是否同質、內部結構是否相同;⑤對比不同時期資料應注意客觀條件是否相同;⑥樣本率(或構成比)的抽樣誤差。

8. 生存資料的特點,包括那些統計學方法?√

特點:至少15~20倍的自變數個數個數①同時考慮生存時間和生存結局;②通常含有刪失資料;③生存時間的分布通常不服從正態分佈。

統計學方法:①描述分析:常用kaplan-meier法(也叫乘積極限法、km法),計算生存率需要考慮生存時間的順序,屬於非引數統計方法;②比較分析:

常用log-rank檢驗與breslow檢驗,檢驗無效假設是兩組或多組總體生存時間分布相同,而不對其具體的分布形式做要求,所以也屬於非引數統計方法;③影響因素分析:常用的半引數法為cox比例風險模型,常用引數法為指數分布法、weibull分布法、gompertz分布法和對數logistic分布法等。

9. 置信區間與參考值範圍的區別與聯絡

總體均數的可信區間與個體值的參考值範圍無論在含義、用途還是計算上均不相同。①含義上:置信區間是總體均數的可能範圍,參考值範圍是指個體值的波動範圍。②計算公式上:

置信區間——σ未知已知或σ未知但n>60參考值範圍——正態分佈偏態分布:

③用途上:可信區間用於總體均數的區間估計,也可間接進行假設檢驗;參考值範圍用於絕大多數(如95%)觀察物件某項指標的分布範圍。

10. 統計表繪製注意事項 √

製表的基本要求:①標題:概括表的主要內容,包括研究時間、地點、研究內容,放在表的上方。

如果整個表的指標統一時,可以將研究指標的單位標在標題後面。表的序號後面應該空一格全形格再加題目;②標目:分別用橫標目和縱標目來說明**每行和每列內容或數字的意義,注意標明指標的單位;③線條:

至少用三條線,表哥的頂線和底線將**與文章的其他部分分割開來,縱標目下橫線將標目的文字區與**的數字區分割開來,其它豎線和斜線一概省去;④數字:用阿拉伯數字表示,無數字用「—」表示,缺失數字用「…」表示,數值為0者記為「0」,不留空項。數字按小數點對齊,小數字數相同;⑤表中數字區不要插入文字,必須說明者用「*」,在表下方以備註形式說明。

製表的注意事項:不要將太多內容放在乙個表裡,特別是兩種不同型別的資料(定量資料和定性資料)的統計量放在同一表中;縱標目由左到右排序應為主、謂、賓,左邊通常為分類變數,縱列為統計數指標;每一列中間應該隔開,不能連起來。

統計學期末複習

9時間數列 定義 時間數列是把同一現象在不同時間上的觀察值相繼排列而組成的數列,也稱時間序列。10編制時間數列的原則 保證數列中各個指標數值之間的可比性,是編制時間數列的基本原則。一 時間長短統一 二 總體範圍統一。三 計算方法 和計量單位的統一。四 指標的經濟含義統一。11抽樣調查的特點 1 它的...

統計學期末

第一章總論 1 統計學的含義和本質是什麼?統計包含三個含義 統計資料 統計活動和統計學。1 統計活動 是對各種統計資料資料進行蒐集 整理 和分析的工作過程。2 統計資料 是統計資料資料和分析報告。3 統計學 論述統計工作的理論和方法的科學。本質 為何統計 統計什麼和如何統計的思想。2 統計資料有哪些...

統計學期末複習指導09

開放專科 統計學原理 複習大綱09.12 1 簡述並舉例說明統計標誌與標誌表現的區別與聯絡。答 單位標誌是總體中各單位所共同具有的某種屬性或特徵,或者說單位標誌是說明總體單位屬性和特徵的名稱。標誌表現即標誌特徵在各單位的具體體現。如果說標誌是統計所要調查的專案,那麼標誌表現是調查所得結果 單位是標誌...