醫學統計學複習最終版

第1章緒論

醫學統計學是一門「運用統計學的原理和方法，研究醫學科研中有關資料的收集、整理和分析的應用科學。

1．個體：又稱觀察單位，是統計研究的最基本單位，也是構成總體的最基本的觀察單位。

2．總體：根據研究目的確定的同質觀察單位某項指標測量值（觀察值）的集合。分為有限總體（明確規定了空間、時間、人群範圍內有限個觀察單位）和無限總體（無時間和空間範圍的限制）。

反映總體特徵的指標為引數，常用小寫希臘字母表示。

3．樣本：從總體中隨機抽取的一部分有代表性的觀察單位組成的整體。（抽樣，隨機化原則，樣本含量）根據樣本資料計算出來的相應指標為統計量，常用大寫英文本母表示。

4．抽樣研究：從總體中隨機抽取樣本，根據樣本資訊推斷總體特徵的方法。抽樣誤差是由隨機抽樣（樣本的偶然性）造成的樣本指標與總體指標之間、樣本指標與樣本指標之間的差異。

其根源在於總體中的個體存在變異性。只要是抽樣研究，就一定存在抽樣誤差，不能用樣本的指標直接下結論。統計分析主要是針對抽樣誤差而言。

5．變數（乙個個體的任意「特徵」）；資料（變數值的集合），：①計量資料/定量資料/數值變數資料：表現為數值大小，一般有度量衡單位，又可分為連續型和離散型兩類；②計數資料/定性資料/無序分類變數資料/名義變數資料：

表現為互補相容的屬性或類別，一般無度量衡單位，可分為二分類和多分類；③等級資料/半定量資料/有序分類變數資料：表現為等級大小或屬性程度。各類資料間可相互轉化。

①可選分析方法有：t檢驗、方差分析、相關回歸分析等；②可選分析方法有：χ2檢驗、z檢驗等；③可選分析方法有：

秩和檢驗、ridit分析等。

6．誤差：實測值與真實值之差。可分為隨機誤差（隨機測量誤差+抽樣誤差）與非隨機誤差（系統誤差與非系統誤差）。

①隨機誤差：是一類不恆定、隨機變化的誤差，由多種尚無法控制的因素引起，它是不可避免的；②系統誤差：是實驗過程中產生的誤差，它的值或恆定不變，或遵循一定的變化規律，其產生原因往往是可知的或可以掌握的，它是可以消除或控制的；③非系統誤差：

又稱過失誤差，是指在實驗過程中由於研究者偶然失誤而造成的誤差，可以消除。

7．概率（p）：描述隨機事件發生可能性大小的值，其取值為0≤p≤1。其中，p=1為必然事件，p=0為不可能事件，08．醫學統計工作的基本步驟：

①設計（是影響研究能否成功的最關鍵環節，是提高觀察或實驗質量的重要保證）；②收集資料（統計報表+經常性工作記錄+專題調查或實驗研究+統計年鑑和統計資料**）；③整理資料（是將原始資料淨化、系統化和條理化，以便為下一步計算和分析打好基礎的過程）；④分析資料/統計分析（統計分析包括統計描述和統計推斷，統計學的主要任務是進行統計推斷，包括引數估計和假設檢驗）。

第2章計量資料的統計描述

1．頻數：計量資料經分組後清點出的各組例數。頻數分布：

指各組頻數的分配情況。頻數分布表：將分組和各組的頻數以及頻率編製成的表。

頻數分布圖：即直方圖，以直方的面積大小表示各組頻數的多少，比頻數表直觀形象。

2．頻數分布表：①對於連續變數，頻數分布為n個變數值在各變數值區間內的變數值個數的分配；②對於離散變數，頻數分布為n個變數值（或各幾個）變數值處的變數值個數的分配。：①找極值；②求極差（全距），即最大值和最小值之差r；③確定組段數和組距；④根據組距寫出組段；⑤分組劃記並統計頻數；⑥列表並求出頻率、累計頻數、累計頻率。

3．頻數分布的用途：①描述頻數分布的型別：頻數分布分為對稱分布和偏態分布。

各組段的頻數以頻數最多組段為中心左右兩側大體對稱，就認為該資料是對稱分布。右側的組段數多於左側的組段數，頻數向右側拖尾，稱右偏態分布，也稱正偏態分布。左側的組段數多於右側的組段數，頻數向右側拖尾，稱左偏態分布，也稱負偏態分布。

②描述頻數分布的特徵；③便於發現一些特大或特小的離群值；④便於進一步做統計分析和處理。

4．集中趨勢：統計學用平均數這一指標體系來描述一組變數值的集中位置或平均水平，常用的平均數有算術均數、幾何均數和中位數。：簡稱均數，可用於反映一組呈對稱分布的變數值在數量上的平均水平p17。：

反映一組經對數轉換後呈對稱分布的變數值在數量上的平均水平，常適用於免疫學的指標p18，如抗體滴度資料。：是將n個變數值從小到大排列，位置居於中間的那個數。n為奇數時取位次居中的變數值，n為偶數時取位次居中的兩個變數值的均數。

適用於各種分布型別的資料，尤其是偏態分布資料和一端或兩端無確切數值的資料p19。：百分位是一種位置指標，用px來表示，讀作第x百分位數。乙個百分位數px將全部變數值分為兩部分，在不包含px的全部變數值中有x%的變數值小於或等於它，（100-x%）變數值大於或等於它。

百分位數是乙個界值，其重要用途是確定醫學參考值範圍。中位數實際上是第50百分位數。

5．離散趨勢：描述資料變異大小的常用指標有極差、四分位數間距、方差、標準差、變異係數。：即一組變數值的最大值與最小值之差，可用於任何分布資料。

僅用極差來描述資料的變異程度也不全面，且受樣本含量n 的影響較大。[, ]：是把全部變數值分為四部分的分位數，即第1四分位數（ql=p25）、第2四分位數（m=p50）、第3四分位數(qu=p75)。

四分位數間距qr= qu﹣ql，一般和中位數一起描述偏態分布資料的分布特徵。：也稱均方差，反映一組資料的平均離散水平，總體方差用σ2表示，樣本方差記為s2。：是方差的正平方根，其單位與原變數值相同，總體標準差用σ表示，樣本標準差記為s。

方差和標準差用於描述正態分佈計量資料的離散程度。均數和標準差結合用於全面描述正態分佈計量資料的集中趨勢與離散趨勢。：記為cv，cv=s/v×100%，是乙個相對變異指標，無單位，多用於觀察指標單位不同時，或均數相差較大時。

6．正態分佈：德國數學家德莫阿弗爾於2023年提出，德國數學及高斯使正態分佈廣為人知。：①在直角座標的橫軸上方呈鐘型曲線，兩端與x軸永不相交，且以x=μ為對稱軸，左右完全對稱。

②在x=μ處f(x)取最大值，其值為f(xx越遠離μ，f(x)值越小。③正態分佈有兩個引數，即位置引數μ和形態引數σ。若固定σ，改變μ值，曲線沿著x軸平行移動，其形狀不變。

若固定μ，σ越小，曲線越陡峭；反之，σ越大，曲線越平坦。④正態曲線下的面積分布有一定的規律：正態分佈曲線下面積為1，x±1.

96s的面積為95%，x±2.58s的面積為99%。標準正態分佈：

通過u=(x﹣μ)/ σ將x~n（μ，σ2）的正態分佈轉換為u~n（0，12）的標準正態分佈，u稱為標準正態變數，p27。

7．醫學參考值：是指包括絕大多數正常人的人體形態、功能和代謝產物等各種生理及生化指標常數，也稱正常值。由於存在個體差異，生物醫學資料並非常數而是在一定範圍內波動，故採用醫學參考值範圍作為判定正常和異常的參考標準。

通常使用的醫學參考值範圍有90%，95%，99%，最常用的是95%。：①正態分佈法：資料服從或近似服從正態分佈；②百分位數法：

偏態分布資料，樣本含量不低於100，p29。

第3章總體均數的估計與假設檢驗

1．抽樣誤差：由個體差異產生的，隨機抽樣造成的樣本統計量之間或樣本統計量與總體引數之間的差異，用標準誤來衡量，抽樣誤差是不可避免的，其產生的根本原因是生物個體的變異性，其分布有一定的規律性。樣本均數的抽樣分布特點：

①各樣本均數未必等於總體均數；②各樣本均數間存在差異；③樣本均數的分布很有規律，圍繞總體均數中間多，兩邊少，左右基本對稱，也服從正態分佈；④樣本均數間相差較小，其變異範圍較之原變數的變異範圍大大縮小。

2．標準誤：樣本統計量的標準差，描述統計量與總體引數的接近程度，是衡量抽樣誤差大小的指標。用途：

①表示抽樣誤差的大小；②估計引數的可信區間；③假設檢驗。：樣本均數的標準差，反映樣本均數間的離散程度，也反映樣本均數與相應總體均數間的差異，說明了均數抽樣誤差的大小。均數標準誤與標準差成正比，與樣本含量n的平方根成反比。

若標準差不變，可通過增加樣本含量n來減小均數的標準誤，從而降低抽樣誤差。

3．標準差與標準誤的區別：①標準差是衡量觀察值離散趨勢（即變異程度）的指標，其越大，表示觀察值越分散，樣本均數的代表性越差；反之樣本均數的代表性越好；而標準誤是描述樣本統計量的變異程度，表示抽樣誤差的大小，其越大，表示抽樣誤差越大，樣本統計量（樣本均數）的可靠性越小，反之樣本統計量（樣本均數）的可靠性越大。②標準差可用於描述正態（近似正態）分布資料的頻數分布和醫學參考值範圍的估計；而標準誤用於總體均數的區間估計和兩個樣本統計量（樣本均數）間的比較即t檢驗。

標準差與標準誤的聯絡：二者都是變異指標，標準誤的大小可由標準差的大小來估計。在樣本含量一定時，標準差越大，標準誤也越大，即在抽取相同例數的前提下，標準差越大，樣本的抽樣誤差也越大。

4．t 分布：通過u=(x﹣μ)/ σ可以將x~n（μ，σ2）的正態分佈轉換為u~n（0，12）的標準正態分佈，同理樣本含量為n的樣本均數x可通過u=(x﹣μ)/ σx將n（μ，σx2）的正態分佈轉化為標準正態分佈，但實際工作中，由於σx常常未知，用sx代替，則(x﹣μ)/ sx不再服從標準正態分佈，而是服從t分布。t分布為抽樣分布，引數只有乙個即自由度ν=n﹣1。：

①單峰分布，以0為中心，左右對稱；②t分布的曲線形態取決於自由度ν的大小，ν越小，則t值越分散，t分布的峰部越矮而尾部翹得越高；③當ν逼近無窮大，sx逼近σx，t分布逼近u分布，標準正態分佈是t分布的特例。t分布主要用於總體均數的區間估計和t檢驗。在相同自由度時，∣t∣值越大，概率p越小；在相同∣t∣值時，同一自由度的雙尾概率為單尾概率的兩倍。

5．引數估計：是指用樣本統計量推斷總體引數，有點（值）估計和區間估計兩種方法。點估計：

用相應樣本統計量直接作為其總體引數的估計值。區間估計：是按預先給定的概率（1﹣α）所確定的包含未知總體引數的乙個範圍。

該範圍稱為引數的可信區間或置信區間；預先給定的概率1﹣α稱為可信度或置信度，一般取雙側95%。

醫學統計學複習最終版

醫學統計學複習

醫學統計學基礎複習

醫學統計學複習筆記

醫學統計學複習最終版

醫學統計學複習

醫學統計學基礎複習

醫學統計學複習筆記

相關推薦