臨床非劣效性與等效性評價的統計學方法一

2021-06-28 10:57:41 字數 3172 閱讀 5648

以安慰劑作為對照的隨機雙盲臨床試驗一直被視為藥物開發中的金標準,它在確認新的試驗藥物的療效優於安慰劑方面發揮著重要的作用。然而,如果有現成的療效肯定的藥物,仍用安慰劑對照做臨床試驗,會面臨倫理上的困難。隨著愈來愈多可**用的有效藥物的出現,療效有突破的新藥愈來愈少,因而藥物臨床研究的目的發生了轉變。

在陽性對照試驗中,更多的情形是探求新藥與標準的有效藥物相比其療效是否不差或療效相等(嚴格地說,療效相等應該是既不比標準藥差,也不比標準藥好),而並不一定要知道新藥是否優於標準藥,由此而提出了非劣效性/等效性試驗(noninfer_iority/equivalencetrials)[1]。

非劣效性/等效性試驗與通常意義下的優效性試驗(superioritytrials)在設計和統計分析上是有區別的。近年來,儘管對設計和分析該類試驗已給予強調,但遺憾的是,許多非劣效性/等效性臨床試驗的評價缺少針對性,仍仿照安慰劑對照試驗的方式進行,因而導致了非劣效性/等效性試驗的樣本含量估計、無效假設和備選假設確定、統計學分析和結論推斷等方面的不夠合理,難以達到設想的目的[2]。

本文擬主要介紹有關非劣效性/等效性試驗中涉及的統計學分析方面的一些具體問題,至於在設計時還必須考慮的有關對照的選定等問題可參考文獻[2]及ich檔案e10:「臨床試驗對照的選擇」[3]。

1 非劣效性/等效性界值

從臨床上講,一種新藥的藥效不比標準對照藥差,到底臨床上可接受的最大允許的範圍是多少呢?或者說,新藥比對照藥最低到多大程度才能算「非劣效(noninferiority)」呢?類似地,新藥和對照藥的療效相比,最低不能低於多少以及最高不能超過多少才可認為是「等效(equivalence)」呢?

這就涉及到臨床非劣效性/等效性界值(nonferiority/equivalencemargin)的問題。為敘述方便,我們統一用δ表示界值,並以-δ表示劣側界值,以δ表示優側界值。顯然,非劣效性試驗僅用-δ乙個界值,而等效性試驗要用-δ和δ兩個界值。

δ是乙個有臨床意義的值,該值的選定至關重要。若δ選大了,將把藥效達不到要求的藥物判斷為非劣效或等效而推向市場;若δ選小了,則可能會埋沒一些本可推廣使用的藥物。這一數值不應大於安慰劑對照的優效性試驗確認有效的效應差值△。

一般來說,δ的決定應該由臨床學家和統計學家商討聯合做出,而不是單獨地依賴統計學家。注意,選定δ時一定要從臨床藥效角度,結合以往的試驗結果,必要時進行成本效益分析等諸多方面反覆論證。δ界值必須在試驗的設計階段決定並在試驗方案中闡明,一旦確定,事後不得隨意更改。

除非發現新的δ界值比原先選定的δ界值更合理,在揭盲之前可作更正,並在修訂方案中陳述理由。一旦揭盲,不得更改。

根據既往的經驗[4],對有些臨床定量指標的等效界值,有學者提供了可供參考的建議標準,例如血壓可取為0.67kpa(5mmhg),膽固醇可取為0.52mmol.

l-1(20mg.dl-1),白細胞可取為0.5×109.

l-1(500個/mm3);當難以確定時,可酌取1/5~1/2個標準差或參比組均數的1/10~1/5。對兩組率而言,有人建議δ最大不應超過對照組樣本率的1/5。有作者指出,δ不能過小,否則,所需的樣本含量可能會不切實際。

儘管δ值的選定並不容易,但若試驗的目的就是為了確認非劣效性/等效性,人們也不得不面對這些困難並解決之。

藥理試驗設計與統計

例1:為了顯示一種新藥血管緊張素ⅱ拮抗劑(aⅱantagonist)**輕中度原發性高血壓的降壓效果是否不差於標準藥血管緊張素轉換酶抑制劑(aceinhibitor),請按照非劣效性試驗的要求制定非劣效界值δ。

該試驗以藥物ace作為陽性對照,試驗的主要終點指標取仰臥舒張壓(sdbp,單位為mmhg)。既往的許多ace與安慰劑的對照試驗顯示,兩組sdbp與基線相比平均舒張壓下降值的差值至少達到10mmhg才能認可藥物的療效,即最小的藥物效應差值△=10mmhg。基於臨床和統計學的綜合考慮,經討論認為用δ=3mmhg(約為△的30%)作為非劣效性試驗的界值是合理的。

2 判定非劣效性/等效性的假設檢驗方法

假設檢驗(hypothesestesting)是基於一定的檢驗假設進行推斷的一類方法。我們平時所做的絕大多數檢驗假設為兩組相等的零假設,其統計推斷往往僅限於兩者的差別有無統計學意義,若p>α,意味著統計上「不能拒絕零假設」,但並非說明零假設成立,更沒有理由說兩組相等,因為檢驗的效能(poweroftest)未知;如p≤α,雖然可「拒絕零假設」,但也只能推斷兩者在統計上有差別,而不能評價差別的大小。這難以滿足臨床實際中需要評價療效差別的要求。

為了能對非劣效性/等效性進行推斷,需要建立有別於傳統的檢驗假設[2,5,6]。為方便敘述,統一用如下符號作為組別或引數:

t=試驗**組,也泛指相應組效應的引數(均數或率)

s=標準**組,即陽性對照組,也泛指相應組效應的引數(均數或率)

δ=非劣效/等效界值。非劣效性試驗用-δ,等效性試驗用-δ和δ

2.1檢驗假設的構建和檢驗用統計量無效假設(nullhypotheses)和備選假設(alternativehypotheses)分別用h0和ha表示。以α作為總的檢驗水準。

表1列舉了幾種不同情形下的檢驗假設和檢驗統計量計算的通用公式。

表1不同試驗型別的檢驗假設

本表所示的檢驗統計量假設資料來自大樣本,資料分布正常。其中d為t組樣本效應值減去s組樣本效應值的差值,即d=t-s,sd為d的標準誤。z為檢驗統計量,服從標準正態分佈。

2.2結論的推斷

2.2.1非劣效性試驗由於只進行一次單側檢驗(one_sidedtest),若p≤α,則h0被拒絕,可推論t非劣效於s;若p>α,則還不能下非劣效的結論。

這裡的α含義是,當t比s療效差,其效應差值實際上超過δ時,錯誤地下t非劣效於s結論的概率。

2.2.2等效性試驗由於需要在兩個方向上同時進行兩次單側檢驗(twoone_sidedtests),故亦需分別推斷。

若p1≤α/2和p2≤α/2同時成立(注意每次檢驗的水準只用總的檢驗水準α的一半),則兩個無效假設均被拒絕,前者推論t不比s差,後者推論t不比s好,因此綜合的推斷是t和s具有等效性;若p1和p2中的任何乙個大於α/2,則不可下等效的結論。這裡的α含義是,當t與s的療效差值實際超過δ(包括差-δ以下或好δ以上兩種情況)時,錯誤地下t和s等效結論的概率。

2.2.3優效性試驗有兩種不同的情形。

一種是嚴格意義上的,從統計學的角度考慮的優效性,這時所用的假設為通常的零假設,為單側檢驗。目前臨床試驗中一般用此概念。如果能拒絕無效假設,可下統計學意義上優效的結論。

當然這種優效性較弱,有時可看作是邊緣優效性。

另一種是從臨床意義上提出的優出一定量的優效性,姑且也用δ表示該量。此時若拒絕無效假設,可下臨床優效性的結論。

3判定非劣效性/等效性的可信區間方法

非臨床安全性評價供試品檢測要求的Q A

q1.在非臨床安全性評價中為何需進行供試品檢測?如果供試品存在問題,安評的結果可能失去了技術評價的價值,甚至可能誤導新藥的後期開發。鑑於供試品檢測對於新藥安全性評價具有重要意義,應該在安全性評價試驗中進行供試品檢測。在開展非臨床安全性評價之前,申請人向評價機構提供合格的供試品,該供試品質量符合已定的...

非自願住院適宜性檢查與評價

江西省上饒市xx精神病醫院 為維護非自願住院患者的合法權益,特制定如下 一 由醫院醫療質量管理委員會針對非住院 患者的診療 護理等醫療質量情況進行管理及控制,對存在的薄弱環節及時制定整改措施,不斷提高醫療護理質量。檢查 1 醫務人員是否違反精神障礙診斷標準,將非精神障礙患者診斷為精神障礙患者 2 是...

酒精性與非酒精性脂肪肝臨床區別的研究

關鍵詞 酒精 摘要 目的 酒精性與非酒精性脂肪肝的臨床區別。方法選擇30例酒精性與30例非酒精性脂肪肝進行臨床區別研究。結果酒精性脂肪肝的消化不良症狀重,血漿白蛋白含量低,a g值降低,ggt公升高,低密度脂蛋白降低。結論酒精性與非酒精性脂肪肝鑑別診斷有意義。關鍵詞酒精性脂肪肝非酒精性脂肪肝鑑別診斷...