模型及其讨论
Cox模型及其讨论上海医科大学叶展顾杏元一、引言,生存分析是医学研究中经常使用的统计方法,应用目的主要在于研究一组变量(危险因子)与观察结果之间韵关系,观察结果通称失效(Failure)可以是发病、死亡等事件。传统的生存分析包括简略寿命表、列联表、方差分析等,它们翟J立用时均有很大的限制。主要困难有二点,首先是实际资料中经常出现的;因为失访或实验观察期结束时,部分尚未结束研究观察的对象造成的截尾数据的处理,再一点就是同时考虑多个变量(连续的或离散的)影响的统计分析。尽管近年来Peto等人大大改进了传统寿命表方法t11,但是多因子生存分析问题仍未很好解决。六十年代起逐渐发展成熟的Logistic模型初步解决了这--4、问题并被广泛使用。但是研究进一步深入后,又产生了新问题:当分析变量与失效之间关系时,需要同时考虑失效时间的作用时Logistic模型就不完全适用了。因为在Logistic模型中任一观察对象的失效处理都是相同的,无论失效发生在随访期开始或结束。在Logistic模型中任一变量对失效的作用完全独立于随访期的长短,影响结论的可靠性和稳定性,数值计算实例也说明了这一点㈨1。在这种背景条件下,Cox(1972):if.Logistic模型的基础上提出了一个新的统计模型一一Cox模型㈤’(也称比例危险模型ProportionalHarzardsModel),用于多因子生存分析。多见子临床试验中的预后因子估计以及预防医学中的寿命表分析和危险因素评价等研究。Cox(1975)补充了这个模型的一些理论注解s偏似然方法¨’。由于Cox模型的优良性质,近年来发展非常迅速出现了多种不同的改进模型㈤-8’,以下我们统称为Cox模型。本文着重讨论Cox模型的特点和性质,同时给出了一个数值实例作为比较。二、Cox基本模型l(1)失效时问:指从观察起点至失效发生的持续时间,又称生存时间。(2)生存函数l具有变量Z(z=(z。,…, z.))的观察个体从观察起点至时刻t的生存概率S(tIZ)=P,(T≥t lZ)。(3)危险函数;指在时刻t观察个体的瞬时失效率h(t;z)表示在t时刻之前未失效的观察对象在t时刻失效的条件密度函数。它与生存函数有公式联系: s(t’z)=exp(一l h(uIZ)du)(2—1)Cox基本模型lCox(1972)首次引入了危险函数h(t lz)的一个特定形式l h(t;Z)=ho(t)exp(Z口7)(2—2)其中h。(t)为t的未知函数表示在没有变量Z影响时的基准危险函数。因为二个不同z值的危险函数值之比为常数,(2-2)式也称比例危险函数,故Cox模型有时也称比例危险模型。Cox(1975)提出了偏似然函数概念l没一随机序列(A。,B。,…,A.,B.),序列中{A i,Bf j的对数m可以是随机的,这时取m的最大值。序列的似然函数: nP_i/A(t一1),B(『_1)(A,/A(卜1), i—l■B(i—1);18)IIPBj/A(J),B(J.1)(BjIA(f), i-IB(f一1)IJ9)(2。3)式中A(j)=(A l,...,Ai),B(f)=(Bl,…,Bf),口为待估参数。我们称乘积中第二项为偏似然函数。通过(2—3)式定义的偏似然函数得到的参数估计称为偏似然估计,这是Cox模型参数估计的基础,·32·假定有观察对象3人,分别有危险函数 h(tlZt),h(tIZz),h(t;Z3),其中第1人在丁肘刻失效,这时的条件失效概率:’……一塑(T;zl, h(r;Z1)+h(r;Z2)+h(T;Z3) ho(T)exp(Z,口7)2无’-(T)exp一(一Z‘i虿,了一+一h—o(—T。)…expi2:西,)一一+~一h o两一1h ex…p面≯一)(2—4)(T)(Z3JB7)、二一q7约去ho(T),上式等于:…~一~!旦堡j影) exp(ZIp7)+exp(Z2届7)+exp(Z3JB7)(2—5)利用不同时刻(2—4)形式的乘积我们可以得到相应的似然函数,估计参数届。由于h。(t)是未知的有别于普通的似然函数,因此又称为偏似然函数。实际资料的失效时间有二种,连续型和离散型(分组资料)。因此Cox模型也有二种不同的形式。(1)连续型Cox模型l设有n个病人, t,表示第z个病人的失效时间服从连续型分布 tl