Ayrık zamanlı sağkalım analizi hakkında temel sorular


18

Lojistik regresyon modelini kullanarak ayrık bir zaman hayatta kalma analizi yapmaya çalışıyorum ve süreci tamamen anladığımdan emin değilim. Birkaç temel soruyla ilgili yardımı çok takdir ediyorum.

İşte kurulum:

Beş yıllık bir zaman diliminde bir gruba üyeliğe bakıyorum. Her üyenin üye olduğu her ay için aylık üyelik kaydı vardır. Üyeliği beş yıl boyunca başlayan tüm üyeleri düşünüyorum (daha önce katılan üyelerle "sol sansür" sorunlarından kaçınmak için). Her kayıt zamana göre dizine eklenir, bir zaman üye katıldığı aydır. Bu nedenle, iki buçuk yıl kalan bir üyenin otuz aylık kaydı olacak, bir ile otuz arasında sayılacak. Her kayda ayrıca, üyeliğin son ayı için bir değeri ve aksi takdirde sıfır olan bir ikili değişken verilecektir; ikili değişken için bir değeri, üyenin gruptan ayrıldığı olayı işaretler. Üyeliği beş yıllık analiz penceresinin ötesinde devam eden her üye için,

Dolayısıyla, lojistik regresyon modeli, ikili olay değişkeninin değerlerini tahmin etmek için inşa edilmiştir. Çok uzak çok iyi. İkili bir tahmin modelini değerlendirmenin tipik yollarından biri, bir ayırma örneği üzerindeki artışı ölçmektir. Üyelik sona erme olayını tahmin etmek için oluşturduğum lojistik regresyon modeli için, beşe bir olay olmayan olay oranına sahip bir tutma veri kümesindeki artışı hesapladım. Tahmin edilen değerleri ondalık sayılara sıraladım. En yüksek tahmin edilen değerlere sahip ondalık yüzde yetmiş, dörtten fazla bir kaldırma içerir. Birleştirilen ilk iki ondalık, dağıtımdaki tümlerin yüzde altmış beşini içerir. Bazı bağlamlarda bu oldukça iyi bir tahmin modeli olarak düşünülebilir, ancak bir hayatta kalma analizi yapmanın yeterli olup olmadığını merak ediyorum.

Let h[j,k] birey için tehlike fonksiyonu j ay içinde k ve izin S[j,k] ihtimali olması bireysel j ay boyunca Survives k .

İşte benim temel sorularım:

  1. Ayrık tehlike fonksiyonu, h[j,k] , her ay hayatta kalmama (gruptan ayrılma) koşullu olasılığı mı?

  2. Lojistik regresyon modeli tahminlerinden tahmin edilen değerler tehlike fonksiyonuna göre mi? (örneğin, bir ayrı model tahmin değerine eşit j ay içinde k risk fonksiyonu tahminlerinin elde edilmesi için yapılması gereken ya da daha fazla bir şey ihtiyacı vardır?)h[j,k]jk

  3. Bireysel için q aya kadar hayatta kalma olasılığı, bir eksi aydan q'ya kadar olan tehlike fonksiyonuna eşittir , yani S [ j , q ] = ( 1 - h [ j , 1 ] ) ( 1 - h [ j , 2 ] ) ( 1 - h [ j , q ] ) ?jqS[j,q]=(1h[j,1])(1h[j,2])(1h[j,q])

  4. nin tüm bireyler üzerindeki ortalama değeri j her seferinde k genel popülasyon ortalama sağkalım olasılığı için makul bir tahmin midir?S[j,k]jk

  5. Genel popülasyonun bir grafiğinin aylık hayatta kalma olasılığı aylık Kaplan-Meier grafiğine benzemesi gerekir mi?

Bu soruların herhangi birinin cevabı hayır ise, o zaman ciddi bir yanlış anlaşılmam var ve gerçekten biraz yardım / açıklama kullanabilirim. Ayrıca, doğru bir hayatta kalma profili oluşturmak için ikili tahmin modelinin ne kadar iyi olması gerektiğine dair bir kural var mı?


Belki bu bazı sorularınızda size yardımcı olabilir
jujae

Yanıtlar:


7

Kk en büyük değeri olduğunu varsayalım (yani verilerinizde gözlemlenen en büyük ay / dönem).

  1. İşte zamanın tamamen ayrık parametrelendirmesi ile tehlike fonksiyonu ve B parametrelerinin bir vektörü ile koşullandırma değişkenleri vektörü X : hj,k=eαk+BX1+eαk+BX . Tehlike fonksiyonu, zamanın alternatif parametrelendirmeleri (örn.kveya modelde değişken olarak fonksiyonlarıdahil) veya her ikisinin bir melezi etrafında da oluşturulabilir.

    Taban logit risk fonksiyonu zaman olay meydana gelme olasılığını açıklar k , süresi hayatta olan şartına k . Modele öngörücüler ( X ) eklenmesi, bu koşulluluğu daha da kısıtlar.

  2. Hayır, lojistik regresyon tahminleri α^1 , , α K , B ) olan değil tehlike fonksiyonları kendileri. Lojistik regresyon modelleri: logit ( h j , k ) = α k + B X ve tehlike tahminlerini almak için yukarıdaki (1) 'te anti-logit dönüşümünü gerçekleştirmeniz gerekir.α^KB^(hj,k)=αk+BX

  3. Yes. Although I would notate it S^j,q=i=1q(1hj,i). The survival function is the probability of not experiencing the event by time k, and of course may also be conditioned on X.

  4. This is a subtle question, not sure I have answers. I do have questions, though. :) The sample size at each time period decreases over time due to right-censoring and due to event occurrence: would you account for this in your calculation of mean survival time? How? What do you mean by "the population?" What population are the individuals recruited to your study generalizing to? Or do you mean some statistical "super-population" concept? Inference is a big challenge in these models, because we estimate βs and their standard errors, but need to do delta-method back-flips to get standard errors for h^j,k, and (from my own work) deriving valid standard errors for S^j,k works only on paper (I can't get correct CI coverages for S^j,k in conditional models).

  5. You can use Kaplan-Meier-like step-function graphs, and you can also use straight up line graphs (i.e. connect the dots between time periods with a line). You should use the latter case only when the concept of "discrete time" itself admits the possibility of subdivided periods. You can also plot/communicate estimates of cumulative incidence (which is 1Sj,k... at least epidemiologists will often define "cumulative incidence" this way, the term is used differently in competing risks models. The term uptake may also be used here.).


I think in question 2, OP is asking about predicted value from logistical model, not the estimates of the regression coefficients. This might be relevant
jujae

@jujae I explicitly gave the logistic function in my answer to #2, and directed OP's attention to the use of the anti-logit to transform logit parameter estimates into h^(t), so I am not understanding your comment.
Alexis

Isn't the predicted value of a logistic model the probability of success of the binary rv such that no ant-logit is needed. That is ypred=exp(βTx)/(1+exp(βTx)) ?
jujae

Back to the original question 2, the OP asked: "Are the predicted values from the logistic regression model estimates of the hazard function?" I would say yes (if my understanding of predicted value is correct). And you are saying no and give the argument that the estimated coefficients are not the same as hazard estimation. I agree with your statement, they are correct but it is not what OP asked from my understanding.
jujae

And for questions 4, I think OP is asking about the survival probability at each interval k and the average of the estimated S^j(k) is indeed a reasonable estimator for S(k). In your answer, you are first referring to mean survival time which is confusing to me as a reader. Meanwhile, I also believe that the estimator we are discussing is essentially Kaplan-meier, and (for instance) Greenwood's variance estimator for KM can be directly used and I fail to appreciate the difficulties you stated above about the calculation of the variances.
jujae
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.