R'nin coxph () yöntemi tekrarlanan önlemleri tam olarak nasıl ele alır?


10

bağlam

R'nin coxph () yönteminin nesneler için tekrarlanan girdileri (veya isterseniz hasta / müşteri) nasıl kabul ettiğini ve işlediğini anlamaya çalışıyorum. Bazıları bu Uzun formatı, bazıları ise 'tekrarlanan önlemler' olarak adlandırır.

Örneğin, Yanıtlar bölümünde Kimlik sütununu içeren veri kümesine bakın:

Değişen değişkenlere sahip Cox modelleri için en iyi paketler

Ayrıca, değişkenlerin zaman içinde değiştiğini ve tam olarak bir sansür (yani olay) değişkeni olduğunu varsayalım.

Sorular

1) Yukarıdaki bağlantının cevabında, eğer coxph () çağrısında ID bir parametre olarak verilmemişse, sonuçlar coxph () içindeki bir parametre ile küme (ID) dahil etmekle aynı mı olmalıdır?

Belgeleri aramaya çalıştım, ancak aşağıdakiler açıkça ele alınmıyor (1): https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

2) (1) 'in cevabı' hayır 'ise, o zaman (matematiksel olarak) neden? Görünüşe göre coxph () içindeki cluster (), pg'deki 'cluster' alt bölümüne göre konular arasında korelasyon arar. 20 at

https://cran.r-project.org/web/packages/survival/survival.pdf

3) Belirsiz soru: Tekrarlanan ölçümlere sahip coxph (), R'nin zayıf paket regresyon yöntemleriyle nasıl karşılaştırılır?

addenda

Küme (ID) kullanımıyla ilgili aşağıdaki ipuçları:

Logrank testinin tekrarlanan ölçümlerin farkında bir versiyonu var mı?

olduğu gibi:

https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

GEE yaklaşımı: coxph'deki model ifadesine "+ küme (konu)" ekleyin Karışık modeller yaklaşımı: coxme'deki model ifadesine "+ (1 | konu)" ekleyin.

Şimdiden teşekkürler!

Yanıtlar:


11
  1. Dahil etme cluster(ID), parametrelerin nokta tahminlerini değiştirmez. Ancak standart hataların hesaplanma şeklini değiştirir.

    Daha fazla ayrıntı Therneau ve Grambsch'un Cox Modelini Uzatma adlı kitabında , bölüm 8.2'de bulunabilir. method = "breslow"Örneklerinde, bağlar için düzeltme olarak kullandıklarını , ancak varsayılan ( method = "efron") ile de , se'ler için benzer bir hesaplama kullanılacağını ve özette "sağlam se" olarak göründüğünü unutmayın.

  2. Eğer küme (ID) kullanılırsa, standart hataların "sağlam" bir tahmini uygulanır ve özneler arasında olası bir bağımlılık ölçülür (örn. Standart hatalar ve varyans skorları ile). Öte yandan, küme (ID) kullanılmaması her gözlemde bağımsızlık sağlar ve verilerde daha fazla "bilgi" olduğu varsayılır. Daha teknik terimlerle, parametreler için skor fonksiyonu değişmez, ancak bu skorun varyansı değişir. Daha sezgisel bir argüman 100 kişide 100 gözlemin 10 kişide (veya kümede) 100 gözlemden daha fazla bilgi sağlamasıdır.

  3. Gerçekten de belirsiz. Kısacası, +frailty(ID)içinde coxph()uyan gama veya log-normal rasgele etkileri standart zayıflık modelleri ve parametrik olmayan taban tehlike / yoğunlukla. frailtypackparametrik taban çizgisi kullanır (ayrıca spline veya parçalı sabit işlevlere sahip esnek sürümler) ve ayrıca ilişkili kırılganlık, iç içe kırılganlık, vb. gibi daha karmaşık modellere uyar.

Son olarak, +cluster()GEE'nin ruhuna göre, skor denklemlerini bağımsız gözlemlerle bir olasılıktan alıp standart hatalar için farklı bir "sağlam" tahmin edici kullanırsınız.

edit: Yazının netliği ile ilgili öneriler için teşekkürler @Ivan.


Teşekkür ederim. (2) ile ilgili olarak: "Bunun nedeni, siz (yanlış) ... varsayarsanız" ile değiştirilir.
Quetzalcoatl

Demek istediğim: eğer gözlemler kümelenmişse, bağımsız olabilirler veya olmayabilirler. Bağımsız olduklarını varsayarsak (yani küme (id) kullanmamak) bu durumda neredeyse kesinlikle yanlıştır, ancak önceden bilmenin bir fikri yoktur
Theodor

(2) şu şekilde yeniden ifade edilebilir: eğer küme (ID) kullanılırsa, standart hataların "sağlam" bir tahmini uygulanır ve özneler arasında olası bağımlılık ölçülür (örneğin standart hatalar ve sapma puanlarıyla). Öte yandan, küme (ID) kullanılmaması her gözlemde bağımsızlık sağlar ve verilerde daha fazla "bilgi" olduğu varsayılır.
Quetzalcoatl

(1) 'de verdiğiniz referans bağlantısı şu olmalıdır: springer.com/us/book/9780387987842 (Therneau ve Grambsch'un kitabından alıntı yaptığınızı varsayarak)
Quetzalcoatl

Ayrıca not: Therneau ve Grambsch'un kitabında açıklandığı gibi, yukarıdaki (1) 'deki cevabın doğru olmasının nedeni, coxph ()' nin bağlar için varsayılan olarak Breslow yöntemini kullanmasıdır.
Quetzalcoatl

1

İşte survivalyararlı bulduğum bir paket vinyetinden bir cevap - ilk cevaba bağlandığınız ilk soruya bağlı:

Değişen değişkenlere sahip Cox modelleri için en iyi paketler

Uzun form veri kurulumuna veya konular için tekrarlanan girişlere sahip verilere atıfta bulunuyorlar.

Bu veri düzeneğiyle ilgili yaygın bir soru, belirli bir öznenin birden fazla gözlemi olduğu için ilişkili veriler hakkında endişelenmemiz gerekip gerekmediğidir. Cevap hayır, biz değiliz. Bunun nedeni, bu temsilin basitçe bir programlama hilesi olmasıdır. Herhangi bir zaman noktasındaki olasılık denklemleri herhangi bir konunun sadece bir kopyasını kullanır, program her seferinde doğru veri satırını seçer. Bu kuralın iki istisnası vardır:

  • Özneler birden fazla olaya sahip olduğunda, o zaman olayların satırları özne içinde ilişkilendirilir ve bir küme varyansı gerekir.
  • Bir konu çakışan aralıklarda göründüğünde. Bununla birlikte, bu neredeyse her zaman bir veri hatasıdır, çünkü öznenin aynı katmanda aynı anda mevcut olduğu iki kopyaya karşılık gelir, örneğin, bir partide kendini karşılayabilir.

Verdikleri örnek şudur:

fit <- coxph(Surv(time1, time2, status) ~ age + creatinine, data=mydata)

bir Survyerine iki kez (dönemin başlangıcı ve sonu) sağlarsanız coxph(), geri kalanını çözmenizi öneririz .


Bir şeyi yanlış anlamadığım sürece bu yorumun yanıltıcı olduğunu düşünüyorum? Varyansın doğru tahminlerini almak istiyorsak, ilişkili veriler hakkında endişelenmemiz gerekiyor, bu nedenle + küme (ID) terimi eklemek neden tahmini varyans terimlerini değiştiriyor?
AP30
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.