GEE: uygun çalışma korelasyon yapısının seçilmesi


19

Ben bir kohort çalışmasını doğru bir şekilde analiz etmek için GEE'leri anlamaya çalışan bir epidemiyologum (Göreceli Riski tahmin etmek için bir günlük bağlantısı ile Poisson regresyonunu kullanarak). Ben daha açıklamak için daha bilgili birinin istiyorum "çalışma korelasyonu" hakkında birkaç sorum var:

(1) Aynı kişide tekrarlanan ölçümlerim varsa, değiştirilebilir bir yapı varsaymak genellikle en makul midir? (Veya ölçümler bir eğilim gösteriyorsa otoregresif)? Bağımsızlık hakkında - aynı kişide ölçümler için bağımsızlık kazanılabilecek durumlar var mı?

(2) Verileri inceleyerek uygun yapıyı değerlendirmenin (makul olarak basit) bir yolu var mı?

(3) Bir bağımsızlık yapısı seçerken, basit bir Poisson regresyonunu (R, fonksiyon glm()ve geeglm()paket kullanarak) çalıştırırken aynı nokta tahminlerini (ancak daha düşük standart hataları) aldığımı fark ettim geepack. Bu neden oluyor? GEE'lerle, popülasyon ortalamalı bir modeli tahmin ettiğinizi anlıyorum (konuya özgü olarak), bu nedenle aynı nokta tahminlerini sadece doğrusal regresyon durumunda almalısınız.

(4) Kohortum birden fazla konum alanındaysa (ancak kişi başına bir ölçüm), bağımsızlığı veya değiştirilebilir bir çalışma korelasyonunu seçmeliyim ve neden? Yani, her sitedeki bireyler hâlâ birbirlerinden bağımsızlar, değil mi ?? Bu nedenle, örneğin konuya özgü bir model için, siteyi rastgele bir etki olarak belirtirim. Bununla birlikte GEE ile bağımsızlık ve değiş tokuş farklı tahminler verir ve altta yatan varsayımlar açısından hangisinin daha iyi olduğundan emin değilim.

(5) GEE 2 seviyeli hiyerarşik bir kümelenmeyi, yani kişi başına tekrarlanan ölçümleri olan çok bölgeli bir grubu ele alabilir mi? Cevabınız evet ise, kümeleme değişkeni olarak ne belirtmeliyim geeglm()ve örneğin birinci seviye (site) için "bağımsızlık" ve ikinci seviye (bireysel) için "değiştirilebilir" veya "otoregresif" varsa, çalışma korelasyonu ne olmalıdır?

Bunların birkaç soru olduğunu anlıyorum ve bazılarının oldukça basit, ama benim için (ve belki de başka acemiler?) Kavraması hala çok zor olabilir. Yani, herhangi bir yardım büyük ve içtenlikle takdir edilir ve bunu göstermek için bir lütfe başladım.

Yanıtlar:


12
  1. Şart değil. Küçük kümeler, dengesiz tasarım ve küme içi uyumsuz ayar ile, değiştirilebilir korelasyon bağımsızlık GEE'ye göre daha verimsiz ve önyargılı olabilir. Bu varsayımlar da oldukça güçlü olabilir. Ancak, bu varsayımlar karşılandığında, değiştirilebilir ile daha verimli bir çıkarım elde edersiniz. AR-1 korelasyon yapıları mantıklı olduğunda hiçbir zaman bir örnek bulamadım, çünkü zaman içinde dengelenmiş ölçümlere sahip olmak nadirdir (insan denek verileri ile çalışıyorum).

  2. Korelasyonu araştırmak iyidir ve veri analizinde yapılmalıdır. Ancak, karar verme sürecini gerçekten yönlendirmemelidir . Boyuna ve panel çalışmalarında korelasyonu görselleştirmek için variogramları ve lorellogramları kullanabilirsiniz. Kesişen korelasyon, kümeler içindeki korelasyon derecesinin iyi bir ölçümüdür.

  3. GEE'deki korelasyon yapısı, karışık modellerin aksine, marjinal parametre tahminlerini (GEE ile tahmin ettiğiniz) etkilemez . Yine de standart hata tahminlerini etkilemektedir. Bu herhangi bir link fonksiyonundan bağımsızdır. GEE'deki link fonksiyonu marjinal model içindir.

  4. Siteler, bir ağız içindeki dişler veya bir okul bölgesindeki öğrenciler gibi ölçülmemiş varyasyon kaynakları olabilir. Bu verilerde diş çürümesine karşı genetik eğilim veya topluluk eğitimi finansmanı gibi kümelenme düzeyi çelişkileri potansiyeli vardır, bu nedenle değiştirilebilir bir korelasyon yapısı kullanarak daha iyi standart hata tahminleri elde edersiniz.

  5. Bir GEE'deki marjinal etkilerin hesaplanması iç içe olmadıklarında karmaşık olabilir, ancak yapılabilir . Yuvalamak kolaydır ve söylediğiniz gibi yaparsınız.


(# 5 ile ilgili olarak) Yani iç içe kümeleme durumunda, sadece üst düzey küme değişkenini seçer ve o kadar mı?
Theodore Lytras

Hayır, hiyerarşik iki seviyeli değiştirilebilir korelasyon yapısı oluşturabilir ve 3 aşamalı EM algoritması kullanarak korelasyon için iki ayrı korelasyon parametresini tutarlı bir şekilde tahmin edebilirsiniz. Bu şekilde, topluluklar içindeki çocukların ilişkili olduğunu bilirsiniz, ancak bir hane içindeki çocuklar kadar ilişkili değildir.
AdamO

Üzgünüm, bunu anlamıyorum. Beni tercihen R veya Stata'daki bir koda işaret edebilir misiniz? Sanırım bu yardımcı olmalı.
Theodore Lytras

1
@TheodoreLytras üzgünüm, yanılmışım. Önceki iddianız doğrudur. Bağladığım makaleden, "Buna ek olarak, eğer birden çok küme mükemmel bir şekilde iç içe yerleştirilmişse, üst düzey kümedeki GEE kümelemesi, sandviç varyans tahmincisi aracılığıyla çok düzeyli korelasyon yapısını açıklar".
AdamO

1
Belki başka bir şey kastediyorsunuz, ancak "GEE'deki korelasyon yapısı, karışık modellerin aksine, marjinal parametre tahminlerini etkilemez" diye belirttiğinizde, bunun doğru olmadığını düşünüyorum. En azından, farklı bir çalışma korelasyon matrisi seçilerek katsayıların değişmediğini kastediyorsanız, bu gerçekleşmez: korelasyon matrisi ağırlık matrisinde çalışır ve kovaryans matrisini ve katsayıları etkiler.
Nick

6

(1) Büyük olasılıkla bir tür otoregresif yapıya ihtiyacınız olacaktır, çünkü daha fazla alınan ölçümlerin birbirine daha yakın olanlardan daha az korelasyonlu olmasını bekliyoruz. Takas edilebilirlik, hepsinin eşit olarak ilişkili olduğunu varsayar. Ancak diğer her şeyde olduğu gibi, duruma göre değişir.

(2) Bu tür bir kararın, verilerin nasıl göründüğünü görmek yerine verilerin nasıl üretildiğini düşünmeye geldiğini düşünüyorum.

(4) bağlıdır. Örneğin, okullarda yuvalanan çocuklara çoğu durumda bağımsız olarak davranılmamalıdır. Toplumsal kalıplama vb. Nedeniyle, belirli bir okuldaki bir çocuk hakkında bir şey biliyorsam, muhtemelen okullardaki diğer çocuklar hakkında en azından biraz biliyorum. Bir zamanlar GEE'yi katılımcıların mahallelerde yuvalandığı bir doğum kohortunda farklı sosyal ve ekonomik göstergeler ve obezite yaygınlığı arasındaki ilişkilere bakmak için kullandım. Değiştirilebilir bir yapı kullandım. Makaleyi burada bulabilir ve epi dergilerinden 2'si de dahil olmak üzere bazı referansları kontrol edebilirsiniz .

(5) Görünüşe göre (örneğin bu örneğe bakın ), ancak bunu yapmanın R spesifikasyonlarına yardımcı olamam.

Zeger SL, Liang KY, Albert PS. Boyuna veriler için modeller: genelleştirilmiş bir tahmin denklemi yaklaşımı. Biyometrik. 1988; 44: 1049-1060.

Hubbard AE, Ahern J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. Epidemiyoloji. 2009

Hanley JA, Negassa A, Edwardes MDB, Forrester JE. Genelleştirilmiş tahmin denklemleri kullanılarak ilişkili verilerin istatistiksel analizi: bir oryantasyon. J Epidemiol. 2003; 157: 364.


Bu gerçekten yararlıdır, ancak neden bir kişinin bağımsızlık yapısını kullanacağını merak ediyorum, çünkü kendi başına kümelenme gözlemler arasında bir dereceye kadar benzerlik anlamına geliyor. Bununla birlikte, okullarda benzerliğin diğer okullarla ilişkili olduğu ve her okulda öğrencilerin bağımsız olacağı izlenimindeyim . Bu yüzden hala çok net değilim.
Theodore Lytras

Evet, örneğin ve sonraki modellemenizi tek bir okulla kısıtladıysanız endişelenmeyin. Bu durumda, hataların geçerli olduğunu varsaymak daha mantıklı olacaktır. Ancak, farklı okullardaki çocukları aynı örnek / modele birleştirmeye başladığınızda, modeldeki okulu hesaba katmazsanız, yani okuldaki koşullu hataların geçerli olduğu varsayıldığında, bu varsayım kesintili hale gelir.
DL Dahly

Örnek büyüklüğü, tekrarlanan önlemlerin sayısı ve zamanlaması, küme sayısı vb.
İle

2
@DLDahly (1) 'deki amacınız, biyoistatistik panel analizlerinde sıklıkla bulduğum bir şey değil. AR-N korelasyon yapılarının ardındaki varsayımlardan biri, aralarında yeterli zaman verildiğinde, aynı birey üzerindeki iki ölçümün, farklı bireyler arasındaki iki ölçüm kadar ilişkisiz olacağıdır. Bununla birlikte, altta yatan ana küme arası çelişkiler genellikle zamanla değişen değişkenler (genetik belirteçler gibi) değildir ve aksi takdirde değerlendirmenin çok zor olduğunu (imkansız değilse bile) varsaymaktır. Yine de bir lorrelogram başlamak için çok iyi bir yerdir.
AdamO

1

(0) Genel yorumlar: Çapraz geçerlilikte gördüğüm modellerin çoğu çok karmaşık. Mümkünse basitleştirin. Sonuçları karşılaştırmak için genellikle GEE ve karma model ile modellemeye değer.
(1) Evet. Değiştirilebilir seçin. Kesin cevabım GEE'nin en geniş çaplı faydasına dayanıyor: tahminlerin yapılan varsayımlara karşı dayanıklılığı.
Alanınızdaki çalışmalara bakarsanız, varlığın varsayılan seçenek olduğunu görmelisiniz. En iyisi olduğu anlamına gelmez, ancak ilk düşünülmesi gereken kişi olmalıdır. Değişim danışmanlığı, verileriniz hakkında ayrıntılı bilgiye sahip olmadan en iyi tavsiye olacaktır.
(2) Evet, "QIC" gibi veri odaklı yaklaşımlar vardır. Bu bir Stata örneğidir, ancak pratikte çok nadir kullanılmasına rağmen, makul bir seçenek olarak yaygın olarak kabul edilir:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Nokta tahminleri hiçbir zaman tam olarak aynı değildir (bağımsız korelasyon yapısı kullanmıyorsanız), ancak genellikle oldukça yakındır. Bunu hissetmek için basit / gee / karışık efektler model tahminlerini karşılaştıran birçok makale bulabilirsiniz ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) Çoğu ders kitabında bir tablo veya Bunun için iki. Bağımsız bir korelasyon yapısı için esas olarak sağlam SE'lerle poisson modelini çalıştırıyorsunuz. Böylece tahminler tamamen aynı olacaktır. SE genellikle daha büyüktür. Ancak bazen sağlam SE daha küçüktür (yani hayat: ilgilenirseniz google ile ağrısız açıklama sağlar)
(4) Bkz. Yukarıdaki (1) ve (2).
(5) Hayır. Ya da daha iyisi, yeterince çaba harcarsanız her şeyi yapabilirsiniz, ancak çok nadiren çabaya değer.


0

Yaptığınız şeyi yapmak için bir gee ile yanlış yaklaşımı kullanıyorsunuz çünkü yapıyı bilmiyorsunuz ve sonuçlarınız muhtemelen karışık olacaktır. Jamie Robinson'a bak. Uzun kullanmanız gerekiyor. TMLE (mark van der laan) veya belki de iptw ağırlıkları olan bir gee. Korelasyon muhasebesi yapılmaması varyansı küçümsemektedir. Tekrarlanan tüm ölçümler% 100 ilişkili olsaydı, etkili bir şekilde daha az gözleminiz olurdu (esas olarak n denekleriniz için n) ve daha küçük n daha yüksek sapma anlamına gelir.


Hayatta kalma türünde bir sonucunuz varsa, eğilim yaklaşımını doğru aldığınız varsayılarak, bağımsız düzeltme yapısı ve iptw ağırlıkları ile tarafsız tahminler için önerilen şekilde gee yaklaşımını kullanabilirsiniz. TMLE, her durumda en iyisidir, hayatta kalmak ya da yaşamamak, eğilim öğrenme puanlarını ve sıralı regresyonları tahmin etmek ve yine de etkili çıkarım elde etmek için topluluk öğrenmeyi kullanabileceğiniz için. Yaklaşımınız kesinlikle önyargılı olacak ve yanlış çıkarımda bulunacak ve örnek büyüklüğünüz daha büyük olacak, eğer bir etki yoksa, büyük olasılıkla yanlış önemli bir etkiyi tespit edeceksiniz!
Jonathan Levy

Bu daha fazla ayrıntı kullanabilir. Janie Robinson nedir? Van der Laan'dan hangi makale?
mdewey

@mdewey üzgünüm yazım hatası, Jamie Robins demekti. Robins, fıtık, Babette 2000 marjinal yapısal modelleri ve nedensel çıkarımları deneyin - efekt değiştiricileri ile msm yapmanın yolu da dahil olmak üzere hayatta kalmayan sonuç için harika bir yöntem. Laan için, kitabı hedef alan öğrenmeyi hedefleyin. Dediğim gibi, laan muhtemelen en iyisidir, ancak anlaşılması daha fazla zaman alır. R paketi Ltmle bu metodolojiyi yapar ancak öğrenmesi biraz zaman alır.
Jonathan Levy
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.