Oran oranlarının meta-analizi temelde umutsuz mu?


12

Yakın tarihli bir makalede Norton ve ark. (2018) [ 1 ] şunu belirtir:[1]

Olasılık oranı tahminleriyle sonuçlanan istatistiksel modeller farklı açıklayıcı değişkenlere sahip olduğu için aynı çalışmadaki farklı olasılık oranları karşılaştırılamaz, çünkü her model farklı bir rasgele ölçeklendirme faktörüne sahiptir. Bir çalışmadaki oran oranının büyüklüğü, başka bir çalışmadan oran oranının büyüklüğü ile karşılaştırılamaz, çünkü farklı örnekler ve farklı model özellikleri farklı rasgele ölçeklendirme faktörlerine sahip olacaktır. Bir başka sonuç, birden fazla çalışmada belirli bir ilişkinin olasılık oranlarının büyüklüğünün bir meta-analizde sentezlenememesidir.

Küçük bir simülasyon bunu göstermektedir (R kodu sorunun altındadır). Gerçek modelin: l o g i t ( y i ) = 1 + log ( 2 ) x 1 i + log ( 2.5 ) x 2 i + log ( 3 ) x 3 i + 0 x 4 i olduğunu varsayalım.

logit(yi)=1+log(2)x1i+log(2.5)x2i+log(3)x3i+0x4i
Ayrıca, yukarıdaki model tarafından üretilen aynı verilerin, lojistik regresyon kullanılarak dört farklı araştırmacı tarafından analiz edildiğini düşünün. Araştırmacı 1 içerir sadece x1 araştırmacı 2 içerir, bir değişken olarak x1 ve x2 benzeri ve. Dört araştırmacının x1 için oran oranının ortalama simülasyon tahminleri :

res_1    res_2    res_3    res_4 
1.679768 1.776200 2.002157 2.004077

2[2][3]

Sorularım:

  1. Oran oranları temel olarak çalışmalar ve modeller arasında karşılaştırılamazsa, ikili sonuçlar için farklı çalışmaların sonuçlarını nasıl birleştirebiliriz?
  2. Ne sayısız meta-analizlerde de söylenebilir mi her çalışma muhtemelen ortak değişkenler farklı bir dizi için ayarlanmış farklı çalışmalardan elde olasılık oranlarını birleştirmek? Aslında işe yaramaz mı?

Referanslar

[1]: Norton EC, Dowd BE, Maciejewski ML (2018): Oran Oranları - Mevcut En İyi Uygulama ve Kullanım. JAMA 320 (1): 84-85.

[2]: Norton EC, Dowd BE (2017): Log Odds ve Logit Modellerinin Yorumlanması. Sağlık Hizmetleri Arş. 53 (2): 859-878'de tarif edilmiştir.

[3]: Hernán MA, Clayton D, Keiding N (2011): Simpson paradoksu çözüldü. Int J Epidemiol 40: 780-785.

ifşa

Soru (R kodu dahil), kullanıcı zamanlayıcı tarafından veri yöntemlerinde yöneltilen bir sorunun değiştirilmiş bir sürümüdür .

R kodu

set.seed(142857)

n_sims <- 1000 # number of simulations

out <- data.frame(
  treat_1 = rep(NA, n_sims)
  , treat_2 = rep(NA, n_sims)
  , treat_3 = rep(NA, n_sims)
  , treat_4 = rep(NA, n_sims)
)

n <- 1000 # number of observations in each simulation

coef_sim <- "x1" # Coefficient of interest

# Coefficients (log-odds)

b0 <- 1
b1 <- log(2)
b2 <- log(2.5)
b3 <- log(3)
b4 <- 0

for(i in 1:n_sims){

  x1 <- rbinom(n, 1, 0.5)
  x2 <- rnorm(n)
  x3 <- rnorm(n) 
  x4 <- rnorm(n) 

  z <-  b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4

  pr <- 1/(1 + exp(-z))  

  y <-  rbinom(n, 1, pr)

  df <-  data.frame(y = y, x1 = x1, x2 = x2, x3 = x3, x4 = x4)
  model1 <- glm(y ~ x1, data = df, family = "binomial")
  model2 <- glm(y ~ x1 + x2, data = df, family = "binomial")
  model3 <- glm(y ~ x1 + x2 + x3, data = df, family = "binomial")
  model4 <- glm(y ~ x1 + x2 + x3 + x4, data = df, family = "binomial")


  out$treat_1[i] <- model1$coefficients[coef_sim]
  out$treat_2[i] <- model2$coefficients[coef_sim]
  out$treat_3[i] <- model3$coefficients[coef_sim]
  out$treat_4[i] <- model4$coefficients[coef_sim]

}

# Coefficients

colMeans(out)
exp(colMeans(out)) # Odds ratios

Neden bunun doğrusal regresyon ile gerçekleşmediğini söylüyorsunuz? Görünüşe göre atlanan değişken önyargıları tanımlıyor musunuz?
user2879934

Yanıtlar:


11

Aynı sorundan muzdarip olmayan lojistik regresyon modelinden türetilebilecek bir dizi alternatif etki vardır. En kolay olanlardan biri, değişkenin ortalama marjinal etkisidir. Aşağıdaki lojistik regresyon modelini varsayalım:

ln[p1p]=Xβ+γd

Xnkβkdγ

d

1ni=1n[(1+e(Xβ+γ))1(1+eXβ)1]

Bu etki, diğer öngörücülerde aynı değerlere sahip olanlar için tedavi ve kontrol grubu arasındaki sonuçtaki ortalama olasılık farkı olacaktır (bkz. Gelman ve Hill, 2007, s. 101).

OP'nin örneğine karşılık gelen R sözdizimi şöyle olacaktır:

dydx_bin <- function(fit, coef) {
  mod.mat <- model.matrix(fit) # Obtain model matrix
  coefs <- coef(fit)
  oth_coefs <- coefs[!(names(coefs) == coef)] # Coefs bar focal predictor
  # Get model matrix excluding focal predictor
  X_nb <- as.matrix(mod.mat[, names(oth_coefs)])
  # Predictions for all data ignoring focal predictor
  Xb_nb <- X_nb %*% oth_coefs
  mean(plogis(Xb_nb + coefs[coef]) - plogis(Xb_nb))
}

İlgili öngörücü değişkeni diğer öngörücülerle ilgisiz olduğu sürece OP'nin sözdizimini modelde hangi değişkenlerden etkilenmediğini göstermek için değiştirdim.

Sonuç veri çerçevesini değiştirdim:

out <- data.frame(
  treat_1 = rep(NA, n_sims), treat_2 = rep(NA, n_sims),
  treat_3 = rep(NA, n_sims), treat_4 = rep(NA, n_sims),
  treat_11 = rep(NA, n_sims), treat_21 = rep(NA, n_sims),
  treat_31 = rep(NA, n_sims), treat_41 = rep(NA, n_sims)
)

Ve simülasyon içinde, hesaplanan ortalama olasılık farkını kurtardım:

out$treat_11[i] <- dydx_bin(model1, coef_sim)
out$treat_21[i] <- dydx_bin(model2, coef_sim)
out$treat_31[i] <- dydx_bin(model3, coef_sim)
out$treat_41[i] <- dydx_bin(model4, coef_sim)

Ve yeni sonuçlar:

colMeans(out)[5:8]
 treat_11  treat_21  treat_31  treat_41 
0.1019574 0.1018248 0.1018544 0.1018642 

Tahmini etki, model özelliklerinden bağımsız olarak tutarlıydı. Değişkenler eklemek, doğrusal regresyon modelinde olduğu gibi verimliliği arttırdı:

apply(out[, 5:8], 2, sd)
  treat_11   treat_21   treat_31   treat_41 
0.02896480 0.02722519 0.02492078 0.02493236 

OP'nin iki grup arasındaki ortalama olasılık oranı gibi hesaplayabileceği ek etkiler vardır. Yukarıda hesaplanan ortalama olasılık farkı, R'deki marjlar paketinden ve Stata'daki marjlar komutundan elde edilebilir. Ortalama olasılık oranı sadece Stata'da mevcuttur.

Meta analiz sonuçlarına güvenmeyle ilgili diğer soru üzerine. Birincisi, etkinin yönü işe yaramaz olmamalıdır. Oran oranlarıyla ilgili sorun, katsayıların işaretini etkilemez. Dolayısıyla, bir çok çalışma bir oranın üstünde bir oran oranına sahipse, bu özel sorun nedeniyle bu etkiden şüphe etmek için bir neden yoktur.

Kesin tahmine gelince, buna inanmak için bir neden yoktur. Güzel olan, eğer bileşen çalışmaları randomize kontrollü çalışma ise, oran oranlarının muhafazakar tahminler olması ve gerçek sonuçların daha da büyük olmasıdır. OP'nin gösterdiği etki, olasılık oranlarını bire indirir. Dolayısıyla, çalışmaların büyük bir bölümünün 1'den büyük bir oran oranı varsa ve meta-analiz bu yöne işaret ediyorsa, ilgili tüm ortak değişkenler ayarlandıktan sonra gerçek OR daha da büyüktür. Dolayısıyla bu meta-analizler tamamen işe yaramaz.

Ancak meta-analizde başka etki tahminlerinin kullanılmasını tercih ederim. Ortalama olasılık farkı bir yaklaşımdır ve başkaları da vardır.


Gelman, A. ve Hill, J. (2007). Regresyon ve çok düzeyli / hiyerarşik modeller kullanarak veri analizi. Cambridge Üniversitesi Yayınları.


1
@COOLSerdash Teşekkürler. Burada keşfedilecek daha çok şey var. Oran oranı, özellikle orijinal ilişkilerde heteroskedastisite varsa, ikiye ayrılmış sürekli bir değişkenden geldiğinde daha da ilginçleşir. Achim Zeileis'in bu sorunun cevabına bakınız - stats.stackexchange.com/questions/370876/…
Jim

Bağlantı için teşekkürler. İtiraf etmeliyim ki, temel gizli bir sürekli değişken kullanarak lojistik modelin türetilmesi benim için yeni. Biyoistatistikten geliyorum ve bu alandaki seminal kaynaklar bu problemlerden bahsetmiyor gibi görünüyor (örneğin Lemeshow & Hosmer'ın "Uygulamalı lojistik regresyon" kitabı). Ödülünü en kısa sürede (yarın) ödüllendireceğim.
COOLSerdash

Lojistik hatalar varsa, sürekli değişkenin altında yatan türev garip olduğunu düşünüyorum. Normal hataları kabul ederseniz, CLT sayesinde daha haklı olabilir. Ekonometride çok kullanılan probit regresyonu için yaygın bir türevdir. Ancak sürekli bir değişkeni ikiye ayıracaksanız, hatalar altında türetme çok yardımcı olur. Dahası, bu türetme, genel olarak modeli daha iyi keşfetmeye ve bazı tuhaflıkları keşfetmeye izin verir. Ve geriye dönük ödül için teşekkürler.
Heteroskedastic Jim
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.