Model ayarlamasını düz İngilizce olarak açıklayın


14

İstatistiksel analiz yöntemlerini ve sonuçlarını, özellikle epidemiyolojide okurken , modellerin ayarlanması veya kontrol edilmesi hakkında çok sık duyuyorum .

İstatistikçi olmayan birine bunun amacını nasıl açıklarsınız? Belirli bir değişkeni kontrol ettikten sonra sonuçlarınızı nasıl yorumluyorsunuz?

Stata veya R'de küçük bir gezinti veya çevrimiçi bir gösterici, gerçek bir mücevher olurdu.

Yanıtlar:


29

Bir örnekle açıklamak en kolayı:

Araştırma, Dünya Kupası finalini izleyen kişilerin maç sırasında veya sonraki 24 saat içinde kalp krizi geçirme olasılığının, onu izlemeyenlere göre daha olası olduğunu düşünün. Hükümet futbolu televizyondan yasaklamalı mı? Ancak erkeklerin futbol izlemesi kadınlardan daha fazladır ve erkeklerin kalp krizi geçirme olasılığı kadınlardan daha fazladır. Yani dernek futbol izliyor ve kalp krizi arasındaki tarafından açıklanabilir üçüncü faktör böyle hem etkileyen seks gibi. (Sosyologlar arasında burada farklı kılacak cinsiyet , futbol seyri ile ilişkili kültürel bir yapı ve cinsiyet, kalp krizi insidansı ile ilişkili biyolojik bir kategori, ancak ikisi açıkça çok güçlü bir şekilde ilişkilidir, bu yüzden basitlik için bu ayrımı görmezden geleceğim.)

İstatistikçiler ve özellikle epidemiyologlar, böyle üçüncü bir faktörü karıştırıcı ve karıştırıcı fenomen olarak adlandırırlar . Sorunu ortadan kaldırmanın en belirgin yolu, erkek ve kadınlarda futbol gözlemi ve kalp krizi insidansı arasındaki ilişkiye bakmak ya da cinsiyete göre katmanlaşmak için jargonda incelemektir . İlişkinin (hala varsa) her iki cinsiyette de benzer olduğunu tespit edersek, ilişkinin iki tahminini iki cinsiyet arasında birleştirmeyi seçebiliriz. Daha sonra futbol izleme ve kalp krizi insidansı arasındaki ilişkinin tahmininin cinsiyete göre ayarlandığı veya kontrol edildiği söylenir .

Muhtemelen diğer faktörleri de aynı şekilde kontrol etmek isteriz. Yaş başka bir barizdir (aslında epidemiyologlar hemen hemen her ilişkiyi yaş ve cinsiyete göre katmanlaştırır veya ayarlar / kontrol eder). Sosyo-ekonomik sınıf muhtemelen başka bir sınıftır. Diğerleri daha zor olabilir, örneğin maçı izlerken bira tüketimini ayarlamalıyız? Belki evet, sadece maçı izlemenin stresinin etkisi ile ilgilenirsek; ama belki hayır, eğer Dünya Kupası futbol yayınını yasaklamayı düşünürsek ve bu bira tüketimini de azaltır. Verilen değişkenin bir karışıklık olup olmadığı kesin olarak hangi soruyu ele almak istediğimize bağlıdır ve bu çok dikkatli düşünmeyi gerektirebilir ve oldukça zor ve hatta tartışmalı olabilir.

Açık bir şekilde, bazıları birkaç kategoride (örneğin sosyal sınıf) ölçülebilen, bazıları ise sürekli (örneğin yaş) olabilen birkaç faktör için ayarlama / kontrol yapmak isteyebiliriz. Sürekli olanlarla (yaş-) gruplara bölünerek onları kategorik gruplara dönüştürerek başa çıkabiliriz. Diyelim ki 2 cinsiyet, 5 sosyal sınıf grubu ve 7 yaş grubumuz var. Şimdi futbol izleme ve kalp krizi insidansı arasındaki ilişkiye 2 × 5 × 7 = 70 tabakadan bakabiliriz. Ancak çalışmamız oldukça küçükse, bu katmanlardan bazıları çok az insan içeriyorsa, bu yaklaşımla sorun yaşayacağız. Ve pratikte bir düzine veya daha fazla değişkeni ayarlamak isteyebiliriz. Birçoğu olduğunda özellikle yararlı olan değişkenleri ayarlamak / kontrol etmek için alternatif bir yol regresyon analizi ile sağlanırbirden fazla bağımlı değişkenle, bazen çok değişkenli regresyon analizi olarak bilinir . (Sonuç değişkeninin türüne bağlı olarak farklı regresyon modelleri vardır: en küçük kareler regresyonu, lojistik regresyon, oransal tehlikeler (Cox) regresyonu ...). Gözlemsel çalışmalarda, deneylerin aksine, neredeyse her zaman birçok potansiyel çelişki için ayar yapmak istiyoruz, bu nedenle uygulamada çelişkiler için ayarlama / kontrol genellikle regresyon analizi ile yapılır, ancak standartlaştırma, ağırlıklandırma, eğilim gibi başka alternatifler de vardır. puan eşleme ...


3
+1 (en azından +3 hak etmesine rağmen) - çok kapsamlı ve kapsamlı. Tüm sorunu benim için daha açık hale getirdi. Teşekkürler!
radek

"Değişkenleri ayarlamak için / kontrol etmenin alternatif bir yolu, birçoğu olduğunda özellikle yararlıdır, bazen çok değişkenli regresyon analizi olarak da bilinen çoklu bağımlı değişkenlerle regresyon analizi sağlanır." bunun "bağımsız" olması mı gerekiyor yoksa yanlış mı anlıyorum? ve bunun için daha yaygın jargon, "çoklu regresyon" mu? (tartışmalı olduğunu biliyorum)
Richard DiSalvo

10

Onestop bunu oldukça iyi açıkladı, sadece oluşturulmuş verilerle basit bir R örneği vereceğim. Diyelim ki x ağırlık, y boy ve erkeklerle kadınlar arasında fark olup olmadığını öğrenmek istiyoruz:

set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)

Kilo kontrol etmeden (anova'da (lm1)) cinsiyetler arasında çok az fark olduğunu görebilirsiniz, ancak ağırlık bir eş değişken (lm2'de kontrol edilir) olarak dahil edildiğinde fark daha belirgin hale gelir.

#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.