Regresyonları anlama - modelin rolü


46

Parametrelerini almaya çalıştığınız işlevi bilmiyorsanız, regresyon modeli nasıl kullanılabilir?

Çocuklarını emziren annelerin daha sonraki yaşamlarda diyabet geçirme ihtimalinin daha düşük olduğunu söyleyen bir araştırma parçası gördüm. Araştırma yaklaşık 1000 anneden yapılan bir ankete aitti ve çeşitli faktörler için kontrol edildi ve bir loglinear model kullanıldı.

Şimdi bu, diyabet olasılığını belirleyen tüm faktörleri, günlüklerle düzgün bir şekilde lineer bir modele dönüştüren ve beslenen kadın göğsünün istatistiksel olarak anlamlı olup olmadığına dair hoş bir işleve (muhtemelen üstel olarak) uyduğu anlamına mı geliyor?

Emin olduğum bir şey eksik ama, modeli nasıl biliyorlar?


Hepinize çok teşekkürler. Cevaplarınızı düşünmek için biraz zaman harcamak istiyorum ve belki de görüşleriniz için onları benim açımdan yazmamın sakıncası yoksa. Sürecin bu serisini Taylor serisinden geliyor gibi seviyorum. Regresyon bilgimi şanssızca ve Ekonomistler için İktisat ve Matematik ile almak zorunda kaldım ve Taylor ile olan bağın olmaması onun tarafından farkediliyor.
Jonathan Andrews

Hesaplarınızı birleştirdim; ama lütfen, buraya kaydedin. istatistik.stackexchange.com/users/login, böylece tekrar gevşetmeyeceksiniz .

Yanıtlar:


43

Regresyonun, gerçek formun lineer bir yaklaşımı olarak görülmesine yardımcı olur. Diyelim ki gerçek ilişki

y=f(x1,...,xk)

x1,...,xkyf

f(x1,...,xk)=f(0,...,0)+i=1kf(0)xkxk+ε,

εα0=f(0,...,0)αk=f(0)xk

y=α0+α1x1+...+αkxk+ε

ε


1
Merhaba, çok güzel bir açıklama ama taylor serisi açılımının “sigma” kısmını anlamadım. Burada bulunan denklemi nasıl azaltıyorsunuz: mathworld.wolfram.com/TaylorSeries.html , "iki değişkenli gerçek bir fonksiyonun bir Taylor dizisi" altında sizinkine?
Arun

1
n=1

18

Cevabın diğer tarafı, mpiktas'ın cevabını tamamlayan, ancak şu ana kadar belirtilmeyen:

"Olmazlar, ancak bazı model yapılarını alır almaz, onu verilere göre kontrol edebilirler ".

Yanlış gidebilecek iki temel şey şunlardır: İşlevin biçimi , örneğin günlüklerde doğrusal bile değildir. Böylece, uygun bir tortuyu beklenen değerlere göre çizerek başlarsınız. Veya koşullu dağılımın seçimi , örneğin, gözlenen Poisson'a göre fazla dağılmış sayımlar. Dolayısıyla, aynı modelin Negatif Binom versiyonuna karşı test yapar veya ekstra değişkenlerin ekstra varyasyondan sorumlu olup olmadığını görürsünüz.

Aykırı olanları, etkili gözlemleri ve bir sürü başka şeyi kontrol etmek istersiniz. Bu tür model problemlerini kontrol etmenin makul bir yeri Cameron ve Trivedi 1998'in ch.5'idir. (Epidemiyolojik yönelimli araştırmacıların başlaması için kesinlikle daha iyi bir yer var - belki de başkaları bunu önerebilir.)

Bu tanılamalar, modelin verilere uymadığını gösterirse, modelin alakalı yönünü değiştirir ve tüm işleme tekrar başlarsınız.


1
+1 Bu, her şeyi el sallamaktan alıkoyan anahtardır: bilmiyorsunuz, ancak bir şey deniyorsunuz ve sonra ne kadar iyi eşleştiğine ve verilerinizle hangi şekilde uyuşmadığına bakıyorsunuz.
Wayne,

15

Mükemmel bir ilk soru! Mpiktas'ın cevabına katılıyorum, yani kısa cevap "onlar değil, ama yaklaşık doğru cevabı veren doğru modele yaklaşmayı umuyorlar" dır.

Epidemiyoloji jargonunda bu model belirsizlik, “ rezidüel karıştırıcı ” olarak bilinen şeyin bir kaynağıdır . Steve Simon'ın “Artık kafa karıştırıcı nedir?” Sayfasına bakınız. Kısa bir açıklama için, ya da Heiko Becher'in 1992 yılında Tıp İstatistikleri alanında yayınlanan makalesi (abonelik talep edildi), daha uzun, matematiksel bir tedavi için ya da Fewell, Davey Smith ve Sterne'nin Amerikan Epidemiyoloji Dergisi'ndeki daha yeni makalesi (abonelik talep edildi) ).

Bu, küçük etkilerin epidemiyolojisinin zor olmasının ve bulguların çoğu zaman tartışmalı olmasının bir nedenidir - ölçülen etki büyüklüğü küçükse, açıklama olarak artık karışıklığı veya diğer önyargı kaynaklarını dışlamak zordur.


1
OP'nin bahsettiği şey gibi görünen modelin yanlış tanımlanmasının, artık kafa karıştırıcı olmaktan biraz farklı olduğunu savunuyorum. Karıştırmak ortak değişken gerektirir. Sadece bir pozlama ve sonucun yanlış tanımlanması ile bir gerileme bozabilirsiniz.
Fomite

13

George Box'ın "Esasen bütün modeller yanlış, ancak bazıları yararlı" diye ünlü bir alıntı var . Bu gibi modellere uyurken, veri oluşturma süreci ve fiziksel, gerçek dünya, yanıt ve eş değişkenler arasındaki ilişkileri düşünmeye çalışıyoruz (ya da gerekir). Bu ilişkileri verilere uygun bir modelde ifade etmeye çalışıyoruz. Ya da başka bir deyişle, verilerle tutarlıdır. Gibi ampirik bir model üretilir.

Yararlı olup olmadığı daha sonra belirlendiğinde - örneğin, modele uymayan kadınlar için iyi, güvenilir tahminler veriyor mu? Model katsayıları yorumlanabilir ve bilimsel kullanım mıdır? Etki büyüklükleri anlamlı mı?


3

Aldığınız cevaplar mükemmel cevaplar, ancak ben bir Epidemiolog perspektifinden (umarım) tamamlayıcı bir cevap vereceğim. Bu konuda gerçekten üç düşüncem var:

İlk önce yapmazlar. Ayrıca bakınız: Tüm modeller yanlış, bazı modeller kullanışlıdır. Amaç, temel bir fonksiyonun “gerçeği” olarak kabul edilen tek ve kesin bir sayı üretmektir. Amaç, bu fonksiyonun bir tahminini , etrafındaki belirsizliğin bir miktarıyla birlikte, bu temel fonksiyonun makul ve faydalı bir tahminidir.

Bu, özellikle büyük etki önlemleri için geçerlidir. "Gerçek" ilişkisi 2.5 veya 3.2 ise, göreceli olarak 3.0 risk içeren bir araştırmanın "götür" mesajı gerçekten farklı değildir. @Onestop'ta belirtildiği gibi, bu, küçük etki ölçüm tahminleriyle zorlaşır, çünkü 0.9, 1.0 ve 1.1 arasındaki fark sağlık ve politika açısından çok büyük olabilir .

İkincisi, çoğu Epidemiyoloji makalesinde gizlenmiş bir süreç var. Gerçek model seçim süreci budur . Sonunda bulduğumuz modeli, düşündüğümüz tüm modelleri değil (başka bir şey olmazsa yorucu olacağını çünkü) rapor etme eğilimindeyiz. Küçük gözlemsel çalışmaların bile analizinde rol alan bir takım model oluşturma adımları, kavramsal diyagramlar, teşhisler, uygunluk istatistikleri, duyarlılık analizi, bilgisayarlarda küfür ve beyaz tahtalar üzerinde karalamalar var.

Eğer ederken Çünkü edilir varsayımlarda bulunmak, çoğu kontrol edebilirsiniz varsayımlar bulunmaktadır.

Üçüncüsü, bazen değiliz. Sonra konferanslara gidiyoruz ve birbirimizle tartışıyoruz;)

Bir alan olarak Epidemiyoloji'nin somunları ve cıvataları ve araştırmayı nasıl yürüttüğümüzle ilgileniyorsanız, başlamak için en iyi yer muhtemelen Rothman, Grönland ve Kirpik'ten Modern Epidemiyoloji 3. Baskı . Epi araştırmasının nasıl yapıldığına ilişkin orta derecede teknik ve çok iyi bir genel bakış.


1
+1, bu, burada olanlar için iyi bir tamamlayıcıdır. Halen pek çok iyi iyinin var olmasına rağmen, faydalı bir katkı sağlanabileceğini görmek güzel.
gung - Reinstate Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.