Sonuç değişkeni vaka / kontrol durumu olmadığında vaka kontrol tasarımında lojistik regresyon katsayılarını tahmin etme


10

Aşağıdaki şekilde boyutundaki bir popülasyondan veri örneklemeyi düşünün :Nk=1,...,N

  1. Bireysel "hastalık" durumunu gözlemlemek

  2. Hastalıkları varsa, bunları olasılığı olan numuneye ekleyinpk1

  3. Hastalığı yoksa, bunları olasılığı ile dahil edin .pk0

Bir ikili sonuç değişkeni gözlenen varsayalım ve belirleyici vektörü için, konular bu şekilde örneklenmiş. Sonuç değişkendir değil "hastalık" durumu. Lojistik regresyon modelinin parametrelerini tahmin etmek istiyorum:YiXii=1,...,n

log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ

Tek umurumda olan (log) olasılık oranları, β . Kesişim benim için önemli değil.

Benim sorum: \ {p_ {i1}, p_ {i0} \} , i = 1, ..., n örnekleme olasılıklarını göz ardı ederek ve modeli sanki takıp {\ boldsymbol \ beta} hakkında mantıklı tahminler alabilir miyim sıradan rastgele bir örnek miydi?β{pi1,pi0}i=1,...,n


Bu sorunun cevabının "evet" olduğundan oldukça eminim. Aradığım şey, bunu doğrulayan bir referans.

Cevaptan emin olmamın iki ana nedeni var:

  1. Birçok simülasyon çalışması yaptım ve hiçbiri bununla çelişmiyor ve

  2. Nüfus yukarıdaki model tarafından yönetiliyorsa, örneklenen verileri yöneten modelin

log(P(Yi=1|Xi)P(Yi=0|Xi))=log(pi1)log(pi0)+α+Xiβ

Örnekleme olasılıkları bağlı olmasaydı, bu kesişmeye basit bir kaymayı temsil eder ve ' un nokta tahmini açıkça etkilenmezdi. Ancak, ofsetler her kişi için farklıysa, benzer bir şey olduğundan şüphelenmeme rağmen, kesinlikle farklı bir puan tahmini alacağınızdan bu mantık tam olarak uygulanmaz. βiβ

İlgili: Prentice ve Pyke'nin (1979) klasik makalesi, vaka kontrolünden elde edilen lojistik regresyon katsayılarının (sonuç olarak hastalık durumu ile) prospektif bir çalışmadan toplananla aynı dağılıma sahip olduğunu söylüyor. Aynı sonucun burada geçerli olacağından şüpheleniyorum ama itiraf etmeliyim ki makalenin her bir kısmını tam olarak anlamadım.

Yorumlarınız / referanslarınız için şimdiden teşekkür ederiz.


1
"Sonuç değişkeninin hastalık durumu olmadığını" belirtiyorsunuz . ne anlama ? CV'ye tekrar hoş geldiniz, btw. Yi=1
gung - Monica'yı eski durumuna döndürün

1
Yi farklı bir değişkendir. Demek istediğim, örnekleme olasılığınızı belirleyen değişken (genellikle vaka kontrolünde hastalık durumu) sonuç değişkeni ile aynı değildir - bir veri kümesinin ikincil analizini düşünün. Örneğin, numunenin sistematik olarak örnekleme yapan uyuşturucu kullanıcıları tarafından üretildiğini ve ek (uyuşmazlıkla eşleştirilmiş, bazı ortak değişkenler için) bir dizi uyuşturucu kullanıcısı olmayan kullanıcı tarafından oluşturulduğunu, ancak çalıştığınız sonuç değişkeninin başka bir davranışsal ölçüm olduğunu varsayalım. Bu durumda örnekleme planı bir sıkıntıdır. Teşekkürler, btw!
makro

Yanıtlar:


8

Bu, ekonometride seçim modelinin bir varyasyonudur. Burada yalnızca seçilen örnek kullanılarak yapılan tahminlerin geçerliliği . İşte olan hastalığı durumu.Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0) iDii

Daha fazla ayrıntı vermek için aşağıdaki gösterimleri tanımlayın: ve ; , örneğindeki olayı ifade eder . Ayrıca, nin basitlik açısından bağımsız olduğunu varsayalım . π 0 = Pr ( D i = 0 ) S i = 1 i D i X iπ1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi

Olasılığı bir birim için numune içinde yinelenen beklenti yasası ile. Hastalık durumu ile ilgili şartlı varsayalım ve diğer değişkenlerin , sonuç bağımsızdır . Sonuç olarak, Pr ( Y i = 1 X i , S i = 1 )Yi=1i DiXiYiSi Pr ( Y i = 1 X i , S i = 1 )

Pr(Yi=1Xi,Si=1)=E(YiXi,Si=1)=E{E(YiXi,Di,Si=1)Xi,Si=1}=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1,Si=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0,Si=1),
DiXiYiSiPr(D i =1S i =1)= π 1 p i 1
Pr(Yi=1Xi,Si=1)=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0).
görmek kolaydır olduğu Burada ve örnekleme planınız tanımlandığı gibidir. Böylece, pi1pi0Pr(Yi=1Xi,Si=1)=π1pi1
Pr(Di=1Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0
Pr(Yi=1Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1Xi,Di=0).
Eğer , ve örnek seçim sorununu atlayabilirsiniz. Öte yandan, , . Özel bir durum olarak, logit modelini düşünün, Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)=Pr(Yi=1Xi),
Pr(Yi=1Xi,Di=1)Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)Pr(Yi=1Xi)
Pr(Yi=1Xi,Di=1)=eXiα1+eXiα and Pr(Yi=1Xi,Di=0)=eXiβ1+eXiβ.
ve arasında sabit olsa bile , sonuçta elde edilen dağılım logit oluşumunu korumaz. Daha da önemlisi, parametrelerin yorumları tamamen farklı olacaktır. Umarım, yukarıdaki argümanlar probleminizi biraz açıklığa kavuşturmaya yardımcı olur.pi1pi0i

ek bir açıklayıcı değişken olarak dahil ve modeli . Kullanarak geçerliliğini haklı çıkarmak için , biz kanıtlamak gerektiğini , ki bu yeterli bir istatistiğidir . Örnekleme işleminiz hakkında daha fazla bilgi olmadan, bunun doğru olup olmadığından emin değilim. Soyut bir gösterim kullanalım. Gözlenebilirlik değişkeni , ve diğer rasgele değişkenlerin rastgele fonksiyonu olarakDiPr(YiXi,Di)Pr(YiXi,Di)Pr(YiXi,Di,Si=1)=Pr(YiXi,Di)DiSiSiDiZi . Göstermek . Eğer bağımsızdır şartına ve , elimizdeki bağımsızlığın tanımı ile. Ancak, bağımsız değildir kondüsyonlamanın sonra ve , sezgisel hakkında gerekli bazı bilgiler içermektedir ve genel olarakSi=S(Di,Zi)ZiYiXiDiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ZiYiXiDiZiYiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di) . Bu nedenle, 'ancak' durumda, örnek seçiminin cehaleti çıkarım için yanıltıcı olabilir. Ekonometride örnek seçme literatürüne pek aşina değilim. Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic bookEkonometride sınırlı bağımlı ve nitel değişkenlerin 16. Bölümü'nün 'örnek seçimi ve ayrık sonuçlarla ilgili sorunların sistematik bir şekilde ele alınmasını tavsiye ederim .


2
Teşekkürler. Bu harika bir cevap ve mükemmel bir mantıklı. Benim uygulamada, varsayım gerçekçi değildir. Ancak, bir öngörücü olarak eklemek ve dağılımını . Benzer bir türev kullanarak, , o zaman iyi olduğunu . Benim durumumda bu makul bir varsayım. Ne düşünüyorsun? BTW, bu sorundan bahseden referanslarınız olur mu? Ekonometri literatürüne aşina değilim. P(Yi|Xi,Di=1)=P(Yi|Xi,Di=0)DiP(Yi|Xi,Di)P(Yi=1|Xi,Di,Si=1)=P(Yi=1|Xi,Di,Si=0)
Makro

Ben seçim sürecini bir bernoulli deneme olarak düşünerek rahatım, yani Bu veri üreten varsayım altında, bu bernoulli denemesi şartlı olarak bağımsızdır , bu yüzden iyi olduğumuzu düşünüyorum. Bu sorunla ilgili gösterdiğiniz çaba ve anlayışları takdir ediyorum ve yanıtı kabul ediyorum. Kimsenin aradığım tam referansla birlikte gelmediğini varsayarsak (genişletilmiş bir tartışma ile tartışmak yerine bu sorunu basitçe "alıntılamayı tercih edebilirim), size de ödül vereceğim. Şerefe. Y i
Si|Di=d,Xi=xBernoulli(p(x,d))
Yi
Makro

Bu seçim süreci stratejinize uyar. Böyle bir seçim problemine dayanarak, probleminiz eksik veri literatüründe rastgele (MAR) eksik örneğidir. Ödülün için teşekkürler.
semibruin
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.