Eğer böyle bir modelin amacı tahmin ise, sonuçları tahmin etmek için ağırlıklı olmayan lojistik regresyon kullanamazsınız: Riski fazla tahmin edersiniz. Lojistik modellerin gücü, bir risk modeliyle bir lojistik modeldeki ikili sonuç arasındaki ilişkiyi ölçen "eğim" olan oran oranının sonuç bağımlı örneklemede değişmez olmasıdır. Eğer vakalar kontrollere 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 oranında örneklenirse, bunun önemi yoktur: OR örnekleme koşulsuz olduğu sürece her iki senaryoda da değişmeden kalır. maruz kaldığında (ki bu Berkson'ın önyargısını getirecekti). Aslında, sonuca bağlı örnekleme, basit rastgele örneklemenin tam olarak gerçekleşmeyeceği bir maliyet tasarrufu çabasıdır.
Neden risk tahminleri lojistik modeller kullanarak sonuca bağımlı örneklemeden önyargılı? Sonuca bağlı örnekleme, lojistik bir modeldeki müdahaleyi etkiler. Bu, S şeklindeki ilişki eğrisinin popülasyondaki basit bir rastgele örneklemde bir vakayı örnekleme sicil oranındaki fark ve popülasyondaki basit rasgele bir örneklemde bir örnekleme sicil oranları arasındaki farkla "x eksenini yukarı kaydırmasına" neden olur. deneysel tasarımın -population. (Kontrol için 1: 1 vakanız varsa, bu sözde popülasyonda bir vakayı örnekleme şansı% 50'dir). Nadir sonuçlarda, bu oldukça büyük bir fark, 2 ya da 3 faktördür.
Öyleyse bu tür modellerden "yanlış" olduklarından bahsederken, hedefin çıkarım (doğru) veya tahmin (yanlış) olduğuna odaklanmalısınız. Bu aynı zamanda sonuçların vakalara oranını da ele almaktadır. Bu konuyu görme eğiliminde olduğunuz dil, böyle bir çalışmayı kapsamlı bir şekilde yazılmış olan bir “vaka kontrolü” çalışması olarak adlandırmaktır. Belki de konuyla ilgili en sevdiğim yayın, normal bir çalışma olarak nadir görülen kanser nedenleri için risk faktörlerini tanımlayan Breslow ve Day'tir (olayların nadir olması nedeniyle önceden mümkün değildir). Vaka kontrol çalışmaları, bulguların sıklıkla yanlış yorumlanmasını çevreleyen bazı tartışmalara yol açmıştır: özellikle OR'yi RR ile (bulguları abartmaktadır) ve ayrıca numunenin aracı olarak “çalışma tabanını” ve bulguları artıran popülasyonu.onlara mükemmel bir eleştiri sağlar. Bununla birlikte, hiçbir eleştiri, vaka kontrol çalışmalarının doğal olarak geçersiz olduğunu iddia etti, nasıl yapabilirdiniz? Halk sağlığını sayısız caddede geliştirdiler. Gerçekten değil: Miettenen makalesi bile sonuç bağımlı örneklemede göreceli risk modelleri ya da diğer modelleri kullanmak ve çoğu durumda sonuçları ve nüfus seviyesi bulguları arasındaki tutarsızlıklar tanımlayabilir, bu işaret iyidir kötüdür beri VEYA genellikle bir sabit parametredir yorumlamak.
Muhtemelen risk tahminlerindeki aşırı örnekleme eğiliminin üstesinden gelmenin en iyi ve en kolay yolu, ağırlıklı olasılık kullanmaktır.
Scott ve Wild ağırlıklandırmayı tartışıyor ve engelleme terimini ve modelin risk tahminlerini düzelttiğini gösteriyor. Bu, popülasyondaki vakaların oranı hakkında önceden bir bilgi olduğunda en iyi yaklaşımdır . Sonucun prevalansı aslında 1: 100 ise ve vakaları 1: 1 şeklinde kontrol ediyorsanız, popülasyona tutarlı parametreler ve tarafsız risk tahminleri elde etmek için sadece 100 kontrol büyüklüğündeki kontrolleri ağırlıklandırırsınız. Bu yöntemin dezavantajı, başka yerde hatayla tahmin edilmiş olması halinde, nüfus yaygınlığındaki belirsizliği hesaba katmamasıdır. Bu, Lumley ve Breslow'un açık bir araştırma alanı.İki fazlı örnekleme ve iki kat daha sağlam tahmin ediciyle ilgili bazı teorilerle çok ileri geldi. Bence çok ilginç şeyler. Zelig'in programı sadece ağırlık özelliğinin bir uygulaması gibi görünüyor (R'nin glm fonksiyonu ağırlıklara izin verdiği için biraz gereksiz görünüyor).