Yorumlardaki diğer cevaplara katılmadım, bu yüzden kendi cevaplarımı vermek adil. Let yanıt (iyi / kötü hesaplar) olacak ve covariates olun.YX
Lojistik regresyon için model şu şekildedir:
log(p(Y=1|X=x)p(Y=0|X=x))=α+∑ki=1xiβi
Verilerin nasıl toplanabileceğini düşünün:
- Bazı varsayımsal "popülasyon" dan gözlemleri rastgele seçebilirsiniz
- Verileri göre seçebilir ve hangi değerlerinin oluştuğunu görebilirsiniz.XY
Bunların her ikisi de sadece dağılımını modellediğiniz için yukarıdaki model için uygundur . Bunlara prospektif çalışma denir .Y|X
Alternatif:
- Gözlemleri göre seçebilir (her biri için 100 diyelim) ve göreceli yaygınlığını görebilirsiniz (yani katmanlaştırıyorsunuz ). Buna retrospektif veya vaka kontrol çalışması denir .YXY
(Ayrıca ve bazı değişkenlerine dayalı olarak verileri de seçebilirsiniz : bu tabakalı bir vaka kontrol çalışması olacaktır ve çalışmak çok daha karmaşıktır, bu yüzden buraya girmeyeceğim).YX
Epidemiyolojiden (bkz. Prentice ve Pyke (1979) ) bir vaka kontrol çalışması için, için maksimum olasılık tahminlerinin , geriye dönük veriler için prospektif modeli kullanan lojistik regresyon ile bulunabileceği iyi bir sonuç vardır.β
Peki bu probleminizle nasıl ilgili?
Bu, daha fazla veri toplayabiliyorsanız, kötü hesaplara ve değerini tahmin etmek için yine de lojistik regresyonu kullanabileceğiniz 'leri(ancakaşırı temsili hesaba katmak için α'yı ayarlamanız gerekir.). Her bir ek hesap için 1 ABD Doları'na mal olduğunu varsayalım, bu sadece tüm hesaplara bakmaktan daha uygun maliyetli olabilir.βiα
Ancak öte yandan, eğer TÜM olası verileriniz zaten varsa, katmanlaşmanın bir anlamı yoktur: sadece veriyi atarsınız (daha kötü tahminler verir), ve sonra tahmin etmeye çalışmanız gerekir .α