Burada birkaç sorun var.
Tipik olarak, minimum düzeyde kabul edilebilir bir istatistiksel güç seviyesine ulaşmak için minimum bir numune büyüklüğü belirlemek istiyoruz . Gerekli olan örneklem büyüklüğü, temelde 0'dan (veya kullandığınız her ne olursa olsun, ancak 0 en yaygın olanıdır) ve bu etkiyi en az yakalama olasılığından farklılaştırmak istediğiniz etkinin büyüklüğü gibi çeşitli faktörlerin bir işlevidir. sahip olmayı istemek. Bu açıdan çalışan örneklem büyüklüğü bir güç analizi ile belirlenir.
Diğer bir husus, modelinizin kararlılığıdır (@cbeleites'in dediği gibi). Verilerin sayısı tahmin parametrelerinin oran 1'e yakın alır gibi Temelde,, modeliniz doymuş hale gelecektir ve edecektir mutlaka olması overfit (olmadıkça, aslında, sistemdeki rastgelelik). 1 ile 10 oran kuralı bu perspektiften gelir. Yeterli güce sahip olmanın bu endişeyi sizin için genel olarak kapsayacağını, ancak bunun tersi olmadığını unutmayın.
1 ila 10 kuralı, doğrusal regresyon dünyasından gelir, ancak lojistik regresyonun ek karmaşıklıklar olduğunu bilmek önemlidir. Bir sorun, lojistik regresyonun 1 ve 0'ların yüzdeleri yaklaşık% 50 /% 50 olduğunda en iyi şekilde çalıştığıdır (@andrea ve @psj yukarıdaki yorumlarda tartışıldığı gibi). Endişe edilmesi gereken bir diğer husus da ayrılık . Yani, 1'inizin hepsinin bağımsız bir değişkenin bir ucunda (veya bunların bir kombinasyonunda) ve 0'ında birinin ise diğer ucunda toplanmasını istemezsiniz. Bu iyi bir durum gibi görünse de, mükemmel bir tahminde bulunmayı kolaylaştıracağı için, aslında parametre tahmin sürecinin patlamasını sağlar. (@Scortchi, burada lojistik regresyonda ayrımcılıkla nasıl başa çıkılacağı konusunda mükemmel bir tartışma yürütüyor:Lojistik regresyonda kusursuz ayrılıkla nasıl başa çıkılır? ) Daha fazla IV ile, etkilerin gerçek büyüklükleri sabit tutulsa ve özellikle tepkileriniz dengesiz olsa bile, bu daha olası hale gelir. Böylece IV başına 10'dan fazla veriye kolayca ihtiyacınız olabilir.
Bu kural ile son bir konu, IV'lerin ortogonal olduğunu varsayıyor . Bu, tasarlanan deneyler için makul, ancak sizinki gibi gözlemsel çalışmalarla, IV'leriniz neredeyse hiç kabaca ortogonal olmayacaktır. Bu durumla başa çıkma stratejileri var (örneğin, IV'leri birleştirmek veya düşürmek, ilk önce temel bileşenler analizini yapmak, vb.), Ancak ele alınmazsa (yaygın olan), daha fazla veriye ihtiyacınız olacaktır.
Makul bir soru, minimum N değeriniz ne olmalı ve / veya numune büyüklüğünüz yeterli mi? Bunu ele almak için @cbeleites'in tartıştığı yöntemleri kullanmanızı öneririm; 1-10 kuralına güvenmek yetersiz olacaktır.
1
90) ve 90'ı olmayan 100 konuyu varsa0
, kural "sadece 1 tahminde bulun" diyor. Peki0
ya bunun yerine 's' modelini kullanırsam1
ve sonra tahmin edilen oran oranının karşılığını alırsam? 9 öngörücü eklememe izin verilir mi? Bu bana hiç mantıklı gelmiyor.