Lojistik regresyon için örneklem büyüklüğü?


26

Anket verilerimden lojistik bir model yapmak istiyorum. Sadece 154 katılımcıyla görüşülen dört konut kolonisinden oluşan küçük bir ankettir. Bağımlı değişkenim "işe tatmin edici bir geçiş". Araştırmaya katılan 154 kişiden 73'ünün, işe geri kalanının yapmadıkça işe tatmin edici bir şekilde geçtiklerini söyledi. Dolayısıyla bağımlı değişken doğada ikilidir ve lojistik regresyon kullanmaya karar verdim. Yedi bağımsız değişkenim var (üç sürekli ve dört nominal). Bir kılavuz, her yordayıcı / bağımsız değişken için 10 vaka olması gerektiğini önermektedir (Agresti, 2007). Bu rehbere dayanarak, lojistik regresyon çalıştırmanın uygun olmadığını düşünüyorum.

Haklı mıyım Eğer değilse lütfen bağımsız değişkenlerin sayısına nasıl karar vereceğimi bana bildirin


3
"Her tahminde 10 dava" yazan kural kuralını hiç anlamadım (ve ne yazık ki Agresti'nin yazdığı kitaba erişemiyorum). Demek istediğim şudur: 10'u vaka ( 190) ve 90'ı olmayan 100 konuyu varsa 0, kural "sadece 1 tahminde bulun" diyor. Peki 0ya bunun yerine 's' modelini kullanırsam 1ve sonra tahmin edilen oran oranının karşılığını alırsam? 9 öngörücü eklememe izin verilir mi? Bu bana hiç mantıklı gelmiyor.
boscovich

Sevgili Andrea, demek istediğin aynı şeyi söyledim. Yanıt veren 154 kişiden 73'ü (1'i ve 0'ı dinleniyor) dava açtı. Soruma ışık tutabilir misin? Teşekkürler!
Braj-Stat,

4
Bir yorumda, olay sayısının ve olay sayısının azlığına bakması gerektiğini okudum. Yani 10/100 örneğinde, onu nasıl kodladığınızdan bağımsız olarak bir tahminci ile bitirdiniz.
psj

@ SPS makul görünüyor. Herhangi bir referansınız var mı?
boscovich

Yanıtlar:


25

Burada birkaç sorun var.

Tipik olarak, minimum düzeyde kabul edilebilir bir istatistiksel güç seviyesine ulaşmak için minimum bir numune büyüklüğü belirlemek istiyoruz . Gerekli olan örneklem büyüklüğü, temelde 0'dan (veya kullandığınız her ne olursa olsun, ancak 0 en yaygın olanıdır) ve bu etkiyi en az yakalama olasılığından farklılaştırmak istediğiniz etkinin büyüklüğü gibi çeşitli faktörlerin bir işlevidir. sahip olmayı istemek. Bu açıdan çalışan örneklem büyüklüğü bir güç analizi ile belirlenir.

Diğer bir husus, modelinizin kararlılığıdır (@cbeleites'in dediği gibi). Verilerin sayısı tahmin parametrelerinin oran 1'e yakın alır gibi Temelde,, modeliniz doymuş hale gelecektir ve edecektir mutlaka olması overfit (olmadıkça, aslında, sistemdeki rastgelelik). 1 ile 10 oran kuralı bu perspektiften gelir. Yeterli güce sahip olmanın bu endişeyi sizin için genel olarak kapsayacağını, ancak bunun tersi olmadığını unutmayın.

1 ila 10 kuralı, doğrusal regresyon dünyasından gelir, ancak lojistik regresyonun ek karmaşıklıklar olduğunu bilmek önemlidir. Bir sorun, lojistik regresyonun 1 ve 0'ların yüzdeleri yaklaşık% 50 /% 50 olduğunda en iyi şekilde çalıştığıdır (@andrea ve @psj yukarıdaki yorumlarda tartışıldığı gibi). Endişe edilmesi gereken bir diğer husus da ayrılık . Yani, 1'inizin hepsinin bağımsız bir değişkenin bir ucunda (veya bunların bir kombinasyonunda) ve 0'ında birinin ise diğer ucunda toplanmasını istemezsiniz. Bu iyi bir durum gibi görünse de, mükemmel bir tahminde bulunmayı kolaylaştıracağı için, aslında parametre tahmin sürecinin patlamasını sağlar. (@Scortchi, burada lojistik regresyonda ayrımcılıkla nasıl başa çıkılacağı konusunda mükemmel bir tartışma yürütüyor:Lojistik regresyonda kusursuz ayrılıkla nasıl başa çıkılır? ) Daha fazla IV ile, etkilerin gerçek büyüklükleri sabit tutulsa ve özellikle tepkileriniz dengesiz olsa bile, bu daha olası hale gelir. Böylece IV başına 10'dan fazla veriye kolayca ihtiyacınız olabilir.

Bu kural ile son bir konu, IV'lerin ortogonal olduğunu varsayıyor . Bu, tasarlanan deneyler için makul, ancak sizinki gibi gözlemsel çalışmalarla, IV'leriniz neredeyse hiç kabaca ortogonal olmayacaktır. Bu durumla başa çıkma stratejileri var (örneğin, IV'leri birleştirmek veya düşürmek, ilk önce temel bileşenler analizini yapmak, vb.), Ancak ele alınmazsa (yaygın olan), daha fazla veriye ihtiyacınız olacaktır.

Makul bir soru, minimum N değeriniz ne olmalı ve / veya numune büyüklüğünüz yeterli mi? Bunu ele almak için @cbeleites'in tartıştığı yöntemleri kullanmanızı öneririm; 1-10 kuralına güvenmek yetersiz olacaktır.


6
"Bir sorun, lojistik regresyonun 1 ve 0'ların yüzdeleri yaklaşık% 50 /% 50 olduğunda en iyi şekilde çalıştığıdır" ifadesine referans verebilir misiniz? Bunu kendim merak ediyorum, 50 / 50'den çok uzak bir veri kümesine sahibim ve sonuçları merak ediyorum. (ipliği diriltdiğim için üzgünüm)
Trevor

3
Uygun olduğunda, eski bir iş parçacığını diriltmekle ilgili bir sorun görmüyorum, @Trevor. Bence aradığınız şey, bu güzel cevabın konjugat çizgisi boyunca verdiği bir şey: bence dengesiz bir örnek-madde-ne-yaparken-lojistik-regresyon mu ?
gung - Reinstate Monica

2
Trevor'ın sorusuna +1. Lojistik regresyonun, aynı veriler olsa bile (azalan verilere rağmen) yeni verilerden faydalanmaya devam edeceğine inanıyorum. Bu, beni rastgele ormanlar gibi makine öğrenim teknikleri konusunda rahatsız eden bir şey - daha alakalı eğitim verileri ekleyerek daha kötü hale gelebilecekleri. Belki de, dengesizliğin çok şiddetli olması durumunda, lojistik gerilemenin sayısal düşünceler nedeniyle kırılacağı bir nokta vardır. Bu konuda daha fazla bilgi edinmek isterdim.
Ben Ogorek

+1, belki de cevabınız budur. Emin değilim ama farklı seviyelerde kategorik değişkenler için bunun nasıl çalıştığını merak ediyorum. Seviye başına 10 gözlem yapılması önerilebilir mi?
baxx

1
Size 45. En az gerekir, daha adil yüzdeleri tahmin daha yapmak, evet başparmak, @baxx bir kuraldır, ama
Gung - Eski Monica

16

Tipik olarak 15: 1 kuralını kullanırım (min (olaylar, olaylar olmayanlar) modeldeki aday parametrelerin sayısına oranı ). Daha yakın tarihli bir çalışma daha titiz bir onaylama için 20: 1'in gerekli olduğunu buldu. Ders notlarımda daha fazla bilgi bulunabilir: http://biostat.mc.vanderbilt.edu/rms , özellikle sadece kesilmeyi tahmin etmek için en az 96 örneklem büyüklüğü için bir argüman. Ancak, örneklem büyüklüğü gereksinimi daha farklıdır ve daha yeni bir makale bunu daha kapsamlı olarak ele almaktadır.


14

Genellikle, çok az vaka wrt. Model karmaşıklığı (parametre sayısı), modellerin dengesiz olduğu anlamına gelir . Bu nedenle, örneklem büyüklüğü / model karmaşıklığının uygun olup olmadığını bilmek istiyorsanız, makul bir model olup olmadığını kontrol edin.

(En az) iki farklı tür kararsızlık vardır:

  1. Model parametreleri eğitim verileri yalnızca ufak değişiklik dışında çok değişir.

  2. Tahminler eğitim verileri hafif değişikliklerle eğitilmiş modellerin (aynı dava için) çok değişir.

Antrenman verileri hafifçe bozulursa, model katsayılarınızın ne kadar değiştiğine bakarak ölçebilirsiniz. Uygun bir grup model, örneğin önyükleme sırasında veya (yinelenmiş) çapraz doğrulama prosedürleri sırasında hesaplanabilir.

Bazı model veya problemlerde değişken parametreler değişken tahminler anlamına gelmez. 2. Önyükleme dışı veya yinelenen çapraz onaylama sırasında hesaplanan aynı durum için (doğru olup olmadıklarına bakılmaksızın) öngörülerin değişkenliğine bakarak doğrudan kararsızlığı kontrol edebilirsiniz.


5

Katı kurallar yoktur, ancak nominal değişkenler çok fazla kategoriye sahip olmadığı sürece tüm bağımsız değişkenleri dahil edebilirsiniz. Her nominal değişken için sınıfın biri hariç tümü için bir "beta" gerekir. Bu nedenle, nominal bir değişken "çalışma alanı" olarak söylenmişse ve 30 alanınız varsa, o zaman 29 beta gerekir.

Bunun üstesinden gelmenin bir yolu, betaları düzene sokmak veya büyük katsayıları cezalandırmaktır. Bu, modelinizin verilere uygun olmadığından emin olmanıza yardımcı olur. L2 ve L1 düzenlenmesi popüler seçeneklerdir.

Dikkate alınması gereken bir diğer husus, numunenizi ne kadar temsilidir. Hangi nüfustan çıkarım yapmak istiyorsunuz? Örnekte, popülasyonda olduğu gibi farklı türden insanlar var mı? Örneğinizde "delikler" varsa (örneğin, örneklemde 35-50 yaş arası kadın veya yüksek gelirli çalışanlar yok vb.) doğru çıkarım yapmak zor olacaktır.


4

İşte MedCalc web sitesinin asıl cevabı user41466 hakkında yazdı

http://www.medcalc.org/manual/logistic_regression.php

Örneklem büyüklüğü konuları

Lojistik regresyon için örneklem büyüklüğü hesaplaması karmaşık bir sorundur, ancak Peduzzi ve ark. (1996) çalışmanıza dahil edilmesi gereken asgari sayıda vaka için aşağıdaki rehber önerilebilir. P, popülasyondaki negatif veya pozitif vaka oranlarının en küçüğü olsun ve k, değişkenlerin sayısını (bağımsız değişkenlerin sayısı), ardından dahil edilecek minimum vaka sayısını: N = 10 k / p Örneğin: siz: modele dahil edilecek 3 değişken var ve popülasyondaki pozitif vakaların oranı 0,20 (% 20). Gerekli olan asgari vaka sayısı N = 10 x 3 / 0.20 = 150 ise sonuç sayısı 100'den az ise, Long (1997) tarafından önerildiği gibi 100'e yükseltmelisiniz.

Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) Lojistik regresyon analizinde değişken başına düşen olay sayısının simülasyon çalışması. Klinik Epidemiyoloji Dergisi 49: 1373-1379.


Yani bağımsız değişken başına (taban ile birlikte) aynı 10 kasa
seanv507 16.06.2016

1

Bağımsız değişken başına gözlem sayısı en az beş ila dokuz arasında değişen herhangi bir lojistik modelden elde edilen sonuçlar güvenilirdir, özellikle de sonuçlar istatistiksel olarak önemliyse (Vittinghoff ve McCulloch, 2007).

Vittinghoff, E. ve McCulloch, CE 2007. Lojistik ve Cox regresyonda değişken başına on olayın kuralını gevşetmek. Amerikan Epidemiyoloji Dergisi, 165 (6): 710-718.


Söz konusu olan "bağımsız değişken başına gözlem sayısı" kesinlikle değildir, "etkinlik sayısı" dır. Lojistik bir regresyon için, "olayların" sayısı, iki sonuç sınıfının en az sıklıkla bulunan vakaların sayısıdır. Bu, toplam gözlem sayısının 1 / 2'sinden daha büyük olmayacaktır ve bazı uygulamalarda, bundan daha düşük bir anlaşma.
EdM
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.