Çoklu regresyon için minimum örneklem büyüklüğü için kurallar


72

Sosyal bilimlerde bir araştırma önerisi kapsamında bana şu soru soruldu:

Çoklu regresyon için minimum örneklem büyüklüğü belirlenirken her zaman 100 + m (burada m, tahmincilerin sayısıdır) olmuştur. Bu uygun mu?

Sık sık farklı kurallarla, benzer soruları çok alıyorum. Ayrıca, çeşitli ders kitaplarında bu tür kurallar okudum. Bazen bir kuralın atıflar bakımından popülerliğinin standardın ne kadar düşük olduğuna bağlı olup olmadığını merak ediyorum. Bununla birlikte, karar vermeyi basitleştirmede iyi sezgisellerin değerinin de farkındayım.

Sorular:

  • Araştırma çalışmaları tasarlayan uygulamalı araştırmacılar bağlamında, minimum örneklem büyüklüğü için basit kuralların yararı nedir?
  • Çoklu regresyon için minimum örneklem büyüklüğü için alternatif bir kural önerir misiniz?
  • Alternatif olarak, çoklu regresyon için minimum örneklem büyüklüğünü belirlemek için hangi alternatif stratejileri önerirsiniz? Özellikle, herhangi bir stratejinin istatistikçi olmayan bir kişi tarafından kolaylıkla uygulanabileceği dereceye değer verilmesi iyi olur.

Yanıtlar:


36

Minimum örneklem büyüklüğü oluşturmak için basit formüller hayranı değilim. En azından, herhangi bir formül etki büyüklüğünü ve ilgilenilen soruları dikkate almalıdır. Ve kesme işleminin her iki tarafındaki fark minimumdur.

Optimizasyon problemi olarak örneklem büyüklüğü

  • Daha büyük örnekler daha iyidir.
  • Örneklem büyüklüğü genellikle pragmatik düşüncelere göre belirlenir.
  • Örneklem büyüklüğü, zaman, para, emek vb. İlave katılımcıların elde edilmesinde maliyetin, ilave katılımcılara sahip olmanın yararlarına karşı ağırlıklandırıldığı bir optimizasyon probleminde dikkate alınmalıdır.

Sert Bir Kural Kuralı

Beceri testleri, tutum ölçekleri, kişilik ölçüleri ve benzeri şeyleri içeren gözlemsel psikolojik çalışmaların tipik bağlamındaki çok katı kurallar açısından, bazen düşünüyorum:

  • n = 100 yeterli
  • n = 200 kadar iyi
  • n = 400 +

Bu kurallar, ilgili seviyelerdeki korelasyonlarla ilişkili% 95 güven aralığında ve ilgi ilişkilerini teorik olarak anlamak istediğim hassasiyet derecesine dayanmaktadır. Ancak, sadece bir buluşsal.

G Gücü 3

Çoklu Regresyon Testleri çoklu hipotezler

  • Herhangi bir güç analizi sorusu, etki büyüklüklerinin dikkate alınmasını gerektirir.
  • Çoklu regresyon için güç analizi, toplam r-kare ve her bir bireysel katsayı için bir tane olmak üzere çoklu etkiler olduğu gerçeğiyle daha karmaşık hale getirilmiştir. Ayrıca, çoğu çalışma birden fazla regresyon içermektedir. Benim için bu, genel sezgisel taramalara daha fazla güvenmek ve tespit etmek istediğiniz asgari etki büyüklüğünü düşünmek için başka bir nedendir.

  • Çoklu regresyonla ilgili olarak, altta yatan korelasyon matrisini tahmin etmedeki hassasiyet derecesi açısından daha fazla düşüneceğim.

Parametre Tahminindeki Doğruluk

Ayrıca Ken Kelley ve meslektaşlarının Parametre Tahminindeki Doğruluk tartışmasını da beğeniyorum.

  • Yayınlar için Ken Kelley'nin web sitesine bakın
  • @Dmitrij'in belirttiği gibi, Kelley ve Maxwell (2003) BEDAVA PDF'nin yararlı bir makalesi var.
  • Ken Kelley MBESS, parametre tahmininde numune büyüklüğünün hassasiyetle ilgili analizlerini yapmak için R'de paketi geliştirdi .

17

Bir güç meselesi olarak görmeyi tercih ederim, daha çok soru, "ne kadar büyük olmalıdır sormayın bu kadar belirgin olduğunu olmak güvenilebilir"? Yaklaşmanın bir yolu, ve arasındaki oranı veya farkı düşünmektir, ikincisi tarafından verilen düzeltilmiş ve "gerçek" için daha tarafsız bir tahmin oluşturuyor .R, 2 R, 2 R, 2 bir d J R ' 2 1 - ( 1 - R 2 ) n- - 1nR2R2Radj2R2 R21(1R2)n1np1R2

Bazı R kodu faktörü çözmek için kullanılabilecek gibi olmalıdır sadece bir faktör daha küçük veya sadece küçük . , n - 1 R, 2 bir d j k R 2 kpn1Radj2kR2k

require(Hmisc)
dop <- function(k, type) {
  z <- list()
  R2 <- seq(.01, .99, by=.01)
  for(a in k) z[[as.character(a)]] <-
    list(R2=R2, pfact=if(type=='relative') ((1/R2) - a) / (1 - a) else
         (1 - R2 + a) /  a)
  labcurve(z, pl=TRUE, ylim=c(0,100), adj=0, offset=3,
           xlab=expression(R^2), ylab=expression(paste('Multiple of ',p)))
}
par(mfrow=c(1,2))
dop(c(.9, .95, .975), 'relative')
dop(c(.075, .05, .04, .025, .02, .01), 'absolute')

görüntü tanımını buraya girin Açıklama: Parçalanma nispi bir damla elde edilmesini için bir belirtilen nispi faktörü (sol panel, 3 faktör) ya da mutlak fark (sağ panel tarafından, 6 azalışlar). R, 2 R, 2 bir d jR2R2Radj2

Birisi bunu yazılı olarak görmüşse lütfen bana bildirin.


1
+1. Oldukça basit ve belirgin bir şeyi kaçırdığımdan şüpheleniyorum ama neden ölçüt olarak tahmin etmek için özelliğini kullanmalıyız ? düşük olsa bile, zaten erişimimiz var . Bu minimal yeterli düşünmek doğru yolu niçin bir yolu var mı o yapar gerçeğinin dışına daha iyi tahmin ? R^2R2Radj2NNR^2R2
gung

@ FrankHarrell: Buraya bakın yazar 260-263 arsalarını yukarıdaki yazıdakilerle aynı şekilde kullanıyor gibi görünüyor.
kullanıcı603

5
Referans için teşekkürler. @gung bu iyi bir soru. Bir (zayıf) cevap, bazı model türlerinde bir olmadığı ve ayrıca herhangi bir değişken seçimi yapıldığında düzeltilmiş bir dizine sahip olmadığımızdır. Ancak asıl fikir, eğer yansız ise, sıralama korelasyon önlemleri gibi diğer öngörücü ayrımcılık indekslerinin, örneklem büyüklüğünün yeterliliği ve asgari uygunluk nedeniyle de tarafsız olması muhtemeldir. Radj2R2
Frank Harrell

12

(+1) gerçekten önemli bir şey için, bence, soru.

Makro-ekonometride, mikro, finansal ve sosyolojik deneylerden çok daha küçük örneklem büyüklüklerine sahipsiniz. Bir araştırmacı, en azından uygun tahminler yapabileceği zaman oldukça iyi hisseder. Kişisel mümkün olan en küçük ( bir tahmini parametrede serbestlik derecesi). Diğer uygulamalı çalışma alanlarında genellikle verilerden daha şanslısınız (eğer çok pahalı değilse, sadece daha fazla veri noktası toplayın) ve bir örneğin en uygun boyutunun ne olduğunu sorabilirsiniz (sadece bunun için minimum değer değil). İkinci sorun, daha düşük kaliteli (gürültülü) verilerin daha küçük kaliteli örneklerden daha iyi olmaması gerçeğinden kaynaklanmaktadır.4m4

Örneklem boyutlarının çoğu, çoklu regresyon modeline uyduktan sonra test edeceğiniz hipotez için testlerin gücüyle bağlantılıdır.

Çoklu regresyon modelleri ve sahne arkasındaki bazı formüller için faydalı olabilecek güzel bir hesap makinesi var . Böyle bir a priory hesap makinesinin istatistikçi olmayan kişilerce kolayca uygulanabileceğini düşünüyorum.

Muhtemelen K.Kelley ve SEMaxwell makalesi diğer soruları cevaplamak için faydalı olabilir, ancak sorunu araştırmak için önce daha fazla zamana ihtiyacım var.


11

çok büyükse , kural kuralınız özellikle iyi değildir . Al : Kural sığacak şekilde ok diyor sadece değişkenleri gözlemler. Öyle sanmıyorum!mm=500500600

Çoklu regresyon için, minimum örneklem büyüklüğü öneren bazı teorileriniz var. Sıradan en küçük kareleri kullanacaksanız, o zaman ihtiyaç duyduğunuz varsayımlardan biri "gerçek artıklar" ın bağımsız olmasıdır. Şimdi, değişkenlerine en küçük kareler modeline uyduğunuzda , ampirik kalıntılarınıza doğrusal kısıtlamalar uyguluyorsunuz (en küçük kareler veya "normal" denklemlerle verilir). Bu, ampirik artıkların bağımsız olmadığı anlamına gelir - bir kez öğrendiğimizde , kalan hesaplanabilir, burada , numune büyüklüğüdür. Dolayısıyla bu varsayımı ihlal ediyoruz. Şimdi bağımlılığın sırası . Bu yüzden eğer seçersenizmm+1nm1m+1nO(m+1n)n=k(m+1) bazı sayıları için sıra tarafından verilir . Böylece, seçerek, ne kadar bağımlılığa tahammül etmeye istekli olduğunuzu seçersiniz. Ben seçim siz "merkezi limit teoremi" uygulamak için yapmak aynı yolla - iyidir ve biz kural "istatistik sayma" var (yani istatistikçinin sayma sistemidir ).kkk10-20301,2,...,26,27,28,29,O(1k)kk1020301,2,,26,27,28,29,


10'dan 20'ye kadar iyi olduğunu söylüyorsunuz, ancak bu aynı zamanda hata varyansının büyüklüğüne de bağlıdır (muhtemelen diğer şeylere göre)? Örneğin, yalnızca bir öngörücü değişken olduğunu varsayalım. Hata varyansının gerçekten çok küçük olduğu biliniyorsa, eğim ve kesişmeyi güvenilir bir şekilde tahmin etmek için 3 veya 4 veri noktasının yeterli olabileceği görülüyor. Öte yandan, hata farkının çok büyük olduğu biliniyorsa, 50 veri noktası bile yetersiz olabilir. Bir şeyi yanlış mı anlıyorum?
mark999

Lütfen önerilen denkleminiz için referans verebilir misiniz n=k(m+1)?
Sosi

6

Psikolojide:

Yeşil (1991), çoklu korelasyonu test etmek için (burada m'nin bağımsız değişkenlerin sayısı olduğu) ve bireysel tahmincileri test etmek için gerekli olduğunu gösterir.N > 104 + mN>50+8mN>104+m

Kullanılabilecek diğer kurallar ...

Harris (1985), katılımcı sayısının yordayıcı sayısını en az oranında aşması gerektiğini söylüyor .50

Van Voorhis ve Morgan (2007) ( pdf ) 6 veya daha fazla tahminciyi kullanarak katılımcıların mutlak asgari olması gerekir . Değişken başına katılımcı için gitmek daha iyidir .301030


1
İlk kuralın içinde m yok.
Dason

İlk kuralı, N = 50 + 8 m50 terimine gerçekten ihtiyaç duyulup duyulmadığı sorulmasına rağmen , ilk olarak yazılıyor
Sosi

Örnek etki büyüklüğünü dikkate alan yeni ve daha karmaşık bir kural ekledim. Bu aynı zamanda Green (1991) tarafından sunuldu.
Sosi

2
Green (1991) ve Harris (1985) referanslarının tam alıntıları nelerdir?
Hatshepsut

2

Güç hesaplayıcılarının, özellikle farklı faktörlerin güç üzerindeki etkisini görmek için faydalı olduğuna katılıyorum. Bu anlamda, daha fazla girdi bilgisi içeren hesap makineleri çok daha iyidir. Doğrusal regresyon için, buradaki X'lerdeki hata, X'ler arasındaki korelasyon ve diğer faktörleri içeren regresyon hesaplayıcısını seviyorum .


0

Biz , tahmin edilen regresyon katsayılarının ve standart hataların doğruluğuna (ve elde edilen güven aralıklarının ampirik kapsamına ) düştüğümüz sürece, değişken başına sadece 2 gözlemin yeterli olduğunu değerlendiren bu oldukça yeni makaleyi (2015) buldum. kullanmak ayarlanmış :R2

( pdf )

Kuşkusuz, makalede de belirtildiği gibi (göreceli) tarafsızlık, yeterli istatistiksel güce sahip olması anlamına gelmez. Bununla birlikte, güç ve numune büyüklüğü hesaplamaları tipik olarak beklenen etkiler belirtilerek yapılır; çoklu regresyon durumunda, bu, regresyon katsayılarının değeri veya regresörler arasındaki korelasyon matrisi ile sonuç yapılması gereken bir hipotez anlamına gelir. Uygulamada, regresörlerin sonuçla ve kendi aralarındaki korelasyonunun gücüne dayanır (tabii ki, sonuç çok yönlü olarak kötüleşirken sonuçla korelasyon için daha güçlüdür). Örneğin, iki mükemmel collinear değişkenin aşırı durumunda, gözlem sayısından bağımsız olarak, hatta sadece 2 değişkenle regresyonu yapamazsınız.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.