30 yeterince büyük bir örneklem büyüklüğü olarak kullanılmasını desteklemek için hangi referanslar gösterilmelidir?


41

En az 30 ünitenin örneklem büyüklüğünün "büyük örnek" olarak kabul edildiğini birçok kez okudum / duydum (ortalamaların normallik varsayımları, genellikle yaklaşık CLT'ye bağlı,…). Bu nedenle, denemelerimde genellikle 30 birim numune üretiyorum. Lütfen örnek büyüklüğü 30 kullanılırken belirtilmesi gereken bazı referansları verebilir misiniz?


2
Tahmin etmeye çalıştığınız parametre sayısına veya eşdeğerde çalıştığınız model türüne atıfta bulunmadan, size açık bir cevap vermek oldukça zor görünüyor.
chl

2
N = 30'un küçük ve büyük örneklemlerin sınırı olarak kabul edilmesi, herhangi bir istatistiksel teknikle iyi bir şekilde desteklenmemektedir.
Jibol

Yanıtlar:


37

Küçük ve büyük numuneler arasındaki bir sınır için n = 30 seçimi sadece kural olarak kabul edilir. Hogg ve Tanis'in Olasılık ve İstatistiksel Çıkarımı (7e), "25 veya 30'dan daha büyük" yazan , bu değeri öne süren çok sayıda kitap vardır .

Dedi ki, bana söyledi hikaye oldukça Student için yapılmış çünkü iyi bir sınır olduğu gibi tek nedeni 30 kabul olmasıydı t bir sayfaya sığacak şekilde ders kitaplarının arkasında tablolar. Bu ve kritik değerler (Student'in t'si ile Normal'i arasında) sadece yaklaşık olarak 0.25'e kadar df = 30'dan df = sonsuzluğa kadar kapalıdır. El hesaplaması için fark gerçekten önemli değildi.

Günümüzde her türlü şey için kritik değerleri 15 ondalık basamağa kadar hesaplamak kolaydır. Bunun da ötesinde, parametrik popülasyon dağılımlarıyla bile sınırlı olmadığımız yeniden örnekleme ve permütasyon yöntemlerimiz var.

Uygulamada asla n = 30'a güvenmiyorum . Verileri çiz. İsterseniz normal bir dağılımı üst üste getirin. Normal bir yaklaşımın uygun olup olmadığını görsel olarak değerlendirin (ve bir yaklaşımın gerçekten gerekli olup olmadığını sorun). Araştırma için bir numune üretmek ve bir yaklaşım zorunluysa, yaklaşımı istediğiniz kadar yakın (veya hesaplamalı olarak mümkün olduğu kadar) yapmak için yeterli miktarda bir örnek oluşturun .


13
İşte t dağılımının normal yaklaşımının n = 30 için tam olarak ne kadar iyi olduğu ile ilgili bir sayfa. johndcook.com/normal_approx_to_t.html
John D. Cook

41

Aslında, "sihirli sayı" 30 bir yanlıştır. Jacob'ın Cohen'in keyifli makalesi, Öğrendiğim Şeyler (Şimdiye Kadar) (bkz. Psych. Aralık 1990 45 # 12, s. 1304-1312) . Bu efsane, "öğrendiğin bazı şeylerin böyle olmadığını" ilk örneğidir.

Doktora arkadaşlarımın hiçbiri, grup başına sadece 20 vakadan oluşan bir örneklem ile tez çalışması yaptı. ... [L] keşfedildikten sonra ... kutsanmış iki kuyruklu düzeyinde grup başına olan iki bağımsız grup ortalama karşılaştırma için , orta büyüklükte bir etkinin etiketlenme olasılığını önemli olduğu gibi ... t testi sadece . Bu nedenle, gerçekte etki büyüklüğü anlamlı olsa bile, kişinin anlamlı bir sonuç elde edip etmeyeceği yaklaşık olarak bir madeni para çeviriciydi. ... [Arkadaşım] önemli bir psikanalitik teori dalını yıkmaya devam ettiği önemsiz sonuçlarla sonuçlandı.n=30.0547.47


2
Güzel referans - ve ilgili nokta. Teşekkür ederim.
whuber

1
@whuber Hangi kağıt olduğunu hatırlıyor musunuz? Bağlantı şimdi tarafından koptu. Belki bu psych.colorado.edu/~willcutt/pdfs/Cohen_1990.pdf , "Öğrendiğim Şeyler (Şimdiye Kadar)"? Yıl, kopuk bağlantının URL’sindeki ile aynı.
amip diyor Reinstate Monica,

1
@Amoeba Okuduğumda bu kağıdı sakladım, böylece bulduğunuzun ne olduğunu buldum. Bu cevabı, bağlantınızla birlikte bir alıntı içerecek şekilde güncelledim.
whuber

@Carlos Accioly Önceki bağlantıyı kırıldığı için yeni bağlantıyla güncelledim.
Akshay Bansal

9

IMO, her şey örnekleminizi ne için kullanmak istediğinize bağlı. Ne demek istediğimi açıklamak için iki "saçma" örnek: Bir ortalama tahmin etmeniz gerekirse, 30 gözlem yeterlidir. 100 prediktör ile doğrusal bir regresyon tahmin etmeniz gerekiyorsa, 30 gözlem yeteri kadar yakın olmayacaktır.


9

Genelde keyfi kurallar. Bu ifade, doğru olacak bir dizi faktöre bağlıdır. Örneğin, verilerin dağıtımı hakkında. Veriler örneğin bir Cauchy'den geliyorsa, ortalamayı tahmin etmek için 30 ^ 30 gözlem bile bile (bu durumda sonsuz sayıda gözlem bile birleştirmek için). Çizdiğiniz değerler birbirinden bağımsız değilse, bu sayı (30) da yanlıştır (yine, örneklem büyüklüğünden bağımsız olarak bir yakınsama olmayabilir.)μ¯(n)

Daha genel olarak, CLT'nin tutması için esas olarak iki ayağa ihtiyacı vardır:

  1. Rastgele değişkenlerin bağımsız olması: gözlemlerinizi herhangi bir bilgiyi kaybetmeden tekrar sıralayabilirsiniz *.
  2. Rv'nin sonlu ikinci dakikalara sahip bir dağılımdan geldiği: yani, ortalama ve sd'nin klasik tahmin edicileri, örneklem büyüklüğü arttıkça birleşme eğilimindedir.

(Bu iki durum da biraz zayıflamış olabilir, ancak farklılıklar büyük ölçüde teorik niteliktedir)


6
Örneğin, sağlam istatistiklerin değerini gösterir. Numune medyan iyi bir Cauchy dağılımının yeri parametresini tahmin ediyor. Biri 30 örnekli bir t-testi kullanmanın en zayıf halkasının 30 örnek değil t-test olduğunu iddia edebilir.
John D. Cook

1
John:> "30 örnekli bir t testi kullanmanın en zayıf halkasının 30 örnek değil t-testi olduğu söylenebilir". Çok doğru ve veri olduğunu da varsayım IID . Ayrıca, ortanca Cauchy için rastgele değişkenler (ve dolayısıyla verimli) dağıttığı için MLE'dir, ancak genel olarak 30'dan fazla gözlem yapmanız gerekebilir.
user603 12:10

1
CLT'nin tüm versiyonları aynı dağılıma, hatta bağımsızlığa dayanmaz. Undergrads için öğretilen temel olanları sık sık yaparlar, ancak Lyapunov CLT'nin bağımsızlık varsaydığı, ancak aynı dağılımları sağlamadığı gibi her iki varsayımı da yapmayan versiyonları vardır ve bağımsızlık koşulu, örneğin buraya bakınız . Bu 'yeniden sıralama' meselesi de bağımsızlıkla aynı değildir. Bazı bağımlılık türleri düzene dayanmaz.
Glen_b

2
CLT'nin log-normal dağılımın ortalaması için bir güven aralığı hesaplamak için yeterince iyi çalışması için 50.000 örnek büyüklüğü yeterli değildir.
Frank Harrell
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.