20 numara sihir mi?


12

Veri uyumu dağıtımı için minimum 20 örnek büyüklüğünün dikkate alınmasını öneren referanslarım var.

Bunda bir anlam var mı?

Teşekkürler


3
Genel olarak hayır, belirli durumlarda belki. Referanslarınız var ve hedefleriniz neler?
image_doctor

1
@İmage_doctor ile aynı fikirdeyim - 20 gözlemin asgari olarak kabul edilmesinin genel bir nedeni yoktur; çok özel durumlarda durum böyle olabilir.
Glen_b

3
Bir tek değer, dağıtım Poisson olduğu (kesin) bilindiği gibi bazı pratik durumda çalışacak ve gözlem büyük sayısıdır. Bu sadece dağıtımın uygun olmasını sağlamakla kalmaz, aynı zamanda parametresinin tahmindeki olası hatanın değerlendirilmesine de izin verir.
whuber

1
Normal dağılımlar için 30'un genel kural olduğunu da okuduğuma inanıyorum. Bana öyle geliyor ki, bir öğrencinin 30 derecelik serbestlik derecesinin normale ne kadar yakın olduğu ile ilgili bir şeydi. Ama bu sadece bir kural. Bu değeri aynı anlamda sihir değil olduğunu. e
Wayne

1
Evet, 20 sihirli bir sayıdır: en.wikipedia.org/wiki/Magic_number_%28physics%29
Bitwise

Yanıtlar:


13

Bunların çoğu beklenen dağılıma ve araştırma sorunuzun ne olduğuna bağlıdır. Pratik bir kural olarak, temel kurallara karşı dikkatli olmalısınız. Beklenen dağılımı biliyorsanız, farklı boyutlarda bazı simülasyonlar çalıştırın ve örnek simülasyonların gerçek dağılımı ne sıklıkta yansıttığını belirleyin. Bu, gerekli son numune boyutu olarak size rehberlik etmelidir.


Aşırı ve dogmatik ifadelerden uzak durmak için +1.
whuber

1
Kısmen +1, "Temel kural olarak, temel kurallara karşı dikkatli olmalısınız."
Wolfgang

7

Örneklem büyüklüğü sihirli sayısının 1000 olduğunu düşündüm. ABD ulusal anketlerinin çoğunun sahip olduğu hata payı yaklaşık% 3'tür: Gerçekte, etkili örnek boyutları daha düşüktür Eşit olmayan seçim olasılığı ve yanıtsız ayarlamalar nedeniyle 1.000'den fazla, yaklaşık 700 gibi, bu da% 3.7'lik hata payına yol açıyor.

z0.9750.50.5/1000=1.960.158=0.031

Sadece 20 gözlemle, teknik olarak çok yüksek çarpıklık ve basıklık değerleri alamazsınız (elbette örnek standart sapmalar tarafından normalleştirilir):

|skewness|n2n1=4.58,|kurtosis|n23n+3n1=18.05.
Anları yöntemine göre bir dağıtım uyguluyorsanız, 1'e eşit olan makul bir günlük varyansı (orta ila yüksek gelir eşitsizliği ülkelerinde gelir dağılımları; ABD, Brezilya, Güney Afrika) Rusya, günlük gelirlerinde daha yüksek varyansa sahiptir), çünkü şaşırtıcı derecede büyük bir basıklık 111'e sahiptir. Elbette, anlar yöntemine göre lognormal bir dağılıma uymak aptalca olurdu, ama sadece bazı gerçek dünya dağılımlarının 20 gözlemle tarif edilenden daha karmaşık olması muhtemeldir.

Dağıtım yuvada başka görüş çekirdek yoğunluğu hesaplama yoluyla alınabilir: boyuttaki örneği için , en popüler kural bant genişliğini verir Gauss çekirdeğini kullanarak tüm dağılımı etkili bir şekilde kapsayan . Başka bir deyişle, belirgin bir basıklık olmadığı sürece çekirdek büyüklüğü tahminini çalıştırırsanız 20 büyüklüğündeki çoğu örnek normal görünecektir (bu, çekirdek yoğunluğunda ayrı yumrular olarak ortaya çıkacak bazı gözlemler olduğu anlamına gelir) arsa).saat = 1.06 σ n - 1 / 5 = 0.58 σn=20

h=1.06σ^n1/5=0.58σ^

Örneklerin anları üzerindeki sınırların önemini takip etmiyorum. Tabii ki bir örnekte çok yüksek çarpıklık ve basıklık tahminleri alabilirsiniz. Deneyin: zaman numune ortalamaları ve olan bir lognormal dağılımındaki anları eşleşen zaman sonra çarpıklık tahmin numune SD, . Büyük bir geometrik SD'ye sahip bir dağıtımdan örnek oluşturun ( işe yarayacak) ve büyük çarpıklık tahminleri alacaksınız. Peki ya ham numune çarpıklığı küçükse? s ( s / m ) ( 3 + ( s / m ) 2 ) 20 2ms(s/m)(3+(s/m)2)202
whuber

1
1000'i örnek boyutu olarak kullanma bağlamında "On-On Sendromun Gücü" için zorunlu bağlantı (programlama ile ilgili istatistikler bağlamında, ancak başka bir yerde geçerlidir): zedshaw.com/essays/programmer_stats.html
Gary S. Weaver

1
@whuber, çok zekisin, suç yok. Çoğu insan, çarpıklığı, tıpkı sizin yaptığınız gibi parametrik bir varsayımla değil, veri anı olarak hesaplardı. Şimdi, "Anlar yöntemiyle Pearson dağılımını taktığınızı varsayalım" dersem - bu argüman alakalı olur mu?
StasK

Evet, birçok durumda geçerli olacaktır. Anlarınızı kullanarak lognormal bir dağılıma uyma önerinizi takip ettim ve büyük bir çarpıklık elde ettim - orada sürpriz yok. Çünkü sadece ilk iki anı eşleştirdim, üçüncüsünün olabileceği gibi olmasına izin verdim. Aynı prosedürü keyfi olarak büyük üçüncü anlara izin veren iki veya daha az parametreden oluşan herhangi bir dağıtım ailesiyle takip edersem, aynı fenomeni görecektim. İkiden fazla parametreye sahip Pearson ailesi ile muhtemelen ampirik çarpıklığı eşleştirmeye çalışacağız ve böylece değerini sınırlayacağız.
whuber

2

Hayır! Uzaktan değil.

Şöyle düşünün: milyar boyutlu bir alanınız (insanlık) varsa ve hangi yöntemi (20 kişi) kullanarak 20 örnek çıkardıysanız, kazandığınız bilgileri kullanarak gezegendeki her insanı makul bir şekilde iyi anlayabilir misiniz? Uzaktan değil. Samanyolu galaksisinde 100 milyar yıldız var. 20 tanesini (rastgele) seçerek tüm galaktik astronomiyi anlayabiliyor musunuz? Asla.

1-boyutlu bir alanda kaç tane ölçüm yapmak istediğinizi açıklayan bazı sezgisel tarama, çoğunlukla geçerli başparmak kuralları vardır. Bunlar, çeşitli derecelerde fayda ve gerekçe içerir, ancak bir anlamda "20" den daha iyi korunurlar. Bunlar "uyum denkleminizde değişken başına 5 ölçüm", "Gauss yoğunluk fonksiyonundan en az 35 örnek" ve "binom fonksiyonundan en az 300 örnek" içerir. Benim gibi bir inek bombacısı değil gerçek istatistikçiler, ilk güvencesinden ve hesap makinesinden belirli güven aralıklarını ve belirsizlikleri ilişkilendirebilecektir.

"Uyum denkleminizde parametre başına 5 ölçüm" kuralını kullanırsanız ve yüksekliklerin dağılımı açısından 2 boyutlu kavisli bi-kübik yüzeyin kümülatif yoğunluğuna uymak istiyorsanız, , 5. dereceden bir polinomun kübik oran. 6 + 4 = 10 katsayısı olacaktır. Her parametre için 2 ölçüm kullanarak veya 20 ölçüm kullanarak 10 parametre değerlerinizi sığdırmaya çalışıyorsanız, bu buluşsal yöntemi ihlal edersiniz. Bu buluşsal yöntem minimum 10 * 5 = 50 ölçüm yapılmasını önerir.a3r3+a2r2+a1r+a0a1r+a0dr

"En iyinin", "iyilik ölçüsü" olmadan anlamsız bir fikir olduğunu lütfen unutmayın. En iyi yol nedir? Eğer kıyametinize gidiyorsanız, belki de son derece uzun ve hoş bir şey. Kendi taç giyme töreninize gidecekseniz, belki kısa ve muhteşem bir taç giyme törenine gidersiniz. Çölde yürürseniz, havalı gölgeli bir çöl. "En iyi" örnek sayısı nedir? Probleminize o kadar çarpıcı bir şekilde bağımlı ki, ondan önce otorite ile cevaplanmaya başlayamaz. Hepsi? Yapabildiğin kadar çok? Bunlar sadece küçük bir anlam ifade ediyor. Evet, kısmen ölü ya da hamile olmak gibidir. Kısmen anlamsız olmak, çok az tanımlanmış bir sorunun sonucudur.

Bir uçaktaki hava akışını doğru bir şekilde tahmin etmeye çalışıyorsanız? Top parkına girmek için birkaç milyon ölçüm gerekebilir. Ne kadar uzun olduğunuzu bilmek istiyorsanız, bir ya da iki işi yapabilir.

Bu, "uzay tahminini" ve "parametre tahminlerindeki varyansı en aza indiren konumlarda örneklemeyi" önemli noktalara getirmez, ancak soru daha birinci sınıf bir cevabın alakalı olacağını ileri sürdü. Bu şeyler, uygulanmadan önce sorunun doğası hakkında daha fazla bilgi sahibi olmayı gerektirir.

Not: öneri başına iyileştirmek için düzenlendi.


1
Soruda "minimum" ifadesini "maksimum" veya "yeterli" olarak okudunuz. Yazdığınız hiçbir şey minimum 20 kuralla çelişiyor gibi görünmüyor.
whuber

2
@whuber, ekstra ölçümlerin pahalı olduğunu düşünen insanlar arasında çalışıyorum ve eğer onlara "minimum sayıda örnek" verirsem, bunu potansiyel örnek sayısının bundan daha fazla olduğu bir eşitsizlik olarak düşünmezler. Bunu, maliyeti en aza indirgeme optimizasyonu probleminin sınırı olarak düşünüyorlar ve sadece bu değerde çalışmaya çalışıyorlar. Çevremin bir ürünü.
EngrStudent

1

Belki de t-testleri veya ANOVAR yaptığınız bağlam için - temel istatistiksel uygulamalarda oldukça yaygın bir bağlam - her bir grubun ortalamalarına yaklaşık olarak daha fazla güven duymak için her grup için ihtiyacınız olan örnek büyüklüğü dağıtımın az ya da çok unimodal olduğu ve aşırı peaky olmadığı varsayıldığında normal olarak dağıtılır (merkezi limit teoremine göre). Yirmi ve on dokuz veya yirmi bir değil, çünkü bu yuvarlak bir sayıdır.


0

Konuyla ilgili bazı makaleler için Russ Lenth'ın Güç ve Örnek Boyutu Sayfasını kontrol edin (sayfanın ortasındaki Tavsiye bölümünde).

Numunenizdeki minimum kişi sayısı, popülasyon büyüklüğüne, boyut sayısına (verileri kategorilere ayırıyorsanız) ve ölçütlere (aldığınız örnek bireyler hakkında sürekli önlemler alıyorsanız), evreniniz, kullanmayı düşündüğünüz analiz tekniği (bu çok önemli bir noktadır - teknik, çalışmanın planlanması sırasında veya deneysel tasarım sırasında , daha sonra değil) ve önceki çalışmalarda gösterilen karmaşıklıktır.

Ve 20, "nadir hastalıklar" ve "deneysel psikoloji" (çalışmalarında tanımlanan Popper olarak psişik) konular dışında ciddi bir araştırma için yeterli değildir.

Aşağıdaki yorumlara dayanarak cevabı hassaslaştırma:

Ve 20, "nadir hastalıklar" ve "deneysel psikoloji" (çalışmasında tanımlanmış Popper olarak psişik) konularının dışındaki bir olasılık dağılımının takılmasını içeren ciddi bir araştırma için yeterli değildir .

Ve hayır, insanları büyük bir örnek büyüklüğüne ulaşmak için zehirlemeye devam etmemelisiniz. Ortak Anlam ve Sıralı Testler durmanızı emreder.


3
Bence 20'lik bir numunenin "ciddi araştırmalar için yeterli olmadığını" belirten bir açıklama yapmak çok zor. Bu, daha önceki ifadelerinizle, uygun örneklem büyüklüğünün amaca, nüfusa vb. Göre değiştiğini gösterir. Bazı durumlarda tek tahrif sonucu bütün bir teori öldürmek için yeterlidir.
whuber

1
Vaka çalışmaları ve nitel araştırma 1-5 katılımcı ile iyi sonuç verebilir.
Behacad

Tamam, listeye "vaka çalışmaları" ve "odak grupları" ekleyin :) Bunlar, Popper'ın "deneysel psikoloji" olarak adlandırdıklarıma dahil edildi.
Lucas Gallindo

4
O zaman astronomi, tıp, biyoloji, kimya, daha iyi eklemiş olsaydınız ... Başka bir deyişle, 20'nin "yeterince iyi" olduğunu iddia etmek kadar "yeterli olmadığını" iddia etmek kadar kötü. Aslında, muhtemelen daha kötü. Bir besin takviyesi uygulanan ilk sekiz deneğin beklenmedik yan etkilerden öldüğü bir gıda güvenliği denemesi düşünün. "20 yeterli değil" beyanınıza dayanarak testlerin devam etmesini savunur musunuz?
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.