Politik anketlerin neden bu kadar büyük örneklem boyutları var?


32

Haberleri izlediğimde, Gallup'un cumhurbaşkanlığı seçimleri gibi şeylere yönelik anketlerin 1000'den fazla örneklem büyüklüğüne sahip olduğunu gördüm. Üniversite istatistiklerinden hatırladığım kadarıyla 30'luk bir örneklem büyüklüğünün "oldukça büyük" bir örnek olmasıydı. 30'un üzerindeki bir örneklem büyüklüğünün azalan verimlerden dolayı anlamsız olduğu görülmüştür.


9
Sonunda biri Büyük Veri İmparatorunun yeni kıyafetleri hakkında konuşmak için burada. 600M Tweeter kullanıcılarına kimin ihtiyacı var, eğer 30
yaşındaki

1
StasK, bu çok komik.
Aaron Hall

En iyi yorum @StasK
Brennan

Yanıtlar:


36

Wayne, "30" sorununu yeterince iyi ele aldı (kendi kurallarım: istatistiklerle ilgili 30 sayısından bahsetmek yanlış olabilir).

Neden 1000 civarındaki rakamlar sıklıkla kullanılıyor?

Etrafında 1000-2000 sayıları genellikle hatta basit bir oranda olması halinde, anketler kullanılmaktadır ( " sen lehine misiniz neyse><> ?").

Bu, oranın makul derecede doğru tahminlerinin elde edilmesi için yapılır.

Binom örneklemenin varsayılması durumunda, örnek oranının standart hatası * oran olduğunda en - ancak bu üst sınır hala% 25 ila% 75 arasındaki oranlar için oldukça iyi bir yaklaşımdır.12

* "standart hata" = "dağılımının standart sapması"

Ortak bir amaç, yüzdeleri, gerçek yüzeyin , zamanın yaklaşık . Bu ' hata payı ' denir .95 % 3 %±3%95%3%

Binom örneklemenin altındaki bu 'en kötü durumda' standart hatada, bu yol açar:

1.96×12(112)/n0.03

0.98×1/n0.03

n0.98/0.03

n1067.11

... ya da '1000'den biraz fazla'.

Dolayısıyla, hakkında çıkarım yapmak istediğiniz nüfustan 1000 kişiyi rastgele araştırırsanız ve numunenin% 58'i teklifi desteklediğinde, nüfus oranının% 55 ile% 61 arasında olduğundan emin olabilirsiniz.

(Bazen% 2,5 gibi bir hata payı için başka değerler kullanılabilir. Hata payını yarıya düşürürseniz, örneklem büyüklüğü 4 katına çıkar.)

Bazı alt popülasyonlardaki bir oranın doğru bir tahmininin gerekli olduğu karmaşık araştırmalarda (örneğin, Teksas’tan gelen kara kolej mezunlarının önerisi lehine oranı), sayılar belki de bu alt grubun birkaç yüz büyüklüğünde, yeterince büyük olabilir. toplamda onbinlerce yanıt alınmasını gerektiriyor.

Bu hızla pratik olamayacağından, popülasyonu alt popülasyonlara (tabakalara) bölmek ve her birini ayrı ayrı örneklemek yaygındır. Yine de, bazı çok büyük anketlerle sonuçlanabilirsiniz.

30'un üzerindeki bir örneklem büyüklüğünün azalan verimlerden dolayı anlamsız olduğu görülmüştür.

Etki büyüklüğüne ve göreceli değişkenliğe bağlıdır. varyans araçlarının üzerindeki etki bazı durumlarda bazı oldukça büyük örnekleri gerekebilir.n

Burada bir soruyu cevapladım (sanırım bir mühendisden geliyordu), çok büyük örneklem büyüklükleriyle (doğru hatırlıyorsam bir milyon civarında) ilgileniyordu, ancak çok küçük etkiler arıyordu.

Örneklem oranını tahmin ederken, örneklem büyüklüğü 30 olan rasgele bir örneklemin bizi neyin terk ettiğini görelim.

30 kişiye, Birlik Devletinin adresini genel olarak onaylayıp onaylamadıklarını sorduğumuzu hayal edin (kesinlikle katılıyorum, katılıyorum, katılmıyorum, kesinlikle katılmıyorum). Ayrıca, ilginin ya hem kabul hem de kesinlikle hemfikir olduğu oranda olduğunu düşünün.

Görüştüğünüz kişilerin 11'inin, 16'sının toplamının 16'sı için hemfikir olduğunu söyleyin.

16/30, yaklaşık% 53'tür. Nüfustaki oran için sınırlarımız nelerdir (% 95'lik bir aralık ile)?

Varsayımlarımız geçerliyse, nüfus oranını% 35 ile% 71 (kabaca) arasında bir yere indirebiliriz.

Bütün bu yararlı değil.


+1. Tüm cevap harika, ancak ilk satır tek başına bir değer kazandı.
Matt Krause,

1
Ve sonra elbette hesaplamayı tersine çevirebilir ve hata payını 30'luk bir örnekle hesaplayabilirsiniz ...
Calimo

Son paragrafınız, tabakalı örneklemenin geldiği yer. Diğerlerinin de söylediği gibi, uygun seçmenlerin nüfusundan basit rastgele örnekleme gerçekten ulusal ölçekte yapılmıyor.
Wayne,

@Wayne teşekkürler; Geri döndüm ve sonunda biraz ekledim.
Glen_b -Reinstate Monica

2
+1, ayrıca başparmak kurallarınızın paradoksal etkilerini de seviyorum.
James Stanley

10

Bu özel kural, verilerin normal dağıldığını (yani bir çan eğrisi gibi göründüğünü) varsaymak için 30 puanın yeterli olduğunu göstermektedir, ancak bu en iyi ihtimalle kaba bir kılavuzdur. Bu önemliyse verilerinizi kontrol edin! Bu, analiziniz bu varsayımlara dayanıyorsa, anketiniz için en az 30 katılımcı isteyeceğinizi, ancak başka faktörlerin de olduğunu gösterir.

Bir ana faktör "etki büyüklüğü" dür. Çoğu ırk oldukça yakın olma eğilimindedir, bu yüzden bu farkları güvenilir bir şekilde saptamak için oldukça büyük numuneler gerekir. ("Doğru" örneklem büyüklüğünü belirlemekle ilgileniyorsanız, güç analizine bakmalısınız ). Yaklaşık 50:50 olan Bernoulli rasgele bir değişkeni (iki sonucu olan bir şey) varsa, standart hatayı% 1,5'e düşürmek için yaklaşık 1000 deneme gerekir. Bu muhtemelen bir yarışın sonucunu tahmin etmek için yeterince doğru (son 4 ABD Cumhurbaşkanlığı seçimlerinin ortalama yüzde ~ 3,2 oranında bir marjı vardı).

Anket verileri genellikle dilimlenmekte ve farklı şekillerde parçalanmaktadır: "Aday, silah sahibi erkeklerle 75 yaşından büyük mü? ya da her neyse. Bu daha büyük örnekler gerektirir çünkü her katılımcı bu kategorilerden sadece birkaçı için uygundur.

Cumhurbaşkanlığı anketleri bazen diğer anket sorularıyla (ör. Kongre yarışları) birlikte "toplanıyor". Bunlar eyaletten eyalete değiştiğinden, biri bazı "ekstra" sorgulama verileriyle sonuçlanmaktadır.


Bernoulli dağılımları sadece iki sonucu olan ayrık olasılık dağılımlarıdır: Seçenek 1 olasılık , seçenek 2 ise olasılık ile seçilmiştir .1 - pp1p

Bernoulli dağılımının varyansı , bu nedenle ortalamanın standart hatası . takın (seçim bir bağdır), standart hatayı% 1,5'e (0,015) ayarlayın ve çözün. % 1.5 SE oranına sahip olmak için 1.111 ders almanız gerekirp(1p) p=0.5p(1p)np=0.5


4
+ 1 ise, "verilerin normal olarak dağıtıldığını varsaymak için 30 puan yeterlidir" doğru değil. İnsanların buna inanması iyi olabilir, ancak CLT'nin örnekleme dağılımını yeterince normale uygun bir şekilde birleştirmesini sağlamak için ne kadar veri gerektiğine bağlı olarak veri dağılımının niteliğine bağlıdır ( buraya bakın ). Bunun yerine, eğer veriler zaten normalse 30 (yaklaşık) yeterli olabilir, ancak SD aynı veri kümesinden (cf, t-dağılımı) tahmin edilir.
gung - Reinstate Monica

@Gung, tamamen anlaştım, ama rayların üzerinden fazla uzağa gitmek istemedim. Daha da güçlü bir şekilde yapılması gerektiğini düşünüyorsanız, daha fazla düzenleme yapmaktan çekinmeyin.
Matt Krause,

8

Bu soruya zaten bazı mükemmel cevaplar var, ama neden standart hatanın ne olduğunu, neden en kötü durumda kullandığımızı ve standart hatanın ile nasıl değiştiğini cevaplamak istiyorum .np=0.5n

Diyelim ki sadece bir seçmen anketi seçelim, onu seçmen 1 olarak adlandıralım ve "Mor Parti için oy verir misiniz?" Cevabı "evet" için 1, "hayır" için 0 olarak kodlayabiliriz. Diyelim ki "evet" olasılığı . Şimdi bir ikili rastgele değişkenimiz varx 1 p 1 - p x 1 p x 1 ~ B e r n O u ı l l ı ( p ) X, 1 e ( X 1 ) = Σ x P ( x 1 = x ) x x 1pX1 olasılık ile 1 olan olasılığı ile ve 0 . Biz söylemek başarı olasılığı olan bir Bernoulli değişkendir yazabiliriz, . Beklenen veya ortalamap1pX1pX1Bernouilli(p)X1E(X1)=xP(X1=x)xX1. Ancak sadece iki sonucu, olasılık 0 vardır olasılığı ile, 1 toplamı, sadece, bu yüzden . Dur ve düşün. Bu tamamen makul gözüküyor - Mor Partiyi destekleyen% 30 seçmen 1 şansı varsa ve "evet" diyorlarsa değişkeni 1 ve "hayır" diyorlarsa 0 olarak kodladık. ortalama olarak 0.3 olmasını bekliyoruz .p E ( X 1 ) = 0 ( 1 - p1ppx 1E(X1)=0(1p)+1(p)=pX1

Ne olacağını düşünelim . Eğer sonra ve eğer daha sonra . Yani aslında her iki durumda da . Aynı olduklarından, beklenen aynı değere sahip olmaları gerekir, yani . Bu bana bir Bernouilli değişkeninin varyansını hesaplamanın kolay bir yolunu sunar: ve böylece standart sapma .X 1 = 0 X 2 1 = 0 X 1 = 1 X 2 1 = 1 X 2 1 = X 1 E ( X 2 1 ) = p V a r ( X 1 ) = E ( X 2X1X1=0X12=0X1=1X12=1X12=X1E(X12)=pσ X 1 = Var(X1)=E(X12)E(X1)2=pp2=p(1p)σX1=p(1p)

Açıkçası diğer seçmenlerle konuşmak istiyorum - seçmen 2, seçmen 3, seçmen . Diyelim hepsi aynı olasılık var sayıyorum Mor Parti'yi destekleme. Şimdi biz , Bernoulli değişkenleri , üzerine her biri, için 1 ila . Hepsinde aynı ortalama, ve varyans, .p , n x 1 X 2 X N X i ~ B e r n O u l l I ( p ) ınpnX1X2XnXiBernoulli(p)ip p ( 1 - p )npp(1p)

Örnekteki kaç kişinin "evet" dediğini bulmak istiyorum ve bunu yapmak için tüm ekleyebilirim . Ben yazacağım . ortalama veya beklenen değerini, eğer bu beklentiler varsa kuralını kullanarak hesaplayabilir ve genişletebilirim. edilene . Fakat bu beklentilerden ekliyorum ve her biri , dolayısıyla toplamda X = n i = 1 X i X E ( X + Y ) = E ( X ) + E ( Y ) E ( X 1 + X 2 + + X n ) = E ( X 1 )XiX=i=1nXiXE(X+Y)=E(X)+E(Y)E(X1+X2++Xn)=E(X1)+E(X2)++E(Xn)p E ( X ) = n p n pnpE(X)=np. Dur ve düşün. 200 kişiyi yoksaydıysam ve her birinin Mor Parti'yi desteklediğini söyleme şansı% 30'dur, tabii ki 0.3 x 200 = 60 kişinin “evet” demesini beklerdim. Yani formülü doğru görünüyor. Daha az "açık" varyansın nasıl ele alınacağıdır.np

Orada olduğunu söyleyen bir kural ama sadece bunu kullanabilirsiniz benim rastgele değişkenler birbirinden bağımsız ise . Öyleyse, bu varsayımı yapalım ve görmeden önce benzer bir mantıkla olduğunu görelim . Eğer bir değişkeni , bağımsız Bernoulli denemelerinin toplamı ise , aynı başarı olasılığı , o zaman bir binom dağılımına sahip olduğunu söylüyoruz , . Az önce böyle bir binom dağılımının ortalamasının ve varyansın .V a r ( X ) = n p ( 1 - p ) X, n, p X X ~

Var(X1+X2++Xn)=Var(X1)+Var(X2)++Var(Xn)
Var(X)=np(1p)Xn pXXBinomial(n,p), n p ( 1 - p )npnp(1p)

Asıl sorunumuz, örneklemden tahmin etmekti . Tahmincimizi tanımlamanın mantıklı yolu . Örneğin, 200 kişiden 64'ünün “evet” olduğunu belirttiğimiz için 64/200 = 0.32 = insanların% 32'sinin Mor Parti'yi desteklediğini söylediklerini tahmin ediyoruz. Bunu görebilirsiniz evet-seçmen toplam sayısının yalnızca bir "küçültülmüş" versiyonu . Bu, hala rastgele bir değişken olduğu anlamına gelir, ancak artık binom dağılımını izlememektedir. Ortalamasını ve varyansını bulabiliriz, çünkü rastgele bir değişkeni sabit bir faktörü ile ölçeklendirdiğimizde aşağıdaki kuralları yerine getirir: (yani ortalama ölçekler) aynı faktörle ) vep = X / n- p x K E ( K x ) = k E ( x ) k V bir R ( k x ) = k 2 v bir r (pp^=X/np^XkE(kX)=kE(X)kk 2 C m 2Var(kX)=k2Var(X) . Varyansın nasıl ölçeklendiğine dikkat edin . Burada çok uygulanamaz, ama bizim rasgele değişken cm yükseklik olsaydı o zaman varyans olacaktır: Eğer genel olarak varyans değişkeni olarak ölçülür olursa olsun birimleri karesi ölçülür biliyoruz o zaman mantıklı Farklı ölçeklendirme - eğer iki katına çıkarsanız, alanı dört katına çıkarırsınız.k2cm2

Burada ölçek . Bu bize . Bu harika! Ortalama olarak, tahmincimiz tam olarak "olması gerektiği", rastgele bir seçmenlerin Mor Parti için oy kullanacaklarını söyledikleri gerçek (veya nüfus) olasılıktır. Tahmincimizin tarafsız olduğunu söylüyoruz . Ancak ortalama olarak doğru olsa da, bazen çok küçük ve bazen çok yüksek olacaktır. Varyansına bakarak ne kadar yanlış olabileceğini görebiliriz. . Standart sapma , E( p )=11n p V, birR( p )=1E(p^)=1nE(X)=npn=pp^Var(p^)=1n2Var(X)=np(1p)n2=p(1p)np(1p)nve bize tahmin edicimizin ne kadar kötü olacağına dair bir fikir veriyor (etkili bir şekilde kök ortalama kare hatası , pozitif ve negatif hataları eşit olarak kötü olarak değerlendiren ortalama hatayı ortalamadan önce bunları karıştırarak hesaplamanın bir yolu) , genellikle standart hata denir . Büyük Örnekler için iyi sonuç veren ve ünlü Central Limit Teoremini kullanarak daha titizlikle ele alınabilen iyi bir kural, çoğu zaman (yaklaşık% 95) tahminin iki standart hatadan daha az yanlış olacağı yönündedir.

Kesir paydasında göründüğü için, - daha büyük örneklerin daha yüksek değerleri - standart hatayı daha küçük yapar. Bu harika bir haber, sanırım küçük bir standart hata istiyorum, sadece örneklem büyüklüğünü yeterince büyütüyorum. Kötü haberse karekök içinde olduğu, bu nedenle örneklem büyüklüğünü dört katına çıkarırsam, sadece standart hatayı yarıya indireceğim. Çok küçük standart hatalar çok çok büyük ve dolayısıyla pahalı numuneleri içerecektir. Başka bir sorun daha var: Belirli bir standart hatayı hedeflemek istiyorsanız,% 1, sonra ben ne değerini bilmek gerekir ki benim hesaplamada kullanım için. Geçmiş veri oylama geçmişim varsa, geçmiş değerleri kullanabilirim, ancak mümkün olan en kötü durum için hazırlık yapmak istiyorum. değerin p pnnppen sorunlu mu? Bir grafik öğreticidir.

sqrt grafiği (p (1-p))

En kötü durum (en yüksek) standart hata olduğunda ortaya çıkar . Hesabı kullanabileceğimi kanıtlamak için, ancak bazı lise cebirleri " kareyi nasıl tamamlayacağımı " bildiğim sürece, hile yapacak . p=0.5

p(1p)=pp2=14(p2p+14)=14(p12)2

İfade, köşeli ayraçların karelidir, bu yüzden her zaman sıfır veya olumlu bir cevap döndürür, bu da daha sonra çeyrek saatten uzaklaştırılır. En kötü durumda (büyük standart hata) mümkün olduğunca az uzaklaştırılır. En az çıkarılabilecek şeyin sıfır olduğunu ve olduğunda, olduğunda ortaya çıkacağını biliyorum . Bunun bir sonucu, örneğin oyların% 50'sine yakın siyasi partilere yönelik desteği tahmin etmeye çalışırken daha büyük standart hatalar elde etmem ve büyük ölçüde daha fazla veya büyük ölçüde daha az popüler olan önerilere yönelik desteği tahmin etmek için standart hataları düşürmem. Aslında grafiğimin ve denklemimin simetrisi,% 30 halk desteği veya% 70'i olsa da, Mor Parti’yi desteklediklerine dair tahminlerim için aynı standart hatayı alacağımı gösteriyor.p12=0p=12

Peki standart hatayı% 1'in altında tutmak için kaç kişiyi sorgulamam gerekiyor? Bu, zamanımın büyük çoğunluğunun tahminimin doğru oranın% 2'sinde olacağı anlamına gelir. Artık, en kötü durum standart hata olduğunu biliyoruz bana verir çok ve . Bu, neden anketlerde binlerce kişiyi gördüğünü açıklar.0.25n=0.5n<0.01nn>50n>2500

Gerçekte düşük standart hata iyi bir tahminin garantisi değildir. Yoklamadaki birçok problem teorik nitelikten çok pratiktir. Mesela, örneğin her birinin olasılıklı olan rastgele seçmen olduğunu varsaydım , fakat gerçek hayatta "rastgele" bir örnek almak zorlukla dolu. Telefonla veya çevrimiçi oylamayı deneyebilirsiniz - ancak yalnızca herkesin bir telefonu veya internet erişimi yok, aynı zamanda isteyenler için çok farklı demografik bilgileri (ve oy verme niyetleri olmayan) var. Sonuçlarına önyargı vermekten kaçınmak için, yoklama şirketleri aslında basit bir ortalama değil, örneklerinin her türlü karmaşık ağırlığını yaparlarpXinAldığım. Ayrıca insanlar anketörlere yalan söylüyor! Anketörlerin bu olasılığı telafi ettiği farklı yollar açık bir şekilde tartışmalıdır. Anket firmalarının İngiltere'de sözde Shy Tory Factor ile nasıl başa çıktığı konusunda çeşitli yaklaşımlar görebilirsiniz . Düzeltme yöntemlerinden biri, geçmişte insanların oy kullanma niyetlerinin ne kadar makul olduğunu değerlendirmek için nasıl oy kullandıklarına bakmayı içermekteydi, ancak yalan söylemedikleri zaman bile, çoğu seçmenlerin seçim tarihlerini hatırlayamadıklarını ortaya koydu . Bu gibi şeyler olduğunda, açıkçası çok düşük bir noktaya değin "standart hata"% 0.00001.

Son olarak, basit örnekleme göre gerekli örnek büyüklüğünün istenen standart hatadan nasıl etkilendiğini ve "en kötü durum" değerinin daha uygun oranlarla karşılaştırıldığında ne kadar kötü olduğunu gösteren bazı grafikler . Unutmayın ki, için eğri , önceki grafiğinin simetrisi nedeniyle, için aynı olacaktır.p = 0.7 p = 0.3 p=0.5p=0.7p=0.3p(1p)

İstenilen farklı standart hatalar için gerekli numune boyutlarının grafiği


y eksenindeki log10 ölçeği burada yardımcı olabilir.
EngrStudent - Monica

7

"En az 30" kuralı, Çapraz Doğrulama ile ilgili başka bir yayında ele alınmıştır . En iyi ihtimalle kuraldır.

Milyonlarca insanı temsil etmesi gereken bir örnek düşününce, sadece 30'dan çok daha büyük bir örneğe sahip olmalısınız. Sezgisel olarak, 30 kişi her eyaletten bir kişiyi bile içeremez! O zaman, Cumhuriyetçileri, Demokratları ve Bağımsızları (en azından) temsil etmek istediğinizi ve her biri için birkaç farklı yaş kategorisini ve her biri için farklı gelir kategorilerini temsil etmek istediğinizi düşünün.

Sadece 30 kişi aradığında, örneklemeniz gereken demografinin büyük alanlarını özleyeceksiniz.

EDIT2: [Abaumann ve StasK'ın itiraz ettiği paragrafı kaldırdım. Hala% 100 ikna olmadım, ama özellikle StasK'ın iddiasına katılmıyorum.] 30 kişi gerçekten seçmenler arasından tamamen rastgele seçildiyse, örnek bir anlamda geçerli, ancak çok küçük Sorunuza verilen cevabın gerçekten doğru mu yanlış mı olduğunu (uygun tüm seçmenler arasında) ayırt etmenize izin verin. StasK, aşağıdaki üçüncü yorumunda ne kadar kötü olacağını açıklıyor.

EDIT: samplesize999'un yorumuna cevap olarak , burada da açıklanan " güç analizi " olarak adlandırılan yeterince büyük olanı belirlemek için resmi bir yöntem var . abaumann'ın yorumu, farklılıkları ayırt edebilme yeteneğiniz ile belirli miktarda iyileştirme yapmak için ihtiyaç duyduğunuz veri miktarı arasında nasıl bir değişimin olduğunu gösteriyor. Gösterdiği gibi, hesaplamada bir karekök vardır, bunun anlamı, fayda (artan güç açısından) gittikçe daha yavaş büyür ya da maliyet (ihtiyacınız olan daha fazla örneğe göre) hızla artar, yani istediğiniz Yeterince numune, ama daha fazla değil.


2
“Bir örneğin tüm meselesi - bütün geçerliliği - popülasyonu yansıtması, rastgele olmadığını”. Bu açıkça yanlış! Geçerlilik (genelleştirilebilirlik anlamında), örnekleme prosedürünün rastgele karakterinden kaynaklanmaktadır. Durum şu ki, çok küçük sınırlarla ilgilendiğiniz için, büyük bir örneklem büyüklüğü gerektiren kesin bir tahmine ihtiyacınız var.
abaumann

3
@abaumann: Şeyleri anladığım kadarıyla, randomizasyonda sihir yok: bu sadece popülasyonu yansıtan örnekler oluşturmak için sahip olduğumuz en nesnel yoldur. Bu yüzden tabakalar içinde randomizasyon kullanabilir veya çok iyi olmayan randomizasyonu telafi etmek için tabakalaşma ve ağırlıklandırma kullanabiliriz.
Wayne,

2
samplesize: Bunun bir "uzman" olmakla ilgisi yok ya da hiç yok. Örneğin, ABD başkan adayları kampanyaları sırasında haftalık ve günlük "izleme anketleri" yapıyorlar ve bunlar sadece yaklaşık 200-300 kişiyi araştırıyor. Bu örneklem büyüklükleri yeterli bir maliyet ve bilgi dengesi sağlar. Bir başka uçta, NHANES gibi sağlıkla ilgili bazı çalışmalar, onlarca ya da yüz binlerce insanı alıyor çünkü bu çalışmaların muazzam maliyetlerinin değerli olmasını sağlayacak kadar yüksek değere sahip harekete geçirilebilir bilgiler üretmek için gerekli. Her iki durumda da uzmanlar örneklem büyüklüğünü belirliyor.
whuber

2
Teknik olarak, örneklem popülasyonun temsilcisi ise, genelleme geçerli olacaktır. Buradaki fikir, rastgele bir numuneye sahip olmanın, numunenin temsili olacağını garanti etmesidir, ancak numunenin rastgele olmadığı durumlarda bunu başarmanın daha zor (mutlaka imkansız değil) olmasıdır. FWIW, anket yok basit rastgele örnekleme kullanır.
gung - Reinstate Monica

1
@sashkello, orta bir zemin var: biri tabakalı rasgele bir örnek kullanabilir (temelde seçenek # 1) veya daha sonra örneği yeniden değerlendirmek / karşılaştırmak için girişimde bulunabilir. Gung gibi, büyük anketlerin çoğunun basit rastgele bir örneklemden daha karmaşık bir şey yaptığını düşünüyorum
Matt Krause

0

Çok sayıda harika cevap gönderildi. Aynı yanıtı veren, ancak sezgiyi daha da artırabilecek farklı bir çerçeve önereyim.

pp

ppBeta(α=1,β=1)p

ppδyδnpBeta(α=1+δy,β=1+δn)

n=δy+δnnqbeta(0.025, n/2, n/2)

n=1067

> qbeta(0.025, 1067/2, 1067/2) [1] 0.470019

bu bizim istenen sonucumuz.

Özetle, "evet" ile "hayır" yanıtları arasında eşit biçimde bölünen 1.067 katılımcı bize "evet" yanıtlayanların gerçek oranının% 47 ile% 53 arasında olduğuna güvendiğini belirtti.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.