Güven aralığı mı, numune büyüklüğü mü?


9

İstatistikler ve güven aralıkları konusunda tamamen yeniyim. Yani bu çok önemsiz, hatta kulağa aptalca gelebilir. Bunu daha iyi açıklayan bir literatür / metin / blog'a yönlendirmeme yardımcı olabilir veya bana yönlendirebilirseniz sevinirim.

CNN, Fox haberleri, Politico vb.

CNN: Obama'nın popülaritesi + / -% x1 hata payı ile% X'dir. Örnek boyutu 600. FOX: Obama'nın popülaritesi% +/- hata payı ile% Y'dir. Örnek büyüklüğü 800. XYZ: Obama'nın popülaritesi% +/- z1 hata payı ile Z% 'dir. Numune büyüklüğü 300.

İşte şüphelerim:

  1. Hangisine güveneceğime nasıl karar verebilirim? Güven aralığına dayanmalı mı yoksa Fox'un daha büyük bir örneklem büyüklüğüne sahip olduğu için tahmininin daha güvenilir olduğunu varsaymalıyım? Güven öğeleri ve örnek büyüklüğü arasında, birinin belirtilmesi diğerinin belirtilmesi gereğini ortadan kaldıracak örtük bir ilişki var mı?

  2. Güven aralıklarından standart sapmayı belirleyebilir miyim? Öyleyse, her zaman veya yalnızca belirli dağıtımlar için (Gaussian gibi) geçerli mi?

  3. Yukarıdaki üç tahminleri "birleştirmenin" veya "birleştirmenin" ve güven aralıklarıyla birlikte kendi tahminimi elde etmenin bir yolu var mı? Bu durumda hangi örnek boyutunu talep etmeliyim?

CNN / Fox'tan sadece örneğimi daha iyi açıklamak için bahsettim. Burada Demokratlara karşı Cumhuriyetçilerle bir tartışma başlatmak gibi bir niyetim yok.

Lütfen ortaya koyduğum sorunları anlamama yardımcı olun.

Yanıtlar:


4

Peter'ın harika cevabına ek olarak, özel sorularınıza bazı cevaplar:

  1. Kimin güveneceği, anketi kimin yaptığına ve kaliteli bir anket almak için ne kadar çaba harcadıklarına da bağlı olacaktır. Daha büyük bir numune boyutu, örnek temsili değilse, büyük bir anket alırsa daha iyi değildir, ancak sadece bir durumda, salınmasız durumda çok iyi sonuçlar vermez.

    Örnek boyutu ile güven aralığının genişliği arasında bir ilişki vardır, ancak diğer şeyler de genişliği yüzde olarak 0, 1 veya 0,5'e yakınlaştırmak gibi genişliği etkiler; hangi önyargı ayarlamalarının kullanıldığı, örneğin nasıl alındığı (kümeleme, tabakalaşma, vb.). Genel kural, güven aralığının genişliğinin ile orantılı , bu nedenle aralığı yarıya indirmek için örnek boyutunun 4 katına ihtiyacınız vardır.1n

  2. Örneğin nasıl toplandığı ve aralığı hesaplamak için hangi formülün kullanıldığı hakkında yeterli bilgiye sahipseniz, standart sapma için çözebilirsiniz (ayrıca kullanılan güven düzeyini de bilmeniz gerekir, genellikle 0.05). Ancak, tabakalı kümelenme örnekleri için formül farklıdır. Ayrıca çoğu anket yüzdelere bakar, bu yüzden binom dağılımını kullanır.

  3. Bilgileri birleştirmenin yolları vardır, ancak genellikle örneklerin nasıl toplandığı hakkında bir şeyler bilmeniz veya aralıkların nasıl oluşturulduğu hakkında bazı varsayımlar yapmaya istekli olmanız gerekir. Bayesci bir yaklaşım bir yoludur.


1
+1. Ama # 3 için görünüm gerçekten bu kadar kasvetli veya zor mu? Her biri kendi hata payına sahip bir bağımsız tahminler koleksiyonum varsa, bunları her zamanki şekilde (en azından kabaca) birleştiremiyorum (ağırlıklı ortalama olarak, kareli ÇB'lerle ters ağırlıklı) ve standart hatalarını iyi (varyans formülleri kullanarak)? Mükemmel olmazdı, ama güvenilecek bir anket seçmekten daha iyi olmalı, değil mi?
whuber

Teşekkürler Greg! Cevaplarınızı çok takdir ediyorum. 3. soruya verdiğiniz yanıtta "Bayesci bir yaklaşımın tek yol" olduğunu söylediniz. Beni bu konuda daha fazla bilgi veren bir literatüre yönlendirebilir misiniz?
Nik

@whuber: Yorumunuz için teşekkürler. Ben de bunu yapmayı düşünüyordum. Sizce bu tahminleri bu şekilde birleştirmek haklı mı? Tamamen değil, büyük ölçüde olabilir mi?
Nik

1
@whuber, kasabanın kasvetli olarak boyamak istemedim, sadece posterin farkında olduğundan ve gerekli varsayımlarla yaşayabildiğinden emin olmak için.
Greg Snow

@Nik, Bayes istatistikleri için web üzerinde birçok öğretici var. Basit bir yaklaşım (numunelerin hepsinin basit rastgele numuneler olduğunu veya anket tasarımının SRS varsayımının çok uzakta olmadığı şekilde olduğunu varsayar), daha önce bir beta ile başlamak, daha sonra her bir anketi binom olasılığı ile kullanmak olacaktır. güncelleyin ve yeni bir poster alın. Bayes yaklaşımıyla ilgili güzel bir şey, en son anket kadar çok etkiye sahip olmasını istemiyorsanız, önceki çalışmaların etkisini azaltabilirsiniz.
Greg Snow

4

Bu çok büyük bir konu ama temelde iki konu var:

1) Hassasiyet - bu örneklem büyüklüğü ile belirlenir. Daha büyük numuneler, daha düşük standart hata ve daha sıkı güven aralıkları ile daha kesin tahminler verir

2) Önyargı - istatistiklerde, başka yerlerde yaptığı olumsuz çağrışımlara sahip olması gerekmez. Anketlerde, rastgele bir XXXX örneği almaya çalışıyorlar (bazen muhtemelen seçmenler, bazen kayıtlı seçmenler). Ama öyle değiller. Bazı anketlerde yalnızca kara hattı kullanılıyor. Farklı insan gruplarının aşağı yukarı cevap vermesi muhtemeldir. Farklı grupların takılmaları az çok muhtemeldir.

Böylece, tüm anket yapanlar tepkilerini ağırlıklandırır. Yani, seçmenlerle ilgili bilinen gerçeklere uyacak şekilde sonuçlarını ayarlamaya çalışırlar. Ama hepsi bunu biraz farklı yapıyor. Böylece, aynı yoklama giriş verileriyle bile farklı sayılar verecektir.

Kime güvenmeli? Nate Silver'ın 538'deki çalışmalarına bakarsanız, önceki seçimlerde anketörlerin ne kadar doğru olduğuna dair derecelendirmeleri var. Ancak bu, şimdi eşit derecede doğru olacakları anlamına gelmez.


Teşekkürler Peter. Dolayısıyla, daha düşük hata payına sahip bir tahmin daha 'kesindir'. Bunun sadece% X +/- x1% hata payından ne kadar taraflı olduğunu bilmenin bir yolu var mı? Bireysel numunenin tercihlerini bilmiyorsanız bu mümkün değil, değil mi?
Nik

Evet bu doğru. Tabii ki, bazı anketörlerin önyargıları var (bir yönde veya başka bir yönde). Dahili anketler (bir taraf ya da diğeri tarafından yönetilir) genellikle önyargılıdır. Bunu yapmanın bir yolu, birkaç anket çalıştırmak ve sadece olumlu olanları serbest bırakmaktır. Sonra bir aday hakkındaki soruların kendisiyle ilgili olumsuz sorularla ön plana çıktığı "itme anketleri" meselesi var.
Peter Flom

1

Bu, anket örneklemesi alanına girmektedir. Prensip olarak yöntemler çalışır çünkü randomizasyon kullanılır. İşte öznel kararlara dayalı olarak anketlerde farklılık gösterebilecek şeyler.

  1. Örnekleme çerçevesi. Hangi grup seçmeni örneklemden almalıyım?

  2. Obama vs Romney hakkındaki görüşünü dünkü ankete veya önümüzdeki haftalara göre değiştirebilecek kararsız seçmenlerin oynaklığını nasıl ele alabilirim?

  3. Peter önyargıya değindi. 1936'daki edebi özet anketi bir felaketti. Örnekleme çerçevesi telefon numaralarının rastgele seçilmesine dayandığı için FDR üzerinden Cumhuriyetçi adayı seçti. 1936'da sadece üst orta sınıf ve varlıklıların telefonları vardı. Bu gruba, Cumhuriyetçi aday için oy kullanma eğiliminde olan Cumhuriyetçiler egemendi. Roosevelt, bir grup Demokrat olma eğiliminde olan yoksul ve orta sınıftan oylarını alan bir heyelan tarafından kazanıldı! Bu, örnekleme çerçevesinin zayıf seçimine bağlı yanlılığı gösterir.

  4. Anket örneklemesi sonlu popülasyonlarla ilgilidir. Nüfus büyüklüğü N'dir. Diyelim ki o popülasyondan basit bir rastgele örnek alınmıştır ve n büyüklüğüne sahiptir. Basitlik için sadece Obama ve Romney'in çalıştığını varsayın. Obama'nın bu örnekleme çerçevesi için alacağı oyların oranı, ikili değişkenlerin ortalamasıdır (yanıtlayan Obama'yı seçerse 1, Romney için 0 ise). Bu değişken için örnek ortalamasının varyansı [p (1-p) / n] [Nn] / N'dir; burada p, Obama'yı seçecek gerçek popülasyon oranıdır. [Nn] / N, sonlu popülasyon düzeltmesidir. çoğu ankette N, N'den çok daha büyüktür ve doğru göz ardı edilebilir. P (1-p) / n'ye baktığımızda, varyansın n ile düştüğünü görüyoruz. Dolayısıyla n büyükse, belirli bir güven düzeyindeki güven aralığı küçülür.

ABD Nüfus Sayım Bürosu'ndaki diğer anket örnekleyicilerini ve istatistikçileri kirletenlerin hepsi bu istatistik araçların kullanımına açıktır ve daha karmaşık ve doğru yöntemler (birkaç yöntemden bahsetmek için rastgele örnekleme ve tabakalı rastgele örnekleme) yaparlar.

Modelleme varsayımları geçerli olduğunda yöntemler oldukça iyi çalışır. Yoklamadan çıkış buna en iyi örnektir. Seçim gününde, ağları hemen hemen her eyalette kazananlara yakın bir sayımdan çok önce doğru şekilde yansıttığını göreceksiniz. Çünkü seçim öncesi gün değişkenliği ortadan kalktı. Tarihsel olarak insanların nasıl oy kullanma eğiliminde olduklarını bilirler ve seçilen bölgeleri önyargıyı önleyecek şekilde belirleyebilirler. Ağlar bazen farklıdır. Bunun sebebi, kazananı diğerlerinin zihniyetinin önüne çekme yarışması olabilir. Nadiren de olsa, oylama son derece yakın olabilir (örneğin, Florida'daki Başkanlık Seçimi 2000).

Umarım bu size neler olduğuna dair daha net bir resim verir. Artık 1948'de "Dewey Truman'ı yendi" ya da 1936'daki Edebi Özet fiyasko gibi büyük hatalar görmüyoruz. Ancak istatistikler mükemmel değildir ve istatistikçiler asla kesin olduklarını söyleyemezler.


Detaylı açıklama için teşekkürler. Bu gerçekten yardımcı oldu!
Nik

Artık büyük hatalar görmüyoruz? Clinton 2016'da kazandı, değil mi? Bilinen bilinmeyenlerini alıp sana siyah bir kuğu yetiştiriyorum . Babamın eskiden "Seni öldürdüğünü bilmediğin şey" der gibi.
Carl

1
Cevabımın Clinton ve 2016 seçimleriyle pek bir ilgisi yoktu. (1) Rus müdahalesi, (2) Clinton popüler oyu kazandı ve (3) bazı Trump seçmenleri Trump için oy kullanacaklarını itiraf etmeyi reddetti. Belki de seçmen katılımı beklendiği gibi olmadığında anketlerin yanlış olabileceğini eklemeliyim.
Michael R. Chernick
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.