Numune ortalamalarının örnekleme dağılımı popülasyon ortalamalarına nasıl yaklaşıyor?


16

İstatistikleri öğrenmeye çalışıyorum çünkü doğru anlamadığım takdirde bazı şeyleri öğrenmemi yasaklayan o kadar yaygın olduğunu düşünüyorum. Örnek araçların örnekleme dağılımı kavramını anlamakta güçlük çekiyorum. Bazı kitapların ve sitelerin nasıl açıkladığını anlayamıyorum. Sanırım bir anlayışım var ama doğru olup olmadığından emin değilim. Aşağıda bunu anlama girişimim var.

Normal bir dağılım gösteren bir fenomen hakkında konuştuğumuzda, genellikle (her zaman değil) nüfusla ilgilidir.

Bazı popülasyonlarla ilgili bazı şeyleri tahmin etmek için çıkarımsal istatistikler kullanmak istiyoruz, ancak tüm verilere sahip değiliz. Rastgele örnekleme kullanıyoruz ve n boyutundaki her numune seçilme olasılığı eşittir.

Bu yüzden çok sayıda örnek alıyoruz, 100 diyelim ve sonra bu örneklerin ortalamalarının dağılımı merkezi limit teoremine göre yaklaşık normal olacaktır. Numune araçlarının ortalaması popülasyon ortalamasına yaklaşacaktır.

Şimdi anlamadığım birçok şey "100 kişilik bir örnek ..." görüyorsunuz. Ortalama nüfusun yaklaşık değerini bulmak için 100'lü 10'lu veya 100'lü örneklere ihtiyacımız olmaz mıydı? Yoksa 1000 diyelim ve daha sonra ortalamanın popülasyon ortalamasına yaklaşacağını söyleyebileceğimiz tek bir örnek alabilir miyiz? VEYA 1000 kişilik bir örnek alıyoruz ve sonra aldığımız orijinal 1000 kişiden 100'er kişiden 100 rastgele örnek alıyor ve bunu bizim yaklaşımımız olarak kullanıyor muyuz?

Ortalama (neredeyse) her zaman yaklaşık olarak büyük bir numune almak işe yarıyor mu? Bunun çalışması için nüfusun normal olması gerekiyor mu?

Yanıtlar:


9

Bir ortalamanın (tek bir örneğe dayalı olarak hesaplayacağımız) beklenen örnekleme dağılımını, aynı popülasyondan tekrar tekrar örneklememiz halinde ne olacağını simüle etme (genellikle varsayımsal) süreciyle karıştırıyor olabileceğinizi düşünüyorum.

Herhangi bir örneklem büyüklüğü için (n = 2 bile) örneklem ortalamasının (iki kişiden) nüfus ortalamasını tahmin ettiğini söyleyebiliriz. Ancak tahmin doğruluğu - yani, ortalamanın standart hatasına yansıtıldığı gibi, örnek verilerimize dayanarak popülasyon ortalamasını tahmin etmek için yaptığımız bir iş, 20 veya 200'ümüzden daha kötü olacaktır. bizim örnek insanlar. Bu nispeten sezgiseldir (daha büyük örnekler daha iyi tahmin doğruluğu verir).

Daha sonra bir güven aralığını hesaplamak için standart hatayı kullanırız (ki bu durumda) Normal dağılım etrafındadır (nüfusun standart sapması genellikle bir hafife alındığından, muhtemelen küçük örneklerde t dağılımını kullanırız) aşırı iyimser standart hatalara yol açan küçük örnek.)

Son sorunuza yanıt olarak, bu tahmin yöntemlerini uygulamak için her zaman Normal olarak dağıtılmış bir nüfusa ihtiyacımız yoktur - merkezi limit teoremi, bir ortalamanın (yine tek bir örnekten tahmin edilen) örnekleme dağılımının Altta yatan popülasyon Normal olmayan bir dağılıma sahip olsa bile normal bir dağılımı takip eder. Bu genellikle "daha büyük" numune boyutları için uygundur.

Örnekleme yaptığınız Normal olmayan bir popülasyonunuz olduğunda, bu ortalama için örnekleme dağılımı güvenilir olarak değerlendirilse bile, ortalama uygun bir özet istatistik olmayabilir.


bu yüzden bazı şeylerin nasıl çalıştığına dair teorik temeli anlamaya çok mu asıldım? Burada ilginç olan şey güven aralığı mı? Başka bir deyişle, ABD'deki ortalama bir yetişkinin uyuduğu saat miktarını incelemek istersem, 5.000'lik bir örnek alıyorum ve güven aralığım% 99.9, ortalama 6.46 ile 6.54 arasında. ve ABD'deki yetişkinlerin ortalama 6,5 ​​saat uyuduğunu "güvenle" söyleyerek çalışmamı yayınlansın mı?
13'te

2
Nerede söylediniz: " ABD'de yetişkinlerin ortalamasının 6,5 saat uyuduğunu" güvenle " söylüyor . Hayır, aslında ortalama 6.5 saat olmadığından emin olabilirsiniz . Sadece 6,5 saate oldukça yakın olduğundan emin olabilirsiniz, ya da 'en yakın 5 dakikaya 6,5 ​​saat' veya bunun gibi bir şey olduğundan emin olabilirsiniz. Yalnızca aralıkların kendileriyle ilişkili bir güven düzeyi olacaktır.
Glen_b Monica Monica'yı

1
@Glen_b konunun özüne iniyor - bir nüfus değerini tam olarak tahmin ettiğimizden asla emin olmadığımızı söyleyemeyiz, aksine tahmin sürecimizin doğruluğu hakkında bir fikrimiz var.
James Stanley

@angrymonkey Bence (simüle edilmiş) tekrar örnekleme yaklaşımının altında yatan kavramları elde etmenin hala yararlı olduğunu düşünüyorum. Ayrıca, tahmin etmek için "büyük" numune boyutlarına ihtiyaç duyulmadığı anlamına gelir - bir ortalamanın standart hatası formülü sample std deviation / square root(n)- n parçanın kare kökü bize, örnek boyutu olarak sabit artışlar için tahmin doğruluğunda azalan getiri elde ettiğimizi söyler büyür (örneğin bir örnekte 10 ila 20 kişiden hareket etmek tahmin doğruluğunu 210 ila 220 kişiden daha fazla geliştirir.)
James Stanley

harika ... yardım için çok teşekkür ederim. yani bir CI sadece ortalama insanın bir gece 6.45 ve 6.56 saat arasında uyuduğundan% 95 emin olduğumu söylememizi sağlıyor. Öyleyse neden bazı makaleler ortalama bir insan günde 4.5 saat televizyon izliyor gibi kesin iddialarda bulunuyor? Kesinlikle güven aralığı% 95 4,43 ve 4,56 gibi bir şeydir
Ocak'ta

10
  • σ2/nnn büyür, ortalama dağılımının varyans limiti, örnek ortalama popülasyon ortalama değerine eğilimindedir, böylece, daha küçük olur.
  • Birkaç bağımsız numune alırsanız, her numune ortalaması normal olur ve ortalamaların ortalaması normal olur ve gerçek ortalamaya eğilimlidir.
  • Örnekleriniz gerçekten aynı dağıtımdan geliyorsa (örneğin her biri 10'luk 100 örnek), 1000'den büyük bir örnek aldığınız gibi aynı çıkarımlar yapacaksınız. (Ancak gerçek dünyada, farklı örnekler muhtemelen bir görmezden gelemez; bkz. "rastgele blok tasarımı".)
  • n , normalliğe daha yakın olacaksınız.
  • Her biri 10'luk 100 numune alırsanız, numune araçlarının orijinal verilere göre daha normal, ancak genel ortalamanın dağılımından daha az normal bir dağılımı olacaktır.
  • Büyük bir örnek almak sizi normale yakınlaştırır.
  • Nüfus ortalamasını tahmin etmek isterseniz, 10 veya 1000 numuneden oluşan büyük bir örnek alırsanız (teoride) hiçbir fark yaratmaz.
  • Ancak uygulamada, örnekleme teorisi insanlar kümelenme, tabakalaşma ve diğer sorunlar nedeniyle örneği bölebilirler. Daha sonra tahminlerini yaparken örnekleme planını dikkate alırlar. Ama bu gerçekten başka bir soru için önemli.

Çoğu ders kitabında, sizi örnek araçların örnekleme dağılımı kavramına götürürler. Bu özünde size, "hey bak, çok fazla örnek alırsanız, normal olma eğilimindedir ve nüfus ortalamasına yaklaşacaktır" der. Sonra size yeterince büyük örnek alırsanız, sadece bir tane alabileceğinizi söylerler. Numunenin örnekleme dağılımı, büyük bir numune alabileceğinize inandığınız anlamına mı geliyor? Başka bir deyişle, onu anlamanın amacı nedir? Sadece büyük bir örnek almanın ardındaki sezgiyi kavramanıza yardımcı olmak mı? örnekleme
teorisini

Bence @ "James Stanley" buna çok iyi cevap veriyor. Herhangi bir gerçek durumda, bir örnek alırsınız, örnek ortalamasını hesaplarsınız ve bu sizin tahmininizdir.
Placidia

1

Ortalamanın örnekleme dağılımı, verilen büyüklükteki TÜM örneklerin dağılımıdır. Örnekleme dağılımının ortalaması popülasyonun ortalamasına eşittir. Belirli bir boyuttaki numuneler için ortalama örnekleme hakkında konuştuğumuzda, bir örnek veya bin örnek hakkında değil, Tüm örnekler hakkında konuşuyoruz.


0

Ortalamanın örnekleme dağılımının güven aralıkları ile ilgisi yoktur. Bu başka bir kavram. Örnekleme dağılımı için popülasyon normal olabilir veya normal olmayabilir a) Pop normalse, ortalamanın örnek dağılımı herhangi bir örnek boyutu için normal olacaktır. b) Pop normal değilse, 1) ortalamanın örnekleme dağılımı normal olarak kabul EDİLEMEZ, Örneklem büyüklüğü 30 veya daha fazla olmadığı sürece. Daha sonra Merkezi Limit Teoremi bize numune dağıtımının normal kabul edilebileceğini söyler.

Tahmin hakkında konuşuyorsun. Tahmin etmenin bununla hiçbir ilgisi yoktur. Örnekleme dağıtımına çok fazla ekliyorsunuz. Numune dağılımı basitçe Tüm numunelerdir ve daha sonra ortalama alınır. Ve tüm bu örneklerin ortalaması, mu sub x bar, nüfus ortalaması, mu ve standart dev od örnekleme dist, sigma sub x bar = sigma n'nin kare köküne bölünür. (Sonlu pop düzeltme faktörü hakkında konuşmayacağız. Yüz değeri için statünüzü alın. Bir kavramı çok fazla okuma. Yumruğu temel kavramı anlayın.

PS ortalama samp dist hiçbir şey yok


Bu cevabın başka bir cevap olarak girilmektense 1. cevabınızla birleştirilip birleştirilemeyeceğini merak ediyorum. Genellikle her konu için 1 cevabınız olmasını tercih ederiz. (Yine de istisnalar vardır.) Sol alt tarafındaki gri renkli "düzenle" yi tıklayarak mevcut bir cevaba malzeme ekleyebilir veya değişiklik yapabilirsiniz.
gung - Monica'yı eski

0

Büyük veri sorunları hakkında düşünüyor ve bu sabah bu yazıların bazılarına bakıyorum. Ben, bu hiç de önemsiz bir sorun olduğu görüşünde ise analiz kıyasla 100 10 setleri tek set olarak 1000 verileri analiz arasındaki farkı yeniden yok teorisi , sıfır hipotezi verilerin doğru olduğu doğruysa, farkı. Ancak, sadece 1000 verinin ortalamasını alır ve tahmini ortalama ve ilişkili standart hatayı alıntılarsa verilerdeki kümeleme ve örüntüler hiç ele alınmaz.

Stackexchange ve wikipedia'daki bazı sayfalara baktığım sonuç, büyük verilerin açıkça görülmesine izin vermesidir . Popülasyonda bir bütün olarak ilginç özellikler varsa, büyük bir veri seti bunları gün olarak açık bir şekilde gösterecektir. Eğer çok büyük bir veri setim olsaydı, görsel olarak bakabilseydim, ilk önce çok bariz özellikler aramaya gerek kalmadan içeri girip kısa özet önlemler almazdım. İstatistiksel çıkarımdaki ilk derslerimden, ilk geçiş olarak verilerin grafiklerine ve görselleştirmelerine bakmam öğretildi. Bunu yeterince vurgulayamıyorum. Veri kümesi, bir insanın ekrana bakması için çok büyükse, o zaman insan tarafından okunabilir bir çözünürlükte alt örneklenmelidir.


Lütfen yayınlarınızı imzalamayın - yayınınızın sağ alt köşesindeki kullanıcı adı budur.
Glen_b -Manica Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.