Dağıtımı bilmediğinizde nasıl örneklenir


9

İstatistiklere oldukça yeni başladım (başlangıç ​​seviyesi bir kaç Uni kursu) ve bilinmeyen dağılımlardan örnek almayı merak ediyordum. Özellikle, temeldeki dağıtım hakkında hiçbir fikriniz yoksa, temsili bir örnek alacağınızı "garanti etmenin" bir yolu var mı?

Açıklamak için örnek: servetin küresel dağılımını anlamaya çalıştığınızı varsayalım. Herhangi bir birey için, bir şekilde onların tam servetini öğrenebilirsiniz; ama dünyadaki her bir insanı "örnekleyemezsiniz". Diyelim ki rastgele = 1000 kişiyi örneklersiniz.

  1. Örneğiniz Bill Gates'i içermiyorsa, var olan milyarder olmadığını düşünebilirsiniz.

  2. Örneğiniz Bill Gates'i içeriyorsa, milyarderlerin gerçekte olduğundan daha yaygın olduğunu düşünebilirsiniz.

Her iki durumda da, gerçekten ne kadar yaygın veya nadir milyarderlerin olduğunu söyleyemezsiniz; hiç var olup olmadığını bile söyleyemeyebilirsiniz.

Böyle bir vaka için daha iyi bir örnekleme mekanizması var mı?

Önceden hangi örnekleme prosedürünü kullanacağını (ve kaç numune gerektiğini) nasıl söylerdiniz?

Bana öyle geliyor ki, makul kesinlike yaklaşan herhangi bir şeyle, gezegende ne kadar yaygın veya nadir milyarderlerin olduğunu bilmek için nüfusun büyük bir yüzdesini "örneklemeniz" gerekebilir ve bunun nedeni, temel dağılımın biraz zor olmasıdır. birlikte çalışmak.


1
Servet dağıtımında, çok şey tam olarak amacın ne olduğuna bağlı olacaktır. Örneğin amaç, bir bireyi ilk% 10, ilk% 20 ve benzeri yerlere koyacak zenginlik düzeylerini tahmin etmek olsaydı, o zaman örneğin milyarder içerip içermemesi kritik olmazdı. Ancak amaç, toplamda tutulan servet oranını ilk% 10'a kadar tahmin etmek olsaydı, örneklemenin milyarderleri nasıl ele alacağı muhtemelen kritik olurdu. Buradaki genel nokta, bir örneğin temsili olup olmadığının her zaman yapmaya çalıştığınız şeyle göreli olmasıdır.
Adam Bailey

Gerçekten mi? açık problem, cevaplar iyi, hala yaklaşık (bazen daha iyi, bazen daha kötü). Bu açık bir sorundur, belki de istatistiklerin tek açık sorunu
Nikos

Yanıtlar:


9

"Her iki durumda da, ne kadar yaygın veya nadir milyarderlerin ne kadar yaygın olduğunu söyleyemezsiniz" iddianıza itiraz ediyorum. İzin Vermekfpopülasyondaki milyarderlerin bilinmeyen kesri olmak. Önceden üniforma ilef, posterior dağılımı f sonra 1000 0 milyardere sahip olduğu ortaya çıkan çekimler, bir Beta (1.1001) dağılımıdır ve şöyle görünür: s (f | b = 0)

Posterior dağılımı f sonra 1000 1 milyardere sahip olduğu ortaya çıkan çekimler, bir Beta (2.1000) dağılımıdır ve şöyle görünür: s (f | b = 1)

Her iki durumda da, f<0.01. Bunun yeterince kesin olmadığını düşünebilirsiniz. Ama aslında 0.01, 1000 büyüklüğünde bir örnek için oldukça hassastır. Tahmin edebileceğiniz diğer çoğu miktar bundan daha az kesindir. Örneğin, erkeklerin oranı sadece 0.1 büyüklüğünde olabilir.


7

Yapabileceğiniz iki şey var (ayrı veya birlikte)

Kuyruğu modelleyin

Birincisi, dağılımın kuyruğunu parametrik bir dağılım kullanarak modellemektir. Güç yasalarının servetin dağılımına iyi uyduğu bilinmektedir, bu nedenle bir Pareto dağılımını denersiniz. Ya bu dağılımı maksimum olasılığa, yani örneğinizi en iyi temsil eden parametreleri bularak sığdırabilirsiniz. Ya da daha iyisi, parametrelere bir Bayesian önceliği koyabilir ve posteriorun tamamını hesaplayabilirsiniz.

Ne yazık ki, güç yasaları parametrelere karşı çok hassastır ve örneğinizde çok büyük veri noktaları olmadan, üs hakkında çok fazla belirsizlik olacaktır. Tahmini milyarder sayısı bu parametreye duyarlıdır, ancak ortalama milyarder servetinden çok daha az olacaktır, bu yüzden durum çok kötü değil.

Önem örneklemesi

Diğeri numunenizi toplama şeklinizi değiştirmektir. Varsayalım ki (gerektiği gibi) Monako veya Zürih'te kişi başına Mogadishiu'dan daha fazla milyarder var. Bu şehirlerin her birinin nüfusunu biliyorsanız, daha fazla milyarder görmeyi beklediğiniz şehirlerde daha büyük, diğerlerinde daha küçük bir örnek toplayabilirsiniz.

Diyelim ki Zürih'te 400.000 kişi ve Mogadişu 1.400.000 var ve 9.000 kişiyi yoklamak istiyoruz. Burada milyarderle değil, milyoner sayısıyla ilgileniyoruz.

Tarafsız bir örnek Zürih'te 2.000 kişi ve Mogadişu'da 7.000 kişi seçecektir. Bununla birlikte, Zürih'ten yedi kat daha sık örnekleyerek numuneye önyargı vereceğiz. Bu yüzden Zürih'in 2.800.000 kişiye sahip olduğunu iddia edeceğiz ve daha sonra ayarlayacağız. Bu, Zürih'te 2.000 yerine 6.000 kişiyi ve Mogadişu'da 4.000 kişiyi yok edeceğimiz anlamına geliyor.

Zürih örneğimizde 21 milyoner, Mogadişu örneğimizde yalnızca 1 milyon saydığımızı varsayalım. Zürih'i 7 kat fazla örneklediğimizden, sadece 3 milyoner olarak sayacağız.

Bu prosedür tahmincinizin varyansını azaltacaktır. İlk yöntemle birlikte de kullanılabilir, bu durumda bir parametrik dağılım takarken önem örnekleme için ayarlama yapacaksınız.


6

İyi bir örnekleme yönteminin, sistemin önceki bilgisine dayandığını düşünüyorum. Alanınızda, örneklemenizi etkileyebilecek potansiyel önyargılar hakkında bilgi sahibi olursunuz. Eğer bu bilgiye sahip değilseniz, onu edebiyattan edinebilirsiniz.

Örneğinizde, milyarderlerin olduğunu ve bunların örneklemenize önyargılı olabileceğini biliyorsunuz. Bu nedenle, örneklemeyi eğitim düzeyi, ülke, iş türü, vb.'ye göre sınıflandırmaya karar verebilirsiniz.

Başka bir örnekle deneyelim. Amacınız bir parktaki bir fare türünün bolluğunu belirlemektir. Bu parkta orman ve çayırlar var. Literatürde, farelerin ormanda çayırlardan daha bol olduğunu biliyorsunuz. Böylece örneklemenizi bu özellik ile tabakalandırırsınız. Başka örnekleme prosedürleri de vardır, ancak en iyi bilgilerinizin mevcut literatürden olacağını düşünüyorum.

Ve eğer alanınız hakkında bir literatür yoksa? İmkansız, ancak bu bağlamda, örnekleme için hangi faktörlerin dikkate alınması gerektiğini görmek için bir ön çalışma yapardım.


2

Bir numunenin temsili olup olmadığı, numunenin gözlenen ölçümleri ile ilgisi yoktur. Her gözlem birimi kümesi aynı büyüklükteki herhangi bir kümeyle aynı seçim olasılığına sahipse, örnek temsilidir. Tabii ki, örnek alanınızın tam bir numaralandırmasını alamadığınız sürece bunu yapmak zordur. Bunu (örneğin sayım yolu verilerinden) alabileceğinizi varsayarsak, basit bir rastgele örnek temsili olacaktır.

Numunenizi nasıl elde ederseniz edin, daima en az üç ayrı hata kaynağı olacaktır:

örnekleme hatası: tesadüfen örnekleminize Bill Gates'i eklersiniz. İstatistiksel yöntemler, özellikle güven aralıklarının genişliği vb., Eldeki dağılım hakkında kabaca bilgi sahibi olmanız koşuluyla (örneğin, servet dağılımının kesinlikle sahip olmadığı normallik) bununla ilgilenmek üzere tasarlanmıştır.

örnekleme sapması: Örnek temsili değildi. Örnek: Bill Gates'te listelenmemiş bir numara var, bu nedenle telefon anketiniz asla ona ulaşamadı ("rastgele basamaklı arama" gibi bir şey kullanmazsanız). Bu aşırı bir örnektir, ancak örnekleme yanlılığı çok yaygındır. Sık karşılaşılan bir olay yerinde veya kolaylık örnekleri almaktır: Restorandaki restoran kullanıcılarını mekanı beğenip beğenmediklerini, ne sıklıkta bulunduklarını ve geri dönmeyi planlayıp planlamadıklarını örneklersiniz . Tekrarlanan müşterilerin bir kerelik müşterilere göre örneklenmesi çok daha olasıdır ve bu türden örneklerin tutumları ciddi şekilde önyargılı olabilir.

yanıt yanlılığı: Ölçümlerin kendileri yanlış. Bu, ölçüm cihazının arızalarından bilinçli yalanlamaya ve kuantum etkilere (örn. Heisenberg'in belirsizlik ilkesi) kadar her şeyden kaynaklanabilir.


Bu cevabın yararlı tavsiyeleri vardır ve iyi bir zemini kapsar. Bununla birlikte, "temsili" karakterizasyonunun çok kısıtlayıcı olabileceğini belirtmek isterim, çünkü tabakalı örnekleme, önem örneklemesi ve sistematik örnekleme gibi yaygın ve yararlı örnekleme biçimlerini (diğer yanıtlarda özellikle belirtilenler dahil) hariç tutar. . Herhangi bir gözlem birimi kümesi dahil etme şansı bilindiğinde (ve dolayısıyla tarafsız tahminler üretmek için kullanılabilir) bir numunenin temsili olmasına izin vermek yeterli olmaz mıydı, ancak belirli bir büyüklükteki tüm kümeler için sabit olması gerekmez mi?
whuber

@whuber "Herhangi bir gözlem birimi kümesi dahil etme şansı biliniyorsa, bir numunenin temsili olmasına izin vermek yeterli olmaz mı?": Bu doğrudur ve katmanlı örnekleme ve önem örneklemesini kabul etmek için cevabımı düzenlemeliyim. Bununla birlikte, sistematik örnekleme zordur ve bağlantıda ve başka yerlerde verilen tavsiyeler yanlıştır. Verilerde sistematik desenler varsa, rastgele bir başlangıç ​​noktası önyargıyı ortadan kaldırmaz, tek yaptığı önyargıyı hesaplayamayacağınızdan emin olmaktır.
user3697176

belki de şimdiye kadarki en iyi cevap (doğrudan istatistiksel noktaya
Nikos M.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.