Ya rastgele numaranız açıkça temsili değilse?


28

Ne rastgele bir örnek alırsanız ve son bir soruda olduğu gibi açıkça temsili olmadığını görebilirsiniz . Örneğin, popülasyon dağılımının 0 civarında simetrik olması gerekiyorsa ve rastgele çizdiğiniz örnek dengesiz pozitif ve negatif gözlemlere sahipse ve dengesizlik istatistiksel olarak önemliyse, sizi nereye bırakır? Önyargılı bir örneği temel alan nüfus hakkında ne gibi makul açıklamalar yapabilirsiniz? Böyle bir durumda makul bir eylem şekli nedir? Araştırmamızda bu dengesizliği ne zaman farkettiğimizin önemi var mı?


2
Michael, bu sorunun metrik olarak istatistiksel olarak önemini kullanırsak, 20'de bir kez gerçekleşmesi beklenebilir. Çoğunlukla rastgele ne zaman temsili olmayan bir örnek seçtiğimizi bilmiyoruz çünkü nüfus hakkında yeterince bilgimiz yok. Fakat nüfus hakkında bir şey bildiğimizde ve böyle bir anomali fark ettiğimizde ne yaparız?
Joel W.

3
Evet, en doğru uygulama @MichaelChernick'in yazdığı gibi yeterince büyük, rastgele bir örnek elde etmektir. Bununla birlikte, profesörlerimden biri, Monte Carlo simülasyonu tarafından bir araştırmacının örneklem büyüklüğünü arttırması gerektiğinde, sadece numuneye istatistiksel birlikler eklemenin çok doğru olmadığını, ancak örneklemenin tekrarı yapması gerektiğini doğruladığını söyledi. Aksi takdirde, istatistikler önyargılı olabilir (bir kez daha!).
this.is.not.a.nick

4
@Michael, ifadenin neden doğru olduğunu anlamıyorum. Null hipotezi altında, örneklem büyüklüğünden bağımsız olarak , zamanın% 5'i 0,05'ten küçük bir p değeri ortaya çıkacaktır . Peki daha büyük örneklem boyutlarının bu sorunu çözmesi nasıl mümkün olabilir? Bana göre tavsiyeniz, okuyucuyu hipotez testlerinin büyüklüğünü ve gücünü şaşırtmaya davet ediyor.
whuber

2
@Michael, rastgele daha fazla veri toplamamız gerektiğinden kastın ne? Diğer yönde önyargılı bir örnek rasgele çizeceğimizi umuyor muyuz? Her durumda, ne kadar ek vaka çekmeliyiz? Başlangıçta bir sayı koymamızı veya durma kuralı kullanmamızı öneriyor musunuz? Durdurulan bir kural varsa, kural neye benzeyebilir? Son olarak, elde edilen daha büyük numunenin istatistiksel olarak anlamlı bir önyargısı olmasa bile, bunun bir yanlısı ve diğeri olmayan iki numuneden oluştuğunu biliyoruz. Bu kadar karmaşık bir örneğe dayanarak nüfus hakkında ne gibi makul açıklamalar yapabilirsiniz?
Joel W.

2
@Michael Alternatif bir sonuç, oldukça anlamlı, çok eğri bir numunenin örnekleme prosedüründe bir sorun olduğunu göstermesidir. Eğer öyleyse, simetri eksikliği daha büyük bir numunede devam edecektir.
whuber

Yanıtlar:


7

MLS verdiği cevap (kullanım önem örneklemesi) sadece siz dağılımları hakkında yapabilir varsayımlar olarak iyiliği gibidir. Sonlu popülasyon örnekleme paradigmasının temel gücü, sonlu popülasyon parametreleri üzerinde (geçerli) çıkarımlar yapmak için verilerin dağıtımı hakkında herhangi bir varsayımda bulunmadığından parametrik olmadığıdır.

Örnek dengesizliklerini düzeltmek için bir yaklaşım post-tabakalaşma olarak adlandırılır . Örneği üst üste binmeyen sınıflara (post-strata) ayırmanız ve sonra bu sınıfları bilinen popülasyon rakamlarına göre yeniden ölçmeniz gerekir. Eğer popülasyonunuzun 0 ortanca olduğu biliniyorsa, pozitif ve negatif gözlemleri yeniden ölçebilirsiniz, böylece ağırlık oranları 50-50 olur: eğer 10 negatif gözlem ve 20 pozitif gözlemle şanssız bir SRS olsaydı, Negatif olanlar 15/10 = 1.5 ve pozitif olanlar, 15/20 = 0.75'tir.

Numune kalibrasyonunun daha ince formları vardır , burada numunenizi belirli bir değere eşit olacak bir sürekli değişken ortalamaya sahip olmak gibi daha genel kısıtlamaları karşılamak üzere kalibre edebilirsiniz. Simetri sınırlaması da bununla mümkün olsa da çalışmak oldukça zor. Olabilir Jean Opsomer o anket verileri için çekirdek tahmin çok iş yapıyor: Bu konuda bir şey vardır.


Tabakalaşma sonrası, mantıksal veya istatistiki olarak, dengesiz numuneyi atmak ve başka bir numuneyi çizmek ile nasıl karşılaştırılır? (Bazen numuneyi çizmek araştırmanın emek yoğun bir parçasıdır, ancak bazen emek yoğun olan numuneyi çizdikten ve yapılan numuneyi çizdikten sonra, deneysel araştırmada olduğu gibi nispeten daha az çaba gerektirir.)
Joel W .

2
Verileri atmanın en iyi cevap olduğu bir durum hiç olmadı ve anket istatistik kitaplarının hiçbirinde tartışıldığını hiç görmedim. Anket istatistiklerinin çoğunda, verilerin alınması, aşağıdaki veri işleme ve analizlerinden en az beş kat daha pahalıdır (muhtemelen veri toplama işleminin neredeyse ücretsiz olduğu bazı ucuz web anketleri hariç). Deneysel bir dünyadaysanız, "örnekleme" gönderinizi etiketlememelisiniz, bunun yerine "deneme tasarımı" nı kullanmalısınız.
StasK

Tabakalı değil, rastgele örnekler kullanılabilir, çünkü gerçek bir dünya ortamında tabakalaşmanın birçok yolu vardır. Bir deney için iki rastgele örnek seçtikten sonra, bazı dengesiz dengesizliklerin farkına varmış olabilir. O zaman bir kaya ile zor bir yer arasında sıkışıp kalırsınız: dengesizlikle yaşayın (örneğin, bir gruptaki tüm yaşlı insanlar, bir gruptaki tüm yerli olmayan konuşmacılar, bir gruptaki tüm doktora, vb.) Veya yeni örnek ve yaptıklarınız ile tüm istatistiksel tekniklerin varsayımları arasındaki bağlantıyı zayıflatın. Tabakalaşma sonrası ikinci tip gibi görünüyor.
Joel W.

2

Burada Junior Member değilim, ama atmadan ve baştan başlamak iyi cevap, her zaman olduğunu söyleyebilirim eğer sen biliyorsun senin örnek anlamlı temsili olmayan olduğunu ve temsili olmayan örnekleme ilk etapta nasıl ortaya çıktığını bir fikir varsa ve mümkünse ikinci seferde nasıl önlenebileceği.

Muhtemelen aynı tekneye girecekseniz, ikinci bir kez denemek ne işe yarayacak?

Veri toplamanın tekrar yapılması bir anlam ifade etmiyorsa veya çok pahalıya mal oluyorsa, elinizde olanı çalışmak, katmanlaşma, emanet, meraklı modelleme veya başka bir şeyle temsil edilemezliği telafi etmeye çalışmak zorundasınız. Bu şekilde telafi ettiğinizi, neden gerekli olduğunu ve neden çalıştığını düşündüğünüzü açıkça belirtmeniz gerekir. Öyleyse, analiziniz boyunca tazminatınızdan kaynaklanan belirsizliği araştırın. (Sonuçlarını daha az kesinleştirecek, değil mi?)

Bunu yapamıyorsanız, projeyi tamamen bırakmanız gerekir.


Numunenin neden temsili olmadığını bilmiyorsanız, hala atma ve yeni, rastgele bir örnek çizme konusunda haklı mısın? Değilse neden olmasın? Ayrıca, ilk örneği atıp ikinci bir tane çizdiğinizi varsayalım, ikinci örneğe göre hesaplanan çıkarımsal istatistikler, atılan ilk örnek nedeniyle uygunsuz herhangi bir şekilde uygunsuz mu? Örneğin, temsilci olmayan örnekleri atmaya abone olursanız, istatistiksel testinizin dayandığı örnekleme dağılımını değiştiriyor musunuz? Eğer öyleyse, istatistiksel önemi bulmayı daha mı zorlaştırıyorsunuz?
Joel W.

@Wayne İyi fikir.
Subhash C. Davar

1

qpp

sp=E{f(X)|Xp}s(p)f{x1,,xn}p

sp1ni=1nf(xi).
xiqsp
sp1ni=1np(xi)q(xi)f(xi).
E{p(X)q(X)f(X)|Xq}=p(X)f(X)dx,

Numunenin önyargılı olmadığını ve numuneyi düzeltme girişiminin önyargı ekleyeceğini söylüyorsunuz. Numunenin toplandığı işlemin önyargısız olduğunu, ancak aslında önyargılı olduğunu, belki de önyargılı olduğunu öneriyorum. Nispeten az ek önyargı getirmesi beklenebilecek bilinen büyük önyargıyı düzeltmeye çalışmanın yolları var mı?
Joel W.

1
Terminolojiyi biraz tartışmak için: Önyargıyı rastgele bir değişken beklentisinin bir özelliği olarak düşünüyorum. Başka bir deyişle, verileri toplayan süreç tarafsızsa, örnek de öyledir. Bununla birlikte, örnek hala atipik olabilir ve istenmeyen sonuçlara yol açabilir. Bunu düzeltmenin herhangi bir genel yolu, (tarafsız) örnekleme prosedürünü uyarladığınız için önyargı yaratır. Muhtemelen daha az önyargılı yaklaşım, yeni örnekler toplamak ve kullanmaktır. Biraz daha önyargılı bir yaklaşım bu yeni örnekleri eskilere ekler, ancak toplamda daha fazla numune aldığınız için sonuç daha az değişken olabilir.
MLS

2
@Joel W. Örnek önyargılı derken ne demek istiyorsunuz? Önyargılı örneğe dayanarak ortalamanın tahmini mi? Herhangi bir örnek tahmini, gerçek ortalamadan farklı olacak ve bazıları uzak olabilir. Rastgele örnekleme yaparken, bu sapma değil varyans kaynaklanmaktadır. Bir örneklemin önyargılı olduğunu söylemek doğru değildir çünkü örneklemin dağılımının popülasyonun dağılımından çok farklı göründüğü bilinmektedir. Küçük örneklerde, birçoğu bir nedenden ötürü temsilsiz görünebilir ancak rastgele örnekleme önyargılı örnekleme değildir.
Michael R. Chernick,

1
@Michael, mecbur olduğumuzda rastgele değişkenlerle tanışmamız ve yaşamamız gerektiğine katılıyorum. İstenmeyen varyans tespit ettiğimizde makul olarak ne yapabileceğimizi soruyorum. Bizim rastgele örneklememiz, bu kategoriler araştırmamızla alakalı olduğunda görece çok fazla genç ya da çok sayıda mavi yakalı işçiyi vb. İçerdiği ortaya çıkarsa? Daha da ileri giderek, dengesiz olup olmadıklarını görmek için örneklerimizi kontrol etmeli miyiz? Ve bunun örnekle daha fazla araştırma yapmadan önce mi yoksa örnekle araştırma yapmak için kaynaklara yatırım yaptıktan sonra fark etmesi önemli mi?
Joel W.

1
Değişken dengesizlik çok önemlidir. Bir örnekte mevcutsa, bunu ayarlamak için bir regresyon modeli kullanılabilir. Vance Berger bu konuda daha önce bu web sitesinde daha önce bahsettiğim bir kitap yazdı. İşte kitabın açıklamasına bir amazon bağlantısı. amazon.com/Selection-Covariate-Imbalances-Randomized-Statistics/…
Michael R. Chernick
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.