Pratik bir uygulamada neden değiştirmeden örneklemeyi düşünmelisiniz?


13

Değiştirilen örneklemenin, gördüğüm gibi değiştirmeden örneklemeye göre iki avantajı vardır:

1) Sonlu nüfus düzeltmesi hakkında endişelenmenize gerek yoktur.

2) Popülasyondaki öğelerin birden çok kez çizilme olasılığı vardır - o zaman ölçümleri geri dönüştürebilir ve zaman kazanabilirsiniz.

Elbette akademik bir POV'dan her iki yöntemi de araştırmak gerekir. Ancak pratik bir POV'dan, değiştirmenin avantajları göz önüne alındığında, neden değiştirmeden örneklemeyi düşüneceğini anlamıyorum.

Ancak istatistiklere yeni başladım, bu nedenle, en azından belirli kullanım durumları için yedek olmadan üstün seçim olabilmesinin birçok iyi nedeni olabilir. Lütfen, onaylamayın!


3
İpucu: Sonlu popülasyon düzeltmesini uygulamanın etkisinin ne olduğunu ve bunun neden avantajlı olabileceğini düşünün. (Ayrıca, (1) toplam yapmak, veri toplamaktan neredeyse her zaman daha az sorun ve masraftır; (2) bireyleri ayırt edebiliyorsanız, ölçümleri geri dönüştürmemelisiniz, ancak sadece farklı bireylere temel çıkarım
yapmalısınız

Dürüst olmak gerekirse, aslında herhangi bir iddianızı anlamıyorum. FPC, ölçümlerin bağımsızlığının olmamasının sayısal sonuçlarını telafi eder. Ama bunun neden avantajlı olduğunu bilmiyorum. (1) bunun sorumla nasıl bir ilişkisi var? (2) Bir ölçümü neden geri dönüştürmemelisiniz? Bunu, değiştirme ile örnekleme yaparken aynı öğenin iki kez aynı anda çizilmesinin doğrudan mantıksal sonucu değil mi?
Raffael

Yanıtlar:


13

@Scortchi'nin cevabına genişleyen. . .

Nüfusun 5 üyesi olduğunu ve 5 kişiyi örneklemek için bütçeniz olduğunu varsayalım. Bu popülasyondaki bireylerin bir özelliği olan değişken X'in popülasyon ortalamasıyla ilgileniyorsunuz. Bunu kendi yolunuzla yapabilir ve rastgele değiştirme ile örnekleyebilirsiniz. Örnek ortalamasının varyansı V (X) / 5 olacaktır.

Öte yandan, beş kişiyi değiştirmeden örneklediğinizi varsayalım. Daha sonra, örnek ortalamasının varyansı 0'dır. Tüm popülasyonu, her bireyi tam olarak bir kez örneklediniz, bu nedenle "örnek ortalaması" ile "nüfus ortalaması" arasında bir fark yoktur. Aynı şey.

Gerçek dünyada, sonlu nüfus düzeltmesini yapmak zorunda olduğunuz her seferinde sevinç için zıplamalısınız çünkü (drumroll. ...), daha fazla veri toplamak zorunda kalmadan tahmincinizin varyansını azaltır. Neredeyse hiçbir şey bunu yapmaz. Sihir gibi: iyi sihir.

finite sample correction=NnN1<N1N1=1

Düzeltme <1, düzeltmenin uygulanmasının varyansı AŞAĞI hareket ettirdiği anlamına gelir, çünkü düzeltmeyi varyansla çarparak uygularsınız. Varyans AŞAĞI == iyi.

Tam tersi yönde, tamamen matematikten uzaklaşarak ne istediğini düşün. Nüfus hakkında bilgi edinmek istiyorsanız ve ondan 5 kişiyi örnekleyebiliyorsanız, aynı adamı 5 kez örnekleme şansını yakalayarak daha fazla öğreneceğiniz veya daha fazla öğreneceğinizin 5 farklı adamı örneklediğinizi?

Gerçek dünya davası söylediklerinizin tam tersidir. Neredeyse hiçbir zaman değiştirme ile örnek yapmazsınız - sadece önyükleme gibi özel şeyler yaparken. Bu durumda, aslında tahmin ediciyi batırmaya ve ona "çok büyük" bir varyans vermeye çalışıyorsunuz.


"Önyükleme" altında, popülasyonun bir parametresini tahmin etmek için popülasyonun parametresi yerine (aslında kullanmak zorunda kalacağınız) numunenin bir parametresini kullanmayı anlıyorum. Neden tahmin ediciyi “berbat” etmek ve ona “çok büyük” bir sapma vermek istersiniz?
Raffael

1
@ Яaffael Parametrik olmayan önyükleme hakkında konuşuyorum. Numunenizi alırsınız (boyut 100 diyelim), değiştirerek tekrar numune alırsınız (100 büyüklüğünde bir bootstrap örneği verirken 100 kez) ve daha sonra ilgili tahmin edicinizi yeniden hesaplarsınız. Örneği bir oyuncak popülasyonu olarak ele alıyorsunuz, ondan bir örnek çizmeyi simüle ediyor, bir tahmincisi hesaplıyorsunuz. Değiştirmeden oyuncak popülasyonundan örnek aldıysanız, orijinal tahmini yeni tahmin (yani varyans = 0) olarak alarak oyuncak popülasyonunu tam olarak kopyalarsınız. Bunu önlemek için, değiştirme ile örnek.
Bill

5

Tahminlerin doğruluğu, değiştirilmeden örnekleme için genellikle değiştirmeyle örneklemeye kıyasla daha yüksektir.

n


2

Buradaki cevapların tamamen yeterli olduğunu düşünmüyorum ve veri miktarınızın çok düşük olduğu sınırlayıcı dava için tartışıyorlar.

Yeterince büyük bir örnekle, bu özellikle birçok bootstrap örneğinde (~ 1000) endişe verici değildir. Ben gerçek dağıtım büyüklüğü 10.000 veri kümesi örneklemeyi ettim ve yeniden örnekleriz Eğer ile (ı yaparak elde ediyorum varyans aksine 1.000 kez, daha sonra varyans ben kazanç yerine hiçbir değiştirme) tamamen önemsizdir.

Daha doğru cevabın bu olduğunu söyleyebilirim: ikinci dereceden bir istatistiğin güvenini tahmin ederken değiştirmeden yeniden örnekleme şarttır . Örneğin, bir dağılım ölçümünde sahip olduğum belirsizliği tahmin etmek için bir bootstrap kullanıyorsanız. Böyle bir miktar için değiştirme ile çizim, geri kazanılan dispersiyonları yapay olarak saptırır.

Gerçek verilere sahip somut bir örnek için, buna bağlıysanız, bu makaleye bakın https://arxiv.org/abs/1612.02827

sorunuzu sayfa 10'da kısaca tartışır


0

Değişim olmadan pratik olarak ikame gibi davranan ve tüm zorlukları ortadan kaldıran bir sonucum var. Değiştirme hesaplamaları ile çok daha kolay olduğunu unutmayın. Dolayısıyla, bir olasılık p ve q'yu içeriyorsa, başarı ve başarısızlık olasılıkları, yedek kutuda, yedek kutu olmadan karşılık gelen olasılık, p ^ aq ^ b'nin (Nab) C (Ra) ile değiştirilmesi ile elde edilir. herhangi bir a ve b, burada N, R toplam top sayısı ve beyaz top sayısıdır. P'nin R / N olarak değerlendirildiğini unutmayın.

K.Balasubramanian


bir ihmal vardı. (Nab) C (Ra) / (NCR) doğru ifadedir. Örneğin, ortalama np n (N-1-0) / (R-1) / NCR olur. böyle bir sonucu kontrol edebilirsiniz.
Krish Balasubramanian
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.