İnsanlara önyükleme işleminin neden işe yaradığını açıklama


326

Geçenlerde bir projenin güven aralıklarını tahmin etmek için önyükleme kullandım. İstatistikler hakkında fazla bir şey bilmeyen birileri son zamanlarda benden neden önyüklemenin işe yaradığını açıklamamı istedi , yani, aynı örneği tekrar tekrar örneklemenin neden iyi sonuçlar verdiğini açıklamamı istedi . Nasıl kullanılacağını anlamak için çok zaman harcadığım halde, neden önyüklemenin neden işe yaradığını anlamıyorum.

Özellikle: eğer örneklemimizden örnek alıyorsak, sadece örneklemden ziyade nüfus hakkında bir şey öğreniyoruz? Orada biraz sezgisel olan bir sıçrama var gibi görünüyor.

Bu sorunun cevabını burada anladığım birkaç cevabı buldum. Özellikle de bu . İstatistiki bir istatistikçiyim, istatistikçiyim ve istatistik hakkında benden daha az şey bilen insanlarla çalışıyorum. Öyleyse, birisi önyüklemenin arkasındaki temel mantığı, teoremlere en az referansla vurarak açıklayabilir mi? Yani, komşunuza açıklamak zorunda olsaydınız, ne söylerdiniz?


13
(+1) Baktığınız sorulardan kısaca bahsedebilirsiniz, ancak bu sizi tatmin etmiyor. Burada bootstrap bir sürü soru var. :)
kardinal,

@cardinal Teşekkürler, ben asıl yazıyı güncelledim. Umarım daha açıktır. :)
Alan H.

5
Unutulmaması gereken bir şey - bootstrapping, çok seviyeli modeller ve çok aşamalı örnekleme tasarımları gibi hiyerarşik olarak yapılandırılmış veriler için kolayca çalışmaz. Kullanmanız gereken "hangi bootstrap" i bilmek çok kafa karıştırıcı.
probabilityislogic

2
Temel olarak, önyükleme çalışır çünkü parametrik olmayan maksimum olabilirlik. Dolayısıyla, maksimum olasılıkla ilgili sorunlar olduğunda, önyükleme ile ilgili sorunlar bekleyebilirsiniz.
kjetil b halvorsen 18:15

3
Jake VanderPlas, PyCon 16'da bootstrapping ve diğer bazı ilgili teknikler hakkında harika bir konuşma yaptı. Bkz slaytları slayt 71 ve başlayan video kaydı .
thm

Yanıtlar:


198

Genelde verdiğim orta uzunlukta sürüm fwiw şöyle gider:

Bir nüfus sorusu sormak istiyorsun ama yapamazsın. Yani bir örnek alıp bunun yerine sorusunu sorabilirsiniz. Şimdi, örnek cevabın popülasyon cevabına yakın olduğundan ne kadar emin olmanız gerektiği açıkça popülasyonun yapısına bağlıdır. Bunu öğrenmenin bir yolu, tekrar tekrar popülasyondan örnek almak, soru sormak ve örnek cevapların ne kadar değişken olma eğiliminde olduğunu görmek. Bu mümkün olmadığından , popülasyonun şekli hakkında bazı varsayımlar yapabilir veya bu konuda gerçekten öğrenmek zorunda olduğunuz örnekteki bilgileri kullanabilirsiniz .

Varsayımlar yapmaya karar verdiğinizi düşünün, örneğin, Normal veya Bernoulli ya da başka uygun bir kurgu. Önceki stratejiyi izleyerek, bir örnek sorulduğunda sorunuza verilen cevabın ne kadarının, sahip olduğunuzla aynı boyutta örnekler üreterek ve aynı soruyu sormakla tekrar tekrar elde ettiğiniz duruma bağlı olarak değişebileceğini öğrenebilirsiniz. soru. Hesaplamalı olarak uygun varsayımları seçtiğiniz ölçüde bu basit olacaktır. (Gerçekten de özellikle uygun varsayımlar ve önemsiz olmayan matematik, örnekleme bölümünü tamamen atlamanıza izin verebilir, ancak burada kasıtlı olarak görmezden geleceğiz.)

Bu, varsayımları yapmaktan mutluluk duymanız koşuluyla, iyi bir fikir gibi görünüyor. Olmadığını hayal et. Bir alternatif, sahip olduğunuz numuneyi almak ve bunun yerine numune almaktır. Bunu yapabilirsiniz çünkü sahip olduğunuz örnek aynı zamanda bir popülasyondur, sadece çok küçük bir kesiklidir; verilerinizin histogramına benziyor. 'Değişim ile' örnekleme, popülasyon gibi bir örneği ele almanın ve şeklini yansıtacak şekilde örneklemenin kolay bir yoludur.

Bu yapılması gereken makul bir şey çünkü sadece en iyisine sahip olan örnek değil, aslında popülasyonun gerçekte nasıl göründüğü hakkında sahip olduğun tek bilgi değil, aynı zamanda çoğu örnek, rastgele seçilmişse, aynı şekilde geldikleri nüfus. Sonuç olarak, sizinkinin de yapması muhtemeldir.

Sezgi için, çeşitli şekillerde ve çeşitli varsayımlarda üretilen örneklenmiş bilgileri toplayarak değişkenlik hakkında nasıl bilgi edinebileceğinizi düşünmek önemlidir. Kapalı formdaki matematiksel çözümler olasılığını tamamen göz ardı etmek, bu konu hakkında açıklık getirmek için önemlidir.


5
Güzel cevap Özellikle sondan fazla paragrafı seviyorum.
Peter Flom

19
(+1) Bu iyi bir cevap. Yine de çok önemli bir noktaya değinmenin bir yolu olabileceğini düşünüyorum. Önyükleme normalde yapılırken, gerçekleşen iki etkisi vardır. İlk olarak, elde ettiğimiz örneğin popülasyonumuz için bir vekil olduğunu iddia ediyoruz. Bu, örnek boyutumuzun oldukça büyük olması koşuluyla nominal olarak yapılması gereken makul bir şeydir. Ancak, bu taklit dağıtımından gerçek faiz miktarlarını hesaplamakta genellikle zorlanırız. Bu yüzden , onları tahmin etmeliyiz ve bu yüzden pek çok önyükleme örneği alıyoruz. Eğer yapabilirsek ... / ...
kardinal

11
... / ... taklit dağıtımımız için doğrudan ilgi miktarını hesaplarsak, bunu yapmayı tercih ederiz. Ve, bu gerçek önyükleme olurdu . Ancak, genellikle yapamayız, bu nedenle yeniden örnekleme yapmak zorunda kalıyoruz.
kardinal,

8
BO(B1/2)

4
@cardinal: Güzel yorum. Birçok insan, bootstrap ve resampling'in aslında birincisi için kullanılan bir araç olduğunda aynı şey olduğunu düşünüyor. Benzer bir yanılgı, birçok istatistik kullanıcısının MCMC ve Bayesian analizlerinin aklını karıştırma eğiliminde olduğu yönündedir.
MånsT

122

+1 to @ConjugatePrior, Ben sadece cevabında kapalı olan bir noktayı ortaya çıkarmak istiyorum. Soru, “eğer örneklemimizden örnek alıyorsak, sadece örneklemden ziyade nüfus hakkında nasıl bir şey öğreniyoruz?” Diye soruyor. Yeniden örnekleme edilir değil nüfus dağılımının bir tahmin sağlamak için yapılır - biz halkın bir model olarak bizim örnek kendisi alır. Aksine, söz konusu örnek istatistiğin örnekleme dağılımının bir tahminini sağlamak için yeniden örnekleme yapılır .


10
(+1) Bu, ConjugatePrior'ın cevabını yorumunda yapmaya çalıştığım noktaya yakın, ancak daha açık ve net bir şekilde ifade ettin. Bazı özel durumlarda, test istatistiğinin örnekleme dağılımını tam olarak numuneden elde edilen deneysel dağılım altında hesaplayabiliriz . Ancak, genellikle yapamayız ve bu yüzden simülasyona zorlanıyoruz. :)
kardinal

7
Görüyorum ki, eğer sizi anlarsam, bu teknik örneklemin popülasyon için yeterli bir model olduğunu varsayar ve bu nedenle bu örnek üzerinde yeterince büyük bir ölçekte yeniden örneklemenin popülasyonla ilgili bir şey ortaya çıkardığını, ancak Orijinal örnek iyi bir tanesidir. Şimdi o şekilde koyduğuma göre neredeyse bariz görünüyor ...
Alan H.

4
@AlanH., Sadece değiştirmek istiyorum "... popülasyonu hakkında bir şeyler açığa çıkaracak " ila "... örnekleme dağılımı hakkında bir şeyler açığa çıkaracak " (söz konusu istatistiğin, örneğin ortalama). Ama, evet, orada var
gung

Tabii ki hepiniz haklısınız. Kişisel olarak ve tamamen pedagojik nedenlerden dolayı, bu noktayı 'daha uzun versiyonum' için saklıyorum, çünkü belirli izleyicilerimde bu nokta, çok kısa sürede uygulanırsa, genç ve hala kararsız sezgileri biraz dengesiz bırakma eğilimindedir.
conjugateprior

3
@ErosRam, bootstrapping, bir şeyin örnekleme dağılımını belirlemektir. Bunu bir numune istatistiği (örn. Yüzde 56) veya bir test istatistiği (t), vb. İçin yapabilirsiniz. 1 kafa -% 50; 2 kafa -% 25; Bu yeniden örnekleme olmadan açıktır. Kardinal'in bunu açıklayan bir yorumu var (sitedeki en iyi cevapların çoğu Kardinal'in yorumları.), Ancak b / c'yi yorumlaması zor.
gung

43

Bu, muhtemelen bazı istatistik ve matematiği (en azından matematik) anlayan insanlara yönelik daha teknik bir açıklamadır. Aşağıda, bir süre önce öğrettiğim anket önyüklemelerine ilişkin bir kursun bir parçası:

önyükleme ilkesi

TE[X]=xdFFn()dFF()TθFn()Tθ^nθθ^nθ

Örnekleme prosedürümüzü tekrarlayabilirsek, bu dağıtımı alabilir ve daha fazlasını öğrenebiliriz. Bu genellikle bizim yeteneklerimizin ötesinde. Ancak, eğer

  1. FnF
  2. TF()θ

Fn()F()nnn5θ^nθ^nθ^nθ

θ^n to θ^n is like θ^n to θ

θ^nθ^n

TFnFθ^nθ^nθ^nθF

nnθ^nθθ^n(r)θ^nθ^n


7
Bu cevap tamamen sakin bir kitleye ulaşılabilir olmaya çalışmayı tamamen özlüyor.
Tripartio

20

Bu soruyu cevaplıyorum çünkü bunun yapılması zor bir şey olduğu ve birçok yanılgı olduğu konusunda hemfikirim. Efron ve Diaconis, 1983 Scientific American makalelerinde bunu yapmaya çalıştı ve bence başarısız oldu. Şimdi iyi bir iş yapan bootstrap adanmış birkaç kitap var. Efron ve Tibshirani 1986'da İstatistik Bilimi'ndeki makalelerinde harika bir iş çıkarıyorlar. Özellikle önyükleme yöntemleri kitabımdaki uygulayıcıların önyüklemesini erişilebilir kılmak için özellikle çok çalıştım ve R. Hall'ın kitabına yönelik uygulamalarla önyükleme yapmaya başlamam harika ama çok gelişmiş ve teorik . Tim Hesterberg, David Moore'un tanıtım istatistik kitaplarından birine harika bir tamamlayıcı bölüm yazdı. Merhum Clifford Lunneborg'un güzel bir kitabı vardı. Chihara ve Hesterberg kısa bir süre önce bootstrap ve diğer yeniden örnekleme yöntemlerini kapsayan orta seviye bir matematik istatistik kitabıyla çıktılar. Lahiri veya Shao ve Tu gibi ileri düzey kitaplar bile iyi kavramsal açıklamalar yapıyor. Manly permütasyonları ve önyüklemeyi kapsayan kitabını iyi yapıyor Şimdi önyükleme konusunda şaşkınlığa gerek yok. Bootstrap'in bootstrap ilkesine bağlı olduğunu unutmamak önemlidir "Orijinal numunede değiştirme ile örnekleme yapmak, orijinal numunenin bir popülasyonda çalışma şeklini değiştirir. Bu ilkenin başarısız olduğu örnekler vardır. Bootstrap'ın bilinmesi önemlidir. Her istatistiksel sorunun cevabı değil. s iyi kavramsal açıklamalar verir. Manly permütasyonları ve önyüklemeyi kapsayan kitabını iyi yapıyor Şimdi önyükleme konusunda şaşkınlığa gerek yok. Bootstrap'in bootstrap ilkesine bağlı olduğunu unutmamak önemlidir "Orijinal numunede değiştirme ile örnekleme yapmak, orijinal numunenin bir popülasyonda çalışma şeklini değiştirir. Bu ilkenin başarısız olduğu örnekler vardır. Bootstrap'ın bilinmesi önemlidir. Her istatistiksel sorunun cevabı değil. s iyi kavramsal açıklamalar verir. Manly permütasyonları ve önyüklemeyi kapsayan kitabını iyi yapıyor Şimdi önyükleme konusunda şaşkınlığa gerek yok. Bootstrap'in bootstrap ilkesine bağlı olduğunu unutmamak önemlidir "Orijinal numunede değiştirme ile örnekleme yapmak, orijinal numunenin bir popülasyonda çalışma şeklini değiştirir. Bu ilkenin başarısız olduğu örnekler vardır. Bootstrap'ın bilinmesi önemlidir. Her istatistiksel sorunun cevabı değil. Yerine koyma ile örnekleme, orijinal örnek üzerinde bir popülasyon üzerinde davranış şeklini alır. Bu ilkenin başarısız olduğu örnekler var. Önyüklemenin her istatistiksel sorunun cevabı olmadığını bilmek önemlidir. Yerine koyma ile örnekleme, orijinal örnek üzerinde bir popülasyon üzerinde davranış şeklini alır. Bu ilkenin başarısız olduğu örnekler var. Önyüklemenin her istatistiksel sorunun cevabı olmadığını bilmek önemlidir.

İşte bahsettiğim tüm kitaplara amazon bağlantıları.

Örnekleme ve R ile Matematiksel İstatistik

Önyükleme Yöntemleri ve Uygulamaları

Önyükleme Yöntemleri: Uygulayıcılar ve Araştırmacılar İçin Bir Kılavuz

R Uygulamaları ile Önyükleme Yöntemlerine Giriş

Bağımlı Verilere Yeniden Örnekleme Yöntemleri

Biyolojide Randomizasyon, Önyükleme ve Monte Carlo Yöntemleri

Önyükleme için açıklama

İşletme İstatistikleri Uygulaması Uygulaması Bölüm 18: Bootstrap Yöntemleri ve Permütasyon Testleri

Örneklemeyle Veri Analizi: Kavramlar ve Uygulamalar

Jackknife, Önyükleme ve Diğer Örnekleme Planları

Jackknife ve Önyükleme

Hipotezlerin Permütasyon, Parametrik ve Bootstrap Testleri

Önyükleme ve Edgeworth Genişlemesi


2
@Procrastinator. Bunu daha sık yapıyorum. Bazı durumlarda cevabımın gönderilmesini sağlamak için acelem var ve daha sonra temizlemek için geri döneceğim. Bağlantı adreslerini başlıklara göre bağlantılara çevirme askıya almadım ve tüm bunların gerekli olduğundan emin değilim. Bu, tek yönlü bir tıklamadır. Ancak, eğer bekleyemezseniz, düzenlemeleri umursamıyorum. Aslında bunu takdir ediyorum.
Michael Chernick

1
Yorumumu "Düzenlemeleri yaparken umursamıyorum" olarak değiştirecektim. "Ancak bekleyemezseniz" çıktı. Yaptıklarının ne kadar düzenli ve kolay olduğunu ve muhtemelen daha az zaman aldığını görüyorum, ancak henüz öğrenmedim ve bunu bazı moderatörler ve diğer üyelerin yaptığı gibi büyük bir fırsat olarak görmüyorum.
Michael Chernick

1
10,000

Teşekkür ederim erteleme. Bugün o toprağa ulaşmayı bekliyordum.
Michael Chernick

10

Önyükleme sayesinde, tüm popülasyon hakkındaki tahminlerinizin (gerçek dünyada gerçekte ne olduğunu) tahmin etmek için aynı veri grubundan (örnek verileriniz) tekrar tekrar örnek alıyorsunuz.

Bir örnek alıp gerçek nüfus hakkında tahminlerde bulunacaksanız, tahminlerinizin ne kadar doğru olduğunu tahmin edemeyebilirsiniz - yalnızca bir tahminimiz vardır ve bu tahminin karşılaşabileceğimiz farklı örneklerle nasıl değiştiğini belirlemedik.

Önyükleme işleminde, bu ana örneği çoklu örnekler üretmek için kullanırız. Örneğin, karı her gün 1000 gün boyunca ölçersek, bu setten rastgele örnekler alabiliriz. Bir rastgele günde kar elde edebilir, kaydedebilir, başka bir rastgele günde kar elde edebiliriz (bu önceki gibi aynı olabilir - yerine örnekleme ile), "yeni" olana kadar kaydedebilir ve böylece. 1000 gün örnek (orijinal örnekden).

Bu "yeni" örnek orijinal örnek ile aynı değildir - aslında yukarıdaki gibi birkaç "yeni" örnek üretebiliriz. Ortalamalar ve tahminlerdeki çeşitliliklere baktığımızda, orijinal tahminlerin ne kadar doğru olduğu hakkında bir okuma yapabiliriz.

Düzenle - Yoruma cevap olarak

"Yeni" örnekler ilkiyle aynı değildir ve bunlara dayanan yeni tahminler değişecektir. Bu, popülasyonun tekrarlanan örneklerini simüle eder. Önyükleme tarafından üretilen "daha yeni" örneklerin tahminlerindeki değişiklikler, popülasyondan farklı örnekler verildiğinde örnek tahminlerinin nasıl değişeceğine ışık tutacaktır. Aslında, orijinal tahminlerin doğruluğunu ölçmeye nasıl başlayabiliriz?

Elbette, önyükleme yapmak yerine, popülasyondan birkaç yeni örnek alabilir, ancak bu mümkün olmayabilir.


5
Teşekkürler! Bu kadarını anlıyorum. Özellikle, bir popülasyon örneğinden örneklemenin, alttaki popülasyonu anlamanın nasıl bir yardımcı olduğunu merak ediyorum. Bir örneklemden örnek alıyorsak, sadece örneklemden ziyade nüfus hakkında bir şey öğreniyoruz? Orada biraz sezgisel olan bir sıçrama var gibi görünüyor.
Alan H.

4

Bunun kabul edilmiş bir cevabı olan eski bir soru olduğunun farkındayım, ancak önyükleme yöntemi ile ilgili görüşlerimi sunmak istiyorum. Hiçbir şekilde uzman değilim (OP olarak bir istatistik kullanıcısıyım) ve herhangi bir düzeltme veya yorumu kabul etmiyorum.

SiT(Si)

Bunun yerine 98 bedenindeki tüm alt kümeleri göz önünde bulundurabilir ve JK-2 (silinmiş 2 öğe) veya JK-3 vb.

Şimdi, bootstrap bunun sadece rastgele bir versiyonudur. Değiştirmeler ile seçim yoluyla yeniden örnekleme yaparak, rasgele sayıda elemanı (muhtemelen yok) “silersiniz” ve onları bir (veya daha fazla) kopya ile “değiştirirsiniz”.

Çoğaltılmış kopyalarla değiştirerek, yeniden örneklenen veri kümesi her zaman aynı boyutta olur. Jackknife için jackknifing'in 100 yerine 99 beden numuneler üzerindeki etkisinin ne olduğunu sorabilirsiniz, ancak eğer örnek büyüklüğü "yeterince büyükse" bu sorun olmaz.

Jackknife'da, jacked tahminlerinin aynı büyüklükteki örneklerden geldiğinden emin olmak için asla delete-1 ve delete-2 vs'yi karıştırmazsınız.

Ayrıca, 100 nolu numuneyi örneğin 10 nolu 10 numuneye ayırmayı da düşünebilirsiniz. Bu, bazı teorik yönlerde daha temiz (bağımsız altkümeler) olur, ancak numune boyutunu (100'den 10'a kadar) pratik olamayacak kadar küçültür (çoğu zaman) durumlar).

Ayrıca, belirli boyutta kısmen örtüşen alt kümelerini de düşünebilirsiniz. Bütün bunlar, önyükleme yöntemi ile otomatik ve düzgün ve rastgele bir şekilde ele alınır.

Ayrıca, önyükleme yöntemi, istatistiğinizin örneklem dağılımının orijinal numunenin ampirik dağılımından bir tahminini verir, böylece standart hatanın yanı sıra istatistiğin diğer özelliklerini de analiz edebilirsiniz.


1

Paraphrasing Fox , gözlemlediğiniz numuneden tekrar tekrar örnekleme işleminin tüm popülasyondan orijinal örnekleme sürecini taklit ettiğini gösterdiğini söyleyerek başlardım.


Yukarıdaki bağlantı geçersiz, bu yüzden Fox'un ne dediğini bilmiyorum. Ancak hiçbiri bootstrapping'ın hata yaratma konusundaki endişelerime hitap etmiyor. Dillerin dünyadaki göreceli sıklığı hakkında bilmek istediğinizi varsayalım. Örneğinizi internetten aldıysanız ve bu örneği yeniden örneklediyseniz, internetteki tüm dilleri özleyeceksiniz.
aquagremlin

1

Nüfusun sonlu bir örneklemesi, dağılıma bir histogramın yaklaştığı şekilde yaklaşır. Yeniden örnekleme yaparak, her bir çöp kutusu sayısı değişir ve yeni bir yaklaşım elde edersiniz. Büyük sayım değerleri, hem orijinal popülasyondaki hem de örneklenmiş kümedeki küçük sayım değerlerinden daha düşük dalgalanma gösterir . Bunu bir meslekten olmayan kişiye açıkladığınızdan, büyük kutu sayıları için bunun kabaca her iki durumda da kutu sayısının kare kökü olduğunu iddia edebilirsiniz .

2080100(0.2×0.8)×1001:4

Ben önyükleme "yeni" veri ortaya çıkarmak olmadığını vurgulamak önemli olduğunu düşünüyorum, yaklaşık dalgalanmaları örnek örneğini belirlemek için güvenli bir, parametrik olmayan bir yoldur , eğer gerçek olasılık örneklenmiş biri tarafından verilir.


Cevabınızda hafif biçimlendirme değişiklikleri yaptım - uygun olmadıklarını tespit ederseniz onları geri almaktan çekinmeyin. Daha fazla açıklamaya ihtiyaç duyan şey neden karekök olduğu?
Tim

1

Klasik çıkarımsal istatistiklerde, bir örneği popülasyona popülasyonun iyi bir tahmincisi olarak bağlayan teorik varlığın örnekleme dağılımı (popülasyondan alınabilecek tüm olası örnekler) olduğunu unutmayın. Önyükleme yöntemi, bir tür örnekleme dağılımı (birden çok örneğe dayalı bir dağıtım) oluşturuyor. Tabii ki, bu en yüksek olasılık olabilir, ancak temel mantık, klasik normal dağılıma dayalı istatistiklerin arkasındaki geleneksel olasılık teorisinden farklı değildir.


0

Demek istediğim çok küçük bir nokta.

Önyükleme çalışır, çünkü araştırma gündemimizin ana öncülünü hesaplamalı olarak yoğun şekilde kullanır.

Daha spesifik olmak gerekirse, istatistik veya biyolojide veya teorik olmayan bilimlerin çoğunda, bireyleri inceliyoruz, böylece örnekler topluyoruz.

Ancak, bu tür örneklerden, gelecekte veya farklı örneklerde bize sunulan diğer bireyler hakkında çıkarımlar yapmak istiyoruz.

Önyükleme ile, modellememizi örneklerimizin bireysel bileşenleri üzerinde açıkça belirleyerek, diğer bireyler için daha iyi sonuç verebiliriz (genellikle daha az varsayımla).


1
Bu, bootstrap'ı ham verilerle başlayan diğer herhangi bir istatistiksel prosedürden ayırmıyor gibi görünüyor. Bunları yalnızca özet istatistiklere veya ikili frekanslara dayanan prosedürlerden ayırıyor gibi görünüyor.
whuber

0

Yeni başlayanlara açıklama yaparken belirli bir örnek almanın yardımcı olacağını düşünüyorum ...

Bazı popülasyonlardan 9 ölçümden rastgele bir örnek aldığınızı düşünün. Örneklemin ortalaması 60'tır. Tüm nüfusun ortalamasının da 60 olduğundan emin olabilir miyiz? Açıkçası, küçük numuneler değişeceğinden değil, bu yüzden 60'ın tahmininin yanlış olması muhtemel. Bunun gibi örneklerin ne kadar değişeceğini bulmak için bazı deneyler yapabiliriz - önyükleme adı verilen bir yöntemi kullanarak.

Örnekteki ilk sayı 74 ve ikincisi 65'tir, öyleyse, dokuzuncu 74'ü, dokuzuncu 65'i ve daha fazlasını içeren büyük bir "taklit" popülasyonu hayal edelim. Bu popülasyondan rastgele bir örnek almanın en kolay yolu, dokuz örneklemden rastgele bir sayı almak, sonra tekrar dokuz orjinal örneğe sahip olmak ve rasgele başka bir tane seçmekti. 9'un "resample" ı. Bunu yaptığımda, 74 hiç gözükmedi, fakat diğer bazı sayılar iki kez belirdi ve ortalama 54.4 idi. (Bu, elektronik tabloda http://woodm.myweb.port.ac.uk/SL/resample.xlsx adresinde ayarlanmıştır - ekranın altındaki önyükleme sekmesini tıklayın.)

Bu şekilde 1000 örnek aldığımda, ortalamaları 44'ten 80'e,% 95'i 48'den 72'ye kadar değişiyordu. Bu, 16-20 birime kadar bir hata olduğunu gösteriyor (44, pretend popülasyon ortalamasının 60 altında 16, 80, popülasyon ortalamasını tahmin etmek için 9 büyüklüğünde numunelerin kullanılmasında 20 ünitedir). ve hatanın 12 ya da daha az olacağından% 95 emin olabiliriz. Dolayısıyla, nüfus ortalamasının 48 ile 72 arasında bir yer alacağından% 95 emin olabiliriz.

Burada öne sürülen birtakım varsayımlar var, açık olanı, örneklemin popülasyonun yararlı bir resmini verdiği varsayımıdır - deneyimler, örneğin oldukça büyük olması koşuluyla (9 biraz küçük fakat daha kolay hale getirilirse) bunun genel olarak iyi çalıştığını gösterir. ne olduğunu görün). Http://woodm.myweb.port.ac.uk/SL/resample.xlsx adresindeki e-tablo, tek tek örnekleri görmenizi, 1000 numunenin histogramını çizmenizi, daha büyük numunelerle denemeyi vb. Sağlar. Makalede daha ayrıntılı bir açıklama var. en https://arxiv.org/abs/1803.06214 .


Bu basit ve sezgiseldir, ancak önyüklemenin işe yarayıp yaramadığını sanmıyorum.
Michael Chernick
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.