Bootstrap vs Monte Carlo, hata tahmini


12

Jeokimyasal hesaplamalarda Monte Carlo yöntemi ile hata yayılımını okuyorum , Anderson (1976) ve tam olarak anlamadığım bir şey var.

Ölçülen bazı verileri ve bunları işleyen ve belirli bir değer döndüren bir program . Makalede, bu program ilk önce verilerin araçları kullanılarak en iyi değeri elde etmek için kullanılır (yani: ).{A±σA,B±σB,C±σC}{A,B,C}

Yazar daha sonra, giriş parametrelerini belirsizlik sınırları içinde değiştirerek ( ve standart sapmalar anlamına gelen bir Gauss dağılımı ile verilen) bu en iyi değere bir belirsizlik atamak için bir Monte Carlo yöntemi kullanır. ). Bu, aşağıdaki şekilde gösterilmiştir:{ σ A , σ B , σ C }{A,B,C}{σA,σB,σC}

resim açıklamasını buraya girin

( Telif hakkı: ScienceDirect )

burada belirsizlik nihai dağılımından elde edilebilir .Z

Bu Monte Carlo yöntemi yerine, bir önyükleme yöntemi uygularsam ne olur? Bunun gibi bir şey:

resim açıklamasını buraya girin

Bu: Programa beslemeden önce belirsizlikleri içindeki verileri değiştirmek yerine, onlardan değiştirerek örnek alıyorum.

Bu durumda bu iki yöntem arasındaki farklar nelerdir? Bunlardan herhangi birini uygulamadan önce hangi uyarıları bilmem gerekir?


Bu sorunun Bootstrap, Monte Carlo'yu biliyorum, ama şüphem tam olarak çözülmedi çünkü bu durumda veriler atanmış belirsizlikler içeriyor.


Açıklığa kavuşturmak için: MC yöntemindeki "rastgele değişim" araştırmacı tarafından rastgele mi oluşturuldu? Yani, giriş verilerine gürültü / hatalar yapay olarak ekleniyor mu?
shadowtalker

σ

Anladığımı sanmıyorum. Bu yapay gürültü, ancak verilerden tahmin edilen standart bir sapma ile
shadowtalker

O zaman muhtemelen "yapay gürültünün" ne olduğunu (ve "yapay olmayan gürültüyü" neyin oluşturduğunu) anlamıyorum. Makaleyi gördün mü? Kesinlikle benden çok daha iyi şeyler açıklıyor.
Gabriel

Doğal gürültü: verilerimdeki rastgele değişim. Yapay gürültü: olasılık dağılımından sayı çizmek için rasgele sayı üreteci kullanma ve bu sayıları verilerime ekleme
shadowtalker

Yanıtlar:


7

Sorunuzu anladığım kadarıyla, "Monte Carlo" yaklaşımı ile bootstrap yaklaşımı arasındaki fark esasen parametrik ve parametrik olmayan istatistikler arasındaki farktır.

x1,,xNAσAZ

FF^1/nF^FZ

Dolayısıyla, her iki yaklaşım arasındaki temel fark, verilerin dağılımı hakkında bu parametrik varsayımı yapıp yapmamaktır.


2
Neredeyse iki yıl sonra, bunun en iyi cevap olduğuna inandığımı biliyorum, çünkü parametrik ve parametrik olmayan yaklaşımlar arasındaki farktan açıkça bahsediyor (ki o zamanlar bilmiyordum) Böylece, kabul edilen cevabı değiştiriyorum .
Gabriel

ama paramrtrik yaklaşım için parametrik önyükleme de kullanılabilir mi?
Tom Wenseleers

12

Monte Carlo Modelinizdeki Rastgele Değişim bir çan eğrisi ile temsil edilir ve hesaplama muhtemelen normal olarak dağıtılmış "hata" veya "Değiştir" olduğunu varsayar. En azından, bilgisayarınızın "değişiklik" in çizileceği dağıtım hakkında bazı varsayımlara ihtiyacı var. Önyükleme mutlaka böyle varsayımlar yapmaz. Gözlemleri gözlem olarak alır ve hataları asimetrik olarak dağıtılırsa, bu şekilde modele girer.

Önyükleme gözlemden çıkarılır ve bu nedenle bir dizi gerçek gözlem gerektirir. Bir kitapta okursanız, C'nin ortalama 1 standart sapmasıyla 5 olduğu ortada, çizmek için gözlemleriniz olmasa bile Monte Carlo Modell kurabilirsiniz. Gözleminiz kıtsa (düşünün: astronomi) 6 gözlem ve bunların dağılımı hakkında bazı varsayımlarla Monte Carlo Modell kurabilirsiniz, ancak 6 gözlemden önyükleme yapmayacaksınız.

Bir kısmı gözlemlenen verilerden, bazıları da simüle edilmiş (varsayımsal olarak) verilerden alınan karışık modeller mümkündür.

Düzenleme: Yorumlar aşağıdaki tartışmada, orijinal poster aşağıdaki yararlı bulundu:

"Orijinal program", bir ortalama ve bir sapmadan hesapladığınız bir değer olsun ya da olmasın, ya da bir ortalamanın ve doğal bir süreçte bir sapmanın gerçek bir gerçekleşmesidir.


1
N

1
İstatistiksel olarak / makine öğrenimi yoluyla kendi kendine öğretildiğim için, bahsettiğim farklılıklardan herhangi birinin sadece bunlar olduğunu iddia etmeyeceğim. Bootstrapping'in Monte Carlo yönteminin kendisi olarak kabul edilip edilmediğinden bile emin değilim. Her iki algoritma da çok sayıda gerçekçi senaryoyu simüle eder. Girdiyi varsayımlardan veya gözlemlerden alabilirsiniz. Benim alanım tıp ve varsayımlar o alanda çok yanlış. Bu nedenle, yeterince büyük sayılara ulaştıklarında gözlemlere gitmeye çalışacağım. Belki de, fizik veya kimyaya yakın alanda, ...
Bernhard

1
... fizik veya kimyaya yakın alanlarda varsayımların daha güvenilir olduğunu. 2. noktaya gelince: Eğer yeterince büyük örneklere ve yinelemelere giderseniz, gerçek verilerin asla normalde normalde dağıtılmadığını ve varsayımlarınızın her zaman biraz yanlış olduğunu, ancak herhangi bir bilgi talep edemeyeceğimizi görürsünüz. Nokta 3 ile ilgili olarak: Bootstrap yöntemindeki değerli verileri atarak ne demek istediğinizi anlamış olmaktan emin değilim. "Belirsizlik atamak" insan yapımıdır, Veri gerçeklikten gelir. Yine, bu benim alanım üzerine kurulu inancım. Gerçekte, nadiren iyi bir teori ve büyük veriye sahip olacaksınız
Bernhard

1
σA,σB,σC

1
Her gözlem ölçülen bir değerdir ve bu nedenle zaten kendi ölçüm hatası ve belirsizliğini içerir. "Orijinal program", bir ortalama ve bir sapmadan hesapladığınız bir değer olsun ya da olmasın, ya da bir ortalamanın ve doğal bir süreçte sapmanın gerçek bir gerçekleşmesi olsun umrunda değil. Ancak, elbette, tüm yeniden örnekleme teknikleri büyük bir veri tabanına dayanmaktadır ve rastgele sayıları veya rastgele sayıları hesaplayabilirsiniz, ancak genellikle rastgele sayıda gözlem yapamazsınız. Dolayısıyla, çok sayıda gözleminizin olduğu durumlarda, verilerin nerede atıldığını görmüyorum.
Bernhard

1

Z çıkışını girişlerle ilişkilendiren fonksiyon makul derecede doğrusalsa (yani girişlerin varyasyon aralığı dahilinde), Z'nin varyansı girişlerin varyanslarının ve kovaryanslarının bir kombinasyonudur. Dağılımın detayları çok önemli değil ... Bu nedenle, her iki yöntem de benzer sonuçlar vermelidir.

GUM Ek 1'e bakınız.


İşlev makul derecede doğrusal değilse ne olur ? Bu iki yöntem o zaman nasıl farklılaşacak?
Gabriel

Bu durumda, Bernhard'ın yukarıdaki cevabına bakmalısınız. Yani, çakışmaları için Monte Carlo için veri pdf'sinin sadık bir açıklamasına sahip olmalısınız.
Pascal

0

Bootstrap, verilerin kendileri için konuşmasına izin vermek anlamına gelir. Monte Carlo yöntemi ile, dayatılan CDF'den (normal; gama; beta ...) birçok rasgele çekilişi tekdüze dağıtım yoluyla örneklersiniz ve ampirik bir PDF yaratırsınız (CDF'nin sürekli ve türetilebilir olması şartıyla). Monte Carlo sürecinin tamamının ilginç bir açıklaması şöyledir: Briggs A, Schulper M, Claxton K.Sağlıklı ekonomik değerlendirme için karar modelleme. Oxford: Oxford University Press, 2006: 93-95.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.