Ben istatistikçi değilim. Yani, lütfen varsa benim blunders ile ayı.
Simülasyonun nasıl yapıldığını basit bir şekilde açıklar mısınız? Normal dağılımdan rastgele bir örnek aldığını ve simülasyon için kullandığını biliyorum. Ancak, açıkça anlama.
Ben istatistikçi değilim. Yani, lütfen varsa benim blunders ile ayı.
Simülasyonun nasıl yapıldığını basit bir şekilde açıklar mısınız? Normal dağılımdan rastgele bir örnek aldığını ve simülasyon için kullandığını biliyorum. Ancak, açıkça anlama.
Yanıtlar:
İstatistiklerde, simülasyon, genellikle teorik bir arka plan eksikliği olduğunda, bir yöntemin performansını değerlendirmek için kullanılır. Simülasyonlarla istatistikçi gerçeği bilir ve kontrol eder .
Simülasyon birçok durumda avantajlı olarak kullanılır. Bu, örnekleme dağılımlarının ampirik olarak tahmin edilmesini sağlamak, istatistiksel prosedürlerdeki varsayımların yanlış tanımlanmasını incelemek, hipotez testlerindeki gücü belirlemek vb.
Simülasyon çalışmaları çok fazla titizlikle tasarlanmalıdır. Burton ve diğ. (2006) ' Tıbbi istatistiklerde simülasyon çalışmalarının tasarımı ' başlıklı makalelerinde çok güzel bir genel bakış sunmuştur . Referanslarda çok çeşitli durumlarda yapılan simülasyon çalışmaları bulunabilir.
Basit açıklayıcı örnek Doğrusal modeli düşünün
burada , ikili bir değişken ( veya ) ve . R'deki simülasyonları kullanarak şunu kontrol edelim:x = 0 x = 1 ϵ ∼ N ( 0 , σ 2 )
> #------settings------
> n <- 100 #sample size
> mu <- 5 #this is unknown in practice
> beta <- 2.7 #this is unknown in practice
> sigma <- 0.15 #this is unknown in practice
> #--------------------
>
> #------set the seed so that this example can be replicated------
> set.seed(937)
> #---------------------------------------------------------------
>
> #------generate 1000 data sets and store betaHat------
> betaHat <- numeric(1000)
> for(i in 1:1000)
+ {
+ #generate the binary covariate --> n Bernoulli trials
+ x <- sample(x=c(0, 1), size=n, replace=TRUE, prob=c(0.5, 0.5))
+ #generate the errors
+ epsilon <- rnorm(n=n, mean=0, sd=sigma)
+ #form the response variable
+ y <- mu + beta * x + epsilon
+ #the ith generated data set
+ data_i <- data.frame(y=y, x=x)
+ #fit the model
+ mod <- lm(y~x, data=data_i)
+ #store the estimate of beta
+ betaHat[i] <- as.numeric(coef(mod)[2])
+ }
> #-----------------------------------------------------
>
> #------E(betaHat) = beta?------
> mean(betaHat)
[1] 2.698609
> #------------------------------
Not : Editöre yukarıda belirtilen yazı için bir mektup vardır .
Her şeyden önce, istatistiklerde çok sayıda farklı simülasyon türü ve hatta çevre alanlarda daha da fazlası var. Sadece "Simülasyon" demek, "Model" demek kadar faydalıdır - yani, çok fazla değil.
Sorunuzun geri kalanına dayanarak, Monte Carlo simülasyonu demek istediğinizi tahmin edeceğim, ama bu bile biraz belirsiz. Temel olarak, bilinen, ancak rastgele özelliklere sahip yapay bir popülasyon üzerinde bazı istatistiksel analizler yapmak için tekrar tekrar bir dağılımdan (normal olması gerekmez) örnekler çekersiniz.
Bunun amacı iki kategoriye ayrılır:
Metodum X ile başa çıkabilir mi? : Aslında, yeni tekniğinizin söz konusu doğru cevabı verip vermediğini görmek için bilinen bir "doğru" cevabı olan bir dizi rastgele popülasyonu simüle ediyorsunuz. Temel bir örnek olarak, iki değişken olan X ve Y arasındaki korelasyonu ölçmenin yeni bir yol olduğunu düşündüğünüzü geliştirdiğinizi varsayalım. Y değerinin X'in değerine bağlı olduğu iki değişkeni simüle edersiniz. bazı rastgele gürültü. Örneğin, Y = 0,25x + gürültü. Daha sonra X'in bazı rastgele değerleri, 0.25x + rastgele bir sayı olan, muhtemelen binlerce kez, muhtemelen binlerce kez bir popülasyon yaratırsınız ve sonra yeni tekniğinizin ortalama olarak düzgün bir şekilde Y = 0.25x olduğunu gösterir.
Olursa ne olur? Simülasyon mevcut bir çalışma için bir duyarlılık analizi olarak yapılabilir. Örneğin bir kohort çalışması yürüttüğümü söyleyelim, ancak maruz kalma ölçümümün çok iyi olmadığını biliyorum. Konularımın% 30'unu olmamaları durumunda hatalı olarak sınıflandırır ve konularımın% 10'unu olmaması gerektiğinde maruz bırakılmış olarak sınıflandırır. Sorun şu ki, daha iyi bir testim yok, bu yüzden hangisinin olduğunu bilmiyorum.
Nüfusumu alırdım ve maruz kalan her bir kişiye maruz kalmaya geçme şansı% 30, ve maruz kalmayan her konuya maruz kalmaya geçme şansı% 10 olur. Daha sonra binlerce konuyu rastgele değiştirerek hangi konuların değiştiğini belirleyip analizimi yeniden çalıştırırım. Bu sonuçların aralığı, herkesi doğru bir şekilde sınıflandırırsam, çalışma sonucumun ne kadar değişebileceğine dair iyi bir tahmin verecektir.
Elbette, her zaman olduğu gibi, ne kadar kazmak istediğinize bağlı olarak, simülasyon için daha fazla karmaşıklık, nüans ve fayda vardır.
Simülasyon, bu süreçlerin doğrusal olmayan girdilere sahip olduğu teorik koşullar altında gerçek süreçlere bakmak için de kullanılabilir. Örneğin, bir imalat firması, ekstra bir üretim hattı eklemenin maliyet etkin olup olmadığıyla ilgilenebilir, bir çağrı merkezi, arayanlar için kuyrukta bekleme süresini ve engelleme oranlarını azaltmak için çağrıların operatörler arasında nasıl yönlendirileceği ile ilgilenebilir, bir acil durum departmanı personelin en iyi nasıl yönetilebileceği ve hastaların nasıl transfer edileceği ile ilgilenebilir veya bir nakliye limanı konteyner operasyonlarını düzenlemek için en verimli yolla ilgilenebilir. Bu süreçleri modellemek için ayrık olay simülasyonu kullanılabilir ve parametreler "ne olursa olsun" sorularına cevap verecek şekilde ayarlanabilir.
Benzetimin bir diğer ilgi alanı da karmaşık sistemlerdir. Özellikle sosyal bilimlerde, ajan tabanlı simülasyon, daha fazla taraftar toplamaya başlayan ilginç bir simülasyon türüdür. Ajan tabanlı simülasyonda, ajanlara (örneğin, bireysel insanlar) kişilikler gibi özellikler verilir ve birbirleriyle etkileşime girer, bu nedenle kaotik bir sistemi modeller. Temsilci tabanlı simülasyon, çevredeki ajanların birbirleri üzerindeki etkisine bakar ve bir mesafedeki etki dahil edilebilir. Tek başına ajan tabanlı simülasyonlar yapmasam da, tarih öncesi bir toplulukta nüfus büyüklüğünün coğrafi yayılımı gibi sistemleri modellemek için kullanıldığını gördüm.
Simülasyon sahte bir rastgele jeneratör (örneğin, rnorm gibi normal bir jeneratör) kullanarak istatistiksel bir istatistiksel örneğinin doğasında bulunan rassallığı yeniden üretir ve bir istatistiksel prosedürün dağılımını belirlemek için sahte rastgele jenerasyonun tekrarlanabilirliğini kullanır orijinal numuneye uygulanır.
Simülasyon tabanlı istatistiksel tekniğin özellikle önemli bir örneği, Efron (1979) tarafından sunulan bootstrap ile bağlantılıdır . Örnek verilen ampirik ED olduğu yakınsak (içinde gerçek CDF için) yaklaşım . Bu nedenle, bağlı olarak herhangi bir miktar , örneğin, bir beklenti, ya da bir istatistik dağılım , karşılık gelen miktarın altında yaklaşık olarak hesaplanabilir