R ile simülasyonlar hakkındaki fikrinize cevap vereceğim, çünkü aşina olduğum tek kişi bu. R, simüle edebileceğiniz çok sayıda yerleşik dağıtıma sahiptir. Adlandırmanın mantığı, ad olarak adlandırılan bir dağılımı simüle dis
etmektir rdis
.
En sık kullandıklarım aşağıda
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
R ile Fitting dağıtımlarında bazı tamamlayıcılar bulabilirsiniz .
Ek: Kapsamlı dağıtım listesi ve ait oldukları paketler içeren bir bağlantı sağladığı için @jthetzel'e teşekkürler .
Ama bekleyin, dahası da var: Tamam, @ whuber'ın yorumunu izleyerek diğer noktalara değinmeye çalışacağım. Nokta 1 ile ilgili olarak, asla uyum iyiliği yaklaşımından geçmem. Bunun yerine her zaman sinyalin kökenini düşünürüm, fenomene neden olan gibi, onu üreten şeyde bazı doğal simetriler var mı vb .
Veriler sayılırsa ve üst sınır yoksa, Poisson'u denerim. Poisson değişkenleri, çok genel bir çerçeve olan bir zaman penceresi sırasında birbirini izleyen bağımsız sayıları olarak yorumlanabilir. Dağılıma uyuyorum ve (genellikle görsel olarak) varyansın iyi tanımlanıp tanımlanmadığını görüyorum. Oldukça sık, örneğin varyansı çok daha yüksektir, bu durumda Negatif Binom kullanıyorum. Negatif Binom, farklı değişkenlerle bir Poisson karışımı olarak yorumlanabilir, bu da daha geneldir, bu nedenle bu genellikle numuneye çok iyi uymaktadır.
Verilerin ortalama etrafında simetrik olduğunu , yani sapmaların pozitif veya negatif olma olasılığının yüksek olduğunu düşünürsem, bir Gaussian'a uymaya çalışırım. Daha sonra çok fazla aykırı değer olup olmadığını (tekrar görsel olarak) kontrol ediyorum, yani veri ortalamadan çok uzakta. Varsa, bunun yerine bir Student t kullanıyorum. Öğrencinin t dağılımı Gaussian'ın farklı varyanslarla bir karışımı olarak yorumlanabilir, ki bu yine çok geneldir.
Bu örneklerde, görsel olarak söylediğimde, bir QQ grafiği kullandığımı kastediyorum
3. nokta, birkaç kitabın bölümlerini de hak ediyor. Başka bir dağıtım yerine dağıtım kullanmanın etkileri sınırsızdır. Bu yüzden her şeyden geçmek yerine, yukarıdaki iki örneğe devam edeceğim.
İlk günlerimde, Negatif Binom'un anlamlı bir yorumu olabileceğini bilmiyordum, bu yüzden Poisson'u her zaman kullandım (çünkü parametreleri insan terimleriyle yorumlayabiliyorum). Çok sık, bir Poisson kullandığınızda, ortalamayı iyi uyuyorsunuz, ancak varyansı küçümsüyorsunuz. Bu, örneğinizin uç değerlerini çoğaltamayacağınız ve gerçekte değilken aykırı değerlerin (diğer noktalarla aynı dağılıma sahip olmayan veri noktaları) dikkate alacağınız anlamına gelir.
Yine ilk günlerimde Student's t'nin de anlamlı bir yorumu olduğunu bilmiyordum ve her zaman Gaussian'ı kullanardım. Benzer bir şey oldu. Ortalamayı ve varyansı iyi sığardım, ancak hala aykırı değerleri yakalayamazdım çünkü neredeyse tüm veri noktalarının ortalamanın 3 standart sapması içinde olması gerekiyordu. Aynı şey oldu, bazı noktaların "olağanüstü" olduğu sonucuna vardım ama aslında değildi.