Dağıtımların simülasyonu


9

Bir Kapasite Planlama ödevi üzerinde çalışıyorum ve bazı kitaplar okudum. Bu özellikle dağıtımlarla ilgilidir. R kullanıyorum.

  1. Veri dağıtımımın ne olduğunu belirlemek için önerilen yaklaşım nedir? Onu tanımlamak için istatistiksel yöntemler var mı?

Bu diyagram var.

OLASILIK YAKLAŞIMLARI: SENARYO ANALİZİ, KARAR AĞAÇLARI VE SİMÜLASYONLARI

  1. R kullanarak simülasyon yaklaşımları nelerdir? Burada üstel gibi belirli bir dağıtım için veri oluşturmak istiyorum. Java ile entegre etmek istersem r-java doğru yaklaşım mıdır?

  2. Verileri belirli bir dağıtım için yönlendirdiğimde, etkinin (CPU kullanımı vb.) Ne tür bir dağıtım olacağını tahmin etmenin bir yolu var mı? Belirli veri dağıtımlarını göndermenin farklı etkileri nelerdir?

Lütfen bunları yeni başlayanların soruları olarak düşünün. Bu tür simülasyonlarla ilgilenen kitaplar veya materyaller var mı?

notlar

Diyagram, makalenin sonundan http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .

Karşılaştığım uyum iyiliği teknikleri

Uyum iyiliğinin değerlendirilmesi

  1. Ki-kare
  2. Kolmogorov-Smirnov,
  3. Anderson-Darling istatistik yoğunluğu, cdf, PP ve QQ grafikleri

Dağıtımımın normal veya üstel vb. Olduğunu tespit edersem, yorumun veya sonraki adımların ne olması gerektiğinden emin değilim. Ne yapmama izin veriyor? Tahmin? Umarım bu soru açıktır.

Üstel gecikmeler Neil Gunther tarafından yapılan Kapasite Planlama kitabım gereğince kuyruk dalgalanmalarına neden olacak. Yani bir noktayı biliyorum.


Diyagramınızın önemli olduğunu düşünüyorsanız, resmin kalitesini artırmaya çalışmalısınız ...
ocram

Güzel bir soru sormak için gösterdiği özen için teşekkür ederim. Bence 2. noktanız (sanırım 3 olmalı) açıklığa ihtiyaç duyar, hatta Yığın Taşmasına bile taşıyabilirsiniz.
gui11aume

1
Sanırım son sorum burada. Diyelim ki veri dağıtımımı tanımladım. Gelecekteki dağılımların bu olasılığı takip edeceğini tahmin ettiğim mi? Burada veri analiz kısmı eksik. Bir kutu bıyık planının kolayca anladığım çeyrekleri gösterdiğini biliyorum. Bir dağıtımın faydasını alamıyorum. Tahmin için araştırmam gereken bu dağılımın özellikleri olabilir.
Mohan Radhakrishnan

@ocram Kalite düşükse, tarayıcınızdaki sayfayı büyütün: ayrıntı orada. BTW, bu görüntülerin bazı Crystal Ball belgelerinden olması gerekir .
whuber

@whuber: Gerçekten de denemedim bile! Yorum için üzgünüm.
ocram

Yanıtlar:


7

R ile simülasyonlar hakkındaki fikrinize cevap vereceğim, çünkü aşina olduğum tek kişi bu. R, simüle edebileceğiniz çok sayıda yerleşik dağıtıma sahiptir. Adlandırmanın mantığı, ad olarak adlandırılan bir dağılımı simüle disetmektir rdis.

En sık kullandıklarım aşağıda

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

R ile Fitting dağıtımlarında bazı tamamlayıcılar bulabilirsiniz .

Ek: Kapsamlı dağıtım listesi ve ait oldukları paketler içeren bir bağlantı sağladığı için @jthetzel'e teşekkürler .

Ama bekleyin, dahası da var: Tamam, @ whuber'ın yorumunu izleyerek diğer noktalara değinmeye çalışacağım. Nokta 1 ile ilgili olarak, asla uyum iyiliği yaklaşımından geçmem. Bunun yerine her zaman sinyalin kökenini düşünürüm, fenomene neden olan gibi, onu üreten şeyde bazı doğal simetriler var mı vb .

  1. Veriler sayılırsa ve üst sınır yoksa, Poisson'u denerim. Poisson değişkenleri, çok genel bir çerçeve olan bir zaman penceresi sırasında birbirini izleyen bağımsız sayıları olarak yorumlanabilir. Dağılıma uyuyorum ve (genellikle görsel olarak) varyansın iyi tanımlanıp tanımlanmadığını görüyorum. Oldukça sık, örneğin varyansı çok daha yüksektir, bu durumda Negatif Binom kullanıyorum. Negatif Binom, farklı değişkenlerle bir Poisson karışımı olarak yorumlanabilir, bu da daha geneldir, bu nedenle bu genellikle numuneye çok iyi uymaktadır.

  2. Verilerin ortalama etrafında simetrik olduğunu , yani sapmaların pozitif veya negatif olma olasılığının yüksek olduğunu düşünürsem, bir Gaussian'a uymaya çalışırım. Daha sonra çok fazla aykırı değer olup olmadığını (tekrar görsel olarak) kontrol ediyorum, yani veri ortalamadan çok uzakta. Varsa, bunun yerine bir Student t kullanıyorum. Öğrencinin t dağılımı Gaussian'ın farklı varyanslarla bir karışımı olarak yorumlanabilir, ki bu yine çok geneldir.

Bu örneklerde, görsel olarak söylediğimde, bir QQ grafiği kullandığımı kastediyorum

3. nokta, birkaç kitabın bölümlerini de hak ediyor. Başka bir dağıtım yerine dağıtım kullanmanın etkileri sınırsızdır. Bu yüzden her şeyden geçmek yerine, yukarıdaki iki örneğe devam edeceğim.

  1. İlk günlerimde, Negatif Binom'un anlamlı bir yorumu olabileceğini bilmiyordum, bu yüzden Poisson'u her zaman kullandım (çünkü parametreleri insan terimleriyle yorumlayabiliyorum). Çok sık, bir Poisson kullandığınızda, ortalamayı iyi uyuyorsunuz, ancak varyansı küçümsüyorsunuz. Bu, örneğinizin uç değerlerini çoğaltamayacağınız ve gerçekte değilken aykırı değerlerin (diğer noktalarla aynı dağılıma sahip olmayan veri noktaları) dikkate alacağınız anlamına gelir.

  2. Yine ilk günlerimde Student's t'nin de anlamlı bir yorumu olduğunu bilmiyordum ve her zaman Gaussian'ı kullanardım. Benzer bir şey oldu. Ortalamayı ve varyansı iyi sığardım, ancak hala aykırı değerleri yakalayamazdım çünkü neredeyse tüm veri noktalarının ortalamanın 3 standart sapması içinde olması gerekiyordu. Aynı şey oldu, bazı noktaların "olağanüstü" olduğu sonucuna vardım ama aslında değildi.


2
Örneğin R. dağıtım ile ilgili fonksiyonlar için bir "d, p, q, r" sözdizimi vardır: bir not gui11aume cevabı eklemek dnorm, pnorm, qnormve rnormCDF ters yoğunluğu, kümülatif dağılım fonksiyonu (CDF) vardır ve Normal dağılım için rasgele değişken jeneratör fonksiyonları. Kullanılabilir dağıtımların kapsamlı bir listesi için olasılık dağıtım görevi görünümüne bakın .
jthetzel

Evet, çok teşekkürler (+1). Uzun zamandır böyle bir liste arıyordum. Cevabı daha görünür olması için cevaba koydum.
gui11aume

1
Bu dağılımların üçte birinin ne olduğunu bile söyleyemedim. Öğrenecek daha çok şey var. +1, ancak sorunun geri kalanını da unutmayalım, ki bu temeldir (ama belki biraz fazla geniş): dağıtım seçimlerinin bir simülasyonda ne gibi etkileri vardır? Bu seçimler nasıl yapılır?
whuber

@whuber Gecikmelerin üstel dağılımının kuyruk dalgalanmaları üzerindeki etkisini ekledim. Bakınız. CP veya kuyrukla ilgili kitaplar.
Mohan Radhakrishnan

R ile Montaj dağılımlarını okudum ve QQ grafiğini bir kez kullandım. Maksimum olabilirlik tahmini, örnek verilerin bir olasılık fonksiyonu olarak bilinen matematiksel ifadeyle başlar. Kısaca söylemek gerekirse, bir veri kümesinin olasılığı, seçilen olasılık modeli verildiğinde belirli bir veri kümesini elde etme olasılığıdır. Bu, dağıtımın tekrar gerçekleşebileceğini hesaplamanın bir yolu olduğu anlamına mı geliyor? Bunu kanıtlamak için kaç ölçüm gerekiyor?
Mohan Radhakrishnan
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.