Verilere verilen dağılımı analiz etmeye çalışırken olasılık grafikleri, PP grafikleri ve QQ grafikleri arasındaki fark nedir?
Verilere verilen dağılımı analiz etmeye çalışırken olasılık grafikleri, PP grafikleri ve QQ grafikleri arasındaki fark nedir?
Yanıtlar:
@ Vector07'nin not ettiği gibi , olasılık grafiği , pp-plot ve qq-plotların üyesi olduğu daha soyut kategoridir. Böylece, ikinci ikisi arasındaki ayrımı tartışacağım. Farklılıkları anlamanın en iyi yolu nasıl inşa edildikleri hakkında düşünmek ve bir dağıtımın nicelikleri ile verilen bir niceliğe ulaştığınız zaman geçirdiğiniz dağılımın oranı arasındaki farkı tanımanız gerektiğini anlamaktır. Bir dağılımın kümülatif dağılım fonksiyonunu (CDF) çizerek bunlar arasındaki ilişkiyi görebilirsiniz . Örneğin, standart normal dağılım düşünün:
Y ekseninin yaklaşık% 68'inin (kırmızı çizgiler arasındaki bölge) x ekseninin 1 / 3'üne (mavi çizgiler arasındaki bölge) karşılık geldiğini görüyoruz. Bu, iki dağıtım arasındaki eşleşmeyi değerlendirmek için geçtiğimiz dağıtım oranını kullandığımızda (yani, pp-arsa kullanırız), dağıtımların merkezinde çok fazla çözünürlük alacağımız anlamına gelir; kuyrukları. Öte yandan, iki dağıtım arasındaki eşleşmeyi değerlendirmek için nicelikleri kullandığımızda (yani, bir qq-grafiği kullanırız), kuyruklarda çok iyi bir çözünürlük elde edeceğiz, fakat merkezde daha az. (Veri analistleri genellikle bir dağılımın kuyrukları hakkında daha fazla endişe duydukları için, örneğin çıkarım üzerinde daha fazla etkisi olacak, qq-pots pp-plot'lardan çok daha yaygın.)
Bu gerçekleri eylem halinde görmek için, bir pp arsa ve bir qq arsa inşaatı boyunca yürüyeceğim. (Ayrıca burada qq arsa yapısını sözlü olarak / daha yavaş bir şekilde yapıyorum : QQ arsa histogramı ile eşleşmiyor .) R kullanıp kullanmadığınızı bilmiyorum ama umarım kendi kendini açıklayıcı olacaktır:
set.seed(1) # this makes the example exactly reproducible
N = 10 # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1)) # from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x)) # here I calculate the probabilities associated
# w/ these data if they came from a normal
# distribution w/ the same mean & SD
# I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x)) # this calculates the quantiles (ie
# z-scores) associated w/ the props
my.data = data.frame(x=x, props=props, # here I bundle them together
normal.proportions=n.props,
normal.quantiles=n.quantiles)
round(my.data, digits=3) # & display them w/ 3 decimal places
# x props normal.proportions normal.quantiles
# 1 -0.836 0.091 0.108 -0.910
# 2 -0.820 0.182 0.111 -0.577
# 3 -0.626 0.273 0.166 -0.340
# 4 -0.305 0.364 0.288 -0.140
# 5 0.184 0.455 0.526 0.043
# 6 0.330 0.545 0.600 0.221
# 7 0.487 0.636 0.675 0.404
# 8 0.576 0.727 0.715 0.604
# 9 0.738 0.818 0.781 0.841
# 10 1.595 0.909 0.970 1.174
Ne yazık ki, bu grafikler çok belirgin değil, çünkü çok az veri var ve gerçek bir normali doğru teorik dağılımla karşılaştırıyoruz, bu yüzden dağıtımın merkezinde veya kuyruklarında görülecek özel bir şey yok. Bu farklılıkları daha iyi göstermek için, 4 serbestlik dereceli (yağ kuyruklu) t dağılımını ve altta iki modlu dağılımı çizdim. Yağ kuyrukları, qq arsada çok daha belirgindir, oysa iki-modalite pp arsada daha belirgindir.
İşte v8doc.sas.com'dan bir tanım :
Bir PP grafiği, belirli bir teorik kümülatif dağılım fonksiyonu F (·) ile bir veri setinin ampirik kümülatif dağılım fonksiyonunu karşılaştırır. Bir QQ grafiği, bir veri dağılımının niceliklerini, belirtilen bir dağılım ailesinden gelen standart bir teorik dağılımın miktarlarıyla karşılaştırır.
Metinde ayrıca:
Referans :
SAS Institute Inc., SAS ÇevrimiçiDoc®, Sürüm 8, Cary, NC: SAS Institute Inc., 1999