PP grafikleri ve QQ grafikleri

39

Verilere verilen dağılımı analiz etmeye çalışırken olasılık grafikleri, PP grafikleri ve QQ grafikleri arasındaki fark nedir?

— kay
kaynak

4

Görünüşe göre wikipedia bu konuda size yardımcı olabilir: olasılık grafiği . QQ arsa , PP arsa . Daha spesifik bir sorunuz varsa, lütfen açıklığa kavuşturun!

— vector07

Teşekkür ederim, sanırım PP arsa alıyordum ve olasılık arsası karıştı!

— kay

41

@ Vector07'nin not ettiği gibi , olasılık grafiği , pp-plot ve qq-plotların üyesi olduğu daha soyut kategoridir. Böylece, ikinci ikisi arasındaki ayrımı tartışacağım. Farklılıkları anlamanın en iyi yolu nasıl inşa edildikleri hakkında düşünmek ve bir dağıtımın nicelikleri ile verilen bir niceliğe ulaştığınız zaman geçirdiğiniz dağılımın oranı arasındaki farkı tanımanız gerektiğini anlamaktır. Bir dağılımın kümülatif dağılım fonksiyonunu (CDF) çizerek bunlar arasındaki ilişkiyi görebilirsiniz . Örneğin, standart normal dağılım düşünün:

görüntü tanımını buraya girin

Y ekseninin yaklaşık% 68'inin (kırmızı çizgiler arasındaki bölge) x ekseninin 1 / 3'üne (mavi çizgiler arasındaki bölge) karşılık geldiğini görüyoruz. Bu, iki dağıtım arasındaki eşleşmeyi değerlendirmek için geçtiğimiz dağıtım oranını kullandığımızda (yani, pp-arsa kullanırız), dağıtımların merkezinde çok fazla çözünürlük alacağımız anlamına gelir; kuyrukları. Öte yandan, iki dağıtım arasındaki eşleşmeyi değerlendirmek için nicelikleri kullandığımızda (yani, bir qq-grafiği kullanırız), kuyruklarda çok iyi bir çözünürlük elde edeceğiz, fakat merkezde daha az. (Veri analistleri genellikle bir dağılımın kuyrukları hakkında daha fazla endişe duydukları için, örneğin çıkarım üzerinde daha fazla etkisi olacak, qq-pots pp-plot'lardan çok daha yaygın.)

Bu gerçekleri eylem halinde görmek için, bir pp arsa ve bir qq arsa inşaatı boyunca yürüyeceğim. (Ayrıca burada qq arsa yapısını sözlü olarak / daha yavaş bir şekilde yapıyorum : QQ arsa histogramı ile eşleşmiyor .) R kullanıp kullanmadığınızı bilmiyorum ama umarım kendi kendini açıklayıcı olacaktır:

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

görüntü tanımını buraya girin

Ne yazık ki, bu grafikler çok belirgin değil, çünkü çok az veri var ve gerçek bir normali doğru teorik dağılımla karşılaştırıyoruz, bu yüzden dağıtımın merkezinde veya kuyruklarında görülecek özel bir şey yok. Bu farklılıkları daha iyi göstermek için, 4 serbestlik dereceli (yağ kuyruklu) t dağılımını ve altta iki modlu dağılımı çizdim. Yağ kuyrukları, qq arsada çok daha belirgindir, oysa iki-modalite pp arsada daha belirgindir.

görüntü tanımını buraya girin

— gung - Eski Monica
kaynak

14

@AleksandrH Öğrencilere duyduğunuz ilgiden dolayı gerçekten teşekkür ediyoruz. Bu sitenin yalnızca istatistikte yeni olan öğrenciler için olduğunu açıkça belirtti. ve "wordy cevapları", öğrenciler için uygun olmadığına dair imalarınız, bu sitedeki birçok "wordy" cevabının onaylayacağından gerçeğe dayanmıyor. Şikayetinizi ifade etmenin daha yapıcı bir yolu örnek olarak: bize yanıtlarımızı nasıl geliştireceğimizi gösterip, yeni öğrencilerin ihtiyaçlarını karşılamak için standartlarınızı karşılayan bir yanıt göndererek sizi taklit etmemiz için bize ilham veriyor.

— whuber

12

İşte v8doc.sas.com'dan bir tanım :

Bir PP grafiği, belirli bir teorik kümülatif dağılım fonksiyonu F (·) ile bir veri setinin ampirik kümülatif dağılım fonksiyonunu karşılaştırır. Bir QQ grafiği, bir veri dağılımının niceliklerini, belirtilen bir dağılım ailesinden gelen standart bir teorik dağılımın miktarlarıyla karşılaştırır.

Metinde ayrıca:

PP çizimleri ve QQ çizimleri arasındaki farklar inşa edildi ve yorumlandı.
deneysel ve teorik dağılımların karşılaştırılmasında bir veya diğerini kullanmanın avantajları.

Referans :

SAS Institute Inc., SAS ÇevrimiçiDoc®, Sürüm 8, Cary, NC: SAS Institute Inc., 1999

— Andre Silva
kaynak