Python'daki QQ grafiği


11

Aşağıdaki kodu kullanarak bir qq çizim oluşturdu. Verilerin normal dağıtılıp dağıtılmadığını kontrol etmek için qq çiziminin kullanıldığını biliyorum. Benim sorum, qq grafiğinde x ve y ekseni etiketlerinin neyi gösterdiği ve r kare değerinin ne olduğu ??

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

resim açıklamasını buraya girin

Zaten qq komplo hakkında bir tartışma olduğunu biliyorum , ama bu tartışmayı geçmesine rağmen kavramını anlayamadım.


4
Bu, bağlantılı iş parçacığının bir kopyası olmaya çok yakın - Python vs R burada önemli bir ayrım değil - ancak yönü yeni. Çoğaltmadan kaçınmak için soru ve cevapların bu konuya biraz daha odaklanması iyi bir fikir olabilir. ( yanlış anlaşılmaya eğilimli olup olmadığını merak ediyorum , çünkü zayıf uyum için bile, QQ grafiğinde kaçınılmaz olan yukarı doğru eğim, sıfırdan biraz daha büyük beklediğimiz anlamına gelir . Yani bir regresyonda oldukça etkileyici olabilir analiz burada çok etkileyici olmayabilir.)R 2 R 2R,2R,2R,2
Silverfish

@Silverfish ye odaklanmak yararlı ya da değerli bulmazdım . QQ grafikleri tipik olarak görülür , sadece sayısız değeri tablosuyla rapor edilmez . Görselleştirme olduğu sürece, neden tek bir sayıya indirgeyelim? QQ grafiği "kötü" görünüyor, ancak şekilde "iyi" görünüyorsa, yine de normal olduğunu iddia eder misiniz? Çoğu iyi paket tam da bu nedenle sağlamaz . Bu viz-an-argümanı bile sevimli bir isme sahip: Anscombe'un dörtlüsü . R 2 R 2 R 2R,2R,2R,2R,2
Mike Williamson

@MikeWilliamson özellikle yararlı olduğunu kanıtlama olasılığının düşük olduğunu kabul ediyorum (bu, benim açımdan bir parçasıydı, ancak kötü bir şekilde ifade etmiş olabilirim). Benim asıl nokta uzun uzadıya tartışıldı "nasıl bir QQ-arsa yorumlamak" olmasıydı burada zaten notlar soru olarak, - Konuyu kopya olarak kapalı olmamalı tek nedeni hakkında sorgusudur , böylece, gerçekten cevaplar burada tartışılmalıdır (yararlı olmadığını söylemek bile!)R 2R,2R,2
Silverfish

Bir QQ grafiği çizdiğinizden emin misiniz? help(probplot)durumlar: probplotQQ veya PP grafiğiyle karıştırılmaması gereken bir olasılık grafiği oluşturur.
abukaj

Yanıtlar:


10

Macond'un cevabı doğrudur, ancak orijinal gönderiden, söz konusu konuşmayı biraz basitleştirmenin yararlı olabileceğini düşündüm.

QQ grafiği, "kuantil-kuantil grafiği" temsil eder .

Bu eksenler olan bir komplodur bilerek dönüştürülmüş bir hale getirmek için , normal (veya Gauss) dağılımı düz bir çizgi görünür . Başka bir deyişle, tamamen normal bir dağılım, eğim = 1 ve kesişim = 0 olan bir çizgiyi tam olarak izler.

Bu nedenle, arsa - kabaca - düz bir çizgi gibi görünmüyorsa, temel dağılım normal değildir. Eğilirse, örneğin beklenenden daha fazla "yüksek el ilanı" değeri vardır. (Bağlantı daha fazla örnek sağlar.)


  1. X & y etiketleri neyi temsil eder?

Teorik kantilleri X ekseni boyunca yerleştirilir. Yani, x ekseni sizin verileriniz değildir , normalde verilerinizin nerede olması gerektiğine dair bir beklentidir.

Gerçek veri y ekseni boyunca çizilir.

Değerler ortalamadan standart sapmalardır. Yani, 0verinin ortalaması, 1yukarıdaki 1 standart sapma vb. Anlamına gelir. Bu, örneğin, 68.27%normal bir dağılımınız varsa, tüm verilerinizin -1 ile 1 arasında olması gerektiği anlamına gelir .

  1. R,2

R,2R,2R,2R,2


Son olarak, pp grafiği olarak adlandırılan nadiren kullanılan benzer bir grafik vardır . Verilerin büyük kısmının aşırı uçlar yerine nerede durduğuna odaklanmak istiyorsanız bu grafik daha kullanışlıdır .


1
Çarpık kelimesi burada en iyi seçim değil: Dönüştürülmüş diyebilirim .
Nick Cox

Harika bir açıklama. Lütfen x ekseninin (beklenen değerler) nasıl oluşturulduğunu açıklayabilir misiniz?
Vivek Ananthan

1

Y ekseni, gözlemlenen dağılımın değerlerini ve X ekseni, teorik dağılımın değerlerini gösterir.

Her nokta bir kantildir. Diyelim ki, arsa üzerinde 100 puan varsa, ilk nokta (sol alt taraftaki) bir aralık için bir üst sınırı gösterir ve en küçükten en büyüğe sipariş edildiğinde, veri noktalarının en küçük yüzde 1'i ilgili dağıtım bu aralıkta kalır. Benzer şekilde, 2. nokta, dağılımdaki veri noktalarının en küçük yüzde 2'sinin bulunduğu bir aralığın üst sınırıdır. Bu kantil kavramıdır. Ancak, 100 aralıklı bir durumla sınırlı değildir, genel bir kavramdır ve mümkün olduğunca çok sayıda aralığa sahip olabilirsiniz, o zaman aralıkların sınırlarını tanımlayan birçok kantiliniz olacaktır.

--

Cevabım boyunca, sıralı veri noktaları vb. Gibi veri noktaları kullandım. Bu, ayrık dağılımları ifade eder, ancak kavram sürekli dağılımlar için genelleştirilebilir.

R,2R,2


3
R,2R,2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.