QQ grafiğini niceleme


10

Qq-plot, benzer iki dağılımın ne kadar olduğunu görselleştirmek için kullanılabilir (örneğin, bir dağılımın normal bir dağılımla benzerliğini görselleştirmek, ancak aynı zamanda iki olasılıklı veri dağılımını karşılaştırmak için). Benzerliklerini (tercihen normalize edilmiş (0 <= x <= 1) formunda) temsil eden daha objektif, sayısal bir ölçü üreten herhangi bir istatistik var mı? Gini katsayısı örneğin Lorenz eğrileri ile çalışırken ekonomide kullanılır; QQ grafikleri için bir şey var mı?

Yanıtlar:


8

Önceki sorunuz hakkındaki yorumunuza yanıt olarak söylediğim gibi Kolmogorov-Smirnov testine göz atın. İki kümülatif dağılım fonksiyonu (alternatif olarak QQ grafiğinde eğrinin 45 derecelik çizgiden maksimum mutlak mesafesi olarak düşünülür) arasındaki maksimum mutlak mesafeyi istatistik olarak kullanır. KS testi ks.test()'istatistik' kütüphanesindeki komut kullanılarak R'de bulunabilir . İşte R kullanımı hakkında daha fazla bilgi.


(Anladığım kadarıyla), KS testinin ampirik verileri a priori dağılımına karşı test etmek için olduğunu unutmayın. İki ampirik dağılımı karşılaştırmak için uygun değildir ve ampirik verileri, parametre değerleri ampirik verilerden tahmin edilen bir a priori dağılımıyla karşılaştırmak da uygun değildir.
Mike Lawrence

4
@Mike, KS testini deneysel olarak türetilmiş iki dağılımı karşılaştırmak için kullanabilirsiniz, Charlie'nin önceki yanıt ve yorum istatistiklerine bakın.stackexchange.com/questions/2918/lorenz
Andy W

@Andy, Ah, itir.nist.gov/div898/handbook/eda/section3/eda35g.htm adresinden iki tane ampirik CDF'yi karşılaştıramayacağınız sonuçlara sahip olduğum için 3. noktayı aldım, ancak varsayımımın uygun. Bilmek güzel, teşekkürler!
Mike Lawrence

2
Bununla birlikte, 3. nokta, verilerinizin ortalamadan ve sd'den tahmin edilen normal bir dağılımdan gelip gelmediğini test etmek için KS'yi kullanamayacağınız anlamına gelir . Bu, tanıştığım psikoloji öğrencileri arasında popüler bir hatadır.
Stephan Kolassa

1
(+1) Bu cevabın en üstün yanı KS istatistiğinin doğrudan QQ grafiğinden okunabilmesidir.
whuber

2

Ben son zamanlarda iyilik-of-fit ölçmek için ampirik CDF ve monte CDF'nin arasındaki korelasyonu kullanılır ve bu yaklaşım aynı zamanda bunun iki ampirik veri kümelerini karşılaştıran içerdiğini anlıyorum gibi güncel durumda, yararlı olabilir acaba. Setler arasında farklı sayıda gözlem varsa enterpolasyon gerekebilir.


Makaleniz çok güzel rakamlar içeriyor :)
chl

@chi: Hepsi R'de ggplot2 kullanılarak oluşturuldu. Harika bir grafik üretim sistemi!
Mike Lawrence

Takılı CDF ile ne demek istiyorsun?
Bolluk

@Ampleforth, bu makalede, ampirik verilere bir dağılım uydurdum, bu yüzden "takılan CDF" ile takılan dağılımın teorik CDF'sini kastediyorum. Üzgünüm, nasıl daha net olabileceğimi görüyorum!
Mike Lawrence

Lütfen özür dileme. İstatistik eksikliğim oldukça büyük ve buradaki tek sorun bu;) Ayrıca makalenizi okumadım, sadece gerçekten beğendiğim grafiklerinize baktım.
Ampleforth

1

İki dağılımı karşılaştırmanın az çok kanonik yolunun ki kare testi olacağını söyleyebilirim. İstatistik normalleştirilmemiştir ve bölmeleri nasıl seçtiğinize bağlıdır. Son nokta elbette bir hata olarak değil, bir özellik olarak görülebilir: Kutuları uygun bir şekilde seçmek, kuyruklarda dağılımların ortasından daha benzerlik için daha yakından bakmanıza izin verir.


1

QQ grafiğindeki doğrusallığa "yakınlığın" oldukça doğrudan bir ölçüsü, bir Shapiro-Francia test istatistiği olacaktır (daha iyi bilinen Shapiro-Wilk ile yakından ilişkilidir ve basit bir yaklaşım olarak kabul edilebilir).

Shapiro-Francia istatistiği, sıralı veri değerleri ile beklenen normal sipariş istatistikleri (bazen "teorik nicelikler" olarak adlandırılır) arasındaki kare korelasyonudur - yani, grafikte gördüğünüz korelasyonun karesi olmalıdır, oldukça doğrudan özet ölçü.

(Shapiro-Wilk benzerdir ancak sipariş istatistikleri arasındaki korelasyonları dikkate alır; Shapiro-Francia ile benzer bir yorumu vardır ve QQ grafiğinin özeti kadar eşit derecede faydalıdır.)

Her iki durumda da, QQ grafiğinin gösterdiği tek bir sayı özeti için, bunlardan biri grafiği özetlemek için uygun bir yol olabilir.

Şahsen ben ona yakınlıktan ziyade doğrusallıktan sapma için daha fazla arama eğilimindeyim ( bakmayı öneririm ). Bu ölçek, belirli bir normallik olmayan miktar için sizi oldukça sabit değerlerle bırakma eğilimindedir.1W

[Bazen ( çarparım normal örnekleme yapıldığında ile küçülme eğilimindedir ). Normalden numune alma altında, nin ortalaması veya medyanı, değiştikçe oldukça kararlı olma eğilimindedir . ile çarpma hala tam olarak doğru değil, fraksiyonel olarak aşırı doğrular - sonuç ve arasında bir yerde ile artar - ancak bu varyasyon, değer türlerine kıyasla küçüktür normallikten her türlü önemli sapma ile karşılaşma eğilimindesiniz. ile dağıtımın çok fazla değişmediği bir ölçeğe ulaşmak1 - W ) n n ( 1 - W ) n n n günlüğü ( n ) n1W)nn(1W)nnnlog(n) nlog(n)ndaha çok dönüştürülmüş bir p değeri gibi yapar ( normal olmayan bir miktarın ölçüsü olarak daha az yararlıdır, yalnızca rastgele varyasyon değilse yargılamak gibi bir şeyle ilgileniyorsanız daha yararlıdır.]

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.