QQ grafiği histogramla eşleşmiyor


12

Bir histogram, çekirdek yoğunluğu ve kayıplara (işaretler değişti) dönüştürülen mali günlük getirilerinin takılmış normal dağılımına ve bu verilerin normal bir QQ grafiğine sahibim:

http://tinypic.com/r/34ocwvr/6

QQ grafiği kuyrukların doğru takılmadığını açıkça göstermektedir. Ancak histograma ve takılan normal dağılıma (mavi) bir göz atarsam, 0.0 civarındaki değerler bile doğru şekilde takılmaz. Bu nedenle, QQ grafiği sadece kuyrukların uygun şekilde takılmadığını, ancak tüm dağıtımın doğru şekilde takılmadığını göstermektedir. Bu neden QQ grafiğinde görünmüyor?


10
Soldaki mavi eğri, sağdaki varsayımsal bir "en uygun" çizgiye karşılık gelir. Sağdaki çizgidir değil en iyi uyum çizgisi: Bu biri olduğunu en iyi uyan orta dağılımındaki değerler. Histogramın orta üçte ikisine kadar bir "çan eğrisi" takacak olsaydınız, her şey yerine, bu eğri zirveyi ve dik eğimli kenarları takip etmeye yakın olurdu, ama sonra çok uzak olurdu omuzlarda ve kuyruklarda çok düşük. Qq grafiğindeki çizginin gösterdiği de budur: bu grafikler mükemmel bir uyum içindedir; farklı olan uyuyor .
whuber

Yanıtlar:


11

+1'den @NickSabbe'ye, çünkü 'arsa sadece "bir şeylerin yanlış olduğunu" söyler, bu da qq-arsa kullanmanın en iyi yoludur (bunları nasıl yorumlayacağınızı anlamak zor olabilir). Bununla birlikte, bir qq-grafiğini nasıl yorumlayacağınızı düşünerek öğrenmek mümkündür.

Verilerinizi sıralayarak başlayacaksınız, ardından her birini eşit bir yüzde olarak alan minimum değerden yukarı doğru sayarsınız. Örneğin, 20 veri noktanız varsa, ilkini (minimum) saydığınızda, kendinize 'Verilerimin% 5'ini saydım' diyebilirsiniz. Bu prosedürü sonuna kadar, verilerinizin% 100'ünden geçtiğinizde takip edersiniz. Bu yüzde değerleri daha sonra karşılık gelen teorik normalden (yani, aynı ortalama ve SD ile normal) aynı yüzde değerleriyle karşılaştırılabilir.

Bunları çizmeye gittiğinizde,% 100 olan son değerle ilgili sorun yaşadığınızı keşfedeceksiniz, çünkü teorik bir normalin% 100'ünü geçtiğinizde 'sonsuz' olursunuz. Bu sorun, yüzdeleri hesaplamadan önce verilerinizdeki her bir noktaya paydaya küçük bir sabit eklenerek ele alınmaktadır. Tipik bir değer, paydaya 1 eklemek; örneğin, 1. (20) veri noktanızı 1 / (20 + 1) =% 5 olarak adlandırırsınız ve sonuncunuz 20 / (20 + 1) =% 95 olur. Şimdi bu noktaları karşılık gelen bir teorik normale göre çizerseniz, bir pp-grafiğiniz olur.(olasılıkları olasılıklara göre çizmek için). Böyle bir arsa, büyük olasılıkla dağılımınız ile dağıtımın ortasındaki bir normal arasındaki sapmaları gösterecektir. Bunun nedeni, normal dağılımın% 68'inin +/- 1 SD içinde yatmasıdır, bu nedenle pp-parsellerin mükemmel çözünürlüğü ve başka yerlerde zayıf çözünürlüğü vardır. (Bu konuda daha fazla bilgi için, cevabımı burada okumak yardımcı olabilir: PP-parseller ve QQ-parseller .)

Çoğunlukla, dağıtımımızın kuyruklarında neler olduğu konusunda endişeliyiz. Orada daha iyi çözünürlük (ve böylece ortada daha kötü çözünürlük) elde etmek için, bunun yerine bir qq-komplo oluşturabiliriz . Bunu olasılık setlerimizi alıp normal dağılımın CDF'sinin tersinden geçirerek yapıyoruz (bu, bir istatistik kitabının arkasındaki z tablosunu geriye doğru okumak gibi - bir olasılıkta okuyorsunuz ve bir z- Puan). Bu operasyonun sonucu, birbirine benzer şekilde çizilebilen iki set kantil .

@whuber, referans çizgisinin daha sonra (tipik olarak) noktaların orta% 50'si boyunca (yani birinci çeyrekten üçe kadar) en iyi montaj çizgisini bularak çizilmesinde haklıdır. Bu, arsanın okunmasını kolaylaştırmak için yapılır. Bu çizgiyi kullanarak, grafiği, dağıtımınızın miktarlarının kuyruklara doğru ilerledikçe aşamalı olarak gerçek bir normalden farklı olup olmadığını gösteren olarak yorumlayabilirsiniz. (Merkezden daha uzak noktaların konumunun daha yakın olanlardan gerçekten bağımsız olmadığını unutmayın; bu nedenle, belirli histogramınızda, kuyrukların 'omuzlar' farklı olduktan sonra bir araya geldiği gerçeği, niceliklerin olduğu anlamına gelmez. şimdi tekrar aynı.)

x3y.2dağıtımınızın kuyruğundaki veriler teorik bir normalden daha fazladır. Diğer bir deyişle:

  • her iki kuyruk saat yönünün tersine bükülürse , ağır kuyruklarınız ( leptokurtoz ) varsa,
  • Her iki kuyruk da saat yönünde bükülürse, hafif kuyruklarınız (platykurtoz) vardır,
  • sağ kuyruğunuz saat yönünün tersine bükülürse ve sol kuyruğunuz saat yönünde bükülürse, sağ eğiminiz vardır
  • sol kuyruğunuz saat yönünün tersine ve sağ kuyruğunuz saat yönünde kıvrılırsa

Böyle değerlendirme listelerini tatmin edici bulmuyorum. Birincisi, arsanın arkasındaki prensiplerle doğrudan bir bağlantısı yoktur: ayrı ayrı ezberlenmeleri gerekir (ve hatalı bir hafıza ile tamamen karıştırılabilirler). Bir diğeri (bu durumda) güvenilir bir şekilde yararlı olamayacak kadar karmaşık olmasıdır. Yine bir diğeri, bu tür çizimlerin nasıl çizildiğine dair standardizasyon eksikliğinin, farklı bir prosedürle yapılan bir qq grafiğine uygulandığında bu yöntemi yanlış hale getirebilmesidir. Ancak qq grafiklerini yorumlamak kolaydır: denememin yarısında Quantdec.com/envstats/notes/class_03/probability.htm açıklamasına bakın .
whuber

5

Basitçe söylemek gerekirse: QQ grafiği, beklenen dağılımla karşılaştırıldığında ampirik dağılımdaki sıralamayı göstermektedir. Sizin durumunuzda (ve bu aslında çoğu zaman durumdur; her zaman simetrik dağılımlarda), ortadaki sıralar beklenen ve ampirik arasında benzer olacaktır, bu nedenle QQ grafiği oradaki çizgiye yakındır.

Bir QQ grafiğindeki konumlarına dayanarak "garip" gözlemleri gerçekten tanımlamak o kadar kolay değildir: grafik size sadece "bir şeylerin yanlış olduğunu" söyler ve veri / dağılımlar hakkında daha fazla bilgi sahibi olursanız, sorunların olduğu yer.


1
Ben zıt sonucunu sürdürürüm, Nick: qq grafiği, veri gövdesine kıyasla "garip" sonuçları tanımlamayı ve değerlendirmeyi çok daha kolay hale getirirken, histogram qq grafiğinin ortaya koyduğu çok fazla gizleme eğilimindedir. Buradaki sorun, qq grafiğinin bir çizgiye yakın olup olmadığı değildir: bu, arsa için referans olarak yazılım tarafından hangi çizginin seçildiğiyle ilgilidir! ( R
Uyumluluğunun

1
@whuber: Şahsen, mümkünse her ikisini de görmek isterim (çoğunlukla histogramları QQ grafiklerinden daha kolay "okuduğumdan"). Ama haklısın ve ben düzeltilmiş duruyorum.
Nick Sabbe

Ve iki tekniğin birbirini tamamlayıcı olduğu konusunda oldukça haklısınız. Örneğin, bimodalite bir histogramda qq grafiğinden daha kolay tespit edilebilir (ve nicelleştirilebilir) olma eğilimindedir. Uygulama ile hem histogramların hem de qq grafiklerinin okunmasının kolaylaştığına inanıyorum. QQ grafiklerinin öğrenilmesi biraz daha uzun sürebilir çünkü standart bir sunum şekli yoktur: her zaman hangi eksenin değer olduğunu ve hangisinin kantil olduğunu ve bazen de kantillerin "eşdeğer değerlere" dönüştürüldüğünü ( standartlaştırılmıştır).
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.