Q-grafiklerini histogramlar üzerinde kullanmanın faydaları


22

In Bu yoruma Nick Cox yazdı:

Sınıflara girmek eski bir yöntemdir. Histogramlar kullanışlı olsa da, modern istatistiksel yazılım, ham verilere dağılımları sığdırmanın yanı sıra tavsiye edilmesini de kolaylaştırır. Binning sadece hangi dağılımın uygun olduğunu belirlemede çok önemli olan detaylardan vazgeçer.

Bu yorumun içeriği, QQ alanlarının uygunluğu değerlendirmek için alternatif bir araç olarak kullanılmasını önermektedir. İfade çok makul görünüyor, ancak bu ifadeyi destekleyen güvenilir bir referans hakkında bilgi edinmek istiyorum. Bu gerçeği daha ayrıntılı bir şekilde inceleyen, basit bir “kuyu, bu kulağa açık geliyor” dışında bir makale var mı? Sonuçların veya beğenilerin gerçek sistematik karşılaştırmaları?

QQ-arazilerinin histogramlar üzerindeki bu faydasının, model uydurma dışındaki uygulamalara ne kadar uzatılabileceğini de görmek isterim. Bu soruya verilen cevaplar “QQ arsalarının […] sadece“ bir şeylerin yanlış olduğunu ”söylediğini kabul ediyor. Bunları gözlemlenen verilerdeki yapıyı boş bir modele kıyasla tanımlamak için bir araç olarak kullanmayı düşünüyorum ve QQ-plotları (veya temel verilerini) sadece tespit etmekle kalmayıp aynı zamanda rastgele olmayan tanımlamak için kullanılan herhangi bir prosedürün olup olmadığını merak ediyorum. gözlemlenen verilerdeki yapı. Bu yönü içeren referanslar bu nedenle özellikle yararlı olacaktır.


4
stats.stackexchange.com/questions/51718/… soruyu yarısına zaten cevaplıyor, yani neyi değiştirdiğiniz önemli değil, histogramların neden en iyi şekilde kaçınıldığı sorusu.
Gala,

Yanıtlar:


25

Buradaki kanonik yazı

Wilk, MB ve R. Gnanadesikan. 1968. Verilerin analizi için olasılık çizme yöntemleri. Biometrika 55: 1-17

ve yine de yakın ve tekrarlanan okumayı geri öder.

Çok iyi örneklerle berrak bir muamele,

Cleveland, WS 1993. Verileri Görselleştirme. Zirve, NJ: Hobart Press.

ve daha tanıtımdan bahsetmeye değer

Cleveland, WS 1994. Grafik Verilerinin Öğeleri. Zirve, NJ: Hobart Press.

Bu yaklaşıma makul düzeyde maruz kalma içeren diğer metinler arasında

Davison, AC 2003. İstatistiksel Modeller. Cambridge: Cambridge Üniversitesi Yayınları.

Rice, JA 2007. Matematiksel İstatistik ve Veri Analizi. Belmont, CA: Duxbury.

Bu bir yana, ne istediğinizi tam olarak bilen bir şey bilmiyorum. Kuantil-kuantil parsellerin noktasını gördükten sonra, histogramların ikinci dereceli bir alternatif olduğunu ayrıntılı olarak göstermek, namluda balık avlamak gibi ne ilginç ne de faydalı görünüyor.

Ancak şöyle özetlerdim:

  1. Binmek, ayrıntıları bastırır ve ayrıntılar genellikle önemlidir. Bu sadece kuyruklarda tam olarak ne olup bittiğini değil, aynı zamanda ortada ne olup bittiğini de uygulayabilir. Örneğin, taneciklik veya çok modlu olma, çarpıklık veya kuyruk ağırlığı kadar önemli olabilir.

  2. Binicilik, histogramların görünümünü kuvvetli bir şekilde etkileyebilecek bin menşei ve bin genişliği hakkında kararlar gerektirir, bu nedenle seçeneklerin neyin gerçek olduğunu ve seçeneklerin yan etkisinin ne olduğunu görmek zordur. Yazılımınız bu kararları sizin için verirse, sorunlar devam eder. (Örneğin, varsayılan çöp kutusu seçenekleri genellikle "çok fazla çöp kutusu" kullanmamanız için, yani biraz yumuşatma güdüsü kullanmamanız için tasarlanmıştır.)

  3. İki histogramı karşılaştırmanın grafiksel ve psikolojik problemi, bir dizi noktanın düz bir çizgiye oturduğunu değerlendirmekten daha zor.

-ortalama) / SD. Eğer nicelikler sadece sipariş istatistikleri ise, yapmanız gereken tek şey dönüşümü uygulamak, örneğin maksimum değerin logaritması aynı şekilde logaritmaların maksimumudur, vb. (Önemsiz olarak, karşılıklılık emri tersine çevirir.) İki sıra istatistikine dayanan seçilmiş miktarları çizseniz bile, genellikle sadece iki orijinal veri değeri arasında enterpolasyon yapılır ve enterpolasyonun etkisi önemsizdir. Buna karşılık, kütükteki veya diğer dönüştürülmüş ölçeklerdeki histogramlar, özellikle zor olmayan çöp tenekesi kökeni ve genişliği konusunda yeni bir karar vermeyi gerektiriyor, ancak önemsiz değil. Aynı şekilde, yoğunluk tahmininde dağılımı özetlemenin bir yolu olarak da söylenebilir.



7

Bunları nasıl kullanacağınızı öğrendikten sonra, QQ grafikleri, çarpıklığı, ağır kuyruğu, genel şekli, tepeleri vb. Tanımlamanıza izin verir, insanların değerlendirmeyi denemek için histogramları kullanma eğiliminde olduğu özelliklerin aynısıdır.

Çekirdek yoğunluğu tahminleri veya log-spline yoğunluğu tahminleri, Gala'nın yorumlarda işaret ettiği histogramlarla ilgili bazı sorunlardan kaçınabilir.

Bu bağlantıyı şu linkten ele alalım:

Ancak, çok şanslı olmadığınız sürece, beklenmedik ayrıcalık bazen histogramla ve hatta düzgün yoğunluklu tahminlerle bile gözden kaçabilir (çünkü onlar doğal olarak pürüzsüzdürler), ancak QQ parsellerinde genellikle belirgin olacaktır. Düzgün yoğunluklu tahminler - özel olarak işleme tabi tutulmadığı sürece - sınırlı değişkenlerle ilgili de sorun yaşayabilir.

Histogramlar ve pürüzsüz yoğunluk tahminleri hem verilere yaklaşmaya dayanıyor - hem de faydalı olabilir - fakat aynı zamanda yapay veya biraz yanlış şeyler ortaya koyabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.