Bir kutu grafiğinin bıyıklarını anlama


9

Bir boxplot bıyıklarının yorumlanması ile ilgili bir sorum var. Aşağıdakileri okudum: "Dikdörtgenin üstünde ve altında" bıyık ", 0.25- ve 0.75-quantiles arasındaki mesafenin 1.5 katını gösteriyor, ancak" mesafe "ile ne kastedildiğini tam olarak anlamıyorum. .

Olasılık kütlesi kastedilemez, çünkü 0.25 ve 0.75 kantil arasında her zaman aynı veri yüzdesine sahibiz. O zaman fikir nedir?

Yanıtlar:


6

75 kantil'e karşılık gelen X değeri eksi 25'ine karşılık gelen X değeri mesafedir. Örneğin, SAT Math Test için 620 75. ve 520 25. kantildir. Dolayısıyla, 620'nin üzerinde puan alırsanız, sınav katılımcılarının% 75'inden daha iyi bir işlem yaptınız. Bıyık uzanacak kadar (620-520) puan uzunluğunda ve 1.5 *.


Ancak, bıyıkların kutunun her iki tarafında da aynı uzunlukta olması gerekir (bu her zaman böyle değildir).
Konuk555

8
1, bir (biraz daha) tam cevap bıyık olmasıdır kadar kısa durur Bıyık, o aralıkta başka veri, yoksa, 1.5 * IQR. Buna ek olarak, bu noktanın ötesindeki herhangi bir ek veri ayrı ayrı potansiyel aykırı değerler olarak çizilir.
gung - Monica'yı eski durumuna getirin

Bu küçük ek açıklama ile şimdi açık, çok teşekkürler!
Konuk555

Cevabı @ gung'ın mükemmel noktasıyla düzenledim.
Dimitriy V. Masterov

5
@gung ve daha da eksiksiz bir cevap, bıyıkların her zaman verilerdeki mevcut bir noktada
yatmasıdır

4

Bir kutu grafiğinin göreceli olarak küçük bir veri kümesini açıkça gösterilecek şekilde özetlemesi amaçlanmıştır

  • Merkezi bir değer.

  • "Tipik" değerlerin yayılması.

  • Forma göre merkezi değerden çok fazla ayrılan bireysel değerler, özel dikkat için seçildikleri ve ayrı ayrı tanımlandıkları (örneğin adıyla). Bunlara "tanımlanmış değerler" denir.

Bu sağlam bir şekilde yapılacaktır: bu, veri değerlerinden biri veya nispeten küçük bir kısmı keyfi olarak değiştirildiğinde kutu grafiğinin oldukça farklı görünmemesi gerektiği anlamına gelir.

Mucidi John Tukey tarafından benimsenen çözüm , sipariş istatistiklerini ( en düşükten en yükseğe doğru sıralanan veriler) sistematik bir şekilde kullanmaktır. Basitlik için (zihinsel veya kalem ve kağıtla hesaplamalar yaptı) Tukey medyanlara odaklandı : sayı kümelerinin orta değerleri. (Çift sayımlı partiler için, Tukey iki orta değerin orta noktasını kullanmıştır.) Bir ortanca, temel aldığı verilerin yarısındaki değişikliklere karşı dayanıklıdır ve sağlam bir istatistik olarak mükemmel kılar. Böylece:

  • Merkez değeri tüm verilerin medyanı ile tahmin edilir.

  • Yayılmış tüm veri medyan eşit veya onun üstünde - - ve "alt yarısında," - "üst yarım" medians arasındaki fark ile tahmin edilir tüm veriler için veya daha az orta değerinden daha eşittir. Bu iki medyan'a üst ve alt "menteşeler" veya "dördüncü" denir. Bugünlerde, (evrensel bir tanımı olmayan ne yazık ki) çeyrekler denilen şeylerin yerini almaya eğilimlidirler .

  • Aykırı değerlerin taranması için görünmez çitler , menteşelerin ötesine yayılmasının 1.5 ve 3 katı (merkezi değerden uzakta) yapılır.

    • "İç parmaklığa en yakın ama yine de içerideki değer" bitişiktir ".
    • İlk çitin ötesindeki değerlere "aykırı değer" denir.
    • İkinci çitin ötesindeki değerler "uzaktadır".

( 60'ların hipperini hatırlayabilecek kadar yaşlı olanlar şakayı anlayacaktır.)

Yayılma veri değerlerinin bir farkı olduğundan, bu çitler orijinal verilerle aynı ölçü birimlerine sahiptir: bu, sorudaki "mesafe" hissidir.

Tanımlanacak veri değerleri ile ilgili olarak, Tukey

En azından uç değerleri belirleyebiliriz ve birkaç tanesini daha iyi tanımlayabiliriz.

Medyanı, menteşeleri ve tanımlanan değerleri görüntülemek için herhangi bir grafik yönteme tartışmalı olarak "boxplot" (orijinal olarak "box-whisker plot") denilmeyi hak ediyor. Çitler genellikle tasvir edilmez. Tukey'in tasarımı, medyanda bir "bel" olan menteşeleri tanımlayan bir dikdörtgenden oluşur. Göze çarpmayan çizgi benzeri "bıyıklar" menteşelerden en içteki tanımlanmış değerlere (kutunun üstünde ve altında) dışarı doğru uzanır . Genellikle bu en içteki tanımlanmış değerler yukarıda tanımlanan bitişik değerlerdir.

Sonuç olarak, bir kutu grafiğinin varsayılan görünümü, bıyıkları en uç olmayan veri değerlerine uzatmak ve bıyıkların uçlarını ve tüm aykırı değerleri içeren verileri tanımlamaktır (metin etiketleri aracılığıyla). Örneğin, Tupungatito yanardağı, şeklin sağında gösterilen yanardağ yükseklik verileri için yüksek bitişik değerdir: bıyık orada durur. Tupungatito ve daha uzun volkanlar ayrı ayrı tanımlanır.

Bu, verileri sadakatle gösterecek şekilde , grafikteki mesafe, veri değerlerindeki farklılıklarla orantılıdır. (Doğrudan orantılılıktan sapma, Tufte'nin (1983) terminolojisinde bir “Yalan Faktörü” getirecektir.)

EDA'dan Şekil

Tukey'nin EDA (s. 41) kitabındaki bu iki kutu grafik bileşenleri göstermektedir. Solda bulunan Devlet veri kümesinin yüksek ve düşük uçlarında dış olmayan değerler ve sağdaki Volkan yüksekliklerinin düşük dışsal olmayan bir değeri tespit etmesi dikkat çekicidir. Bu , kitabı kaplayan kuralların ve yargının etkileşimini örneklendirir .

(Bu tanımlanmış verilerin dışlayıcı olmadığını söyleyebilirsiniz, çünkü çitlerin yerlerini tahmin edebilirsiniz. Örneğin, eyalet yüksekliklerinin menteşeleri 11.000 ve 1.000'e yakındır ve 10.000 civarında bir yayılma sağlar. 1.5 ve 3 ile çarpmak mesafeler verir Böylece, görünmez üst çit 11.000 + 15.000 = 26.000'e yakın olmalı ve alt çit, 1.000 - 15.000'de sıfırın altında, uzak çitler 11.000 + 30.000 = 41.000 ve 1.000 - 30.000 = -29.000.)


Referanslar

Tufte, Edward. Nicel Bilgilerin Görsel Gösterimi. Cheshire Yayınları, 1983.

Tukey, John. Bölüm 2, EDA . Addison-Wesley, 1977.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.