Bir kutu grafiğinin göreceli olarak küçük bir veri kümesini açıkça gösterilecek şekilde özetlemesi amaçlanmıştır
Merkezi bir değer.
"Tipik" değerlerin yayılması.
Forma göre merkezi değerden çok fazla ayrılan bireysel değerler, özel dikkat için seçildikleri ve ayrı ayrı tanımlandıkları (örneğin adıyla). Bunlara "tanımlanmış değerler" denir.
Bu sağlam bir şekilde yapılacaktır: bu, veri değerlerinden biri veya nispeten küçük bir kısmı keyfi olarak değiştirildiğinde kutu grafiğinin oldukça farklı görünmemesi gerektiği anlamına gelir.
Mucidi John Tukey tarafından benimsenen çözüm , sipariş istatistiklerini ( en düşükten en yükseğe doğru sıralanan veriler) sistematik bir şekilde kullanmaktır. Basitlik için (zihinsel veya kalem ve kağıtla hesaplamalar yaptı) Tukey medyanlara odaklandı : sayı kümelerinin orta değerleri. (Çift sayımlı partiler için, Tukey iki orta değerin orta noktasını kullanmıştır.) Bir ortanca, temel aldığı verilerin yarısındaki değişikliklere karşı dayanıklıdır ve sağlam bir istatistik olarak mükemmel kılar. Böylece:
Merkez değeri tüm verilerin medyanı ile tahmin edilir.
Yayılmış tüm veri medyan eşit veya onun üstünde - - ve "alt yarısında," - "üst yarım" medians arasındaki fark ile tahmin edilir tüm veriler için veya daha az orta değerinden daha eşittir. Bu iki medyan'a üst ve alt "menteşeler" veya "dördüncü" denir. Bugünlerde, (evrensel bir tanımı olmayan ne yazık ki) çeyrekler denilen şeylerin yerini almaya eğilimlidirler .
Aykırı değerlerin taranması için görünmez çitler , menteşelerin ötesine yayılmasının 1.5 ve 3 katı (merkezi değerden uzakta) yapılır.
- "İç parmaklığa en yakın ama yine de içerideki değer" bitişiktir ".
- İlk çitin ötesindeki değerlere "aykırı değer" denir.
- İkinci çitin ötesindeki değerler "uzaktadır".
( 60'ların hipperini hatırlayabilecek kadar yaşlı olanlar şakayı anlayacaktır.)
Yayılma veri değerlerinin bir farkı olduğundan, bu çitler orijinal verilerle aynı ölçü birimlerine sahiptir: bu, sorudaki "mesafe" hissidir.
Tanımlanacak veri değerleri ile ilgili olarak, Tukey
En azından uç değerleri belirleyebiliriz ve birkaç tanesini daha iyi tanımlayabiliriz.
Medyanı, menteşeleri ve tanımlanan değerleri görüntülemek için herhangi bir grafik yönteme tartışmalı olarak "boxplot" (orijinal olarak "box-whisker plot") denilmeyi hak ediyor. Çitler genellikle tasvir edilmez. Tukey'in tasarımı, medyanda bir "bel" olan menteşeleri tanımlayan bir dikdörtgenden oluşur. Göze çarpmayan çizgi benzeri "bıyıklar" menteşelerden en içteki tanımlanmış değerlere (kutunun üstünde ve altında) dışarı doğru uzanır . Genellikle bu en içteki tanımlanmış değerler yukarıda tanımlanan bitişik değerlerdir.
Sonuç olarak, bir kutu grafiğinin varsayılan görünümü, bıyıkları en uç olmayan veri değerlerine uzatmak ve bıyıkların uçlarını ve tüm aykırı değerleri içeren verileri tanımlamaktır (metin etiketleri aracılığıyla). Örneğin, Tupungatito yanardağı, şeklin sağında gösterilen yanardağ yükseklik verileri için yüksek bitişik değerdir: bıyık orada durur. Tupungatito ve daha uzun volkanlar ayrı ayrı tanımlanır.
Bu, verileri sadakatle gösterecek şekilde , grafikteki mesafe, veri değerlerindeki farklılıklarla orantılıdır. (Doğrudan orantılılıktan sapma, Tufte'nin (1983) terminolojisinde bir “Yalan Faktörü” getirecektir.)
Tukey'nin EDA (s. 41) kitabındaki bu iki kutu grafik bileşenleri göstermektedir. Solda bulunan Devlet veri kümesinin yüksek ve düşük uçlarında dış olmayan değerler ve sağdaki Volkan yüksekliklerinin düşük dışsal olmayan bir değeri tespit etmesi dikkat çekicidir. Bu , kitabı kaplayan kuralların ve yargının etkileşimini örneklendirir .
(Bu tanımlanmış verilerin dışlayıcı olmadığını söyleyebilirsiniz, çünkü çitlerin yerlerini tahmin edebilirsiniz. Örneğin, eyalet yüksekliklerinin menteşeleri 11.000 ve 1.000'e yakındır ve 10.000 civarında bir yayılma sağlar. 1.5 ve 3 ile çarpmak mesafeler verir Böylece, görünmez üst çit 11.000 + 15.000 = 26.000'e yakın olmalı ve alt çit, 1.000 - 15.000'de sıfırın altında, uzak çitler 11.000 + 30.000 = 41.000 ve 1.000 - 30.000 = -29.000.)
Referanslar
Tufte, Edward. Nicel Bilgilerin Görsel Gösterimi. Cheshire Yayınları, 1983.
Tukey, John. Bölüm 2, EDA . Addison-Wesley, 1977.