Kutu grafiklerinin geçmişi nedir ve “kutu ve bıyık” tasarımı nasıl gelişti?


19

Birçok kaynak, klasik "kutu arsa" tasarımını John Tukey ve 1970'teki "şematik arsa" sına tarihlendiriyor . Tasarım o zamandan beri nispeten durağan kalıyor , Edward Tufte'nin kutu arsalarının cut-down versiyonu yakalanmıyorken, keman grafikleri - kutu grafiğinin daha bilgilendirici bir çeşidi olsa da - daha az popüler. Cleveland'ın bıyıkların 10. ve 90. yüzdelik dilimlere kadar uzanma önerisinin bazı destekçileri var, bkz. Cox (2009) , ancak norm değildir.

Hadley Wickham ve Lisa Stryjewski, kutu parsellerin tarihi hakkında yayınlanmamış bir makale yazdılar, ancak kutu parsellerin tarihi öncüllerini kapsamıyor gibi görünüyor.

Peki mevcut, her yerde bulunan “kutu ve bıyık” konusu nasıl ortaya çıktı? Ne tür bir veri görselleştirmesinden ortaya çıktı, önceki tasarımların önemli bir avantajı oldu mu ve neden Tukey şemasının kullanımında bu kadar kapsamlı bir şekilde örtüşüyorlar? Resimli bir cevap bonus olacaktır, ancak tarihsel olarak Wickham ve Stryjewski'den daha derin dalış yapan bir referansa yöneltmek faydalı olacaktır.

Referanslar

  • Cox, NJ (2009). Konuşma Durumu: Kutu grafikleri oluşturma ve değiştirme. Stata Journal , 9 (3), 478'de açıklanmaktadır.
  • Wickham, H. ve Stryjewski, L. (2011). 40 yıllık kutu arsalar. http://vita.had.co.nz/papers/boxplots.pdf

1
Burada bir takım öncüllerin bazı ilgili tartışmaları: stats.stackexchange.com/questions/125521/… ... Tukey, Mary Spears'ın çalışmasının farkındaydı, ancak daha öncekilerden hiç birini görmemiş olabilir
Glen_b -Restate Monica

Teşekkürler @ Glen_b, gerçekten de bu soruya ilham veren okuduğum tartışmalardı, ama bunu sormam dört yılımı aldı ve tartışmayı takip edemedim! (Yorumların site aramasında görünmemesi talihsiz bir durumdur, bu yüzden uygun bir Soru-Cevap bölümüne girmeye çalışmak yararlı olacaktır.)
Silverfish

1
site:stats.stackexchange.comYorumlarda yer alan şeyleri izlemek için google arama özelliğini kullanıyorum . İlk hit elde etmek için yeterince ayrıntı hatırlayabildim (Nick ve ben boxplots ile ilgili bir tartışma ve Schmid'den bahsetmiştim).
Glen_b

1
Boxplot aykırı değerleri hakkında teğetsel açıklama. İki kural yaygın olarak kullanılmaktadır. Genellikle varsayılan olan (R ve diğer yazılımlarda) altındaki veya üzerindeki aykırı olarak belirlenmiştir; "1.5IQR kuralı". Daha önceki sürümlerde Minitab kuralı kullandı ve daha aşırı uç değerlere “olası aykırı değerlere” ve daha az uç değerlere “olası uç değerlere” neden oldu. En azından kabaca normal veriler için, her iki kural da örnek büyüklüğü ile büyük ölçüde değişen aykırı değerlerin yüzdesini gösterirSimülasyonlardan kuralının kadar daha kararlı olacağına dair kanıtlar var. S1-1.5benSR,3 I Q R n . 2.25 I Q RS3+1.5benSR,3benSR,n.2.25benSR,
BruceET

1
github.com/hadley/boxplots-paper bir dergiden anonim gözden geçirenlerin raporları (? _American Statistician_) (kısa ve cesaret kırıcı) ve David Hoaglin ve kendim tarafından bağımsız ama örtüşen istenmeyen incelemeler (her ikisi de çok daha ayrıntılı) gibi birçok materyal içerir.
Nick Cox

Yanıtlar:


18

Genel Müdür Özeti

Tarih, birçok insanın sandığından çok daha uzun ve karmaşıktır.

Yönetici Özeti

Tukey'nin kutu grafikleri olarak adlandırdığı şeyin tarihi, şimdi genellikle nokta veya şerit grafikleri (düzinelerce başka isim) ve ampirik kuantil fonksiyonun temsili ile karıştırılmıştır.

Yaygın olarak mevcut formlardaki kutu grafikleri en iyi John Wilder Tukey'in (1970, 1972, 1977) çalışmasıyla bilinir.

Ancak, medyan ve çeyrekleri temel özetler olarak gösterme fikri - sık sık ancak her zaman tüm değerleri gösteren noktalar ile birlikte - en azından coğrafyacı Percy Robert Crowe (1933) tarafından getirilen dağılım diyagramlarına (birçok varyant adı) geri döner. Bunlar coğrafyacılar için temel ücretlerdi ve 1930'ların sonlarından itibaren birçok ders kitabında ve araştırma makalelerinde kullanılıyordu.

Bibby (1986, s.56, 59) Arthur Lyon Bowley (daha sonra Sir Arthur) tarafından 1897'deki derslerinde öğretilen benzer fikirlere ve onun tavsiyesine daha önce atıfta bulunmuştur (Bowley, 1910, s.62; 1952, s.73) ) grafik özeti için minimum ve maksimum ve% 10, 25, 50, 75 ve 90 puan kullanmak.

Aşırı ve çeyrekleri gösteren aralık çubukları genellikle Mary Eleanor Spear'a (1952) atfedilir, ancak okumamda daha az insan Kenneth W. Haemer'e (1948) atıfta bulunur. Haemer'in 1950 yılı civarında Amerikan İstatistikçi'deki istatistiksel grafiklerle ilgili makaleleri yaratıcıydı ve kritik ısırıklara sahipti ve yeniden okumaya değer. (Birçok okuyucu onlara jstor.org aracılığıyla erişebilecek.) Buna karşılık Spear'ın kitapları (Spear 1969 bir rehash) yenilikçi veya bilimsel olmaktan ziyade erişilebilir ve mantıklı ama kasıtlı olarak tanıtıcıydı.

Bıyıkların seçilen yüzdeliklere kadar uzandığı kutu çizimleri, birçok insanın düşündüğünden daha yaygındır. Yine, 1930'lu yıllardan itibaren coğrafyacılar tarafından eşdeğer grafikler kullanılmıştır.

Tukey'in kutu grafikleri versiyonunda en orijinal olan şey, her şeyden önce, ayrı olarak çizilecek ve ayrıntılı değerlendirmeyi hak ettiği tespit edilen kuyruklardaki noktaları tanımlamak için kriterlerdir ve sıklıkla bir değişkenin dönüştürülmüş bir ölçekte analiz edilmesi gerektiğini işaretler. 1.5 IQR başparmak kuralı sadece çok fazla deneyden sonra ortaya çıktı. Bazı ellerde veri noktalarını silmek için sert bir kurala mutasyona uğradı, ki bu asla Tukey'in amacı değildi. Delici, unutulmaz bir isim - kutu arsa - bu fikirlerin çok daha geniş bir etkisinin sağlanmasına zarar vermedi. Aksine, dağılım diyagramı oldukça sıkıcı ve kasvetli bir terimdir.

Buradaki oldukça uzun referans listesi, muhtemelen görünüşe aykırıdır, ayrıntılı olması amaçlanmamıştır. Amaç sadece kutu planının bazı öncüleri ve alternatifleri için dokümantasyon sağlamaktır. Belirli başvurular ayrıntılı sorgular için veya alanınıza yakınlarsa yararlı olabilir. Diğer taraftan, diğer alanlardaki uygulamalar hakkında bilgi edinmek yararlı olabilir. Coğrafyacıların grafiksel -sadece kartografik değil- uzmanlıkları çoğu zaman hafife alınmıştır.

Daha fazla detay

Hibrid nokta-kutu grafikleri Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse ve Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond ve McCullagh (1974), Lewis tarafından kullanıldı (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild ve Seber (2000), Quinn ve Keough (2002), Young ve diğ. (2006) ve Hendry ve Nielsen (2007) ve diğerleri. Ayrıca bk. Miller (1953, 1964).

Çeyreklerin çok sayıda IQR'sindeki veri noktalarına değil, belirli yüzdeliklere bıyık çizmek Cleveland (1985) tarafından vurgulandı, ancak ilk ve ikinci arasında arasındaki interoctile aralığı çizen Matthews (1936) ve Grove (1956) tarafından tahmin edildi. yedinci oktil, aralık ve çeyrekler arası aralık. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt ve Johnson (2009, 2011) ve Davino ve ark. (2014), minimum, çeyrekler, medyan ve maksimum ortalamalar göstermiştir. Schmid (1954) medyan, çeyrekler ve% 5 ve 95 puanlı özet grafikler gösterdi. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) ve Motulsky (2010, 2014, 2018) bıyıkları% 5 ve 95 puana çıkardı. Morgan ve Henrion (1990, s.221, 241), Spence (2001, s.36) ve Gotelli ve Ellison (2004, 2013, s.72, 110, 213, 416)% 10 ve% 90 puana kadar bıyık çizmiştir. Harris (1999) hem% 5 ve% 95 hem de% 10 ve% 90 puan örnekleri göstermiştir. Altman (1991, s.34, 63) ve Greenacre (2016) bıyıkları% 2.5 ve% 97.5 puana çizmiştir. Reimann ve diğ. (2008, ss.46-47) bıyıkları% 5 ve% 95 ve% 2 ve% 98 puana çizmiştir.

Parzen (1979a, 1979b, 1982) melezleştirilmiş kutu ve kantil kutu grafikleri olarak kantil grafikler. Ayrıca bkz. (Ör. Shera (1991), Militkı ve Meloun (1993), Meloun ve Militkı (1994). Bununla birlikte, Keen'in (2010) kantil kutu grafiğinin, bıyıkların uçlara kadar uzanan bir kutu grafiği olduğuna dikkat edin. Aksine, JMP'nin kantil kutu grafikleri açık bir şekilde% 0.5,% 2.5,% 10,% 90,% 97.5,% 99.5 işaretli kutu grafikleri: bakınız Sall ve ark. (2014, s.143-4).

Quantile-box grafiklerinin varyantları hakkında bazı notlar.

(A) Esty ve Banfield'ın (2003) kutu persentil grafiği , aynı bilgileri farklı şekilde çizer, verileri sürekli çizgiler olarak çizer ve dikey eksenin miktarları ve yatay eksenin çizim konumunu göstermediği simetrik bir ekran üretir , ancak her ikisi de min ( ) ve ayna görüntüsü min ( ). Küçük ayrıntılar: kağıtlarında çizim pozisyonları "yüzdelik dilimler" olarak tanımlanır. Ayrıca bk . Martinez ve ark. (2011, 2017) bu karışıklığı devam ettirmektedir.pp,1-p-p,1-p

Min ( ) (veya yüzde eşdeğeri) çizme fikri bağımsız olarak (B) "dağ arazileri" (Krouwer 1992; Monti 1995; Krouwer ve Monti 1995; Goldstein 1996) ve (C) "ters ampirik dağılım fonksiyonu" (Huh 1995). Herhangi bir kantilde bir dağılım fonksiyonunun katlanmasının ayrıntılı bir analizi için ayrıca Xue ve Titterington'a (2011) bakınız. p,1-p

Gördüğüm literatürden, bu ipliklerin hiçbirinin - kantil kutu grafikleri veya daha sonraki varyantlar (A) (B) (C) - birbirini göstermediği anlaşılıyor.

!!! 3 Ekim 2018 itibarıyla, bazı referanslarla ilgili ayrıntıların bir sonraki düzenlemede sunulması gerekmektedir.

Altman, DG 1991. Tıbbi Araştırmalarda Pratik İstatistik. Londra: Chapman ve Hall.

Bentley, JL 1985. Programlama incileri: Seçim. ACM 28'in iletişimi: 1121-1127.

Bentley, JL 1988. Daha Fazla Programlama İncisi: Kodlayıcı İtirafları. Reading, MA: Addison-Wesley.

Bibby, J. 1986. İstatistik Öğretim Tarihine İlişkin Notlar. Edinburgh: John Bibby (Kitaplar).

Bowley, AL 1910. Temel İstatistik El Kitabı. Londra: Macdonald ve Evans. (yedinci baskı 1952)

Cleveland, WS 1985. Veri Grafikleme Unsurları. Monterey, CA: Wadsworth.

Crowe, PR 1933. Yağış olasılığı analizi: Grafiksel bir yöntem ve Avrupa verilerine uygulanması. İskoç Coğrafi Dergisi 49: 73-91.

Crowe, PR 1936. Western Plains'in yağış rejimi. Coğrafi İnceleme 26: 463-484.

Davis, JC 2002. Jeolojide İstatistik ve Veri Analizi. New York: John Wiley.

Dickinson, GC 1963. İstatistiksel Haritalama ve İstatistik Sunumu. Londra: Edward Arnold. (ikinci baskı 1973)

Dury, GH 1963. Doğu Midlands ve Zirve. Londra: Thomas Nelson.

Çiftçi, BH 1956. Seylan'ın kuru bölgesinde yağış ve su temini. Steel, RW ve CA Fisher (eds) 'de İngiliz Tropikal Toprakları Üzerine Coğrafi Denemeler. Londra: George Philip, 227-268.

Gregory, S. 1963. İstatistiksel Yöntemler ve Coğrafyacı. Londra: Longmans. (daha sonra 1968, 1973, 1978 yayınları; yayıncı daha sonra Longman)

Grove, AT 1956. Nijerya'da toprak erozyonu. Steel, RW ve CA Fisher (eds) 'de İngiliz Tropikal Toprakları Üzerine Coğrafi Denemeler. Londra: George Philip, 79-111.

Haemer, KW 1948. Aralık çubuk grafikleri. Amerikan İstatistikçi 2 (2): 23.

Hendry, DF ve B. Nielsen. 2007. Ekonometrik Modelleme: Olabilirlik Yaklaşımı. Princeton, NJ: Princeton Üniversitesi Yayınları.

Hogg, WH 1948. Yağış dağılım diyagramları: avantaj ve dezavantajlarının tartışılması. Coğrafya 33: 31-37.

Ibrekk, H. ve MG Morgan. 1987. Belirsiz miktarların teknik olmayan kişilere grafiksel iletişimi. Risk Analizi 7: 519-529.

Johnson, BLC 1975. Bangladeş. Londra: Heinemann Educational.

Keen, KJ 2010. R. Boca Raton, FL: CRC Press ile İstatistik ve Veri Analizi Grafikleri . (2. baskı 2018)

Lewis, CR 1975. Kentsel durumdaki değişikliklerin analizi: Orta Galler ve orta Galler sınır bölgelerinde bir vaka çalışması. İngiliz Coğrafyacılar Enstitüsü'nün işlemleri 64: 49-65.

Martinez, WL, AR Martinez ve JL Solka. 2011. MATLAB ile Keşifsel Veri Analizi. Boca Raton, FL: CRC Press.

Matthews, HA 1936. Bazı tanıdık Hint yağışlarının yeni bir görünümü. İskoç Coğrafi Dergisi 52: 84-97.

Matthews, JA 1981. Coğrafyaya Niceliksel ve İstatistiksel Yaklaşımlar: Pratik Bir Kılavuz. Oxford: Bergama.

Meloun, M. ve J. Militký. 1994. Analitik kemometride bilgisayar destekli veri tedavisi. I. Tek değişkenli verilerin açıklayıcı analizi. Kimyasal Kağıtlar 48: 151-157.

Militkı, J. ve M. Meloun. 1993. Tek değişkenli keşif veri analizi için bazı grafik yardımcılar. Analytica Chimica Açta 277: 215-221.

Miller, AA 1953. Dünyanın Derisi. Londra: Methuen. (2. baskı 1964)

Monkhouse, FJ ve HR Wilkinson. 1952. Haritalar ve Diyagramlar: Derlenmesi ve İnşası. Londra: Methuen. (sonraki baskılar 1963, 1971)

Morgan, MG ve M. Henrion. 1990. Belirsizlik: Kantitatif Risk ve Politika Analizinde Belirsizlikle Başa Çıkma Kılavuzu. Cambridge: Cambridge Üniversitesi Yayınları.

Myatt, GJ 2007. Veri Algılama: Keşifsel Veri Analizi ve Veri Madenciliği için Pratik Bir Kılavuz. Hoboken, NJ: John Wiley.

Myatt, GJ ve Johnson, WP 2009. Veri Algılama II: Veri Görselleştirme, İleri Veri Madenciliği Yöntemleri ve Uygulamaları için Pratik Bir Kılavuz. Hoboken, NJ: John Wiley.

Myatt, GJ ve Johnson, WP 2011. Veri Algılamayı Sağlamak III: Etkileşimli Veri Görselleştirmeleri Tasarlamak için Pratik Bir Kılavuz. Hoboken, NJ: John Wiley.

Ottaway, B. 1973. Dispersiyon diyagramları: karbon-14 tarihlerinin görüntülenmesine yeni bir yaklaşım. Arkeometri 15: 5-12.

Parzen, E. 1979a. Parametrik olmayan istatistiksel veri modelleme. Journal, Amerikan İstatistik Derneği 74: 105-121.

Parzen, E. 1979b. Sağlam kestirim üzerine yoğunluk-kantil fonksiyon perspektifi. Launer, RL ve GN Wilkinson (eds) İstatistiklerde Sağlamlık. New York: Academic Press, 237-258.

Parzen, E. 1982. Kantil ve yoğunluk-kuantil fonksiyonlarını kullanarak veri modelleme. Tiago de Oliveira, J. ve Epstein, B. (eds) İstatistikte Bazı Son Gelişmeler. Londra: Academic Press, 23-52.

Quinn, GP ve MJ Keough. 2002. Biyologlar için Deneysel Tasarım ve Veri Analizi. Cambridge: Cambridge Üniversitesi Yayınları.

Reimann, C., P. Filzmoser, RG Garrett ve R. Dutter. 2008. İstatistiksel Veri Analizi Açıklandı: R. Chichester ile Uygulamalı Çevre İstatistikleri : John Wiley.

Sall, J., A. Lehman, M. Stephens ve L. Creighton. 2014. JMP Başlangıç ​​İstatistikleri: JMP Kullanarak İstatistik ve Veri Analizi Kılavuzu. Cary, NC: SAS Enstitüsü.

Shera, DM 1991. Veri sunumunu geliştirmek için kantil grafiklerin bazı kullanımları. Bilgisayar Bilimi ve İstatistik 23: 50-53.

Mızrak, ME 1952. Grafik İstatistikleri. New York: McGraw-Hill.

Mızrak, ME 1969. Pratik Grafik Teknikleri. New York: McGraw-Hill.

Tukey, JW 1970.
Keşifsel veri analizi. Sınırlı Ön Baskı. Cilt I. Okuma, MA: Addison-Wesley.

Tukey, JW 1972. Bazı grafik ve yarı grafik ekranlar. Bancroft, TA ve Brown, SA (eds) George W. Snedecor Onuruna İstatistik Makaleleri. Ames, IA: Iowa State University Press, 293-316. ( http://www.edwardtufte.com/tufte/tukey adresinden de erişilebilir )

Tukey, JW 1977. Keşifsel Veri Analizi. Reading, MA: Addison-Wesley.

Wild, CJ ve GAF Seber. 2000. Şans Karşılaşmaları: Veri Analizi ve Çıkarımında Bir İlk Ders. New York: John Wiley.


Kutu yüzdelik araziler, dağ arazileri ve diğer hibrit formlarda daha sonra eklenecek başka malzemelerim var.
Nick Cox

Bu cevabı gerçekten takdir ediyorum, teşekkürler Nick - alternatifler ve melezlerle ilgili eklemeler için sabırsızlanıyoruz. Muhtemelen "kutu parselleri" ve arkadaşlar "veri görselleştirmelerinin bir" aile "oluşturmak demek adil, ama bu ailenin ne denmesi gerektiğini bilmiyorum
Silverfish

Teşekkürler! medyan ve çeyrekleri belirten çizgilere veya diğer işaretlere sahip olmak bir kutuyu tanımlarsa, Tukey onları adlandırmadan çok önce kutu grafikleri vardı ve asla aksini iddia etmediğinden eminim. Bununla birlikte, ders kitaplarındaki ve başka yerlerdeki pek çok minyatür tarihi bu noktada vurgulayıcı görünmektedir; çoğunlukla, lemmings'in kolektif intihar olarak uçurumlardan atladığı hikayesi gibi kanıt olmadan tekrarlanan bir mem. Boks alternatiflerin çoğu araziler öyle olsa bile o zaman tarla dahil etmek ardına kadar açık, herhangi bir anlamda bir kutu görünmüyor herhangi tek değişkenli dağılımların grafik temsilini.
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.