Genel Müdür Özeti
Tarih, birçok insanın sandığından çok daha uzun ve karmaşıktır.
Yönetici Özeti
Tukey'nin kutu grafikleri olarak adlandırdığı şeyin tarihi, şimdi genellikle nokta veya şerit grafikleri (düzinelerce başka isim) ve ampirik kuantil fonksiyonun temsili ile karıştırılmıştır.
Yaygın olarak mevcut formlardaki kutu grafikleri en iyi John Wilder Tukey'in (1970, 1972, 1977) çalışmasıyla bilinir.
Ancak, medyan ve çeyrekleri temel özetler olarak gösterme fikri - sık sık ancak her zaman tüm değerleri gösteren noktalar ile birlikte - en azından coğrafyacı Percy Robert Crowe (1933) tarafından getirilen dağılım diyagramlarına (birçok varyant adı) geri döner. Bunlar coğrafyacılar için temel ücretlerdi ve 1930'ların sonlarından itibaren birçok ders kitabında ve araştırma makalelerinde kullanılıyordu.
Bibby (1986, s.56, 59) Arthur Lyon Bowley (daha sonra Sir Arthur) tarafından 1897'deki derslerinde öğretilen benzer fikirlere ve onun tavsiyesine daha önce atıfta bulunmuştur (Bowley, 1910, s.62; 1952, s.73) ) grafik özeti için minimum ve maksimum ve% 10, 25, 50, 75 ve 90 puan kullanmak.
Aşırı ve çeyrekleri gösteren aralık çubukları genellikle Mary Eleanor Spear'a (1952) atfedilir, ancak okumamda daha az insan Kenneth W. Haemer'e (1948) atıfta bulunur. Haemer'in 1950 yılı civarında Amerikan İstatistikçi'deki istatistiksel grafiklerle ilgili makaleleri yaratıcıydı ve kritik ısırıklara sahipti ve yeniden okumaya değer. (Birçok okuyucu onlara jstor.org aracılığıyla erişebilecek.) Buna karşılık Spear'ın kitapları (Spear 1969 bir rehash) yenilikçi veya bilimsel olmaktan ziyade erişilebilir ve mantıklı ama kasıtlı olarak tanıtıcıydı.
Bıyıkların seçilen yüzdeliklere kadar uzandığı kutu çizimleri, birçok insanın düşündüğünden daha yaygındır. Yine, 1930'lu yıllardan itibaren coğrafyacılar tarafından eşdeğer grafikler kullanılmıştır.
Tukey'in kutu grafikleri versiyonunda en orijinal olan şey, her şeyden önce, ayrı olarak çizilecek ve ayrıntılı değerlendirmeyi hak ettiği tespit edilen kuyruklardaki noktaları tanımlamak için kriterlerdir ve sıklıkla bir değişkenin dönüştürülmüş bir ölçekte analiz edilmesi gerektiğini işaretler. 1.5 IQR başparmak kuralı sadece çok fazla deneyden sonra ortaya çıktı. Bazı ellerde veri noktalarını silmek için sert bir kurala mutasyona uğradı, ki bu asla Tukey'in amacı değildi. Delici, unutulmaz bir isim - kutu arsa - bu fikirlerin çok daha geniş bir etkisinin sağlanmasına zarar vermedi. Aksine, dağılım diyagramı oldukça sıkıcı ve kasvetli bir terimdir.
Buradaki oldukça uzun referans listesi, muhtemelen görünüşe aykırıdır, ayrıntılı olması amaçlanmamıştır. Amaç sadece kutu planının bazı öncüleri ve alternatifleri için dokümantasyon sağlamaktır. Belirli başvurular ayrıntılı sorgular için veya alanınıza yakınlarsa yararlı olabilir. Diğer taraftan, diğer alanlardaki uygulamalar hakkında bilgi edinmek yararlı olabilir. Coğrafyacıların grafiksel -sadece kartografik değil- uzmanlıkları çoğu zaman hafife alınmıştır.
Daha fazla detay
Hibrid nokta-kutu grafikleri Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse ve Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond ve McCullagh (1974), Lewis tarafından kullanıldı (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild ve Seber (2000), Quinn ve Keough (2002), Young ve diğ. (2006) ve Hendry ve Nielsen (2007) ve diğerleri. Ayrıca bk. Miller (1953, 1964).
Çeyreklerin çok sayıda IQR'sindeki veri noktalarına değil, belirli yüzdeliklere bıyık çizmek Cleveland (1985) tarafından vurgulandı, ancak ilk ve ikinci arasında arasındaki interoctile aralığı çizen Matthews (1936) ve Grove (1956) tarafından tahmin edildi. yedinci oktil, aralık ve çeyrekler arası aralık. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt ve Johnson (2009, 2011) ve Davino ve ark. (2014), minimum, çeyrekler, medyan ve maksimum ortalamalar göstermiştir. Schmid (1954) medyan, çeyrekler ve% 5 ve 95 puanlı özet grafikler gösterdi. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) ve Motulsky (2010, 2014, 2018) bıyıkları% 5 ve 95 puana çıkardı. Morgan ve Henrion (1990, s.221, 241), Spence (2001, s.36) ve Gotelli ve Ellison (2004, 2013, s.72, 110, 213, 416)% 10 ve% 90 puana kadar bıyık çizmiştir. Harris (1999) hem% 5 ve% 95 hem de% 10 ve% 90 puan örnekleri göstermiştir. Altman (1991, s.34, 63) ve Greenacre (2016) bıyıkları% 2.5 ve% 97.5 puana çizmiştir. Reimann ve diğ. (2008, ss.46-47) bıyıkları% 5 ve% 95 ve% 2 ve% 98 puana çizmiştir.
Parzen (1979a, 1979b, 1982) melezleştirilmiş kutu ve kantil kutu grafikleri olarak kantil grafikler. Ayrıca bkz. (Ör. Shera (1991), Militkı ve Meloun (1993), Meloun ve Militkı (1994). Bununla birlikte, Keen'in (2010) kantil kutu grafiğinin, bıyıkların uçlara kadar uzanan bir kutu grafiği olduğuna dikkat edin. Aksine, JMP'nin kantil kutu grafikleri açık bir şekilde% 0.5,% 2.5,% 10,% 90,% 97.5,% 99.5 işaretli kutu grafikleri: bakınız Sall ve ark. (2014, s.143-4).
Quantile-box grafiklerinin varyantları hakkında bazı notlar.
(A) Esty ve Banfield'ın (2003) kutu persentil grafiği , aynı bilgileri farklı şekilde çizer, verileri sürekli çizgiler olarak çizer ve dikey eksenin miktarları ve yatay eksenin çizim konumunu göstermediği simetrik bir ekran üretir , ancak her ikisi de min ( ) ve ayna görüntüsü min ( ). Küçük ayrıntılar: kağıtlarında çizim pozisyonları "yüzdelik dilimler" olarak tanımlanır. Ayrıca bk . Martinez ve ark. (2011, 2017) bu karışıklığı devam ettirmektedir.pp , 1 - p-p , 1 - p
Min ( ) (veya yüzde eşdeğeri) çizme fikri bağımsız olarak (B) "dağ arazileri" (Krouwer 1992; Monti 1995; Krouwer ve Monti 1995; Goldstein 1996) ve (C) "ters ampirik dağılım fonksiyonu" (Huh 1995). Herhangi bir kantilde bir dağılım fonksiyonunun katlanmasının ayrıntılı bir analizi için ayrıca Xue ve Titterington'a (2011) bakınız. p , 1 - p
Gördüğüm literatürden, bu ipliklerin hiçbirinin - kantil kutu grafikleri veya daha sonraki varyantlar (A) (B) (C) - birbirini göstermediği anlaşılıyor.
!!! 3 Ekim 2018 itibarıyla, bazı referanslarla ilgili ayrıntıların bir sonraki düzenlemede sunulması gerekmektedir.
Altman, DG 1991.
Tıbbi Araştırmalarda Pratik İstatistik.
Londra: Chapman ve Hall.
Bentley, JL 1985. Programlama incileri: Seçim.
ACM 28'in iletişimi: 1121-1127.
Bentley, JL 1988.
Daha Fazla Programlama İncisi: Kodlayıcı İtirafları.
Reading, MA: Addison-Wesley.
Bibby, J. 1986.
İstatistik Öğretim Tarihine İlişkin Notlar.
Edinburgh: John Bibby (Kitaplar).
Bowley, AL 1910.
Temel İstatistik El Kitabı.
Londra: Macdonald ve Evans. (yedinci baskı 1952)
Cleveland, WS 1985. Veri Grafikleme Unsurları.
Monterey, CA: Wadsworth.
Crowe, PR 1933. Yağış olasılığı analizi: Grafiksel bir yöntem ve Avrupa verilerine uygulanması.
İskoç Coğrafi Dergisi 49: 73-91.
Crowe, PR 1936. Western Plains'in yağış rejimi.
Coğrafi İnceleme 26: 463-484.
Davis, JC 2002.
Jeolojide İstatistik ve Veri Analizi.
New York: John Wiley.
Dickinson, GC 1963.
İstatistiksel Haritalama ve İstatistik Sunumu.
Londra: Edward Arnold. (ikinci baskı 1973)
Dury, GH 1963.
Doğu Midlands ve Zirve.
Londra: Thomas Nelson.
Çiftçi, BH 1956. Seylan'ın kuru bölgesinde yağış ve su temini. Steel, RW ve CA Fisher (eds)
'de İngiliz Tropikal Toprakları Üzerine Coğrafi Denemeler.
Londra: George Philip, 227-268.
Gregory, S. 1963. İstatistiksel Yöntemler ve Coğrafyacı.
Londra: Longmans. (daha sonra 1968, 1973, 1978 yayınları; yayıncı daha sonra Longman)
Grove, AT 1956. Nijerya'da toprak erozyonu. Steel, RW ve CA Fisher (eds)
'de İngiliz Tropikal Toprakları Üzerine Coğrafi Denemeler.
Londra: George Philip, 79-111.
Haemer, KW 1948. Aralık çubuk grafikleri.
Amerikan İstatistikçi 2 (2): 23.
Hendry, DF ve B. Nielsen. 2007.
Ekonometrik Modelleme: Olabilirlik Yaklaşımı.
Princeton, NJ: Princeton Üniversitesi Yayınları.
Hogg, WH 1948. Yağış dağılım diyagramları: avantaj ve dezavantajlarının tartışılması.
Coğrafya 33: 31-37.
Ibrekk, H. ve MG Morgan. 1987. Belirsiz miktarların teknik olmayan kişilere grafiksel iletişimi.
Risk Analizi 7: 519-529.
Johnson, BLC 1975.
Bangladeş. Londra: Heinemann Educational.
Keen, KJ 2010.
R.
Boca Raton, FL: CRC Press ile İstatistik ve Veri Analizi Grafikleri . (2. baskı 2018)
Lewis, CR 1975. Kentsel durumdaki değişikliklerin analizi: Orta Galler ve orta Galler sınır bölgelerinde bir vaka çalışması.
İngiliz Coğrafyacılar Enstitüsü'nün işlemleri
64: 49-65.
Martinez, WL, AR Martinez ve JL Solka. 2011.
MATLAB ile Keşifsel Veri Analizi.
Boca Raton, FL: CRC Press.
Matthews, HA 1936. Bazı tanıdık Hint yağışlarının yeni bir görünümü.
İskoç Coğrafi Dergisi 52: 84-97.
Matthews, JA 1981.
Coğrafyaya Niceliksel ve İstatistiksel Yaklaşımlar: Pratik Bir Kılavuz.
Oxford: Bergama.
Meloun, M. ve J. Militký. 1994. Analitik kemometride bilgisayar destekli veri tedavisi. I. Tek değişkenli verilerin açıklayıcı analizi.
Kimyasal Kağıtlar 48: 151-157.
Militkı, J. ve M. Meloun. 1993. Tek değişkenli keşif veri analizi için bazı grafik yardımcılar.
Analytica Chimica Açta 277: 215-221.
Miller, AA 1953.
Dünyanın Derisi.
Londra: Methuen. (2. baskı 1964)
Monkhouse, FJ ve HR Wilkinson. 1952.
Haritalar ve Diyagramlar: Derlenmesi ve İnşası.
Londra: Methuen. (sonraki baskılar 1963, 1971)
Morgan, MG ve M. Henrion. 1990.
Belirsizlik: Kantitatif Risk ve Politika Analizinde Belirsizlikle Başa Çıkma Kılavuzu.
Cambridge: Cambridge Üniversitesi Yayınları.
Myatt, GJ 2007.
Veri Algılama: Keşifsel Veri Analizi ve Veri Madenciliği için Pratik Bir Kılavuz.
Hoboken, NJ: John Wiley.
Myatt, GJ ve Johnson, WP 2009.
Veri Algılama II: Veri Görselleştirme, İleri Veri Madenciliği Yöntemleri ve Uygulamaları için Pratik Bir Kılavuz.
Hoboken, NJ: John Wiley.
Myatt, GJ ve Johnson, WP 2011. Veri Algılamayı Sağlamak
III: Etkileşimli Veri Görselleştirmeleri Tasarlamak için Pratik Bir Kılavuz.
Hoboken, NJ: John Wiley.
Ottaway, B. 1973. Dispersiyon diyagramları: karbon-14 tarihlerinin görüntülenmesine yeni bir yaklaşım.
Arkeometri 15: 5-12.
Parzen, E. 1979a. Parametrik olmayan istatistiksel veri modelleme.
Journal, Amerikan İstatistik Derneği 74: 105-121.
Parzen, E. 1979b. Sağlam kestirim üzerine yoğunluk-kantil fonksiyon perspektifi. Launer, RL ve GN Wilkinson (eds) İstatistiklerde Sağlamlık.
New York: Academic Press, 237-258.
Parzen, E. 1982. Kantil ve yoğunluk-kuantil fonksiyonlarını kullanarak veri modelleme. Tiago de Oliveira, J. ve Epstein, B. (eds)
İstatistikte Bazı Son Gelişmeler. Londra: Academic Press, 23-52.
Quinn, GP ve MJ Keough. 2002.
Biyologlar için Deneysel Tasarım ve Veri Analizi.
Cambridge: Cambridge Üniversitesi Yayınları.
Reimann, C., P. Filzmoser, RG Garrett ve R. Dutter. 2008.
İstatistiksel Veri Analizi Açıklandı: R.
Chichester ile Uygulamalı Çevre İstatistikleri : John Wiley.
Sall, J., A. Lehman, M. Stephens ve L. Creighton. 2014.
JMP Başlangıç İstatistikleri: JMP Kullanarak İstatistik ve Veri Analizi Kılavuzu.
Cary, NC: SAS Enstitüsü.
Shera, DM 1991. Veri sunumunu geliştirmek için kantil grafiklerin bazı kullanımları.
Bilgisayar Bilimi ve İstatistik 23: 50-53.
Mızrak, ME 1952. Grafik İstatistikleri.
New York: McGraw-Hill.
Mızrak, ME 1969. Pratik Grafik Teknikleri.
New York: McGraw-Hill.
Tukey, JW 1970.
Keşifsel veri analizi. Sınırlı Ön Baskı. Cilt I.
Okuma, MA: Addison-Wesley.
Tukey, JW 1972. Bazı grafik ve yarı grafik ekranlar. Bancroft, TA ve Brown, SA (eds)
George W. Snedecor Onuruna İstatistik Makaleleri.
Ames, IA: Iowa State University Press, 293-316. ( http://www.edwardtufte.com/tufte/tukey adresinden de erişilebilir )
Tukey, JW 1977.
Keşifsel Veri Analizi.
Reading, MA: Addison-Wesley.
Wild, CJ ve GAF Seber. 2000.
Şans Karşılaşmaları: Veri Analizi ve Çıkarımında Bir İlk Ders.
New York: John Wiley.