Aşırı bir aykırı olan kutu arsa nasıl sunulur?


17

Bazı verileri sunma konusunda rehberlik edebilirim.

Bu ilk grafik, sitokin IL-10 için bir vaka kontrol karşılaştırmasıdır. El ile y eksenini% 99 veri içerecek şekilde ayarladım.

Manuel Y eksenli IL-10

Bunu manuel olarak ayarlamamın nedeni, vaka grubunun aşırı bir aykırı değer olmasıdır. Aykırı değerlerle

Ortak çalışanlarım veri kümemize aykırı bir kaldırma işlemi yapmakta tereddüt ediyorlar. Ben iyiyim, ama istemezler. Bu bariz bir çözüm olurdu. Ancak tüm verileri saklayacak ve bu aykırı değeri kaldırmayacaksam, bu kutu grafiğini en iyi şekilde nasıl sunabilirim? Ekseni böl? Sadece ilk grafiği kullanmak ve tüm verileri içerecek şekilde oluşturulduğunu not etmek kabul edilebilir mi? (Bu seçenek bana sahtekârlık veriyor). Herhangi bir tavsiye harika olurdu.


5
Neden her iki arsayı da sunmuyorsunuz?
Alexis

Yanıtlar:


23

Bunun gibi verilerle sonuçları dönüştürülmüş bir ölçekte göstermeniz gerektiğini söyleyebilirim. Bu, bir kutu grafiğinin nasıl çizileceğinden daha önemli ve daha önemli bir konudur.

Ancak Frank Harrell'i, bazı aşırı noktalar belirlenmiş olsa bile, minimal bir kutu planından daha bilgilendirici bir şey çağırmak için tekrar ediyorum. Daha fazla bilgi göstermek için yeterli alanınız var. İşte birçok örnekten biri, hibrit bir kutu ve kantil grafik. Verilerinizde olduğu gibi, karşılaştırılan iki grup vardır.

resim açıklamasını buraya girin

Bu iki noktayı tek tek alıp daha fazlasını söyleyeceğim.

Dönüştürülmüş ölçek

En basit durumda, tüm değerleriniz olumlu olabilir ve önce logaritmik bir ölçek kullanmayı denemelisiniz.

Kesin sıfırlarınız varsa, kare bir kök veya küp kök ölçeği yine de aşırı çarpıklığı geliştirecektir. Bazı insanlar sıfırlarla başa çıkmanın bir yolu olarak sabitin en yaygın olarak 1 olduğu log (değer + sabit) ile mutludurlar.

Dönüştürülmüş bir ölçek kullanmanın kutu çizimleri için imaları incedir.

Üst çeyrek + 1.5 IQR veya alt çeyrek - 1.5 IQR ötesindeki tüm noktaları tek tek göstermek için ortak Tukey kuralını kullanırsanız, bu sınırlar dönüştürülmüş ölçekte hesaplanmalıdır. Bu, orijinal ölçekte bu limitleri hesaplamak ve sonra dönüştürmekle aynı şey değildir .

Bunun yerine, hala bıyıkların uçları için kantilleri seçmenin bir azınlık sözleşmesi gibi görünen şeyi destekliyorum. Bunun birkaç avantajından biri, kuantil dönüşümün - dönüşüm kuantil dönüşümünün, çoğu durumda grafiksel amaçlar için en azından yeterince yakın olmasıdır. (Küçük baskı, bitişik sıra istatistikleri arasındaki doğrusal enterpolasyon ile miktarlar hesaplandığında ortaya çıkar.)

Bu kantil konvansiyon Cleveland (1985) tarafından oldukça belirgindi. Kayıt için coğrafya ve klimatolojide (örn.) Matthews (1936) ve Grove (1956) "dağılım diyagramları" adı.

Kutu grafiklerinden daha fazlası

Kutu arsaları 1970'lerde Tukey tarafından yeniden icat edildi ve en belirgin şekilde 1977 kitabında tanıtıldı. Amacının çoğu, gayri resmi keşifte kalem (cil) ve kağıt kullanılarak hızlı bir şekilde çizilebilecek grafikleri tanıtmaktı. Ayrıca olası aykırı değerleri tanımlamanın yollarını da önerdi. Bu iyiydi, ama şimdi hepimiz bilgisayarlara erişimimiz var, tüm veriler olmasa da, en azından çok daha fazla ayrıntı gösteren grafikler çizmek acı çekmiyor. Kutu grafiklerinin özet rolü değerlidir, ancak bir grafik, ilginç veya önemli olması durumunda, ince yapıyı da gösterebilir. (Ve araştırmacıların ilgisiz veya önemsiz olduğunu düşündükleri okuyucuları için daha çarpıcı olabilir.)

Tam olarak neyin en iyi işe yaradığına dair kibar anlaşmazlıklara yer var, ancak bence çıplak kutu arazileri oldukça fazla satıldı.

Stata kullanıcıları bu Statalist gönderisinde figürü çizen program hakkında daha fazla bilgi bulabilirler . Diğer yazılım kullanıcıları, iyi veya daha iyi bir şey çizmekte zorluk çekmemelidirler (bu yazılımı neden kullanmalısınız?).

Cleveland, WS 1985. Grafik veri unsurları. Monterey, CA: Wadsworth.

Grove, AT 1956. Nijerya'da toprak erozyonu. Steel, RW ve Fisher, CA (Eds) İngiliz tropik topraklarında coğrafi denemeler. Londra: George Philip, 79-111.

Matthews, HA 1936. Bazı tanıdık Hint yağışlarının yeni bir görünümü. İskoç Coğrafi Dergisi 52: 84-97.

Tukey, JW 1977. Keşifsel veri analizi. Reading, MA: Addison-Wesley.


1
Daha önce kutu parselleri ve ECDF'lerin böyle yan yana olduğunu hiç görmedim. Gerçekten havalı! İki ECDF'yi ayrı bir panelde kaplamak hakkında ne düşünüyorsunuz?
Frank Harrell

2
@Frank Harrell Teşekkürler. Bindirme de iyi bir fikirdir. Çalışmamdaki bazı örnekler için bkz. Stata-journal.com/sjpdf.html?articlenum=gr0018 .
Nick Cox

14

Nick'in mükemmel cevabından bir şey almamalıyım ki bence bir kene ve bir oyuna değer - ama bazı olasılıkları araştırmak istedim.

Çeşitli büyüklük sıralarında bu kadar ağır çarpık verilerle, bir günlük ölçeğinde çizim yapmak genellikle oldukça açıklayıcıdır; orijinal değerlerde onay işaretlerinin ve onay işareti etiketlerinin bulunabileceğini unutmayın. (Nick'in dönüşümlerle ilgili noktalarına katılıyorum, bu yüzden daha fazla genişlemeyeceğim.)

Dönüşümün yanı sıra başka bir seçenek de ikinci grafiğiniz gibi bir şey yapmaktır, ancak çizilmeyen tüm değerlerin bir göstergesini içerir:

  resim açıklamasını buraya girin

Bu şekilde aykırı değerleri kaldırmazsınız , yalnızca farklı şekilde gösterirsiniz.

Bununla birlikte, Frank ve Nick'e düz bir kutu grafiğinden daha bilgilendirici bir ekran kullanmayı öneriyorum - Nick'in gönderisindeki bir kutu grafiğinin kantil arsa ile kombinasyonu özellikle iyi bir fikir gibi görünse de, bir tanesi kantil arsa üzerine hafifçe çizilebilir (veya altında) , burada olduğu gibi) yanındaki kutuya karşılık gelir:

  resim açıklamasını buraya girin

Böyle bir şey yapmıyorsanız (sadece düz bir kutu grafiğiyle giderseniz), oldukça dar kutuları öneriyorum.


3
Kantil ve kutu arazilerin üst üste binmesi de caziptir. Kutu grafiğinin kantil grafiğin bir azalması olduğunun altını çiziyor, ancak bazı kutu grafiğine göre gereksiz görünebilir. İki grafik arasındaki ilişkiye kuvvetli vurgu için bakınız örn. Parzen, E. 1979. Parametrik olmayan istatistiksel veri modelleme. Amerikan İstatistik Derneği Dergisi 74: 105-121
Nick Cox

OP'nin veri kümeniz var mı? Yoksa grafiği kazıyarak mı yapıyorsunuz?
Nick Cox

2
@Nick Temelde sadece sahte; Uç noktaları etkili bir şekilde kazıyordum (sadece elle, çok az vardı) ve sonra bilinen değerler (3 çeyrek ve minimum) ve üst çeyrekler ve son arasında 3 üniformadan örnek alarak üst çeyreklerin altında değerler ürettim. üst bıyıklardan sonra, uç noktaları ekledim (böylece kutu grafiklerim benzer görünecekti). En azından bu fikrin özü bu. Uç noktalar doğru olmayacaktır, bu yüzden çizimimdeki yazdırılan değerler daha çok örnek gibidir.
Glen_b

@Glen_b İsterseniz ayrı bir soru sorabilirim, ancak kutu grafiğiyle kantil arsa üzerine bindirmek için hangi yöntemi kullandınız?
Tavrock

@Tavrock Bunu yazdığım iki buçuk yıl, bu yüzden tahmin ediyorum. Açıkça yapılacak olan çağrıdır pointskantil değerleri (o çizgisinde bir şey gibi görünüyor gösterilecek xs=sort(x); points(ppoints(xs),xs)Boxplot sonra ama yakından incelendiğinde noktalardır aşağıda bunu = o arsa olmuş böylece daha sonra eklentinin ile Boxplot, Boxplot DOĞRU veya boxplot olabilir, daha sonra puan sonra üst üzerinde boxplot ... belki
Glen_b -Restate Monica

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.