Poisson dağıtılmış veriler için bir kutu grafiği varyantı var mı?


33

Poisson dağıtılmış verilerine (ya da muhtemelen diğer dağıtımlara) uyarlanmış bir kutu grafiği varyantı olup olmadığını bilmek ister misiniz?

Gauss dağılımında, L = Q1 - 1.5 IQR ve U = Q3 + 1.5 IQR’ya yerleştirilen bıyıklar, boxplot’ın kabaca yüksek aykırı değerler (L'nin altındaki noktalar) olduğu kadar kabaca (L'nin altındaki noktalar) olacağı özelliğine sahiptir. ).

Ancak veriler Poisson dağıtımı ise, Pr (X <L) <Pr (X> U) aldığımız pozitif çarpıklıktan dolayı artık bu geçerli değildir . Bıyıkları bir Poisson dağılımına 'sığacak' şekilde yerleştirmenin alternatif bir yolu var mı?


2
İlk önce giriş yapmayı deneyin? Ayrıca, kutu planınızın neye “iyi adapte” olmasını istediğinizi de söyleyebilirsiniz.
conjugateprior

2
Bu tür bir değişiklik yapmanın bir sorunu var - insanlar standart kutu çizimi tanımına alışkınlar ve muhtemelen beğenip beğenmeyeceğiniz arsaya bakarken bunu üstlenecekler. Böylece, bu kazançtan daha fazla kafa karışıklığı getirebilir.

@mbq:> BoxPlot'larla ilgili şey, iki özelliği bir araçta bir araya getirmeleridir; Bir veri görselleştirme özelliği (kutu) ve dışlayıcı tespit özelliği (bıyık). Söyledikleriniz kesinlikle eskisi için doğrudur, ancak daha sonra bir çarpıklık ayarı kullanabilir.
user603

@conjugateprior İşte bir Poisson örneği: 0, 0, 1, 0, 1, 2, 0, 0, 1, 0, 0 .... sadece günlükleri alırken bir sorun fark ettiniz mi?
Glen_b -Reinstate Monica

@Glen_b Bu yüzden bir cevap değil bir yorum olmalı. Ve neden iki bölümden oluşuyor.
conjugateprior,

Yanıtlar:


31

Kutular, her durumda bıyık uçlarının aşılma ihtimalinin düşük olmasını sağlamak için tasarlanmamıştır: tüm veri kümelerinin basit grafiksel karakteristikleri olarak tasarlanır ve kullanılır. Bu nedenle, veriler çok eğri dağılımlara sahip olsalar bile iyi (her ne kadar yaklaşık olarak eğrilmemiş dağılımlar hakkında olduğu kadar fazla bilgi vermeyebilirlerse de).

Kutular eğrildiğinde, Poisson dağılımında olduğu gibi, bir sonraki adım temel değişkeni (monotonik, dönüşümü artırarak) yeniden ifade etmek ve kutucukları yeniden çizmektir. Bir Poisson dağılımının varyansı, ortalamasına orantılı olduğundan, kullanılacak iyi bir dönüşüm kare köküdür.

Her bir kutu grafiği, verilen yoğunluğu olan bir Poisson dağılımından (her yoğunluk için iki deneme ile 1'den 10'a kadar) 50 çizim göstermektedir. Eğikliğin düşük olma eğiliminde olduğuna dikkat edin.

yan yana kutu lekeleri

Karekök skalasındaki aynı veriler, biraz daha simetrik olan ve (en düşük yoğunluk hariç) yoğunluktan bağımsız olarak yaklaşık olarak eşit IQR'ye sahip olan kutu noktalarına sahip olma eğilimindedir.

dönüştürülmüş verilerin kutu parçaları

Özetle, boxplot algoritmasını değiştirmeyin: bunun yerine verileri tekrar ifade edin.


Bu arada, hesaplanacak ilgili olasılıklar şudurXULn : bağımsız bir normal değişken X'in , aynı dağıtımdan bağımsız n çizimlerinden tahmin edildiği gibi üst (alt) çit U ( L ) ' yi aşması ihtimali nedir? Bu, bir kutu grafiğindeki çitlerin, temel dağılımdan hesaplanmadığı ve verilerden tahmin edildiği gerçeğini açıklar. Çoğu durumda, şans% 1'den çok daha fazladır! Örneğin, burada (10.000 Monte-Carlo denemesine dayanarak), durumu için log (temel 10) şansının histogramıdır :n=9

şans histogramı

(Normal dağılım simetrik olduğundan, bu histogram her iki çite de uygulanır.)% 1/2 logaritması yaklaşık -2,3'tür. Açıkçası, olasılık çoğu zaman bundan daha büyüktür. Zamanın yaklaşık% 16'sı% 10'u aşıyor!

Görünüşe göre (bu cevabı detaylarla karıştırmayacağım), bu şansların dağılımlarının normal durumla karşılaştırılabilir olduğunu (küçük ), oldukça çarpık olan 1 kadar düşük Poisson dağılımları için bile. Asıl fark, düşük bir ayracı bulma olasılığının düşük olması ve yüksek bir ayracı bulma olasılığının düşük olmasıdır.n


1
+1, daha önce bu konuyu görmemiştim. Bu yazıda yatay kuraldan sonra burada tartışılan aynı noktayı farklı bir şekilde yaptım (inanıyorum): İstatistiksel yazılım tarafından aykırı olarak işaretlenmiş durumların silinip silinmemesi .
gung - Monica'yı yeniden kurun

Evet, bu aynı noktada @ gung - ve orada güzel bir cevap gönderdi.
whuber

26

Bıyıkların uzunluklarının, çarpık veriyi hesaba katacak şekilde ayarlandığını bildiğim standart kutu grafiklerinin bir genellemesi var. Detaylar çok net ve özlü bir beyaz kitapta daha iyi açıklanmaktadır (Vandervieren, E., Hubert, M. (2004) "Eğik dağılımlar için ayarlanmış bir kutu grafiği", buraya bakınız ).

Rrobustbase::adjbox()terazi burcu

Kişisel olarak veri dönüşümüne daha iyi bir alternatif buluyorum (aynı zamanda geçici bir kurala dayanıyor olsa da, beyaz makaleye bakınız).

Bu arada, ben burada whuber örneğine eklemek için bir şey ekliyorum. Bıyıkların davranışlarını tartıştığımız sürece, kontamine verileri göz önünde bulundururken ne olacağını da göz önünde bulundurmalıyız:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

Bu kontaminasyon modelinde, B1 temelde yarı sol, yarı sağ outliers olan verilerin yüzde 20'si için log-normal bir dağıtım tasarrufuna sahiptir (ayar kutusunun bozulma noktası normal kutularınkiyle aynıdır, yani en fazla Verilerin yüzde 25'i kötü olabilir).

Grafikler, dönüştürülmüş verilerin klasik kutularını göstermektedir (karekök dönüşümünü kullanarak).

Verilerin karekök dönüşümü ile ilgili klasik kutu grafiği

ve dönüştürülmemiş verilerin düzeltilmiş kutu grafiği.

dönüştürülmemiş verilerin düzeltilmiş kutu grafiği

Düzeltilmiş kutulara kıyasla, eski seçenek gerçek aykırı değerleri gizler ve iyi verileri aykırı değerler olarak etiketler. Genel olarak, rahatsız edici noktaları aykırı değerler olarak sınıflandırarak verilerdeki asimetri kanıtlarını gizlemeye devam edecektir.

Bu örnekte, verinin karekökünde standart kutu grafiğini kullanma yaklaşımı 13 ayracı (tümü sağda) bulurken, ayarlanmış kutu grafiği 10 sağ ve 14 sol ayracı bulur.

EDIT: Kısaca ayarlanmış kutu çizimleri.

'Klasik' kutularda bıyıkların bulunduğu yer:

S1S3

S1S3

Bu genel kural geçicidir: Gerekçe, verilerin kirlenmemiş kısmının yaklaşık Gausslu olması durumunda, iyi verilerin% 1'inden daha azının bu kural kullanılarak kötü olarak sınıflandırılmasıdır.

OP'nin belirttiği gibi, bu çit kuralının bir zayıflığı, iki bıçağın uzunluğunun aynı olmasıdır, yani çit kuralı ancak verilerin kirlenmemiş kısmı simetrik bir dağılıma sahipse anlamlıdır.

Popüler bir yaklaşım, çit kuralını korumak ve verileri uyarlamaktır. Buradaki fikir, bazı çarpıklığı düzelten monoton dönüşümleri (karekök veya log veya daha genel olarak kutu-cox dönüşümleri) kullanarak verileri dönüştürmektir. Bu biraz dağınık bir yaklaşımdır: Dairesel mantığa dayanır (dönüşümün, bu aşamada gözlemlenemeyen verilerin kirlenmemiş kısmının eğriliğini düzeltecek şekilde seçilmesi gerekir) ve verilerin yorumlanmasını zorlaştırmaya meyillidir. görsel. Her halükarda, bu, özel bir kuraldan sonra ne olduğunu korumak için verileri değiştiren garip bir prosedür olmaya devam ediyor.

Bir alternatif, verilere dokunulmaması ve bıyık kuralının değiştirilmesidir. Düzeltilmiş kutu grafiği her bıyık uzunluğunun, verilerin kirlenmemiş kısmının eğriliğini ölçen bir endekse göre değişiklik göstermesini sağlar:

S1exp(M,α)S3exp(M,β)

Mα β

M0

MMαβ

S1exp(-4M)S3exp(3M)M0

S1exp(-3M)S3exp(4M)M<0


1
Örneğimi "yararsız" olarak nasıl bulduğunuzu bilmek isterdim - sadece marka olarak yapıcı değil. Veri dönüşümünün olağanüstü bir gelişme göstermediği anlamında, örneğin biraz hayal kırıklığı yarattığını kabul edeceğim. Poisson dağıtımlarının hatası budur: sadece tüm bu analizlerin zahmetine değecek kadar çarpık değiller!
whuber

@whuber:> ilk önce, ton için üzgünüm: düzenlenmemiş bir ilk taslaktan gelmişti ve düzeltildi (genellikle kendime not olarak gösterilen kısa paragraflar yazarım, sonra tekrar tekrar gözden geçirdim - bu bir uzun soluk sargı tepkisi). Şimdi eleştirmen için: Örneğiniz kirlenmemiş verilerde dönüşüm kullanarak çözümün davranışını tasvir eder. IMHO’nun bıyık kuralı - belki de ön - bir kirlilik modeliyle birlikte değerlendirilmelidir.
user603

@ user Açıklama için teşekkürler. İlginç olan eleştiriye aldırmıyorum ve düzeltilmiş kutulara yapılan referansları takdir ediyorum. (+1)
whuber

Kullanıcının603 ile, saf bir dağıtımı incelemenizde (örneğin cevaplayıcılarda olduğu gibi) veya bir dağıtımdan ve bazı aykırılıklardan (burada kirlilik olarak bahsedilir) gelen verilerde bir fark olup olmadığı konusunda hemfikirim . Benim açımdan, gerçek ayarlarda, aykırı olanları taramak için bir kutu grafiği kullanılır. Daha sonra, aykırı olanları ihmal eden kutu lekelerinin analizi bir şekilde noktayı özlüyor. Bu nedenle, bu cevap kutu lekeleri kullanma amacına daha iyi hizmet etmiş gibi görünmektedir.
Henrik,

2
@Henrik Aykırı değerlerin tanımlanması, kutu lekelerinin birçok amacından yalnızca biridir. Tukey'nin yaklaşımı, dağılımlarının ortasını yaklaşık olarak simetrik kılan verilerin uygun bir şekilde yeniden ifade edilmesini bulmaktı. Bu, çarpıklık için herhangi bir ayarlama ihtiyacını ortadan kaldırır. Bu, zaten çok faydalı oldukları kutudaki noktalar arasındaki karşılaştırmalara izin vermek açısından zaten çok şey başardı. Bıyıkların "ayarlanması" bu temel konuyu tamamen gözden kaçırıyor. Bu yüzden ayarlamayı kullanmak konusunda temkinli olurdum: İhtiyacı analizin iyi yapılmadığının bir işareti.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.