Bıyıkların uzunluklarının, çarpık veriyi hesaba katacak şekilde ayarlandığını bildiğim standart kutu grafiklerinin bir genellemesi var. Detaylar çok net ve özlü bir beyaz kitapta daha iyi açıklanmaktadır (Vandervieren, E., Hubert, M. (2004) "Eğik dağılımlar için ayarlanmış bir kutu grafiği", buraya bakınız ).
R,robustbase :: adjbox ()terazi burcu
Kişisel olarak veri dönüşümüne daha iyi bir alternatif buluyorum (aynı zamanda geçici bir kurala dayanıyor olsa da, beyaz makaleye bakınız).
Bu arada, ben burada whuber örneğine eklemek için bir şey ekliyorum. Bıyıkların davranışlarını tartıştığımız sürece, kontamine verileri göz önünde bulundururken ne olacağını da göz önünde bulundurmalıyız:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
Bu kontaminasyon modelinde, B1 temelde yarı sol, yarı sağ outliers olan verilerin yüzde 20'si için log-normal bir dağıtım tasarrufuna sahiptir (ayar kutusunun bozulma noktası normal kutularınkiyle aynıdır, yani en fazla Verilerin yüzde 25'i kötü olabilir).
Grafikler, dönüştürülmüş verilerin klasik kutularını göstermektedir (karekök dönüşümünü kullanarak).
ve dönüştürülmemiş verilerin düzeltilmiş kutu grafiği.
Düzeltilmiş kutulara kıyasla, eski seçenek gerçek aykırı değerleri gizler ve iyi verileri aykırı değerler olarak etiketler. Genel olarak, rahatsız edici noktaları aykırı değerler olarak sınıflandırarak verilerdeki asimetri kanıtlarını gizlemeye devam edecektir.
Bu örnekte, verinin karekökünde standart kutu grafiğini kullanma yaklaşımı 13 ayracı (tümü sağda) bulurken, ayarlanmış kutu grafiği 10 sağ ve 14 sol ayracı bulur.
EDIT: Kısaca ayarlanmış kutu çizimleri.
'Klasik' kutularda bıyıkların bulunduğu yer:
S1S3
S1S3
Bu genel kural geçicidir: Gerekçe, verilerin kirlenmemiş kısmının yaklaşık Gausslu olması durumunda, iyi verilerin% 1'inden daha azının bu kural kullanılarak kötü olarak sınıflandırılmasıdır.
OP'nin belirttiği gibi, bu çit kuralının bir zayıflığı, iki bıçağın uzunluğunun aynı olmasıdır, yani çit kuralı ancak verilerin kirlenmemiş kısmı simetrik bir dağılıma sahipse anlamlıdır.
Popüler bir yaklaşım, çit kuralını korumak ve verileri uyarlamaktır. Buradaki fikir, bazı çarpıklığı düzelten monoton dönüşümleri (karekök veya log veya daha genel olarak kutu-cox dönüşümleri) kullanarak verileri dönüştürmektir. Bu biraz dağınık bir yaklaşımdır: Dairesel mantığa dayanır (dönüşümün, bu aşamada gözlemlenemeyen verilerin kirlenmemiş kısmının eğriliğini düzeltecek şekilde seçilmesi gerekir) ve verilerin yorumlanmasını zorlaştırmaya meyillidir. görsel. Her halükarda, bu, özel bir kuraldan sonra ne olduğunu korumak için verileri değiştiren garip bir prosedür olmaya devam ediyor.
Bir alternatif, verilere dokunulmaması ve bıyık kuralının değiştirilmesidir. Düzeltilmiş kutu grafiği her bıyık uzunluğunun, verilerin kirlenmemiş kısmının eğriliğini ölçen bir endekse göre değişiklik göstermesini sağlar:
S1exp( M, a )S3exp( M, β)
Mα β
M≈ 0
MMαβ
S1exp( - 4 M)S3exp( 3 M)M≥ 0
S1exp( - 3 M)S3exp( 4 M)M< 0