Bir kutu grafiğindeki çarpıklık nasıl değerlendirilir?


19

Bu verilerden oluşturulan bir kutu grafiğine bakarak çarpıklığa nasıl karar verilir:

340, 300, 520, 340, 320, 290, 260, 330

Bir kitap der ki, "Eğer alt çeyrek medyandan üst çeyreğe göre daha uzaksa, dağılım negatiftir." Diğer bazı kaynaklar aşağı yukarı aynı şeyi söyledi.

R kullanarak bir kutu çizimi yaptım.

kutu arsa

Olumsuz çarpık olduğunu düşünüyorum , çünkü alt çeyrek medyandan üst çeyreğe göre daha uzundur. Ama sorun çarpıklığı belirlemek için başka bir yöntem kullandığımda:

ortalama (337.5)> medyan (325)

Bu, verilerin olumlu bir şekilde eğri olduğunu gösterir . Bir şey mi kaçırdım?

Yanıtlar:


19

Çarpıklığın bir ölçüsü ortalama-medyan - Pearson'un ikinci çarpıklık katsayısına .

Çarpıklığın başka bir ölçüsü, oran olarak ifade edilen göreli çeyreksel farklılıklara (Q3-Q2) karşı (Q2-Q1) dayanmaktadır

Bunun yerine (Q3-Q2) ve (Q2-Q1) bir fark (veya eşdeğer olarak midinge-medyan) olarak ifade edildiğinde, boyutsuz hale getirmek için ölçeklendirilmelidir (genellikle bir çarpıklık ölçümü için gerektiği gibi), örneğin IQR tarafından, burada ( koyarak ).u=0.25

En yaygın önlem elbette üçüncü an çarpıklığıdır .

Bu üç önlemin tutarlı olması için hiçbir neden yoktur. Bunlardan herhangi biri diğer ikisinden farklı olabilir.

"Çarpıklık" olarak gördüğümüz şey biraz kaygan ve kötü tanımlanmış bir kavramdır. Daha fazla tartışma için buraya bakın .

Verilerinize normal qqplot ile bakarsak:

resim açıklamasını buraya girin

[Orada işaretlenen çizgi sadece ilk 6 puana dayanıyor, çünkü son ikisinin oradaki modelden sapmasını tartışmak istiyorum.]

En küçük 6 noktanın hemen hemen mükemmel olduğunu görüyoruz.

Ardından, 7. nokta çizginin altındadır (sol uçtaki karşılık gelen ikinci noktadan nispeten ortada daha yakındır), sekizinci nokta yukarıda yer alır.

7. nokta hafif sol eğriliği, son, daha güçlü sağ eğimi gösterir. Her iki noktayı da göz ardı ederseniz, çarpıklık hissi tamamen diğeri tarafından belirlenir.

Ben ise vardı söylemek bir ya da diğer, bunu "doğru çarpık" derim ama ben de izlenim nedeniyle bu biri çok büyük nokta etkisiyle tamamen olduğuna işaret vermezlerdi. Onsuz, doğru çarpıklık olduğunu söyleyecek gerçekten hiçbir şey yoktur. (Öte yandan, bunun yerine 7. nokta olmadan, açıkça eğri bırakılmaz.)

İzlenimimiz tamamen tek noktalarla belirlendiğinde çok dikkatli olmalıyız ve bir nokta kaldırılarak çevrilebilir. Bu devam etmek için bir temel değil!


Bir aykırı 'dışsal' yapan şeyin model olduğu önermesiyle başlıyorum (bir modele göre bir aykırı değer başka bir model altında oldukça tipik olabilir).

Bence bir normalin 0.01 üst yüzdelik diliminde (1/10000) bir gözlem (ortalamanın üzerinde 3.72 sds), üstel dağılımın 0.01 üst yüzdelik diliminde bir gözlemin üstel modele eşit olması nedeniyle normal modele göre bir aykırı değerdir. (Bir dağılımı kendi olasılık integral dönüşümüyle dönüştürürsek, her biri aynı üniformaya gidecektir)

Boxplot kuralını orta derecede sağa eğriltme dağılımına bile uygulamadaki sorunu görmek için, büyük örnekleri üstel dağılımdan simüle edin.

Örneğin, normalden 100 büyüklüğündeki numuneleri simüle edersek, örnek başına ortalama 1'den az aykırı değer veririz. Bunu bir üstel ile yaparsak, ortalama 5 civarında oluruz. Ancak, normal bir modelle (diyelim) kıyaslayarak yapmadığımız sürece, üstel değerlerin daha yüksek bir oranının "dış" olduğunu söylemek için gerçek bir temel yoktur. Belirli durumlarda, belirli bir formun daha üstün bir kuralına sahip olmak için belirli nedenlerimiz olabilir, ancak genel bir kural yoktur, bu da bizi bu alt bölümde başladığım gibi genel prensiplerle bırakır - her modeli / dağıtımı kendi ışıklarıyla tedavi etmek için (bir değer bir modele göre olağandışı değilse, neden bu durumda bir aykırı değer olarak adlandırılır?)


Başlıkta yer alan soruya dönmek için :

Oldukça kaba bir enstrüman olsa da (bu yüzden QQ grafiğine baktım) bir kutu grafiğinde birkaç çarpıklık belirtisi var - eğer bir aykırı olarak işaretlenmiş en az bir nokta varsa, potansiyel olarak (en az) üç var:

resim açıklamasını buraya girin

Bu örnekte (n = 100), dış noktalar (yeşil) uçları işaretler ve ortanca sol eğriliği önerir. Daha sonra çitler (mavi) (medyan ile birleştirildiğinde) doğru çarpıklığı önerir. Daha sonra menteşeler (çeyrekler, kahverengi), ortanca ile birleştirildiğinde sol eğiklik gösterir.

Gördüğümüz gibi tutarlı olmaları gerekmiyor. Hangi konuya odaklanacağınız, bulunduğunuz duruma (ve muhtemelen tercihlerinize) bağlıdır.

Ancak, kutunun ne kadar kaba olduğuna dair bir uyarı . Verilerin nasıl oluşturulacağına dair bir açıklama içeren buradaki sondaki örnek , aynı kutu grafiğiyle dört farklı dağıtım sağlar:

resim açıklamasını buraya girin

Gördüğünüz gibi, yukarıda belirtilen tüm çarpıklık göstergeleri ile mükemmel simetri gösteren oldukça çarpık bir dağılım var.

-

Bunu "bakış açınızdan bir noktayı aykırı olarak işaretleyen bir kutu çizimi göz önüne alındığında, öğretmeniniz ne bekliyordu?"

İlk olarak "bu nokta hariç mi, ya da örnekte çarpıklığı değerlendirmenizi bekliyorlar mı?" Bazıları bunu hariç tutar ve jsk'ın başka bir cevapta yaptığı gibi çarpıklığı değerlendirir. Bu yaklaşımın bazı yönlerini tartışırken, bunun yanlış olduğunu söyleyemem - duruma bağlı. Bazıları bunu içerecektir (en azından, normalden türetilmiş bir kural nedeniyle örneğinizin% 12.5'ini hariç tutmak büyük bir adım * olduğu için).

* En sağ kuyruk dışında simetrik bir nüfus dağılımı düşünün (bunu cevaplamak için bir tane inşa ettim - normal ama aşırı sağ kuyruk Pareto - ama cevabımda sunmadım). 8 büyüklüğünde örnekler çizersem, gözlemlerin çoğu 7 normal görünümlü kısımdan ve biri de üst kuyruktan gelir. Bu durumda boxplot-outliers olarak işaretlenen noktaları hariç tutarsak, aslında eğriliğini söyleyen noktayı hariç tutarız! Bunu yaptığımızda, bu durumda kalan kesik dağılım eğri kalır ve sonucumuz doğru olanın tersi olur.


1
@jsk Bu çarpıklığı nasıl ölçmek istediğinize bağlıdır. Çarpıklık derecesi kısmen dış noktalar (bir yönden diğerine göre daha dışsal olma eğilimi) ile belirlendiğinden, bunları kaldırmak, çarpıklığı ölçme noktasını kaçırır. Daha ayrıntılı bir tartışma ve analiz güncellenmiş yazımda. Eğer ikna olmuyorsanız, lütfen katılmamaya çekinmeyin, bu tür değişimler genellikle değerlidir.
Glen_b-Monica'yı yeniden

1
@Glen_b Kesinlikle aldığınız tutuma saygı duyuyor ve anlıyorum, ancak daha önce olduğu gibi aykırı olanı çıkardıktan sonra çarpıklığı yargılamak için makul bir argüman olduğuna inanıyorum. Aykırı değeri giderdikten sonra dağıtım, 7. noktayı (260) çıkardıktan sonra bile olumsuz yönde eğri olacaktır. Qqplot'u kontrol ettiniz ve / veya ortalama ve medyanı karşılaştırdınız mı?
jsk

1
Belki de 7. çıkarıldıktan sonra durum oldukça zayıf, ancak kaldırdıktan sonra eğriltmeyi yargılamak için bir neden görmüyorum. Bu bir aykırı değer değildir, ancak bu durumda onlara nasıl bakarsanız bakın, çarpıklık ölçülerinin tek noktalarla yönlendirildiği iyi bir nokta değildir.
jsk

1
@Glen_ b Q3 + 1.5IQR, üst kuyruktaki aykırı değerleri tanımlamak için bu seviyede öğretilen tipik başparmak kuralıdır. Bunları kaldırmak ya da kaldırmamak başka bir konudur. Ortalama daha büyük olduğu için dağılımın eğri olduğunu mu iddia ediyorsunuz? Q1'in Q2'den Q3'ten daha fazla olduğu gerçeğini neden görmezden geliyorsunuz?
jsk

1
Burada yüzeye yakın olanı hecelemek istiyorum ama tam olarak değil: genellikle boxplots çok yoğunlaşıyor, bu yüzden tüm verilere de bakmanız gerekebilir.
Nick Cox

11

Hayır, hiçbir şeyi kaçırmadınız: aslında sunulan basit özetlerin ötesini görüyorsunuz. Bu veriler hem olumlu hem de olumsuz olarak eğrilmiştir ("eğiklik" anlamında , veri dağılımında bir tür asimetri olduğunu düşündürmektedir ).

John Tukey, "N-sayı özeti" ile veri gruplarındaki asimetriyi keşfetmenin sistematik bir yolunu tanımladı. Bir kutu grafiği, 5 rakamlı bir özetin grafiğidir ve bu nedenle bu analize uygundur.


M'H+'H-X+X-Tben+benTben+ meslektaşları var Tben-verilerin ters çevrilmesinden sonra aynı istatistiğin hesaplanmasıyla elde edilir (örneğin, değerleri reddederek). Simetrik bir grupta, her bir eşleşen istatistik çifti grubun ortasında ortalanmalıdır (ve bu merkezM=M+=M-). Böylece, orta istatistiğin ne kadar(Tben++Tben-)/2 ile farklılık gösterir bengrafiksel bir teşhis sağlar ve nicel asimetri tahmin sağlayabilir.

Bu fikri bir kutu grafiğine uygulamak için, karşılık gelen her bir çift parçanın orta noktalarını çizin: ortanca (zaten oradadır), menteşelerin orta noktası (kutunun uçları, mavi olarak gösterilir) ve uçların orta noktası (kırmızı renkle gösterilir).

Boxplot

Bu örnekte, orta menteşenin medyan ile karşılaştırıldığında daha düşük değeri, partinin ortasının hafifçe olumsuz yönde eğimli olduğunu gösterir (bu nedenle, soruda belirtilen değerlendirmeyi desteklerken, aynı zamanda kapsamını partinin ortasına uygun olarak sınırlar. ) aşırı uçların (çok) daha yüksek değeri, partinin kuyruklarının (veya en azından uçlarının) pozitif olduğunu gösterirken eğilmiş olduğunu gösterirken (daha yakından incelendiğinde, bunun nedeni tek bir yüksek aykırı değerdir). Bu neredeyse önemsiz bir örnek olmasına rağmen, tek bir “çarpıklık” istatistiğine kıyasla bu yorumun göreli zenginliği zaten bu yaklaşımın tanımlayıcı gücünü ortaya koymaktadır.

Küçük bir uygulama ile bu orta istatistikleri çizmeniz gerekmez: nerede olduklarını hayal edebilir ve ortaya çıkan çarpıklık bilgilerini doğrudan herhangi bir kutu grafiğinden okuyabilirsiniz.


Tukey bir örnek EDA (s. 81) (fit yüzlerce olarak ifade edilen) 219 volkan yükseklikleri dokuz numaralı özeti kullanır. Bu istatistikleri çağırıyorM, 'H, E, D, ve X: sırasıyla (kabaca) orta, üst ve alt çeyreklere, sekizinci, on altıncı ve aşırı uçlara karşılık gelirler. Onları bu sırayla dizine ekledimben=1,2,3,4,5. Bir sonraki şekildeki sol grafik, bu eşleştirilmiş istatistiklerin orta noktaları için diyagnostik grafiktir. Hızlanan eğimden, verilerin kuyruklarına ulaştıkça gittikçe daha fazla eğri hale geldiği açıktır.

şekil 2

Orta ve sağ parseller, kare kökler ( verilerin orta sayı istatistiklerinin değil!) Ve (temel-10) logaritmaları için aynı şeyi gösterir . Köklerin değerlerinin göreceli kararlılığı (göreceli küçük dikey aralığa ve ortada eğimli seviyeye dikkat edin) 219 değerlik bu partinin yaklaşık simetrik hale geldiğini gösterir hem orta kısımlarında hem de kuyruklarının tüm kısımlarında neredeyse gösterir. yükseklikler karekök olarak yeniden ifade edildiğinde aşırılıklar . Bu sonuç, bu yüksekliklerin kare kökleri açısından daha fazla analiz edilmesine yönelik güçlü - neredeyse zorlayıcı bir temeldir.

Diğer şeylerin yanı sıra, bu grafikler verilerin asimetrisi hakkında nicel bir şey ortaya koymaktadır: orijinal ölçekte, verilerin değişken çarpıklığını hemen ortaya koymaktadırlar (çarpıklığını karakterize etmek için tek bir istatistik kullanma yararına önemli bir şüphe uyandırırlar). karekök ölçeğinde, veriler ortaları hakkında simetriktir - ve bu nedenle, beş sayılık bir özetle veya eşdeğer olarak bir kutu grafiğiyle özetlenebilir. Çarpıklık yine log ölçeğinde önemli ölçüde değişir, logaritmanın bu verileri yeniden ifade etmenin çok "güçlü" olduğunu gösterir.

Bir kutu grafiğinin yedi, dokuz ve daha fazla sayıdaki özetler için genelleştirilmesi basittir. Tukey onlara "şematik grafikler" diyor. Günümüzde QQ grafikleri gibi standbysler ve "fasulye grafikleri" ve "keman grafikleri" gibi göreceli yenilikler de dahil olmak üzere birçok grafik benzer bir amaca hizmet etmektedir. (Düşük histogram bile bu amaçla hizmete sokulabilir.) Bu tür noktalardan noktalar kullanarak, asimetri ayrıntılı bir şekilde değerlendirilebilir ve verileri yeniden ifade etme yollarının benzer bir değerlendirmesi yapılabilir.


7

Ortalama, ortancadan küçük veya büyük olmak, aykırı değer olmadığı sürece, eğim yönünü belirlemek için çalışan bir kısayoldur. Bu durumda, dağılım negatif eğridir, ancak ortalama, aykırı değer nedeniyle medyandan daha büyüktür.


Bu açıklar. Okuduğum kitaplar bundan hiç bahsetmedi!
JerryW

Umarım kitaplar en azından ortalamanın aykırı değerlere medyandan çok daha az dirençli olduğunu söylemişlerdir!
jsk

Bunun negatif çarpıklık olarak sayılıp sayılmayacağı çarpıklığı nasıl ölçtüğünüze bağlıdır.
Glen_b-Monica'yı yeniden

Yeterince adil. Bu, çarpıklığı yargılamayı özellikle zorlaştıran küçük bir veri kümesidir. Bu örnek maalesef sadece çarpıklığı belirlemek için çelişkili kurallara sahip olmasından dolayı orada atıldı
jsk

1
Bunun gibi küçük veri kümelerinin bunu zorlaştırabileceğine katılıyorum, ancak aynı derecede zor olan sürekli dağılımlar oluşturmak tamamen mümkün.
Glen_b-Monica'yı eski durumuna döndür
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.