Çarpıklığın bir ölçüsü ortalama-medyan - Pearson'un ikinci çarpıklık katsayısına .
Çarpıklığın başka bir ölçüsü, oran olarak ifade edilen göreli çeyreksel farklılıklara (Q3-Q2) karşı (Q2-Q1) dayanmaktadır
Bunun yerine (Q3-Q2) ve (Q2-Q1) bir fark (veya eşdeğer olarak midinge-medyan) olarak ifade edildiğinde, boyutsuz hale getirmek için ölçeklendirilmelidir (genellikle bir çarpıklık ölçümü için gerektiği gibi), örneğin IQR tarafından, burada ( koyarak ).u = 0.25
En yaygın önlem elbette üçüncü an çarpıklığıdır .
Bu üç önlemin tutarlı olması için hiçbir neden yoktur. Bunlardan herhangi biri diğer ikisinden farklı olabilir.
"Çarpıklık" olarak gördüğümüz şey biraz kaygan ve kötü tanımlanmış bir kavramdır. Daha fazla tartışma için buraya bakın .
Verilerinize normal qqplot ile bakarsak:
[Orada işaretlenen çizgi sadece ilk 6 puana dayanıyor, çünkü son ikisinin oradaki modelden sapmasını tartışmak istiyorum.]
En küçük 6 noktanın hemen hemen mükemmel olduğunu görüyoruz.
Ardından, 7. nokta çizginin altındadır (sol uçtaki karşılık gelen ikinci noktadan nispeten ortada daha yakındır), sekizinci nokta yukarıda yer alır.
7. nokta hafif sol eğriliği, son, daha güçlü sağ eğimi gösterir. Her iki noktayı da göz ardı ederseniz, çarpıklık hissi tamamen diğeri tarafından belirlenir.
Ben ise vardı söylemek bir ya da diğer, bunu "doğru çarpık" derim ama ben de izlenim nedeniyle bu biri çok büyük nokta etkisiyle tamamen olduğuna işaret vermezlerdi. Onsuz, doğru çarpıklık olduğunu söyleyecek gerçekten hiçbir şey yoktur. (Öte yandan, bunun yerine 7. nokta olmadan, açıkça eğri bırakılmaz.)
İzlenimimiz tamamen tek noktalarla belirlendiğinde çok dikkatli olmalıyız ve bir nokta kaldırılarak çevrilebilir. Bu devam etmek için bir temel değil!
Bir aykırı 'dışsal' yapan şeyin model olduğu önermesiyle başlıyorum (bir modele göre bir aykırı değer başka bir model altında oldukça tipik olabilir).
Bence bir normalin 0.01 üst yüzdelik diliminde (1/10000) bir gözlem (ortalamanın üzerinde 3.72 sds), üstel dağılımın 0.01 üst yüzdelik diliminde bir gözlemin üstel modele eşit olması nedeniyle normal modele göre bir aykırı değerdir. (Bir dağılımı kendi olasılık integral dönüşümüyle dönüştürürsek, her biri aynı üniformaya gidecektir)
Boxplot kuralını orta derecede sağa eğriltme dağılımına bile uygulamadaki sorunu görmek için, büyük örnekleri üstel dağılımdan simüle edin.
Örneğin, normalden 100 büyüklüğündeki numuneleri simüle edersek, örnek başına ortalama 1'den az aykırı değer veririz. Bunu bir üstel ile yaparsak, ortalama 5 civarında oluruz. Ancak, normal bir modelle (diyelim) kıyaslayarak yapmadığımız sürece, üstel değerlerin daha yüksek bir oranının "dış" olduğunu söylemek için gerçek bir temel yoktur. Belirli durumlarda, belirli bir formun daha üstün bir kuralına sahip olmak için belirli nedenlerimiz olabilir, ancak genel bir kural yoktur, bu da bizi bu alt bölümde başladığım gibi genel prensiplerle bırakır - her modeli / dağıtımı kendi ışıklarıyla tedavi etmek için (bir değer bir modele göre olağandışı değilse, neden bu durumda bir aykırı değer olarak adlandırılır?)
Başlıkta yer alan soruya dönmek için :
Oldukça kaba bir enstrüman olsa da (bu yüzden QQ grafiğine baktım) bir kutu grafiğinde birkaç çarpıklık belirtisi var - eğer bir aykırı olarak işaretlenmiş en az bir nokta varsa, potansiyel olarak (en az) üç var:
Bu örnekte (n = 100), dış noktalar (yeşil) uçları işaretler ve ortanca sol eğriliği önerir. Daha sonra çitler (mavi) (medyan ile birleştirildiğinde) doğru çarpıklığı önerir. Daha sonra menteşeler (çeyrekler, kahverengi), ortanca ile birleştirildiğinde sol eğiklik gösterir.
Gördüğümüz gibi tutarlı olmaları gerekmiyor. Hangi konuya odaklanacağınız, bulunduğunuz duruma (ve muhtemelen tercihlerinize) bağlıdır.
Ancak, kutunun ne kadar kaba olduğuna dair bir uyarı . Verilerin nasıl oluşturulacağına dair bir açıklama içeren buradaki sondaki örnek , aynı kutu grafiğiyle dört farklı dağıtım sağlar:
Gördüğünüz gibi, yukarıda belirtilen tüm çarpıklık göstergeleri ile mükemmel simetri gösteren oldukça çarpık bir dağılım var.
-
Bunu "bakış açınızdan bir noktayı aykırı olarak işaretleyen bir kutu çizimi göz önüne alındığında, öğretmeniniz ne bekliyordu?"
İlk olarak "bu nokta hariç mi, ya da örnekte çarpıklığı değerlendirmenizi bekliyorlar mı?" Bazıları bunu hariç tutar ve jsk'ın başka bir cevapta yaptığı gibi çarpıklığı değerlendirir. Bu yaklaşımın bazı yönlerini tartışırken, bunun yanlış olduğunu söyleyemem - duruma bağlı. Bazıları bunu içerecektir (en azından, normalden türetilmiş bir kural nedeniyle örneğinizin% 12.5'ini hariç tutmak büyük bir adım * olduğu için).
* En sağ kuyruk dışında simetrik bir nüfus dağılımı düşünün (bunu cevaplamak için bir tane inşa ettim - normal ama aşırı sağ kuyruk Pareto - ama cevabımda sunmadım). 8 büyüklüğünde örnekler çizersem, gözlemlerin çoğu 7 normal görünümlü kısımdan ve biri de üst kuyruktan gelir. Bu durumda boxplot-outliers olarak işaretlenen noktaları hariç tutarsak, aslında eğriliğini söyleyen noktayı hariç tutarız! Bunu yaptığımızda, bu durumda kalan kesik dağılım eğri kalır ve sonucumuz doğru olanın tersi olur.