Veri dağıtımımın simetrik olup olmadığını nasıl anlarım?


23

Medyan ve ortalamanın yaklaşık olarak eşit olması durumunda bunun simetrik bir dağılım olduğu anlamına geldiğini biliyorum ama bu özel durumda emin değilim. Ortalama ve ortanca oldukça yakın (sadece 0,487m / safra farkı) ve bu da simetrik bir dağılım olduğunu söylememe yol açacak ancak kutu çizgisine bakıldığında, sanki biraz pozitif olarak çarpık görünüyor (ortanca Q1'den onaylandığı gibi Q1'den daha yakın değerleri ile).

(Bu yazılım için özel bir öneriniz varsa Minitab kullanıyorum.)


Ortogonal bir yorum üzerine yorum: hangi birimler m / safra? Bu galon başına metre gibi görünüyor ve merak ediyorum.
Nick Cox

Bu, kutu parsellerin genellikle hiçbir şekilde araç göstermemesi ciddi bir sınırlamadır!
Nick Cox

Verilerinizin standart sapması nedir? 0.487m / safra değeri, standart sapmanızdan çok daha küçükse, muhtemelen dağılımın simetrik olabileceğine inanmak için nedenleriniz vardır. Eğer bu değer standart sapmanızdan (veya MAD ya da hangi sapma ölçüsüne bakarsanız bakın) çok daha büyükse, muhtemelen dağılımın simetrisini incelemek zaman kaybıdır.
usεr11852 diyor Reinstate Monic,

1
-70,-63,-56,-49,-42,-35,-28,-21,-14,-7,0,1,4,9,16,25,36,49,64,81,100 olduğu kasıtlı olarak simetrik değil (alt yarıda tek biçimli, ancak üst yarıda eşit değil) ve bir kutu grafiği orta değeri (orta değere eşit) üst çeyreğe alt çeyreğe yakın, aynı zamanda minimum değerden minimum seviyeye yaklaştırır.
Henry

@NickCox o da olabilir miligal yazım hatası yaparak. Bu neredeyse 500 gal gal olur! Veya g'den az . (Tabii yukarıda da belirtildiği gibi, MAD gibi bazı dağılım ölçekleri olmadan, "önemli" olan şeyin ne olduğunu bilmenin bir yolu yoktur.)10 - 4μ10-4
GeoMatt22

Yanıtlar:


29

Hayır başka türlü söylendi şüphe ama ortalama medyan yok değil simetriyi ima.=

Ortalama eksi ortancaya dayalı bir çarpıklık ölçüsü vardır (ikinci Pearson çarpıklığı), ancak dağılım simetrik olmadığı zaman (genel çarpıklık ölçütlerinden herhangi biri gibi) 0 olabilir.

Benzer şekilde, ortalama ve ortanca arasındaki ilişki mutlaka ortası ( ) ve ortanca arasında benzer bir ilişki anlamına gelmez . Karşıt eğriliği önerebilirler, diğeri ise medyanı eşitleyebilir.(Q1+Q3)/2

Simetriyi araştırmanın bir yolu simetri grafiği * üzerindendir.

Eğer en küçükten en büyüğe doğru sıralı gözlemler (düzen istatistikleri), ve M medyan, sonra bir simetri arsa Y ( n ) - M - M - Y ( 1 ) , Y ( n - 1 ) - M - M - Y ( 2 )Y(1),Y(2),...,Y(n)MY(n)MM-Y(1)Y(n-1)-MM-Y(2) , ... ve bunun gibi.

* Minitab bunları yapabilir . Aslında, bu arsayı bir olasılık olarak yükseltirim, çünkü onları Minitab'da gördüm.

İşte dört örnek:

Simetri çizimleri
Dört dağılımlı numuneler için yukarıdaki tip simetri grafikleri

(Gerçek dağılımlar (önce soldan sağa, ilk sırada) - Laplace, Gamma (şekil = 0.8), beta (2,2) ve beta (5,2). Kod Ross Ihaka’nın buradan )

Ağır kuyruklu simetrik örneklerle, en uç noktaların çizgiden çok uzakta olabileceği durum genellikle söz konusudur; Şekildeki sağ üste yakın olduğunuzdan bir veya iki nokta çizgisinden olan mesafeye daha az dikkat edersiniz.

Tabii ki, başka parseller de var (simetri grafiğinin o belirli bir avukatlık duygusundan değil, Minitab'da zaten uygulandığını biliyordum). Öyleyse bazılarını keşfedelim.

İşte Nick Cox'un yorumlarda önerdiği karşılık gelen şişler:

Çarpıklık arazileri
Yorumlarda Nick Cox tarafından önerildiği gibi çarpıklık parsel

Bu grafiklerde, yukarı doğru bir eğilim, soldan daha tipik olarak daha ağır bir sağ kuyruğu belirtir ve aşağı doğru bir eğilim, sağdan daha tipik bir sol kuyruğu belirtirken simetri, nispeten düz (belki de oldukça gürültülü) bir komplo tarafından önerilir.

Nick, bu komploun daha iyi olduğunu öne sürüyor (özellikle "daha doğrudan"). Kabul etmeye meyilliyim; Sonuç olarak, arsanın yorumlanması sonuçta biraz daha kolay gözükse de, karşılık gelen grafiklerdeki bilgiler genellikle oldukça benzerdir (ünite eğimini ilk sette çıkardıktan sonra, ikinci sette olduğu gibi bir şey elde edersiniz).

[Tabii ki, bunların hiçbiri bize verilerin toplandığı dağılımın aslında simetrik olmadığını söyleyemez; numunenin ne kadar simetrik olduğuna dair bir gösterge alıyoruz ve bu ölçüde verinin simetrik bir popülasyondan alınma ile makul bir şekilde tutarlı olup olmadığını yargılayabiliriz.]


3
@ user72943 Bundan tamamen memnunsanız, geri dönüp Glen_b'in cevabını seçmeyi unutmayın. Birisinin daha iyi bir cevap sunup sunmadığını görmek için biraz beklemek isteyebilirsiniz, ancak cevabı kabul ederseniz Glen_b daha fazla kredi alır.
Wayne,

3
+-

6
(Y(n+1-ben)+Y(ben))/2benn/2,n/4,n/8, ve bunun gibi). Bazı açılardan, bu çizim, fazla ayrıntıyı filtrelediği ve simetrinin bir kuyruğa girerken simetrinin (veya onun eksikliğinin) nasıl değiştiğine odaklanmasına yardımcı olduğu için simetri alanlarından daha iyidir. Bir n harfi özeti elde edildiğinde, hemen ardından kolayca hesaplanabilme avantajına sahiptir, bu da doğrudan bir kök-yaprak grafiğinden doğrudan okunabilir.
whuber

1
@whuber ve ben aynı temel fikirden bahsediyoruz. Fark, eşleştirilmiş tüm sıra istatistiklerini çizmek (pratikte çok rahatsız edici değil) veya sadece bazılarını çizmek arasındadır.
Nick Cox

1
Stata-journal.com/sjpdf.html?articlenum=gr0003 ve Stata kullanıcıları için skewplot(SSC) dokümantasyonundaki referanslar . Bu fikir en azından Wilk, MB ve Gnanadesikan, R. 1968'deki JW Tukey'e atfedilen bir öneriye dayanıyor. Verilerin analizi için olasılık çizme yöntemleri. Biometrika 55: 1-17.
Nick Cox,

6

En kolay şey, örnek çarpıklığını hesaplamaktır . Bunun için Minitab'ta bir fonksiyon var. Simetrik dağılımlar sıfır çarpıklıkta olacaktır. Sıfır eğriltme mutlaka simetrik anlamına gelmez, ancak çoğu pratik durumda.

@NickCox'un belirttiği gibi, birden fazla çarpıklık tanımı var. Excel ile uyumlu olanı kullanıyorum , ancak herhangi birini kullanabilirsiniz.


2
Bunun yazılmaya ihtiyacı olduğunu düşünüyorum. Özellikle, "çarpıklık" diye bir şey yoktur. Çok fazla önlem var ve nadir olanları bile sık sık bilinenler kadar yararlı veya ilginç (ör. L anları). Bağlamda için cazip olanlar gibi üçüncü anı standardize ölçü (ve benim de varsayılan var) Karl Pearson için ve 20. yüzyıla kadar diğer birçok yazarlar için, çarpıklık en sık moduna göre ölçüldü dikkat edilmelidir.
Nick Cox

Asimetrileri tespit etmek için çok fazla güce sahip olmanın yanı sıra (doğru bir şekilde belirttiğiniz gibi) herhangi bir çarpıklık katsayısı da (aşırı derecede) sağlam olmamaktan muzdariptir, çünkü üçüncü numune momentine dayanmaktadır. Ayrıca, simetri birçok (ve ilginç) şekilde ihlal edilebildiğinden, simetrinin tek bir sayısal karakterizasyonu, keşif veri analizi literatüründe açıklanan daha zengin grafiksel teşhis için zayıf bir ikamedir.
whuber

1

Örnek ortalamasını çıkararak verilerinizi sıfır civarında ortalayın. Şimdi verilerinizi iki bölüme ayırın, negatif ve pozitif. Negatif veri noktalarının mutlak değerini alın. Şimdi iki bölüm birbiriyle karşılaştırarak iki örnekli bir Kolmogorov-Smirnov testi yapın. Sonucunuzu p-değerini temel alarak yapın.


0

Gözlemlerinizi artan değerlerde tek bir sütunda sıralayın, ardından diğer sütundaki azalan değerlerde sıralayın.
Sonra bu iki sütun arasındaki korelasyon katsayısını hesaplayın (Rm olarak adlandırın).
Kiral indeksini hesaplayın: CHI = (1 + Rm) / 2.
CHI, aralıktaki değerleri alır [0..1].
CHI boş IF'dir ve SADECE numuneniz simetrik olarak dağıtılmışsa.
Üçüncü ana gerek yok.
Teori:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(çoğu kağıtları bu iki sayfada belirtilen pdf olarak indirilebilir vardır)
Umut onu Son zamanlarda bile yardımcı olur.


Korelasyon, Rm, mutlaka negatif olmaz mıydı? Rm 1 olmadığı sürece CHI'nin nasıl 1 olabileceğini göremiyorum, ancak col1 artan olarak sıralandığından ve col2 azalan olarak sıralandığından, RM <= 0, yani CHI [0, 5] değerlerini alacaktır. Bir şey mi eksik?
gung - Reinstate Monica

Evet, Rm pozitif olamaz ve CHI, gerçek çizgide değer alarak rastgele değişkenlerin dağılımları için 1/2'yi aşamaz. Aslında, üst sınır 1, kiral indeksi tanıtan genel teoriden gelir. Daha genel bir alanda değerleri alan rasgele değişkenlerin dağılımları için anlamlıdır. Bu teori bu tartışmanın kapsamı dışındadır, ancak daha önce bahsettiğim iki web sayfasında sunulmaktadır.
Petitjean

Lütfen hesaplarınızı kaydedin ve / veya birleştirin (bunun nasıl yapılacağı ile ilgili bilgileri yardım merkezimizin Hesabım bölümünde bulabilirsiniz ), ardından kendi sorunuzla ilgili düzenleme yapabilir ve yorum yapabilirsiniz.
gung - Reinstate Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.