Varyasyon Katsayısı - IQR / medyan veya alternatif gibi sağlam (parametrik olmayan) bir ölçü?


12

Belirli bir veri kümesi için, yayılma genellikle standart sapma veya IQR (çeyrekler arası aralık) olarak hesaplanır.

A standard deviationnormalleştiğinde (z-skorları vb.) Ve bu nedenle iki farklı popülasyondan yayılımı karşılaştırmak için kullanılabilirken, iki farklı popülasyondan alınan numunelerin oldukça farklı iki ölçekte değerleri olabileceğinden, bu IQR için geçerli değildir,

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

Neyin peşindeyim, farklı popülasyonlardaki varyasyonu karşılaştırmak için kullanabileceğim sağlam (parametrik olmayan) bir ölçüdür.

Seçenek 1: IQR / Median- bu , varyasyon katsayısına benzer şekilde , yani .σμ

Seçim 2: Range / IQR

Soru: Popülasyonlar arasındaki farklılıkları karşılaştırmak için hangisi daha anlamlı bir ölçüdür? Ve eğer Seçenek 1 ise, Seçim 2 herhangi bir şey / anlamlı için faydalı mıdır yoksa temel olarak kusurlu bir önlem midir?


Çok yararlı bir tartışma için teşekkürler. Bazı yararlı takipler - çeyreklerin ve dolayısıyla IQR'nin (John) farklı tanımları, aslında standartlaştırılmamış standart sapma (Harvey) ve QQ grafikleri iki dağılımı karşılaştırmak için bir araç olarak (Peter). (Üç yanıtın tümüne +1!)
Esad Ebrahim

Yanıtlar:


13

Soru, standart sapmanın (SD) bir şekilde normalleştirildiğini, bu nedenle iki farklı popülasyonun değişkenliğini karşılaştırmak için kullanılabileceğini göstermektedir. Öyle değil. Peter ve John'un dediği gibi, bu normalleşme SD / Ortalama'ya eşit olan varyasyon katsayısını (CV) hesaplarken yapılır . SD, orijinal verilerle aynı birimlerdedir. Buna karşılık, CV birimsiz bir orandır.

Seçiminiz 1 (IQR / Medyan) CV'ye benzer. CV gibi, sadece veriler oran verisi olduğunda anlamlı olur. Bu, sıfırın gerçekten sıfır olduğu anlamına gelir. Sıfır ağırlığı ağırlık değildir. Sıfır uzunluğu uzunluk değildir. Karşı örnek olarak, sıfır derece sıcaklık (C veya F) sıcaklık olmadığı anlamına gelmediği için C veya F cinsinden sıcaklık için anlamlı olmaz. Sadece C veya F ölçeğini kullanma arasında geçiş yapmak, CV veya IQR / Median oranı için farklı bir değer verecektir, bu da her iki oranı da anlamsız hale getirir.

Peter ve John'a, ikinci fikrinizin (Range / IQR) aykırı değerlere karşı çok sağlam olmayacağına katılıyorum, bu yüzden muhtemelen yararlı olmaz.


2
Harvey - teşekkürler - haklısın, SD hiç normalleşmedi ... z-scoresDeğerleri standartlaştırmak ve ortalama ve standart sapma açısından dağılım içindeki konumlarını normalleştirmek kavramını karıştırıyordum, bu problemle, ürün gruplarını değişkenliklerine göre sıralayabilmekle ilgilidir. Cevabınızı doğru olarak seçmek, çünkü Peter ve John'un ikisi de çok yardımcı olsa da, sizin kavramsal karışıklık konusunda beni uyardı. Seçim 1 medyan 0 yakınında sınırlı kullanımda iyi bir nokta. Neyse ki, benim sorunumda, bu konuda endişelenmenize gerek yok.
Esad Ebrahim

Bunu bir gazetede kullanmak istiyorum. Referans verilen iyi bir yer var mı (kitap / hakemli bir yer)?
Ben Bolker

15

Minimum ve maksimumun genellikle kullanmak için çok iyi istatistikler olmadığını fark etmek önemlidir (yani, numuneden numuneye büyük ölçüde dalgalanabilirler ve örneğin Merkezi Limit Teoremine bağlı ortalama olabilir gibi normal bir dağılım izlemezler) . Sonuç olarak, aralık tam olarak bu tam numunenin aralığını belirtmekten başka bir şey için iyi bir seçimdir . Değişkenliği temsil eden basit, parametrik olmayan bir istatistik için, Çeyrekler Arası Aralık çok daha iyidir. Bununla birlikte, IQR / medyan ile varyasyon katsayısı arasındaki benzerliği görsem de, bunun en iyi seçenek olacağını düşünmüyorum.

Medyandan ( MADM ) medyan mutlak sapmasına bakmak isteyebilirsiniz . Yani: Varyasyon katsayısına daha iyi parametrik olmayan bir benzetmenin IQR / medyan yerine MADM / medyan olacağından şüpheleniyorum.

MADM=median(|ximedian(x)|)

1
İlginç bir seçim MADM/median, esas olarak orta değerden orta fark. Bu Seçim 3 diyelim. Seçim 1 değerlendirmenizi kabul edin, bu yüzden çıktı, teşekkürler. 'Daha iyi' önerdiğinizde, hangisinin daha iyi olduğunu görmek için Seçenek 2'yi Seçim 3 ile karşılaştırmak için hangi özellikler kullanılabilir?
Esed Ebrahim

1
Kullanacağınız özellikler, metrik için hedeflerinizin ne olduğuna bağlı olacaktır. Ancak, bunun sadece CoV için daha iyi bir benzetme olduğunu kastetmiştim . 3. çeyreğin, medyanın üzerindeki verilerin medyanı olduğu ve 1. q'nun aşağıdakilerin medyanı olduğu, bu nedenle uzun vadede IQR / 2'nin MADM'ye eşit olacağı (nb, eşit olduğu garanti edilmez) belirli bir örnekte). IQR, ave üzerinde pop'daki gerçek değerden daha fazla değişecektir, ancak varsa, sonuçların ve standın ne olacağından emin değilim. err. IQR / 2 değeri MADM'nin SE'si ile aynı olmalıdır.
gung - Monica'yı eski durumuna getirin

Anladım, açıklama için teşekkürler. Q3 ve Q1'in medyan yorumu hakkında iyi bir nokta. Ben de MADM/mediandeneyeceğim IQR/median. Yan yana karşılaştırma ilginç olabilir. (İlginç öneri için +1)
Esad Ebrahim

6

"Seçim 1", aykırı değerlerin etkisini azaltmak amacıyla ortak amaçlarla parametrik olmayanlar kullanıyorsanız istediğiniz şeydir. Kuyrukta yaygın olarak aşırı değerlere sahip olmanın yan etkisine sahip olan çarpıklık nedeniyle kullansanız bile, bu aykırı olabilir. "Seçim 2", aykırı değerlerden veya aşırı değerlerden önemli ölçüde etkilenirken, ilk denkleminizin bileşenleri bunlara karşı nispeten sağlamdır.

[Bu, ne tür bir IQR seçtiğinize bağlı olacaktır (kantil ile ilgili R yardımına bakın).]


Haklısın, ben bu" demeliydim biçime benzer ! (Söz konusu şimdi sabit) varyasyon katsayısının tanımı ... için
Esad Ebrahim

Ne tür bir IQR seçtiğinize bağlı yorum için teşekkürler ... - Çeyrek / kantil için pek çok olası tanım olduğunu fark etmemiştim! Excel'in yerleşik quartile( )işlevini kullanıyorum ve sonra alıyorum IQR := Q3 - Q1. Numaralarım, bir yıl boyunca yapılan haftalık haftalık ölçümlerden gelir. Ölçümler endüstriyel performans ölçümleridir ve sürekli bir dağıtımdan yapılır. Farklı popülasyonlar farklı ürün gruplarıdır. Bu durumda, farklı tanımların pratikte çok farklı olacağını düşünmüyorum?
Esad Ebrahim

6

CV gibi ölçümleri hesaplamamayı tercih ederim çünkü rastgele değişken için neredeyse her zaman keyfi bir kökenim var. Güçlü bir dispersiyon ölçüsü seçimi ile ilgili olarak, Gini'nin ortalama farkını yenmek zordur, bu da iki gözlem arasındaki tüm olası mutlak değerlerin ortalamasıdır. Verimli hesaplama için örneğin R rmspaket GiniMdfonksiyonuna bakınız. Normallik altında, Gini'nin ortalama farkı, dispersiyonu tahmin etmek için SD kadar 0.98'dir.


3

@John gibi bu varyasyon katsayısının tanımını daha önce hiç duymamıştım. Bunu kullanırsam insanları karıştırır demem.

"Hangisi en faydalı?" ne kullanmak istediğinize bağlı olacaktır. Kesinlikle seçim 1, aykırı olanlar için daha sağlamdır, eğer istediğiniz şey olduğundan eminseniz. Ancak iki dağılımı karşılaştırmanın amacı nedir? Ne yapmaya çalışıyorsun?

Bir alternatif, her iki önlemi standartlaştırmak ve daha sonra özetlere bakmaktır.

Başka bir QQ grafiği.

Başkaları da var.


İyi bir nokta - varyasyon katsayısına benzer bir şey söylemeliydim (düzeltmeyi yaptım).
Esad Ebrahim

Numaralarım, bir yıl boyunca yapılan haftalık haftalık ölçümlerden gelir. Ölçümler endüstriyel performans ölçümleridir ve sürekli bir dağıtımdan yapılır. Farklı popülasyonlar farklı ürün gruplarıdır ve yaklaşık 50 ürün grubum var. Yapmaya çalıştığım şey, farklı ürün grupları arasındaki doğal değişkenliği karşılaştırabilmektir. Özellikle, ürün gruplarını azalan değişkenlik sıralamasında sıralamak istiyorum.
Esad Ebrahim

Ne demek 'her iki ölçüyü de standartlaştırıp özete bak'? Seçim 1'in onları standartlaştırdığını düşündüm ...!
Esad Ebrahim

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.