Pozitif ve negatif değerlere sahip veriler kullanılırken varyasyon katsayısı neden geçerli değil?


10

Soruma kesin bir cevap bulamıyorum.

Verilerim, 0.27 ila 0.57 arasında değişen ölçülü ortalamalara sahip birkaç grafikten oluşuyor. Benim durumumda, tüm veri değerleri pozitiftir, ancak ölçümün kendisi -1 ila +1 arasında değişen bir yansıtma değeri oranına dayanmaktadır. Grafikler , bitki örtüsü "verimlilik" in uzaktan türetilmiş bir göstergesi olan NDVI değerlerini temsil etmektedir .

Niyetim, her grafikteki değerlerin değişkenliğini karşılaştırmaktı, ancak her grafik farklı bir ortalamaya sahip olduğundan, grafik başına NDVI değerlerinin göreceli dağılımını ölçmek için CV kullanmayı seçtim.

Anladığım kadarıyla, bu parsellerin özgeçmişini almak koşer değildir, çünkü her parselin hem pozitif hem de negatif değerleri olabilir. Bu gibi durumlarda CV'yi kullanmak neden uygun değildir? Bazı uygulanabilir alternatifler neler olabilir (yani, göreceli dağılım, veri dönüşümleri, vb. Benzer test)?


1
Değişkenliği karşılaştırmanın amacı nedir? Neden CV gibi göreceli bir ölçü yerine SD, MAD, menzil ya da her neyse gerçek değişkenlik ölçülerini karşılaştırmıyorsunuz?
whuber

Parseller arasındaki ortalamalardaki farklılıkları açıklamak için CV kullanıyorum. Tüm grafiklerde değerler -1 ile +1 arasında değiştiği için mantıklı değil mi? yani, "fiili değişkenlik" parseller arasındaki farkların daha fazla göstergesi olabilir mi?
Peygamber60091

2
CV tanım gereği göreceli bir varyasyon ölçüsüdür. Herhangi bir negatif ortalama için saçma sonuçlar verir (negatif bir dağılım veya yayılımı yorumlayamazsınız). Olumlu araçlar için, ortalama küçük olduğunda belirli bir miktarda yayılmanın çok daha büyük görünmesini sağlar. Bu istendiğinde, yaptığınız şey verilerinizi logaritmik bir ölçekte karşılaştırmakla eşdeğerdir - ve herhangi bir veri sıfır veya negatif olduğunda hiçbir anlam ifade etmez . Değişkenliğin iyi karşılaştırılmasını sağlamak için verilerinizin bir tür yeniden ifadeye ihtiyacı olabilir; nasıl üretildiklerine bağlıdır.
whuber

Açıklama için +1. Grafiklerimin ortalamaları olumlu olsa da, her grafikte negatif değerler olabilir. Yukarıdakilere ve Peter'ın aşağıdaki cevabına dayanarak, CV'nin kullanılması garanti edilmez. Potansiyel olarak değerleri yeniden ölçeklendirmeye ve / veya gerçek değişkenlik ölçütlerini kullanarak bakacağım.
Peygamber60091

1
Bir sabit ekleyerek verilerinizi hassas bir şekilde yeniden ölçeklendirebiliyorsanız, bu da CV'nin iyi bir fikir olmadığı anlamına gelir. Bunun nedeni, sabit eklemek CV'yi değiştirecek, ancak varyasyonu değiştirmeyecektir.
Peter Flom

Yanıtlar:


11

CV'nin ne olduğunu düşünün: Standart sapmanın ortalamaya oranı. Ancak değişkenin pozitif ve negatif değerleri olabilirse, ortalama 0'a çok yakın olabilir; bu nedenle CV artık yapması gerekeni yapmaz: Yani, sd'nin ortalamaya kıyasla ne kadar büyük olduğuna dair bir fikir verin.

DÜZENLEME: Bir yorumda, değişkene mantıklı bir sabit ekleyebiliyorsanız CV'nin iyi olmadığını söyledim. İşte bir örnek:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2 basitçe x + 10'dur. Sanırım eşit derecede değişken oldukları sezgisel olarak açık; ancak CV farklıdır.

Bunun gerçek bir örneği, x'in derece C cinsinden sıcaklık ve x2'nin K derece cinsinden sıcaklık olması olabilir (buna rağmen, K'nın uygun bir ölçek olduğunu iddia edebilir, çünkü tanımlanmış bir 0'a sahiptir).


Teşekkür! Bu yüzden endişe daha çok sıfıra yakın bir ortalamaya sahip olmak ve verilerinizde mutlaka pozitif ve negatif değerlere sahip olmakla ilgilidir. Eğer öyleyse, ortalama sıfıra ne kadar yakın "çok yakın" kabul edilir? Benim durumumda, araçlarımı sıfıra yakın olmaktan çok uzak olduğumu söyleyebilirim. Bunu belirlemenin kesin bir yolu var mı?
Peygamber60091

Hayır, endişe şu ki, CV sadece 1 negatif değer olsa bile yapması gereken şeyi yapmıyor. Negatif değerleriniz varsa CV kullanmayın. Ayrıca, değerleriniz keyfi bir ölçekte ise CV kullanmayın.
Peter Flom

Tamlık için, keyfi bir ölçek kullanmanın neden CV kullanımını geçersiz kıldığına dair biraz daha açıklama yapabilir misiniz? Teşekkür!
Peygamber60091

Tüm adalet içinde, @whuber, dönüştürülmüş ve dönüştürülmemiş verilerin karşılaştırılmasını savunmuyordu, ancak puanınız hala alınmış: ölçekleme CV, sonuçları aynı kalması gerektiğini düşündüğü zaman etkileyecektir. Oyuncak R kodu için +1!
Peygamber60091

@Whuber'ın bu konudaki yorumlarıyla ilgili hiçbir tartışmam yok.
Peter Flom

0

Bunları farklı varyasyon modelleri olarak düşünüyorum. CV'nin sabit olduğu istatistiksel modeller vardır. Bu çalışmalarda CV bildirilebilir. Standart sapmanın ortalamanın güç fonksiyonu olduğu modeller vardır. Standart sapmanın sabit olduğu modeller vardır. Kural olarak, sabit CV modeli, oran ölçeği değişkenleri için sabit bir SD modelinden daha iyi bir ilk tahmindir. Bunun neden doğru olacağı konusunda spekülasyon yapabilirsiniz, belki de katkı etkileşimlerinden ziyade çarpımsallık yaygınlığına dayanarak.

Sabit CV modellemesi genellikle logaritmik dönüşüm ile ilişkilidir. (Önemli bir istisna, bazen sıfır olan negatif olmayan bir yanıttır.) Buna bakmanın birkaç yolu vardır. İlk olarak, CV sabitse, loglar geleneksel varyans stabilize edici dönüşümdür. Alternatif olarak, hata modeliniz günlük ölçeğinde SD sabiti ile lognormal ise, CV o SD'nin basit bir dönüşümüdür. Her ikisi de küçük olduğunda CV yaklaşık olarak log ölçeğinde SD'ye eşittir.

Standart bir sapma gibi istatistik 101 yöntemlerini uygulamanın iki yolu, verileri elde ettiğiniz şekilde veya (özellikle oran ölçeği ise) günlüklerine vermektir. Doğanın daha karmaşık olabileceğini ve daha fazla çalışmanın uygun olabileceğini bilerek yapabileceğinizi en iyi şekilde tahmin edersiniz. Daha önce hangi tür verilerin sizin verilerinizle üretken bulduğunu dikkate alın.

İşte bu şeyin önemli olduğu bir durum. Kimyasal konsantrasyonlar bazen CV ile özetlenir veya bir log ölçeğinde modellenir. Bununla birlikte, pH bir log konsantrasyonudur.


3
Katkınız için teşekkür ederiz ve sitemize hoş geldiniz! Negatif değerlere sahip olabilecek verileri karakterize etmek için cevabınızın bir CV kullanmanın geçerliliği hakkındaki soruyu nasıl ele aldığını daha net anlatabilir misiniz? Bu durum hiçbir yorumunuz tarafından kapsanmamış gibi görünüyor.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.