Kurtosis tarafından üretilen aykırı değerlerin tedavisi


10

Birisi bana Kurtosis hakkında bilgi konusunda yardım edip edemeyeceğini merak ediyordum (yani verilerinizi azaltmak için dönüştürmenin herhangi bir yolu var mı?)

Çok sayıda vaka ve değişken içeren bir anket veri setim var. Değişkenlerimden birkaçı için veriler, katılımcıların çoğunun değişken için tam olarak aynı puanı verdiği gerçeğinden türetilen oldukça yüksek basıklık değerleri (yani bir leptokurtik dağılım) göstermektedir. Özellikle büyük bir örneklem büyüklüğüm var, bu nedenle merkezi limit teoremine göre normallik ihlalleri hala iyi olmalı.

Ancak sorun şu ki, özellikle yüksek seviyelerde Kurtosis veri setimde bir dizi tek değişkenli aykırı değer üretiyor. Bu nedenle, verileri dönüştürsem veya aykırı değerleri kaldırsam / ayarlasam bile, yüksek basıklık seviyeleri, bir sonraki en uç puanların otomatik olarak aykırı hale gelmesi anlamına gelir. (Diskriminant fonksiyon analizi) kullanmayı hedefliyorum. DFA'nın ihlale aykırı değerlerden değil, çarpıklıktan kaynaklanması şartıyla normallikten uzaklaşmalara karşı sağlam olduğu söylenir. Ayrıca, DFA'nın özellikle verilerdeki aykırı değerlerden etkilendiği söylenmektedir (Tabachnick & Fidel).

Bu sorunu nasıl çözeceğiniz hakkında bir fikriniz var mı? (İlk düşüncem Kurtosis'i kontrol etmenin bir yoluydu, ancak örneğimin çoğunun benzer derecelendirmeler vermesi iyi bir şey değil mi?)

Yanıtlar:


8

Sorununuzu çözmenin bariz "sağduyu" yolu,

  1. Tam veri kümesini kullanarak sonucu alın . yani ara hesaplamaları göz ardı ettiğini hangi sonuçları ilan edersiniz?
  2. Söz konusu "aykırı değerlerin" kaldırıldığı veri kümesini kullanarak sonucu alın . yani ara hesaplamaları göz ardı ettiğini hangi sonuçları ilan edersiniz?
  3. Adım 2 ile Adım 1'i Karşılaştırın
  4. Eğer bir fark yoksa, bir problemin olduğunu bile unutma. Aykırı değerler sonucunuzla ilgisizdir . Aykırı değerler, bu veriler kullanılarak elde edilmiş olabilecek diğer bazı sonuçları etkileyebilir, ancak bu işinizle ilgisizdir. Bu başkasının sorunu.
  5. Bir fark varsa, o zaman temelde bir "güven" sorunuz var. Bu "aykırı değerler", analizinizle ilgili bir şeyi gerçekten temsil ettikleri anlamında gerçek midir? Yoksa bazı "kontamine kaynaklardan" geldikleri için "aykırı değerler" kötü mü?

Durum 5'te temelde "popülasyon" un eksik olduğunu tanımlamak için kullandığınız "model" in bir vakası var - belirtilmemiş kalan, ancak sonuçların önemi olan ayrıntılar var. Bunu çözmenin iki "güven" senaryosuna karşılık gelen iki yolu vardır:

  1. Modelinize "aykırı değerlerin" tanımlanması için ek bir yapı ekleyin. Yani yerine , düşünün .P ( D | θ ) = P ( λ | θ ) P ( D | θ , λ ) d λP(D|θ)P(D|θ)=P(λ|θ)P(D|θ,λ)dλ
  2. Biri "iyi" gözlemler, diğeri "kötü" gözlemler için bir "model-model" oluşturun. Böylece yerine istersek idi u elde etme olasılığı numunenizdeki "iyi" bir gözlem ve G ve B "iyi" ve "kötü" verilerin modellerini temsil eder.P ( D | θ ) = G ( D | θ ) u + B ( D | θ ) ( 1 - u )P(D|θ)P(D|θ)=G(D|θ)u+B(D|θ)(1u)

"Standart" prosedürlerin çoğunun bu tür modellere yakın olduğu gösterilebilir. En belirgin olanı, varyansın gözlemler arasında sabit kabul edildiği 1. durum dikkate alınarak yapılır. Bu varsayımı bir dağılıma dönüştürerek bir karışım dağılımı elde edersiniz. Bu "normal" ve "t" dağılımları arasındaki bağlantıdır. Normal, sabit varyansa sahipken, "t" farklı varyanslar üzerinde karışırken, "karıştırma" miktarı serbestlik derecesine bağlıdır. Yüksek DF düşük karıştırma anlamına gelir (aykırı değerler düşüktür), düşük DF yüksek karıştırma anlamına gelir (aykırı değerler muhtemeldir). Aslında "iyi" gözlemlerin normal olduğu ve "kötü" gözlemlerin Cauchy (1 DF ile t) olduğu özel bir vaka 1 olarak ele alabilirsiniz.


Ne mükemmel bir cevap, @probabilityislogic
Peter

Sadece açıklayıcı bir not: Optimal sınıflandırma, gerçek çok değişkenli dağılımlar hakkında bilgi gerektirir. Bu dağılımları iyi tahmin edebiliyorsanız, sonuçta ortaya çıkan sınıflandırma işlevi neredeyse optimaldir. Aykırı değerler (basıklık ile belirtildiği gibi) gerçekten sorunludur çünkü bölgede yoğunluğu tahmin edecek çok az veri yoktur. Çok değişkenli verilerle boyutsallığın laneti de bu soruna katkıda bulunur.
Peter Westfall
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.