Karekök, kütük vs. gibi yaygın olanların ötesinde başka hangi normalleştirici dönüşümler yaygın olarak kullanılır?


10

Test puanlarının analizinde (örneğin Eğitim veya Psikoloji), ortak analiz teknikleri genellikle verilerin normal olarak dağıtıldığını varsayar. Bununla birlikte, belki de çoğu zaman, puanlar bazen çılgınca normalden sapma eğilimindedir.

Bazı temel normalleştirici dönüşümlere aşinayım: kare kökler, logaritmalar, pozitif eğriltmeyi azaltmak için karşılıklı dönüşümler, negatif eğriliği azaltmak için yukarıdakilerin yansıtılmış versiyonları, leptokurtik dağılımlar için kareleme. Arcsine dönüşümlerini ve güç dönüşümlerini duydum, ancak onlar hakkında gerçekten bilgili değilim.

Peki, analistler tarafından başka hangi dönüşümlerin yaygın olarak kullanıldığını merak ediyorum ?

Yanıtlar:


5

Box-Cox dönüşümü sen atıf yapılanlardan çok içerir. Bazı ayrıntılar için bu cevaba bakınız:

GÜNCELLEME: Bu slaytlar Box-Cox dönüşümlerine oldukça iyi bir genel bakış sağlar.


Box-Cox dönüştürülmüş verilere t-araçları uygularsak, dönüştürülmüş verilerin ortalamalarındaki fark hakkında çıkarımlar elde ederiz. Orijinal ölçüm ölçeğinde bunları nasıl yorumlayabiliriz? (Dönüştürülen değerlerin ortalaması dönüştürülen ortalama değildir). Diğer bir deyişle (eğer doğruysam), dönüştürülmüş ölçekte, ortalama tahminin ters dönüşümünü almak, orijinal ölçekte ortalamanın bir tahminini vermez.
George Dontas

@ gd047, bazı testler verilerin değil, ortalamanın dağılımının normalliğini varsayar. t-testi, temel alınan veriler için oldukça sağlam olma eğilimindedir. Yine de haklısınız - dönüşüm sonrası testlerde, ters dönüşümden sonra sonuçlar rapor edilir ve yorumlama çok sorunlu olabilir. Verilerinizin "normal olmayan" olduğu anlaşılır, dönüştürülmeden veya uygulanmadan, örneğin yorumlanması daha kolay olan bir günlük dönüşümünden kurtulabilir misiniz? Aksi takdirde, gerçek dönüşüm ve etki alanında bağlamsaldır ve gerçekten iyi bir cevabım yok. Başkalarının ne söylediğini görmeye değer olabilir mi?
ars

10

İlk adım olmalıdır neden soruyorsun Değişkenleriniz olmayan normal dağılıma sahip bulunmaktadır. Bu aydınlatıcı olabilir. Deneyimlerimden sık karşılaşılan bulgular:

  • Yetenek testleri (ör. Sınavlar, zeka testleri, kabul testleri) tavan etkileri olduğunda negatif çarpma ve zemin etkileri olduğunda olumlu çarpma eğilimindedir. Her iki bulgu da testin zorluk seviyesinin numune için optimize edilmediğini, ya yetenekleri en iyi şekilde ayırt etmek için çok kolay ya da çok zor olduğunu göstermektedir. Ayrıca, söz konusu latent değişkenin hala normal olarak dağıtılabileceğini, ancak testin yapısının ölçülen değişkente bir eğriliği indüklediğini ima eder.
  • Yetenek testlerinde genellikle düşük skorcular açısından aykırı değerler bulunur. Kısacası, bir testte kötü yapmanın birçok yolu vardır. Özellikle bu bazen yetenek eksikliği ve çaba eksikliğinin bir kombinasyonunun çok düşük test puanları oluşturmak için birleştiği küçük bir öğrenci yüzdesinin bulunduğu sınavlarda görülebilir. Bu, gizli ilgi değişkeninin muhtemelen birkaç aykırı değerlere sahip olduğu anlamına gelir.
  • Öz-rapor testleri ile ilgili olarak (örneğin kişilik, tutum testleri vb.) Çarpıklık genellikle örnek ölçeğin doğasında yüksek olduğunda (örneğin, çoğu insan memnun olduğu için yaşam doyumunun dağılımları olumsuz eğrilir) veya ölçek testin uygulandığından farklı bir örnek için optimize edilmiştir (örn. klinik olmayan bir örneğe klinik depresyon ölçümü uygulamak).

Bu ilk adım, testte tasarım değişiklikleri önerebilir. Önceden bu sorunların farkındaysanız, sorunlu görüyorsanız testinizi bunlardan kaçınacak şekilde bile tasarlayabilirsiniz.

İkinci adım etmektir ne yapacağına karar olmayan, normal verilere sahip durumda. Not dönüşümleri sadece olası bir stratejidir. Normallik ile ilgili daha önceki bir cevaptan genel tavsiyeyi tekrar ediyorum :

  • Artıkların normalliği varsayalım Birçok yöntemlerdir sağlam artıkların normalliği mütevazı ihlallerine
  • Önyükleme genellikle iyi bir stratejidir
  • Dönüşümler başka iyi bir stratejidir. Deneyimlerime göre, genellikle yetenek ve öz bildirim psikolojik testleriyle ortaya çıkan hafif çarpıklık türleri, genellikle bir günlük, sqrt veya ters dönüşüm (veya tersine çevrilmiş eşdeğer) kullanılarak normalliğe yakın bir dağılıma dönüştürülebilir.

9

John Tukey, EDA kitabındaki dönüşümleri sistematik olarak tartışıyor. Box-Cox ailesine ek olarak (çok küçük ölçekli güç dönüşümleri) oranlar (esas olarak x / (1-x) güçleri) için "katlanmış" dönüşümler ailesini tanımlar (sayılan verilere pozitif bir denge ekler) dönüştürmeden önce). Esasen logit'i genelleştiren katlanmış dönüşümler özellikle test puanları için kullanışlıdır.

Tamamen farklı bir şekilde, Johnson & Kotz dağıtım kitaplarında, test istatistiklerini ki-kare için küp-kök dönüşümü gibi yaklaşık normalliklere (veya başka bir hedef dağılımına) dönüştürmeyi amaçlayan birçok dönüşüm sunmaktadır. Bu malzeme, verilerinizin belirli bir dağıtım izleyeceğini öngördüğünüzde, yararlı dönüşümler için harika bir fikir kaynağıdır.


2

Basit bir seçenek, puanların kendileri yerine toplam puanları kullanmaktır. Dağılımların toplamı normallik eğilimindedir. Örneğin, Eğitimde bir öğrencinin bir dizi sınava puanını ekleyebilirsiniz.

Başka bir seçenek, elbette, normalin altında olmayan, hafife alınan ve az kullanılan teknikleri kullanmaktır.


1
Dağılımın normalliğe meyilli olması için toplamların normalleştirilmesi gerektiğine inanıyorum (örneğin, ortalama puanı kullanın).

1
Evet doğru. Örneğimde, sınıfların aynı sayıda öğrenciye sahip olacağını varsaydım, ki bu gerçekçi değil. Teşekkür ederim.
Carlos Accioly

1

X~FY LbirmbertWxF

X~N-(μ,σ2)θ=(μx,σx,δ,α)α1

Şimdi bir veri dönüşümü olarak, dönüşüm iki yönlü (çarpık durum için neredeyse iki yönlü) olduğundan ve Lambert'in W işlevi (dolayısıyla Lambert W x F adı) kullanılarak açıkça elde edilebildiğinden bu ilginç hale gelir . Bu, verilerdeki çarpıklığı giderebileceğimiz ve ayrıca ağır kuyrukları kaldırabileceğimiz anlamına gelir (iki yönlü!).

Kılavuz , nasıl kullanılacağına dair birçok örnek gösteren LambertW R paketini kullanarak deneyebilirsiniz .

Uygulamalar için bu gönderilere bakın

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.