Verilerde karekök dönüşümünün kullanılmasının nedeni ne olabilir?

15

Verileri karekök ile dönüştürmek için ne düşünebileceğimin bir nedeni var mı? Her zaman gözlemlediğim şey, R ^ 2'nin artmasıdır. Ancak bunun nedeni büyük olasılıkla verileri ortalamaktır! Herhangi bir düşünce takdir!

regression data-transformation variance-stabilizing

— MarkDollar
kaynak

Bu soruyu ve daha genel soruyu burada cevapladım stats.stackexchange.com/questions/18844/…

— IrishStat

3

Bağımlı değişken farklıysa, R-kareleri karşılaştırılamaz.

13

Genel olarak, parametrik regresyon / GLM, değişkeni ile her değişkeni arasındaki ilişkinin doğrusal olduğunu, modeli taktıktan sonra artıkların normal bir dağılımı izlediğini ve artıkların boyutunun yaklaşık olarak aynı kaldığını varsayar. monte ettiğiniz hat (lar) boyunca. Verileriniz bu varsayımlara uymadığında, dönüşümler yardımcı olabilir. $Y$ $X$

Bu eğer kolay olmalı ile orantılıdır daha sonra kare köklenme varsayımları ve daha uygun olduğunu daha varyans açıklayan bir modelini oluşturmak üzere, bu ilişkiyi linearises sahiptir (daha yüksek ). Kare köklenme , değerleriniz arttıkça artıklarınızın boyutunun giderek artması sorununa sahip olduğunuzda da yardımcı olur. $Y$ $X^2$ $Y$ $R^2$ $Y$ $X$ artış (yani, bağlı çizginin etrafındaki veri noktalarının dağılımı, siz ilerledikçe daha belirgin hale gelir). Bir kare kök fonksiyonunun şeklini düşünün: ilk başta dik olarak artar, ancak doyurulur. Böylece bir kare kök dönüşümü uygulamak daha küçük sayıları şişirir, ancak daha büyük olanları dengeler. Böylece, düşük değerlerindeki küçük kalıntıları monte edilen çizgiden uzağa itmek ve yüksek değerlerindeki büyük kalıntıları çizgiye doğru ezmek olarak düşünebilirsiniz . (Bu zihinsel stenografi doğru matematik değil!) $X$ $X$

Dmitrij ve ocram'ın dediği gibi, bu belirli durumlarda yardımcı olacak olası bir dönüşümdür ve Box-Cox formülü gibi araçlar en faydalı olanı seçmenize yardımcı olabilir. Bir modele taktığınızda her zaman kalan değerlere uygun değerlere (ve normal bir olasılık grafiğine veya artıkların histogramına) karşı bir arsaya bakma alışkanlığı edinmenizi tavsiye ederim. Sonunda bunlardan ne tür bir dönüşümün yardımcı olacağını görebileceksiniz.

— Freya Harrison
kaynak

Hey teşekkürler! Boxcox işlevini biliyorum, ama sqrt dönüşümünün ne gibi pratik nedenlerle olduğunu merak ediyordum! Teşekkür ederim!

— MarkDollar

1

eğer hataların varyansı doğrusal olarak serinin seviyesi ile ilgili ise, logaritmik bir dönüşüm gerekir. Standart sapma doğrusal olarak serinin seviyesi ile ilgili ise kare kök dönüşümü yapılır. Seçimin, y'nin seviyesiyle ilgili olduğu için artıkların büyüklüğü ile ilgisi yoktur ve her şey birinci ve ikinci momentin birleştirilmesi / ayrılması ile ilgilidir.

— IrishStat

1

Freya, zihinsel stenografi için +1 >> uygun matematik. Bu sezgi ayrıca kümelenme için L.5 metriklerini kullanmanın bir nedeni mi?

— denis

Merhaba Denis, korkarım kümelenme hakkında hiçbir şey bilmiyorum.

— Freya Harrison

10

Karekök dönüşümü sadece Box-Cox güç dönüşümünün özel bir durumudur (Pengfi Li tarafından güzel bir genel bakış, yararlı okuma olabilir ve burada bulunur ), ve bazı merkezlemeyi atlar. $\lambda = 0.5$

Box-Cox dönüşümlerinin amacı, Doğrusal Model tutma için olağan varsayımları sağlamaktır. Yani, . $y\sim N(X\beta, \sigma^2 I_n)$

Bununla birlikte, bu a priori sabit değer optimal olmayabilir (ve muhtemelen) olmayabilir. R'de carkütüphaneden powerTransform, doğrusal regresyona veya birlikte çalıştığınız herhangi bir veriye katılan değişkenlerin her biri için Box-Cox dönüşümleri için en uygun değeri tahmin etmeye yardımcı olan bir işlevi düşünebilirsiniz ( example(powerTransform)daha fazla ayrıntı için bkz .).

— Dmitrij Celov
kaynak

5

Değişken bir Poisson dağılımını izlediğinde, kare kök dönüşümünün sonuçları Gaussian'a çok daha yakın olacaktır.

— Harvey Motulsky
kaynak

Bu iddia için bazı argümanlar verebilir misiniz?

— utdiscant

Parametrenin belirli bir değerine sahip bireysel dağıtım için gerçekten fazla yardımcı olmaz, ancak parametre değiştiğinde elde edilen dağıtım ailesini , sabit varyanslı

— kjetil b halvorsen

Bkz en.wikipedia.org/wiki/Anscombe_transform

— Tom Wenseleers

3

Karekök alınması bazen normal olmayan bir değişkenin regresyon problemlerinde normal bir değişken gibi görünmesi için savunulur. Logaritma başka bir yaygın olası dönüşümdür.

— ocram
kaynak

0

Bray-Curtis ile hesaplanan mesafe matrisi, bazı veriler için genellikle metrik değildir ve negatif özdeğerlere yol açar. Bu sorunun üstesinden gelmek için çözümlerden biri (logaritmik, Karekök veya çift Karekök) dönüştürmektir.

— Ahmed Nur Osman
kaynak