Bazı tahmincilerim çok farklı ölçeklerde - doğrusal bir regresyon modeli takmadan önce bunları dönüştürmem gerekiyor mu?


9

Çok boyutlu bir veri seti üzerinde doğrusal regresyon çalıştırmak istiyorum. Farklı boyutlar arasında düzen büyüklükleri açısından farklılıklar vardır. Örneğin, boyut 1 genellikle [0, 1] değer aralığına ve boyut 2 [0, 1000] değer aralığına sahiptir.

Farklı boyutlar için veri aralıklarının aynı ölçekte olmasını sağlamak için herhangi bir dönüşüm yapmam gerekir mi? Gerekirse, bu tür bir dönüşüm için herhangi bir rehberlik var mı?

Yanıtlar:


15

Değişkenleri değiştirmek / ölçeklendirmek yanıtla korelasyonlarını etkilemez

Bunun neden doğru olduğunu görmek için, Y ve X dır-dir ρ. Sonra arasındaki korelasyonY ve (Xa)/b dır-dir

cov(Y,(Xa)/b)SD((Xa)/b)SD(Y)=cov(Y,X/b)SD(X/b)SD(Y)=1bcov(Y,X)1bSD(X)SD(Y)=ρ

hangi aşağıdaki bağıntı tanımı ve üç gerçekler:

  • cov(Y,X+a)=cov(Y,X)+cov(Y,a)=0=cov(Y,X)

  • cov(Y,aX)=acov(Y,X)

  • SD(aX)=aSD(X)

Bu nedenle, modele uyum açısından (ör.R2veya girilen değerler), değişkenlerinizi kaydırmak veya ölçeklendirmek (örneğin, bunları aynı ölçeğe koymak) modeli değiştirmeyecektir , çünkü doğrusal regresyon katsayıları değişkenler arasındaki korelasyonlarla ilişkilidir. Sadece regresyon katsayılarınızın ölçeğini değiştirecektir; bu, öngörücülerinizi dönüştürmeyi seçerseniz çıktıyı yorumlarken akılda tutulması gerekir.

Düzenleme: Yukarıdaki, kesişme ile normal regresyon hakkında konuştuğunuzu varsaymıştır . Bununla ilgili birkaç nokta daha (teşekkürler @cardinal):

  • Değişkenleri dönüştürdüğünüzde kesişme değişebilir ve yorumlarda @cardinal'in işaret ettiği gibi, kesişmeyi modelden çıkarırsanız değişkenlerinizi kaydırdığınızda katsayılar değişecektir, ancak bunu yapmadığınız sürece bunu yapmadığınızı varsayıyorum. iyi bir neden (örneğin bu cevaba bakınız ).

  • Katsayılarınızı bir şekilde düzenliyorsanız (örn. Kement, sırt regresyonu), merkezleme / ölçeklendirme uygunluğu etkiler. Örneğin, cezalandırıyorsanızβi2 (sırt regresyon cezası), tüm değişkenler ilk etapta aynı ölçekte olmadıkça standartlaştırıldıktan sonra eşdeğer bir uyumu kurtaramazsınız, yani aynı cezayı geri kazanacak sabit bir kat yoktur.

Bir araştırmacının tahmincileri ne zaman / neden dönüştürmek isteyebileceğiyle ilgili olarak

Yaygın bir durum (@Paul tarafından sonraki cevapta tartışılmıştır) araştırmacıların tüm katsayıların aynı ölçekte olması için tahmincilerini standartlaştırmasıdır . Bu durumda, nokta tahminlerinin boyutu, tahmin edicinin sayısal büyüklüğü standart hale getirildikten sonra hangi tahmin edicilerin en büyük etkiye sahip olduğu hakkında kabaca bir fikir verebilir.

Bir araştırmacının çok büyük değişkenleri ölçeklendirmek isteyebilmesinin bir başka nedeni, regresyon katsayılarının çok küçük bir ölçekte olmamasıdır. Örneğin, bir ülkenin nüfus büyüklüğünün suç oranı üzerindeki etkisine bakmak istiyorsanız (daha iyi bir örnek düşünemedim), katsayıdan dolayı nüfus büyüklüğünü orijinal birimlerinden ziyade milyonlarca olarak ölçmek isteyebilirsiniz. gibi bir şey olabilir.00000001.


İki hızlı açıklama: Gönderinin başlangıcı doğru olsa da, bir engel bulunmadığında merkezlemenin bir etkisi olacağı gerçeğini gözden kaçırır . :) İkincisi, normalleştirme kullanılıyorsa , merkezleme ve yeniden ölçeklendirmenin önemli etkileri vardır . OP bunu düşünmese de, akılda tutulması gereken bir nokta olabilir.
kardinal

Yeniden ölçeklendirme değişmezliği, eğer bir kişi matris notasyonu ile rahatsa kolayca görülebilir. İleX tam rütbe (basitlik için), y^=X(X'X)-1X'y. Şimdi değiştirirsekX tarafından XD nerede D köşegen mi
y~=(XD)((XD)'XD)-1(XD)'y=XD(DX'XD)-1DX'y=X(X'X)-1X'y=y^.
kardinal

@cardinal, tahminleriniz düzenliyse merkezleme / ölçeklendirmenin bir etkisi olabileceği gerçeğinden bahsetmeye karar verdim. İlk başta direndim çünkü düzenli hale gelmeye aşina olmayanları karıştırabilecek uzun bir tartışma başlatacağını düşündüm, ancak nispeten az yer kaplayabileceğimi buldum. Teşekkürler--
Makro

Tüm yorumlarım mutlaka cevabın güncellenmesi gerektiği anlamına gelmez. Çoğu zaman, yoldan geçenlerin ilgisini çekebilecek ilgili fikirler hakkında birkaç düşünce vermek için güzel cevaplar altında yan açıklamalara girmeyi seviyorum. (+1)
kardinal

Oy sayımında korkak bir şeyler oluyor. Bir kez daha, daha önceki yorum yaparken bunu iptal ettim ve "almadı". Hmm.
kardinal

2

"Normalleşme", çoğu regresyon yöntemi için yaygın bir rutindir. İki yol vardır:

  1. Her değişkeni [-1, 1] sınırlarına eşleyin (MatLab'da mapminmax.
  2. Her değişkenin ortalamasını kaldırın ve standart sapmasına (MatLab'da mapstd) bölün, yani aslında "normalleştirin". Gerçek ortalama bir sapma bilinmiyorsa, sadece örnek karakteristikleri alın:
    X~benj=Xbenj-μbenσben
    veya
    X~benj=Xbenj-Xben¯std(Xben)
    nerede E[Xben]=μ, E[Xben2-E[Xben]2]=σ2, Xben¯=1N-Σj=1N-Xbenj ve std(Xben)=1N-Σj=1N-(Xbenj2-Xben¯2)

Doğrusal regresyon değişken aralıklarına çok duyarlı olduğundan, genellikle normalleştirmeyi öneririm , bağımlılık hakkında önceden bilginiz yoksa ve tüm değişkenlerin göreceli olarak önemli olmasını bekliyorsanız tüm değişkenleri .

Aynı şey tepki değişkenleri için de geçerlidir, ancak onlar için çok önemli değildir.

Neden normalleştirme veya standartlaştırma yapıyorsunuz? Çoğunlukla modeldeki farklı değişkenlerin göreceli etkisini belirlemek için. Tüm değişkenler aynı birimlerdeyse elde edilebilir.

Bu yardımcı olur umarım!


Doğrusal regresyonun değişken aralıklarına çok duyarlı olduğunu söylediğinizde ne demek istiyorsunuz ? Herhangi İçin x1,x2,ybu iki komutları: summary(lm(y~x1+x2))$r.sqvesummary(lm(y~scale(x1)+scale(x2)))$r.sq -R,2değerleri katsayıları standartlaştırmadığınızda ve bunu yaptığınızda - eşdeğer uyumu gösteren aynı değeri verin.
Makro

Ben oluşumda tam olarak doğru değildim. Ben foolowing demek istedim. Regresyon her zaman aynı olurdu (anlamındaR,2) yalnızca verilerin doğrusal dönüşümlerini gerçekleştirirseniz. Ancak hangi değişkenlerin kabuklu ve hangilerinin neredeyse gürültülü olduğunu belirlemek istiyorsanız, ölçek önemlidir. Değişkenleri standartlaştırmak ve orijinal ölçeklerini unutmak sadece ikna edicidir. Dolayısıyla regresyon, göreli etkileri anlama açısından "duyumsal" dır.
Paul

Açıklığa kavuştuğunuz için teşekkür ederiz, ancak hangi değişkenlerin kabuklu ve neredeyse gürültülü olduğu ölçek önemlidir tarafından genelliklep- standardize ettiğinizde de değişmeyecek olan değer (elbette kesişme hariç). Ham katsayı tahminlerinin daha iyi bir yorumunu sağladığına dikkatinizi çekerim.
Makro
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.