Regresyonda sırt düzeneğinin yorumlanması


25

En küçük kareler bağlamında sırt cezası ile ilgili birkaç sorum var:

βridge=(λID+XX)1Xy

1) İfade, X'in kovaryans matrisinin köşegen bir matrise doğru küçüldüğünü, yani (değişkenlerin işlemden önce standartlaştırıldığı varsayılarak) girdi değişkenleri arasındaki korelasyonun azaltılacağını önermektedir. Bu yorum doğru mu?

2) Eğer büzülme uygulamasıysa neden satırlarına formüle , normalleştirme ile bir şekilde [0,1] aralığına sınırlayabileceğimizi .(λID+(1λ)XX)

3) için normalleştirme olabilir, böylece [0,1] gibi standart bir aralıkla sınırlandırılabilir.λ

4) Köşegene sabit eklemek tüm özdeğerleri etkiler. Sadece tekil veya yakın tekil değerlere saldırmak daha iyi olur mu? Bu, PCA'yı X'e uygulamak ve regresyondan önce en üstteki N ana bileşenlerini tutmakla aynı mıdır yoksa farklı bir adı mı var (çapraz kovaryans hesaplamasını değiştiremediğinden)?

5) Çapraz kovaryansı düzenleyebilir miyiz veya herhangi bir kullanımı var mı, yani

βridge=(λID+XX)1(γXy)

Küçük bir çapraz kovaryansı düşürür. Açıkçası bu düşürür ancak, aynı s belki de sert / yumuşak eşik kovaryans değerine bağlı olarak gibi akıllı bir yolu yoktur.γβ


Sırp cezası , MSE objektif fonksiyonunda bir Lagrange çarpanı yoluyla kısıtlamasıyla elde edilir . LASSO aynı, fakatyerine. Telefonumdayım, şu an kolayca bir türev gönderemiyorum. Ancak bunlar harika sorularβ2T|β|
shadowtalker

Yanıtlar:


19

Güzel sorular!

  1. Evet, bu kesinlikle doğru. Sırtı cezalandırmayı, birçok kestiricinin yüksek oranda ilişkili olduğu durumlarda ortaya çıkan çoklu bağlanma problemi ile başa çıkmanın olası bir yolu olarak görebilirsiniz . Sırtı ceza vermek, bu korelasyonları etkili bir şekilde azaltır.

  2. Bunun kısmen gelenek olduğunu düşünüyorum, kısmen ilk denkleminizde belirtilen sırt regresyon formülünün aşağıdaki maliyet fonksiyonundan kaynaklandığı gerçeği: Eğer λ = 0 , ikinci dönem düştü ve ilk terimi ( "yeniden hatası") standart En Küçük Kareler formüle açar minimize edilebilir p . Formülü ile ikinci dönem potansiyel tutulması β r ı d g E

    L=yXβ2+λβ2.
    λ=0ββridge. Bu maliyet fonksiyonu, matematiksel olarak uğraşmak için çok uygundur ve bu "normalleşmemiş" lambda tercih edilmesinin sebeplerinden biri olabilir.
  3. Normalleştirmek için muhtemel bir yöntem toplam varyans ile ölçeklemek için t r ( XX ) , örneğin, kullanımı λ t r ( Xx ) yerine λ . Bu olmaz ille confine λ için [ 0 , 1 ] , ancak "boyutsuz" yapacak ve muhtemelen en uygun yol açacağı λ az sonra olmak 1 tüm pratik durumlarda (NB: Bu sadece bir tahmin olduğunu!).λtr(XX)λtr(XX)λλ[0,1]λ1

  4. "Sadece küçük özdeğerlere saldırmak" ayrı bir isme sahiptir ve ana bileşenlerin regresyonu olarak adlandırılır. PCR ve sırt regresyonu arasındaki bağlantı, PCR'de etkin bir şekilde belirli bir sayıdan sonra tüm özdeğerleri kesen bir "kademeli cezaya" sahip olmanızdır; oysa regresyon, "öz ceza" uygulayarak tüm özdeğerleri cezalandırır, daha küçük olanlar daha fazla cezalandırılır. Bu güzel açıklanmıştır İstatistiksel Öğrenme Element Hastie ve ark. (çevrimiçi olarak ücretsiz kullanılabilir), bölüm 3.4.1. Ayrıca , ridge regresyonu ve PCA regresyonu arasındaki ilişkideki cevabımıma bakınız .

  5. Bunu daha önce hiç görmedim, ancak şeklinde bir maliyet fonksiyonunu değerlendirebileceğinizi unutmayın . Bu küçülür p sıfıra değil, ama başka önceden tanımlanmış bir değere p 0 . Matematik birinin eserler optimal için gelecek olursa P tarafından verilen β = ( XX + λ I ) - 1 ( Xy +

    L=yXβ2+λββ02.
    ββ0β olan belki de "çapraz kovaryans regularizing" olarak görülebilir?
    β=(XX+λI)1(Xy+λβ0),

1
Ekleyerek neden açıklayabilir misiniz için X ' X kovaryans matrisi olduğu araçlarla X diyagonal matris doğru büzülür? Bu sanırım tamamen doğrusal bir cebir sorusu. λIDXXX
Heisenberg

3
@Heisenberg, iyi, kovaryans matrisidir X (a kadar 1 / N ölçekleme faktörü). Hesaplama β bu kovaryans matrisinin ters çevrilmesini gerektirir. Mahya regresyon, biz invert X X + λ ben bunun yerine, tek görebilmesi için X X + λ I kovaryans matrisinin bir regularize tahmini olarak. Şimdi λ I terimi , diyagonal üzerinde λ olan bir diyagonal matristir . Düşünün λ çok büyük; o zaman toplam λ çapraz terimi tarafından yönlendirilirXXX1/NβXX+λIXX+λIλIλλ ve böylece düzenli kovaryans, λ büyüdükçedaha fazla diyagonal hale gelir. λIλ
amip diyor Reinstate Monica

wrt Q5, İstatistiksel Öğrenme Öğeleri, görüntü işleme uygulamaları için düzgünlük sınırlamalarına bakar (PDA - sayfa 447)
seanv507

10

4. soruya ilişkin bir başka yorum. Aslında, sırt regresyonu küçük özdeğerlerini oldukça etkin bir şekilde ele alırken, çoğunlukla büyük özdeğerleri tek başına bırakır. XTX

Bunu görmek için, tekil değer ayrışması açısından ridge regresyon tahmin edicisini ifade edin , X

X=i=1nσiuiviT

uiviXTXσi2i=1,2,,n

O zaman bunu gösterebilirsin

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

σi2/(σi2+λ)λ=0λ>0σi2λσi2λ

Karşılaştırmada, temel bileşenler regresyonu, bu formülde 1 (daha büyük özdeğerler için) veya 0 (daha küçük özdeğerler için düşmüş) faktörlerini kullanır.


1
Cevabımda kısaca bahsettiğim şey tam olarak buydu, ancak matematiksel olarak ayrıntılı bir şekilde gösterip göstermesi çok güzel, +1.
amip diyor Reinstate Monica

5

XX

λx+y=κ(αx+(1α)y),
α=λ1+λκ=1+λ0λ<+0<α1

"Yalnızca tekil veya yakın tekil değerlere saldırmak" olarak tanımladığınız teknik aynı zamanda Tekil Spektrum Analizi (doğrusal regresyon için) olarak da bilinir (bkz. Denk 19), eğer "saldırı" derken "kaldırma" ". Çapraz kovaryans değişmez.

X


Teşekkür ederim. Y ile PCR kovaryansı, boyut küçültme yapıldıktan sonra hesaplanır, değil mi? PCR ve SSA arasındaki fark bu mu? Gama (benim değil), alfanın [0,1] sınırlanmasını nasıl seçersiniz?
Cagdas Ozgenc

1
γκ

SSA ve PCR arasındaki fark konusunda haklı olduğunuzu düşünüyorum, emin olmak için yazmalıyız.
Vincent Guillemot
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.