Regresyonda verileri merkezleme ve standartlaştırma ihtiyacı


16

Bazı regülasyonlarla doğrusal regresyon düşünün: Örn , küçülten Bul | | A x - b | | 2 + λ | | x | | 1x||Axb||2+λ||x||1

Genellikle A sütunları sıfır ortalama ve birim normlara sahip olacak şekilde standartlaştırılırken, sıfır ortalamaya sahip olacak şekilde ortalanır. Standartlaşma ve merkezleme nedenine ilişkin anlayışımın doğru olup olmadığından emin olmak istiyorum.b

ve b sütunlarının ortalamalarını sıfır yaparak, artık bir kesme terimine ihtiyacımız yok. Aksi takdirde, amaç | | A x - x 0 1 - b | | 2 + λ | | x | | 1 . A'nın sütunlarının normlarını 1'e eşitleyerek, A'nın bir sütununun çok yüksek bir norma sahip olması nedeniyle, x'de düşük bir katsayı elde ettiği ve bu sütunun A x 'i "açıklamıyor" .Ab||Axx01b||2+λ||x||1xx

Bu akıl yürütme tam olarak titiz değil, sezgisel bir şekilde, doğru düşünmenin yolu mu?

Yanıtlar:


14

ve b sütunlarının ortalamalarını sıfırlamak konusunda haklısınız .Ab

Bununla birlikte, sütunlarının normlarını ayarlamak için , normlu A ile başlasanız ve x'in tüm unsurları kabaca aynı büyüklükteyse ne olacağını düşünün . Sonra bir sütunu 10 ile çarpalım.AAx . Karşılık gelen elemanıx, bir unregularized regresyon, bir faktör ile arttırılabilir olur , 10 6 . Düzenleme teriminin ne olacağını görüyor musunuz? Düzenleme, tüm pratik amaçlar için, sadece bir katsayı için geçerlidir. 106x106

sütunlarını normale döndürerek, sezgisel olarak yazıyoruz, hepsini aynı ölçeğe yerleştirdik. Sonuç olarak, x öğelerinin büyüklüklerindeki farklılıklar , açıklayıcı işlevin ( A x ) düzenli olarak kontrol etmeye çalıştığı "kıpır kıpırlık" ile doğrudan ilişkilidir . Onsuz, örneğin 10.0'a karşı bir katsayı değeri, 10.0'a karşı bir başkası, A hakkında bilgi yokluğunda, hangi katsayının A x'in "perukluluğuna" en fazla katkıda bulunduğu hakkında hiçbir şey söylemez . ( A x gibi doğrusal bir işlev için, "kıvrım" 0'dan sapma ile ilgilidir.)AxAxAAxAx

Açıklamanıza geri dönmek için, bir sütununun çok yüksek bir normu varsa ve bir nedenden dolayı x cinsinden düşük bir katsayı alırsa , A sütununun x'i iyi "açıklamadığı" sonucuna varamayacağız . A , x'i "açıklamaz" . AxAxAx


Bunu mu demek $x$ does not ''explain'' $A$ wellistediniz x does not ''explain'' $A$ at all? veri, x ise bu durumda modeldir. Ax
user3813057

@ user3813057 - Bu, düzenlenme hakkında bir soruydu ve açıklayıcı güçle ilgisi yok. daha genel olarak label , A daha genel olarak X olarak etiketlenir ve b daha genel olarak y olarak etiketlenir . x , A'yı hiç açıklamak için orada değildir . xβAXbyxA
jbowman
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.