Büzülme neden işe yarıyor?


55

Model seçimindeki problemleri çözmek için, bir dizi yöntem (LASSO, ridge regresyon, vb.) Yordayıcı değişkenlerinin katsayılarını sıfıra çekecektir. Bunun neden tahmin edilebilirliği geliştirdiğine dair sezgisel bir açıklama arıyorum. Değişkenin gerçek etkisi aslında çok büyükse, neden parametreyi küçültmek daha kötü bir tahminle sonuçlanmıyor?

Yanıtlar:


48

Kabaca konuşursak, üç farklı tahmin hatası kaynağı vardır:

  1. modelinizin önyargısı
  2. modelinizin varyansı
  3. açıklanamayan varyans

3. nokta hakkında hiçbir şey yapamayız (açıklanamayan varyansı tahmin etmeye çalışmak ve onu tahmin yoğunluklarına ve tahmin aralıklarına dahil etmek hariç). Bu bizi 1 ve 2 ile bırakır.

Aslında "doğru" modele sahipseniz, OLS parametre tahminleri yansız olacaktır ve tüm yansız (doğrusal) tahmin ediciler arasında minimum farklılık gösterecektir (bunlar MAVİ). Bir OLS modelinden yapılan tahminler, en iyi doğrusal yansız tahminler (BLUP'lar) olacaktır. Kulağa hoş geliyor.

Bununla birlikte, tarafsız tahminler ve tüm tarafsız tahminler arasında minimal değişkenlik olmasına rağmen, varyansın hala oldukça büyük olabileceği ortaya çıktı. Daha da önemlisi, bazen "küçük" bir önyargıya neden olabilir ve aynı zamanda "çok" bir sapmadan eşzamanlı olarak tasarruf sağlayabiliriz - ve tradeoff'u doğru bir şekilde elde ederek, önyargılı (düşük varyans) bir modelde daha düşük bir tahmin hatası elde edebiliriz. yüksek varyans) bir. Buna "önyargılı sapma tradeoffı" denir ve bu soru ve cevapları aydınlatıcıdır: Önyargılı bir tahminci ne zaman tarafsız olanı tercih eder?

Kement, sırt regresyonu, elastik ağ vb. Gibi düzenlileştirme de aynısını yapar. Modeli sıfıra doğru çekiyorlar. (Bayes yaklaşımları benzerdir - modeli öncekilere doğru çekerler.) Bu nedenle düzenli modeller, normalize edilmemiş modellere kıyasla önyargılı olacak, fakat aynı zamanda daha düşük varyansa sahip olacaktır. Düzenleme hakkınızı seçerseniz, sonuç daha düşük hata içeren bir tahmindir.

Eğer varsa "önyargı-varyans takas regularization" için arama veya benzeri, sen düşünülmesi gereken bir noktadır olsun. Bu sunum, örneğin, yararlıdır.

EDIT: amip, kesinlikle haklı olarak normalleşmenin neden modellerin ve tahminlerin daha az çeşitliliğini sağladığına dair el dalgası olduğumu işaret ediyor . Bir ile kement modeli göz önünde büyük düzenlileştirme parametre . Eğer , kement parametre tahminleri hepsi sıfıra küçültülecek. Sıfır sabit parametre değeri sıfır varyansa sahiptir. (Bu tamamen doğru değildir, çünkü parametrelerinizin sıfıra indirileceği eşik değeri, verilerinize ve modelinize bağlıdır. Ancak, model ve veriler göz önüne alındığında, bir bulabilirsiniz.λλλλöyle ki model sıfır modeldir. Ölçücülerinizi daima düz tutun.) Ancak, sıfır modelin elbette devasa bir önyargısı da olacaktır. Sonuçta gerçek gözlemlerle ilgilenmiyor.

Aynısı, normalleştirme parametrelerinizin hepsi için aşırı olmayan değerlere de uygulanır: küçük değerler, daha az önyargılı olacak ("doğru" modele sahipseniz tarafsız) ancak daha yüksek olan normal olmayan parametre tahminlerini verir varyans. Gerçek gözlemlerinizi takiben "etrafa atlayacaklar". Düzenlemenizin yüksek değerleri , parametre tahminlerinizi gittikçe daha fazla "kısıtlayacaktır". Bu nedenle yöntemlerin "lasso" veya "elastik ağ" gibi isimleri vardır : parametrelerinizin etrafında dolaşıp verileri takip etme özgürlüğünü kısıtlarlar.λ

(Bununla ilgili küçük bir yazı yazıyorum, umarım oldukça erişilebilir olacaktır. Kullanılabilir olduğunda bir bağlantı ekleyeceğim.)


4
Bulmacanın en önemli parçası şudur: büzülme yöntemleri neden varyansı azaltır? (Bazı önyargıları ortaya koydukları, az ya da çok belirgindir.) Basitçe yaptıklarını; Bunun için biraz sezgi sağlayabilir misiniz?
amip diyor Reinstate Monica

2
@Stephan Kolassa Dolayısıyla, katsayıların boyutuna göre hesaplanan ceza terimini eklemek, bir miktar önyargı ekler ancak değişkenliği azaltır, çünkü genellikle daha küçük katsayılardan daha fazla değişkenliğe sahip olacak olan büyük katsayıları cezalandırır. Bu doğru mu? Öyleyse, sonuçta, belirli bir katsayı için 'doğru' değeri elde etmekle o kadar ilgilenmiyoruz, sadece modelin genel tahminde bulunabilme yeteneğiyle mi ilgileniyoruz?
aspiringstatistician

2
@aspiringstatistician: İkinci cümleniz tam üzerinde. (George Box'ı "yanlış ama kullanışlı" modeller hakkında hatırlayın.) Büyük parametre tahminlerinin küçüklerden daha fazla küçülüp küçülmediği hakkında endişelenmiyorum. İlk olarak, bu standardizasyona bağlı olacaktır. İkincisi, eğer büyük parametre değerleriniz iyi tahmin ediliyorsa (yani düşük hatayla), o zaman mutlaka çok fazla küçülmezler. Düzenlileştirme, kötü tanımlanmış, yani yüksek bir varyansa sahip olan parametreleri küçültmeyi tercih eder.
S. Kolassa - Monica

3
+1. Kağıtla iyi şanslar! @aspiringstatistician: Büzülme ile ilgili çok iyi gözlem, doğru modelin elde edilmesiyle ilgilenmiyor; bu tam olarak doğru (ve düşünmeye değer): doğru bir şekilde belirlenmiş model normalize edilmiş ve "daha az doğru" olandan daha kötü kestirim yeteneğine sahip olabilir ( bir örnek için bu makalenin 307. sayfasındaki Ek'e bakınız ).
amip diyor Reinstate Monica

7
+1. Sadece eklemek istediğim, soru düzenli modellerin arkasındaki sezgi ile ilgili olsa da , bu modellerin Bayesian türevinden bahsetmemek biraz eksik hissediyor. Örneğin, sırt regresyonunu basit MLE ile karşılaştırırken, çoğu uygulamada, etkinin düzgün (uygunsuz) bir dağılımın aksine, normal bir dağılımdan çekildiğini düşünmek bana doğal geliyor. Dolayısıyla, bu teknikleri hem özel MAP tahmini durumları olarak görmek, birinin neden regresyon regresyonunu seçeceğini açıkça ortaya koyuyor.
jlimahaverford

10

Sadece @ Kolassa'nın ince cevabına bir şeyler eklemek için, büzülme tahminleri ile ilgili tüm soru Stein'in paradoksu ile bağlantılıdır . ile çok değişkenli işlemler için, örnek ortalamalarının vektörü kabul edilemez. Başka bir deyişle, bazı parametre değerleri için beklenen düşük riski olan farklı bir tahminci vardır. Stein örnek olarak bir büzülme tahmincisi önerdi. Yani boyutsallık laneti ile uğraşıyoruz, çünkü büzülme yalnızca 1 veya 2 bağımsız değişkeniniz olduğunda size yardımcı olmaz.p3

Daha fazla bilgi için bu cevabı okuyun . Görünüşe göre, Stein'in paradoksu, 3 ya da daha fazla boyutta bir Browian hareket sürecinin tekrarlanamadığı (orijine geri dönmeden her yere yayılır), 1 ve 2 boyutlu Brownians tekrarlayan olduğu bilinen teoremi ile ilgilidir.

Stein'ın paradoksu, neye karşı büzüldüğünüzden bağımsız olarak geçerlidir, ancak pratikte, gerçek parametre değerlerine doğru küçülmeniz daha iyi olur. Bayesanlar böyle yapar. Gerçek parametrenin nerede olduğunu bildiklerini düşünüyorlar ve ona doğru küçülüyorlar. Sonra Stein'ın varlığını doğruladığını iddia ediyorlar.

Buna tam olarak bir paradoks denir, çünkü sezgimize meydan okur. Bununla birlikte, Brownian hareketi hakkında düşünürseniz, kökene geri dönmek için 3D Brownian hareketi elde etmenin tek yolu, adımlara yavaşlatıcı bir ceza uygulamaktır. Bir büzülme tahmincisi ayrıca tahminlere bir tür damper uygular (varyansı azaltır), bu yüzden işe yarıyor.


Stein'ın paradoksuyla Brown süreci arasındaki bağlantıya bir referansınız var mı?
kjetil b halvorsen 11:16

1
"Daha fazla bilgi için bu cevabı oku" altındaki bağlantımı izleyin. Bu cevabı bağlantı yapan kağıda bir bağlantı vardır.
Placidia

bayes tahmin edicileri tam sınıf teoremi tarafından kabul edilebilir: doğrudan JS tahmincisi ile ilgisi yok. Bununla birlikte, JS'nin örnek ortama egemen olması sonucu, bayes tahmin edicileri çalışmakla daha fazla ilgilendiren insanlar yaptı. (
Bayesanların
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.