Büzülme neden gerçekten işe yarıyor, 0 hakkında bu kadar özel olan ne?


15

Bu sitede aynı sorundan bahseden bir yazı zaten var: Büzülme neden işe yarıyor?

Ancak, cevaplar popüler olmasına rağmen, sorunun özünün gerçekten ele alındığına inanmıyorum. Tahminde bazı yanlılıkların ortaya çıkmasının varyansta azalmaya neden olduğu ve tahmin kalitesini artırabileceği oldukça açıktır. Ancak:

1) Önyargı getirerek verilen hasar neden varyans kazancına kıyasla daha az?

2) Neden hep çalışıyor? Örneğin Ridge Regresyonunda: varlık teoremi

3) 0 (kökeni) hakkında bu kadar ilginç olan nedir? Açıkçası istediğimiz herhangi bir yere çekebiliriz (ör. Stein tahmincisi ), ama başlangıç ​​noktası kadar iyi çalışacak mı?

4) Neden çeşitli evrensel kodlama şemaları orijin etrafında daha az sayıda bit tercih ediyor? Bu hipotezler basitçe daha muhtemel?

Kanıtlanmış teoremlere veya oluşturulmuş sonuçlara ilişkin yanıtlar beklenmektedir.


@ KarolisKoncevičius, bağlantıları düzelttiğiniz için teşekkürler! Bununla birlikte, dil düzenlemelerinizin sonuncusu haricinde çok yararlı olmayabileceğini unutmayın. Diğerleri gereksiz metin ekliyor ve böylece yazı biraz daha az okunabilir görünüyor.
Richard Hardy

1
3) "Kökeni bu kadar ilginç yapan ne?" bu ifadeyi nasıl anlıyorsunuz? bir grup faktörünüz (örn. ülke) ve bireysel faktörünüz (ör. şehir) varsa, büzülme ortalamayı ülke düzeyine getirecek ve daha sonra yalnızca yeterli veriye sahip şehir düzeyinde sapma katsayısı olacaktır) - yani modeliniz grup düzeyine itilecektir (ülke) ortalaması (şehir düzeyi katsayılarını sıfıra iterek) ... ve benzer şekilde hiyerarşilerde (ve birden çok hiyerarşide) daha fazla seviye için
seanv507

Yanıtlar:


7

1) Önyargı getirerek verilen hasar neden varyans kazancına kıyasla daha az?

Bunu yapmak zorunda değil, sadece genellikle . Ödemenin değip değmeyeceği, kayıp fonksiyonuna bağlıdır. Ancak gerçek hayatta önemsediğimiz şeyler genellikle kare hataya benzer (örneğin, büyük bir hatayı yaklaşık yarısı yarıdaki iki hatadan daha fazla önemsiyoruz).

Karşı örnek olarak - üniversite kabulleri için insanların SAT puanlarını demografik özellikleri için ortalama SAT'a doğru biraz küçülttüğümüzü düşünün (tanımlanmış olsa da). Düzgün yapılırsa, bu, önyargı getirirken kişinin yeteneklerini (bir çeşit) tahminlerinin varyansını ve ortalama kare hatasını azaltır. Çoğu insan IMHO böyle bir değişimin kabul edilemez olduğunu savunur.

2) Neden hep çalışıyor?

3) 0 (kökeni) hakkında bu kadar ilginç olan nedir? Açıkçası istediğimiz herhangi bir yere küçültebiliriz (yani Stein tahmincisi), ama başlangıç ​​noktası kadar iyi çalışacak mı?

Bunun nedeni genellikle katsayıları veya etki tahminlerini küçültmemizdir. Etkilerin çoğunun büyük olmadığına inanmak için nedenler var (bkz. Andrew Gelman'ın ). Bunu söylemenin bir yolu, her şeyin güçlü bir etki ile her şeyi etkilediği bir dünyanın şiddetli ve öngörülemez bir dünya olmasıdır. Dünyamız uzun yaşamlar sürmemize ve yarı istikrarlı medeniyetler inşa etmemize yetecek kadar öngörülebilir olduğundan, çoğu etkinin büyük olmadığı anlaşılıyor.

Çoğu efekt büyük olmadığından, gerçekten büyük birkaç tanesini yanlış daraltmak ve aynı zamanda ihmal edilebilir etkilerin yüklerini doğru bir şekilde daraltmak yararlıdır.

Bunun sadece dünyamızın bir mülkü olduğuna inanıyorum ve muhtemelen büzülmenin pratik olmadığı kendi kendine tutarlı dünyalar inşa edebilirsiniz (büyük olasılıkla ortalama kare hatası pratik olmayan bir kayıp işlevi haline getirerek). Sadece içinde yaşadığımız dünya olmuyor.

Öte yandan, büzülmeyi Bayesci analizde önceki bir dağılım olarak düşündüğümüzde, 0'a çekmenin uygulamada aktif olarak zararlı olduğu durumlar vardır.

Bir örnek Gauss Süreçlerindeki uzunluk ölçeğidir (burada 0 sorunludur) Stan'ın el kitabındaki öneri , ihmal edilebilir ağırlığı sıfıra yakın yani küçük değerleri sıfırdan etkili bir şekilde "küçülten" bir öncekinin kullanılmasıdır. Benzer şekilde, negatif binom dağılımındaki dispersiyon için önerilen öncelikler etkili bir şekilde sıfırdan uzaklaşır. Son olarak, normal dağılım hassas bir şekilde parametrelendirildiğinde (INLA'da olduğu gibi), ters gama veya sıfırdan uzaklaşan önceki dağılımların kullanılması yararlıdır.

4) Neden çeşitli evrensel kodlama şemaları orijin etrafında daha az sayıda bit tercih ediyor? Bu hipotezler daha olası mıdır?

P(i)P(i+1)ben


1
1) cevabı aslında iyidir!
David

Açıkçası Andrew Gelman'ın katsayıları girdilerle çarptığımız standart modeller göz önünde bulunduruldu. Bu her zaman böyle olmak zorunda değildir. Ya katsayı modele ters gelirse? Sonra 0 şeyleri havaya uçuracak.
Çağdaş Özgenç

1
@CowboyTrader Evet ve 0'ın sorunlu olduğu ve küçüldüğümüz (cevaba ekledi) gerçek dünya kullanım örnekleri var. Bu nedenle, sıfıra doğru çekmenin sadece (pratikte) sık sık işe yarayan bir buluşsal yöntem olduğunu biraz desteklediğine inanıyorum, ancak temel bir matematiksel gerçek değil.
Martin Modrák

1
İlk tepkim için üzgünüm. Cevabınız daha anlamlı hale geliyor. Büzülmenin sadece kare kaybı altında değil, diğer kayıp işlevleri altında da çalıştığını unutmayın. Neyin peşinde olduğum asıl sorun, neden hep cehennemde çalışıyor? Ortalama / konum parametreleri için 0 sihirli bir sayı gibi görünüyor.
Çağdaş Özgenç

σ

0

Sırt, kement ve elastik ağ, önceleri sıfıra odaklanmış Bayesian yöntemlerine benzer - bkz. Örneğin Hastie, Tibshirani ve Wainwright tarafından İstatistiksel Sparsity ile Öğrenme , bölüm 2.9 Lq Penalties and Bayes Estimates: "Bu tahmincilerin bir Bayes görüşü de var ... Bu, kement tahmininin daha önce bir Laplacian kullanan Bayes MAP (maksimum aposteriori) tahmincisi olduğu anlamına gelir. "

(Sorunuzu yanıtlamak için bir yolu what's so special about zero?(yani bizim önceki değerler) biz tahmin edilmektedir etkileri ortalama sıfır olmasıdır ve bunlar küçük olma eğilimindedir olmalıdır etrafında sıfır merkezli bırakılır). O zaman Bayesci anlamda sıfıra doğru daralan tahminler en uygunudur ve bu lens aracılığıyla kement ve sırt ve elastik ağlar düşünülebilir.


3
Sıfıra küçültmek özel bir şey değildir (sadece belirli bir faktörle sonucu çarptığınız için denklem daha basittir). Başka herhangi bir noktaya da daraltabilirsiniz. Bu nokta gerçek değerden ne kadar uzak olursa, daralmanın performansı o kadar azdır (ancak herhangi bir nokta için, performans artışı sağlayacak bir miktar daralma vardır ... en azından gauss dağıtılmış değişkenler için). Sonuç genellikle sıfırdan uzak olduğunda sıfıra küçülmek çok az gelişme sağlayacaktır.
Sextus Empiricus

1
@MartijnWeterings Gerçeğin kendisinin açıkça bir önceliğini koymak ideal olacaktır (boğa gözü). Ama neden 0'a küçülmek hala bir miktar gelişme sağlıyor? Ben de ondan sonrayım.
Çağdaş Özgenç

@CowboyTrader Herhangi bir değere daralmak iyileştirme sağlar. Bu yüzden 0 için de çalışır.
Sextus Empiricus

@MartijnWeterings Evet, ancak öğrenme teorisinin sınırları hemen hemen her zaman kökene dayanır. Kökeni merkezli bir top / polihedron / vs koydular. Bu sadece bir kanıt mı? Kodlayan MDL hipotezleri, 0'a en kısa kod uzunluğunu vererek tamsayıları kodlar? Bu bir tesadüf mü?
Çağdaş Özgenç

1
Yani tüm değişkenlerin gerçekten modelin bir parçası olması durumunda (uygulamada yaygın olmayan) sırt regresyonu gerçekleştirdiğinizi varsayalım. Belki Adrian'ın "etkileri ortalama olarak sıfırdır ve küçük olma eğilimindedirler" ile kastedilen budur (bunun tam olarak doğru olduğu durumları bilmiyorum. Ama makine öğreniminde çok fazla beslediğimiz birçok durum var. parametrelerini ve çoğunun muhtemelen gerekli olmadığı yerlerde , etkilerin çoğu sıfır veya küçüktür.)
Sextus Empiricus
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.