Kabaca konuşursak, üç farklı tahmin hatası kaynağı vardır:
- modelinizin önyargısı
- modelinizin varyansı
- açıklanamayan varyans
3. nokta hakkında hiçbir şey yapamayız (açıklanamayan varyansı tahmin etmeye çalışmak ve onu tahmin yoğunluklarına ve tahmin aralıklarına dahil etmek hariç). Bu bizi 1 ve 2 ile bırakır.
Aslında "doğru" modele sahipseniz, OLS parametre tahminleri yansız olacaktır ve tüm yansız (doğrusal) tahmin ediciler arasında minimum farklılık gösterecektir (bunlar MAVİ). Bir OLS modelinden yapılan tahminler, en iyi doğrusal yansız tahminler (BLUP'lar) olacaktır. Kulağa hoş geliyor.
Bununla birlikte, tarafsız tahminler ve tüm tarafsız tahminler arasında minimal değişkenlik olmasına rağmen, varyansın hala oldukça büyük olabileceği ortaya çıktı. Daha da önemlisi, bazen "küçük" bir önyargıya neden olabilir ve aynı zamanda "çok" bir sapmadan eşzamanlı olarak tasarruf sağlayabiliriz - ve tradeoff'u doğru bir şekilde elde ederek, önyargılı (düşük varyans) bir modelde daha düşük bir tahmin hatası elde edebiliriz. yüksek varyans) bir. Buna "önyargılı sapma tradeoffı" denir ve bu soru ve cevapları aydınlatıcıdır: Önyargılı bir tahminci ne zaman tarafsız olanı tercih eder?
Kement, sırt regresyonu, elastik ağ vb. Gibi düzenlileştirme de aynısını yapar. Modeli sıfıra doğru çekiyorlar. (Bayes yaklaşımları benzerdir - modeli öncekilere doğru çekerler.) Bu nedenle düzenli modeller, normalize edilmemiş modellere kıyasla önyargılı olacak, fakat aynı zamanda daha düşük varyansa sahip olacaktır. Düzenleme hakkınızı seçerseniz, sonuç daha düşük hata içeren bir tahmindir.
Eğer varsa "önyargı-varyans takas regularization" için arama veya benzeri, sen düşünülmesi gereken bir noktadır olsun. Bu sunum, örneğin, yararlıdır.
EDIT: amip, kesinlikle haklı olarak normalleşmenin neden modellerin ve tahminlerin daha az çeşitliliğini sağladığına dair el dalgası olduğumu işaret ediyor . Bir ile kement modeli göz önünde büyük düzenlileştirme parametre . Eğer , kement parametre tahminleri hepsi sıfıra küçültülecek. Sıfır sabit parametre değeri sıfır varyansa sahiptir. (Bu tamamen doğru değildir, çünkü parametrelerinizin sıfıra indirileceği eşik değeri, verilerinize ve modelinize bağlıdır. Ancak, model ve veriler göz önüne alındığında, bir bulabilirsiniz.λλ→∞λλöyle ki model sıfır modeldir. Ölçücülerinizi daima düz tutun.) Ancak, sıfır modelin elbette devasa bir önyargısı da olacaktır. Sonuçta gerçek gözlemlerle ilgilenmiyor.
Aynısı, normalleştirme parametrelerinizin hepsi için aşırı olmayan değerlere de uygulanır: küçük değerler, daha az önyargılı olacak ("doğru" modele sahipseniz tarafsız) ancak daha yüksek olan normal olmayan parametre tahminlerini verir varyans. Gerçek gözlemlerinizi takiben "etrafa atlayacaklar". Düzenlemenizin yüksek değerleri , parametre tahminlerinizi gittikçe daha fazla "kısıtlayacaktır". Bu nedenle yöntemlerin "lasso" veya "elastik ağ" gibi isimleri vardır : parametrelerinizin etrafında dolaşıp verileri takip etme özgürlüğünü kısıtlarlar.λ
(Bununla ilgili küçük bir yazı yazıyorum, umarım oldukça erişilebilir olacaktır. Kullanılabilir olduğunda bir bağlantı ekleyeceğim.)