1) Önyargı getirerek verilen hasar neden varyans kazancına kıyasla daha az?
Bunu yapmak zorunda değil, sadece genellikle . Ödemenin değip değmeyeceği, kayıp fonksiyonuna bağlıdır. Ancak gerçek hayatta önemsediğimiz şeyler genellikle kare hataya benzer (örneğin, büyük bir hatayı yaklaşık yarısı yarıdaki iki hatadan daha fazla önemsiyoruz).
Karşı örnek olarak - üniversite kabulleri için insanların SAT puanlarını demografik özellikleri için ortalama SAT'a doğru biraz küçülttüğümüzü düşünün (tanımlanmış olsa da). Düzgün yapılırsa, bu, önyargı getirirken kişinin yeteneklerini (bir çeşit) tahminlerinin varyansını ve ortalama kare hatasını azaltır. Çoğu insan IMHO böyle bir değişimin kabul edilemez olduğunu savunur.
2) Neden hep çalışıyor?
3) 0 (kökeni) hakkında bu kadar ilginç olan nedir? Açıkçası istediğimiz herhangi bir yere küçültebiliriz (yani Stein tahmincisi), ama başlangıç noktası kadar iyi çalışacak mı?
Bunun nedeni genellikle katsayıları veya etki tahminlerini küçültmemizdir. Etkilerin çoğunun büyük olmadığına inanmak için nedenler var (bkz. Andrew Gelman'ın ). Bunu söylemenin bir yolu, her şeyin güçlü bir etki ile her şeyi etkilediği bir dünyanın şiddetli ve öngörülemez bir dünya olmasıdır. Dünyamız uzun yaşamlar sürmemize ve yarı istikrarlı medeniyetler inşa etmemize yetecek kadar öngörülebilir olduğundan, çoğu etkinin büyük olmadığı anlaşılıyor.
Çoğu efekt büyük olmadığından, gerçekten büyük birkaç tanesini yanlış daraltmak ve aynı zamanda ihmal edilebilir etkilerin yüklerini doğru bir şekilde daraltmak yararlıdır.
Bunun sadece dünyamızın bir mülkü olduğuna inanıyorum ve muhtemelen büzülmenin pratik olmadığı kendi kendine tutarlı dünyalar inşa edebilirsiniz (büyük olasılıkla ortalama kare hatası pratik olmayan bir kayıp işlevi haline getirerek). Sadece içinde yaşadığımız dünya olmuyor.
Öte yandan, büzülmeyi Bayesci analizde önceki bir dağılım olarak düşündüğümüzde, 0'a çekmenin uygulamada aktif olarak zararlı olduğu durumlar vardır.
Bir örnek Gauss Süreçlerindeki uzunluk ölçeğidir (burada 0 sorunludur) Stan'ın el kitabındaki öneri , ihmal edilebilir ağırlığı sıfıra yakın yani küçük değerleri sıfırdan etkili bir şekilde "küçülten" bir öncekinin kullanılmasıdır. Benzer şekilde, negatif binom dağılımındaki dispersiyon için önerilen öncelikler etkili bir şekilde sıfırdan uzaklaşır. Son olarak, normal dağılım hassas bir şekilde parametrelendirildiğinde (INLA'da olduğu gibi), ters gama veya sıfırdan uzaklaşan önceki dağılımların kullanılması yararlıdır.
4) Neden çeşitli evrensel kodlama şemaları orijin etrafında daha az sayıda bit tercih ediyor? Bu hipotezler daha olası mıdır?
P(i)≥P(i+1)i