Aşağıdaki üç fenomeni düşünün.
Stein'ın paradoksu: çok değişkenli normal dağılımdan bazı veriler verilen , örnek ortalama, gerçek ortalamanın çok iyi bir tahmincisi değildir. Örnek ortalamanın tüm koordinatlarını sıfıra doğru [veya ortalamalarına doğru ya da doğru bir şekilde anlıyorsam, aslında herhangi bir değere doğru daraltırsa], daha düşük ortalama kare hatası olan bir tahmin elde edilebilir.
Not: Genellikle Stein paradoksu yalnızca tek bir veri noktasına göz önüne alınarak formüle edilir ; Bu çok önemli ve yukarıdaki formülasyonum doğru değilse lütfen beni düzeltin.
Ridge regresyon: Bazı bağımlı değişken verilen ve bazı bağımsız değişkenler , standart regresyon veri overfit ve zayıf dışı örnek performansına yol açma eğilimindedir. Bir çoğu küçülen aşırı oturma azaltabilir : sıfıra doğru .
Çok seviyeli / karışık modellerde rastgele etkiler: bazı kategorik tahmincilere (örneğin okul kimliği ve öğrencinin cinsiyeti) bağlı bazı bağımlı değişken (örneğin öğrencinin boyu) verildiğinde, bazı tahmincilere 'rastgele' gibi davranılması tavsiye edilir; Her bir okuldaki ortalama öğrencinin yüksekliği, bazı temel normal dağılımlardan gelir. Bu, okul başına ortalama yükseklik tahminlerinin küresel ortalamaya doğru küçülmesine neden olur.
Bunların hepsinin aynı “küçülme” fenomeninin çeşitli yönleri olduğuna dair bir his var, ancak emin değilim ve kesinlikle bu konuda iyi bir sezgiden yoksunum. Yani benim asıl sorum şu: bu üç şey arasında gerçekten derin bir benzerlik var mı, yoksa sadece yüzeysel bir semblance mi? Buradaki ortak tema nedir? Bu konuda doğru sezgi nedir?
Ayrıca, bu bulmacanın benim için bir araya gelmediği bazı parçaları:
Sırt regresyonunda, düzgün bir şekilde küçülmez; sırtı büzülme aslında X'in tekil değer ayrışması ile ilgilidir, düşük varyans yönleri daha fazla küçülür (bkz. örneğin İstatistiksel Öğrenme Öğeleri 3.4.1). Ancak James-Stein tahmincisi basitçe örneklem ortalamasını alır ve bir ölçeklendirme faktörü ile çarpar. Bu nasıl bir araya geliyor?
Güncelleme: bkz eşit olmayan varyansı olan James-Stein Tahmincisi ve eg burada biri farklılıklar konusunda katsayılarının.
Örnek ortalaması, aşağıdaki boyutlarda 3 en uygunudur. Regresyon modelinde yalnızca bir veya iki öngörücü olduğunda, ridge regresyonunun her zaman sıradan en küçük karelerden daha kötü olacağı anlamına mı geliyor? Aslında, bunu düşünün, 1D'de (yani basit, çoklu olmayan regresyon), sırtın büzülmesinin yararlı olacağı bir durum düşünemiyorum ...
Güncelleme: Hayır. Bkz. Tam olarak hangi koşullar altında ridge regresyonu normal en küçük kareler regresyonuna göre bir gelişme sağlayabilir?
Öte yandan, örnek ortalamasının her zaman yukarıdaki boyutlarda düşük olması her zaman en düşük 3'tür. Bu, tüm yordayıcılar ilişkisiz olsa bile (dikgen) 3 öngörücünün sırt regresyonunun her zaman OLS'den daha iyi olduğu anlamına mı gelir? Genellikle sırt regresyonu çok kutupluluk ve terimini "dengeleme" ihtiyacı ile motive edilir .
Güncelleme: Evet! Yukarıdaki ile aynı konuya bakınız.
ANOVA'daki çeşitli faktörlerin sabit mi yoksa rastgele etkiler olarak mı dahil edileceği konusunda sık sık ısınan tartışmalar vardır. Aynı mantıkla, bir faktörü ikiden fazla seviyeye sahipse (veya ikiden fazla faktör varsa? Şimdi kafam karıştı), rastgele olarak görmemeli miyiz?
Güncelleme: ?
Güncelleme: Bazı mükemmel cevaplar aldım, ancak hiçbiri yeterince büyük bir resim sağlamıyor, bu yüzden "açık" sorusuna izin vereceğim. Mevcut olanları aşacak yeni bir cevaba en az 100 puanlık bir ödül vereceğime söz verebilirim. Genel olarak, büzülme genel olgusunun bu çeşitli bağlamlarda kendini nasıl gösterdiğini açıklayabilen ve aralarındaki temel farklılıkları işaret eden birleştirici bir görüş arıyorum.