Büzülmeyle ilgili birleşik bakış: Stein'in paradoksu, ridge regresyonu ve karışık modellerde rastgele etkiler arasındaki ilişki nedir?


64

Aşağıdaki üç fenomeni düşünün.

  1. Stein'ın paradoksu: çok değişkenli normal dağılımdan bazı veriler verilen Rn,n3 , örnek ortalama, gerçek ortalamanın çok iyi bir tahmincisi değildir. Örnek ortalamanın tüm koordinatlarını sıfıra doğru [veya ortalamalarına doğru ya da doğru bir şekilde anlıyorsam, aslında herhangi bir değere doğru daraltırsa], daha düşük ortalama kare hatası olan bir tahmin elde edilebilir.

    Not: Genellikle Stein paradoksu yalnızca tek bir veri noktasına göz önüne alınarak formüle edilir Rn ; Bu çok önemli ve yukarıdaki formülasyonum doğru değilse lütfen beni düzeltin.

  2. Ridge regresyon: Bazı bağımlı değişken verilen y ve bazı bağımsız değişkenler X , standart regresyon β=(XX)1Xy veri overfit ve zayıf dışı örnek performansına yol açma eğilimindedir. Bir çoğu küçülen aşırı oturma azaltabilir β : sıfıra doğru β=(XX+λI)1Xy .

  3. Çok seviyeli / karışık modellerde rastgele etkiler: bazı kategorik tahmincilere (örneğin okul kimliği ve öğrencinin cinsiyeti) bağlı bazı bağımlı değişken y (örneğin öğrencinin boyu) verildiğinde, bazı tahmincilere 'rastgele' gibi davranılması tavsiye edilir; Her bir okuldaki ortalama öğrencinin yüksekliği, bazı temel normal dağılımlardan gelir. Bu, okul başına ortalama yükseklik tahminlerinin küresel ortalamaya doğru küçülmesine neden olur.

Bunların hepsinin aynı “küçülme” fenomeninin çeşitli yönleri olduğuna dair bir his var, ancak emin değilim ve kesinlikle bu konuda iyi bir sezgiden yoksunum. Yani benim asıl sorum şu: bu üç şey arasında gerçekten derin bir benzerlik var mı, yoksa sadece yüzeysel bir semblance mi? Buradaki ortak tema nedir? Bu konuda doğru sezgi nedir?

Ayrıca, bu bulmacanın benim için bir araya gelmediği bazı parçaları:

  • Sırt regresyonunda, düzgün bir şekilde küçülmez; sırtı büzülme aslında X'in tekil değer ayrışması ile ilgilidir, düşük varyans yönleri daha fazla küçülür (bkz. örneğin İstatistiksel Öğrenme Öğeleri 3.4.1). Ancak James-Stein tahmincisi basitçe örneklem ortalamasını alır ve bir ölçeklendirme faktörü ile çarpar. Bu nasıl bir araya geliyor?βX

    Güncelleme: bkz eşit olmayan varyansı olan James-Stein Tahmincisi ve eg burada biri farklılıklar konusunda katsayılarının.β

  • Örnek ortalaması, aşağıdaki boyutlarda 3 en uygunudur. Regresyon modelinde yalnızca bir veya iki öngörücü olduğunda, ridge regresyonunun her zaman sıradan en küçük karelerden daha kötü olacağı anlamına mı geliyor? Aslında, bunu düşünün, 1D'de (yani basit, çoklu olmayan regresyon), sırtın büzülmesinin yararlı olacağı bir durum düşünemiyorum ...

    Güncelleme: Hayır. Bkz. Tam olarak hangi koşullar altında ridge regresyonu normal en küçük kareler regresyonuna göre bir gelişme sağlayabilir?

  • Öte yandan, örnek ortalamasının her zaman yukarıdaki boyutlarda düşük olması her zaman en düşük 3'tür. Bu, tüm yordayıcılar ilişkisiz olsa bile (dikgen) 3 öngörücünün sırt regresyonunun her zaman OLS'den daha iyi olduğu anlamına mı gelir? Genellikle sırt regresyonu çok kutupluluk ve terimini "dengeleme" ihtiyacı ile motive edilir .(XX)1

    Güncelleme: Evet! Yukarıdaki ile aynı konuya bakınız.

  • ANOVA'daki çeşitli faktörlerin sabit mi yoksa rastgele etkiler olarak mı dahil edileceği konusunda sık sık ısınan tartışmalar vardır. Aynı mantıkla, bir faktörü ikiden fazla seviyeye sahipse (veya ikiden fazla faktör varsa? Şimdi kafam karıştı), rastgele olarak görmemeli miyiz?

    Güncelleme: ?


Güncelleme: Bazı mükemmel cevaplar aldım, ancak hiçbiri yeterince büyük bir resim sağlamıyor, bu yüzden "açık" sorusuna izin vereceğim. Mevcut olanları aşacak yeni bir cevaba en az 100 puanlık bir ödül vereceğime söz verebilirim. Genel olarak, büzülme genel olgusunun bu çeşitli bağlamlarda kendini nasıl gösterdiğini açıklayabilen ve aralarındaki temel farklılıkları işaret eden birleştirici bir görüş arıyorum.


Anladığım kadarıyla sırt regresyonunun (ve Lasso ve elastik ağ gibi kuzenlerinin) regresyondaki tüm gözlemlerle paylaşılan korelasyon değişkenleri için katsayıları küçültmesidir (örneğin, öğrencinin sosyoekonomik durumu ve not ortalaması). Karşılıklı münhasır seviyeler veya korelasyonlu gözlem grupları (öğrencinin öğrencisinin okul kimliğine göre gruplandırılmış sosyoekonomik durumu gibi).
RobertF

3
Ben birleştirici bir cevap almak için en iyi yer, BLUP (En İyi Lineer Sıralanmamış Predictor için) esp anahtar kelimesine bakmak olduğunu düşünüyorum. Hayvan yetiştiriciliği literatüründe. Bkz. Örneğin Robinson'un İstatistik Bilimindeki anketi . Veya Marvin Gruber'in kitabı
Xi'an

2
@ Xi'an: Çok teşekkürler, Gruber'in kitabını kendim buldum ve hem James-Stein hem de ridge regresyonunu kesinlikle tartışsa da, ikisinin doğrudan bir karşılaştırmasını bulamadım (kitabın tamamını okumak şu an benim için bir seçenek değil ...). Robinson'un anketine bağlantı için teşekkürler, bir göz atacağım; hayvan ıslahı ! kim düşünebilirdi. Bu arada, ilgili konular hakkındaki yorumlarınızı gördüm ve burada gerçekten tatmin edici bir cevap verebilecek insanlardan biri olabileceğinizi tahmin ediyorum! Bu harika olurdu; şu ana kadar hiçbir cevap beni memnun etmiyor.
amip diyor Reinstate Monica,

2
@ Xi'an: Aşağıdaki faydalı yorumlarınız, sizden burada bir cevabı kaçırmama neden oluyor. Her neyse, Robinson okumaya başladım ve "En iyi Lineer Tarafsız Öngörücü" nin önyargılı bir tahminci olduğunu (belli ki büzülmeyi uyguladığı için) anladım! Ne kadar güzel bir terminoloji.
amip diyor Reinstate Monica

4
Hayvancılıkta isimler konusunda iyidirler: Casella ve George 1992'den sonra "Çocuklar için Gibbs" başlığını değiştirmek zorunda kaldıktan sonra, Wang & Gianola 1993 yılında Avrupa Hayvansal Üretim toplantısında "domuzlar için Gibbs" tanıtımı yazdı!
Xi'an

Yanıtlar:


30

James – Stein tahmincisi ile ridge regresyonu arasındaki bağlantı

yθmyN(θ,σ2I)

θ^JS=(1(m2)σ2y2)y.
θminθyθ2+λθ2,
θ^ridge=11+λy.
σ2James-Stein tahmin edicisinde ve çapraz doğrulama ile ridge regresyonunda belirler .λ

James – Stein tahmincisi ve rastgele etki modelleri arasındaki bağlantı

Önce karışık / rastgele etki modellerini önce genetikte tartışalım. Model Sabit bir etki yoksa ve ise, model olur bazıları ile James-Stein tahmincisi ayarına eşdeğerdir Bayesçi bir fikir.

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

Rasgele efekt modelleri ve sırt regresyonu arasındaki bağlantı

Yukarıdaki rasgele efekt modellerine odaklanırsak, Tahmin, sorunu çözmek için eşdeğerdir olduğunda . Kanıt, Örüntü tanıma ve makine öğreniminin 3. Bölümünde bulunabilir .

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
λ=σ2/σθ2

(Çok seviyeli) rastgele etki modelleri ve genetikte arasındaki bağlantı

Yukarıda belirtilen rasgele etkiler modelinde, boyutu olan ve bu olduğu . olarak vektörleştirirsek ve tekrarlarsak , o zaman hiyerarşik / kümelenmiş yapıya, kümelerine ve her biri birimlerine sahip oluruz . Biz gerileme halinde tekrar üzerinde , sonra rasgele bir etki elde edilebilir ile bu tür ters regresyon gibi olmasına rağmen, her bir küme için.ym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy


Teşekkür : ilk üç puan büyük ölçüde bu iki Çin makalesinden öğrenildi, 1 , 2 .


(+1) Çok teşekkürler! Bu çok yararlı ve kesinlikle iyi tanıdığım ve sıkça danıştığım Bishop'un ders kitabına bakacağım. Orada karma modellerde bir şey bulmayı beklemiyordum, ama görünüşe göre Bölüm 3.3 "Bayesian Doğrusal Regresyon" aslında bununla ilgili, sadece farklı terminoloji kullanıyor. Bilmek çok iyi! Ama benim mermi sorularıma ne dersin?
amip diyor Reinstate Monica

Bir yayında çok fazla sorunuz var. :) 1) Yukarıda cevapladığım gibi, James-Stein tahmincisi ve çıkıntı regresyonu, eş değişkenler ya da sadece bir kimlik matrisi olmadığında eşdeğerdir . 2,3,4) @James'ten bahsedildiği gibi, tahmin edicilerin sayısı ( yukarıda ) mutlaka yanıt boyutuna eşit değildir . Xpm
Randel

BTW, James-Stein tahmin edicisinde örnek ortalama / ortalama kullanıldığını göremiyorum, aslında tahmin edicisi alıyor ve ardından küçülüyor . y0
Randel

2
JS tahmincisi ve sırt regresyonu belirgindir. Bir sırt regresyon tahmini bir p-vektörünün boyutlu bir konumda dizayn matris tekabül tahmin yol açacak, , JS-tahmincisinin paydasında eksik olan (doğrusal olmayan!) terimipIp(1+λ)1Ipyy2
Andrew M

3
Bence her şey sırtınızı tahmin eden dediğinize bağlı. Hoerl ve Kennard'ın (1970) başlarında , verilere kesinlikle bağımlılığı yoktur . Casella'nın doktora tezi (1978) 'nin sonraki anlamında, manuel olarak belirlenmesi , artık kareler toplamının bir fonksiyonuyla değiştirilir. λλ
Xi'an

6

Topluluğun bu cevabı kesmesi için bir egzersiz olarak bırakacağım, ancak genel olarak büzülme tahmincilerinin * egemen olma nedeninin * * sonlu örneklerdeki tarafsız tahminciler Bayes tahmincilerine hakim olamayacakları nedeniyle , ve birçok büzülme tahmincisi Bayes olarak türetilebilir. 1234

Bütün bunlar Karar Teorisi'nin himayesindedir. Kapsamlı, fakat dostça olmayan bir referans Lehmann ve Casella tarafından "Nokta tahmini teorisi" dir. Belki başkaları dostça referanslar bulabilir?


1 bir tahmin parametre verileri ile bir hakim bir tahmin ile her için ise Riski (örneğin, ortalama hata kare) eşit ya da daha büyük olan ve yener en azından biri, . Başka bir deyişle, parametre alanında her yerde için eşit veya daha iyi performans elde edersiniz .δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2

2 Bir tahmin edici, önceden verilen bazı , örneğin, altında arkadaki beklentisi ise Bayes'tir (zaten karesel hata altında Beklentinin posteriorla alındığı yer. Doğal olarak, farklı öncelikler farklı alt grupları için farklı risklere yol açmaktadır . Önemli bir oyuncak örneği öncesinde olduğu önceki tüm koyar noktasının . O zaman Bayes tahmincisinin sabit fonksiyon olduğunu gösterebilirθπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0Elbette civarında ve yakınında son derece iyi performansa sahip ve başka yerlerde çok kötü bir performansa sahip. Ancak yine de, hakim olamaz çünkü yalnızca bu tahminci sıfır risk .θ0θ0

3 Doğal bir soru, hakim olamayacak herhangi bir tahmin edicinin ( kabuledilebilir , ama kaçınılmaz olsa bile daha şık olmaz mıydı?) Bayes olması gerektiğidir. Cevap neredeyse. Bkz. "Sınıf teoremlerinin tamamı."

4 Örneğin, sırt regresyon normal bir (0, yer Bayesian prosedür olarak ortaya çıkar ile ilgili önceki) , ve rastgele etki modeller, benzer bir çerçeve ampirik Bayes işlem olarak ortaya çıkar . Bu argümanlar, Bayesan kabul edilebilirlik teoremlerinin vanilya versiyonunun, her parametrenin üzerine yerleştirilmeden önce uygun olduğunu varsaydığı için karmaşıktır. Ridge regresyonunda bile, bu doğru değil çünkü "önceki" varyansa yerleştirildi1/λ2βσ2Hata terimi, uygun (birleştirilebilir) bir olasılık dağılımı olmayan sabit fonksiyondur (Lebesgue ölçümü). Ancak yine de, birçok "kısmen" Bayes tahmincisinin, uygun Bayes olan bir dizi tahmin edicinin "sınırı" olduğunu göstererek kabul edilebilir olduğu gösterilebilir. Ancak buradaki kanıtlar oldukça karmaşık ve hassas. Bkz. "Genelleştirilmiş bayler tahmin ediciler".


1
Çok teşekkürler, çok ilginç (+1). Keşke cevabınızın daha ayrıntılı olmasını diliyorum ... Dipnotunuz (3): Tüm Bayes tahmincilerinin öncekinden bağımsız olarak kabul edilebilir / alınamaz (kelime hoşuma gidiyor) olduğunu mu söylüyorsunuz? Ancak James-Stein tahmincisi ampirik Bayes'ten türetilebilir; neden kabul edilemez o zaman? Ayrıca, örneğin, regresyon regresyonunda sıfıra değil, başka bir değere biraz daha konsantre olabileceğim anlamına gelir: ve yine de makul bir düzenleme stratejisi? βN(β0,1/λ2)
amip diyor Reinstate Monica

2
James-Stein tahmin edicisinin kabul edilemez olmasının nedeni ile cevabı burada bulabilirsiniz . Ayrıca Lehmann ve Casella (1998), Nokta Tahmin Teorisi hakkında detaylı ve ilginç bir tartışma da var .
Randel

@Randel: evet, kabul edilemez olduğunu biliyorum ve bu akıl yürütmeyi gördük, sadece Bay-Bay tahmincilerinin James-Stein'in Empirical aracılığıyla anlaşılabildiğinden beri, tüm Bayes tahmin edicilerinin kabul edilebilir olduğunu merak ediyorum. Bayes ...
amip

2
@Amoeba: evet, herhangi bir uygun öncekin altında posterior olan Bayes tahmincisi kabul edilebilir bir tahminciye yol açar. Ampirik Bayes'e gelince, bu tür prosedürler aslında bonafide Bayes değildir, çünkü verilere dayanarak önceliğe sahip olmak patolojilere yol açabilir. Bazen kabuledilebilir oldukları gösterilebilir, bazen değillerdir - tipik olarak duruma göre çalışmak zorundasınız. Cevabımı bu noktada biraz daha cagey olacak şekilde düzenledim, çünkü klasik lineer karışık modellerin kabul edilebilir olup olmadığını bilmiyorum!
Andrew M

3
Sadece gerçek Bayes tahmin edicilerin nadiren James-Stein tahmin edicileri olarak çalıştıklarını, çünkü minimax olmadıklarını belirtmek gerekir. Örneğin, Bill Strawderman (1975'te), hepsini belirleyen normal ortalama problem için 5'ten küçük boyutlarda minimax uygun Bayes tahmin edicisi olmadığını gösterdi.
Xi'an

2
  • James Stein, cevabın boyutunun en az 3 olduğunu varsayar. Standart çıkıntı regresyonunda yanıt bir boyutludur. Öngörme sayısını, yanıt boyutuyla karıştırıyorsunuz.

  • Bununla birlikte, bu durumlar arasındaki benzerliği görüyorum, ancak tam olarak ne yapılması gerektiği, örneğin bir faktörün sabit mi yoksa rastgele mi olması gerektiği, uygulanacak ne kadar daralmanın belirli veri setine bağlı olduğu. Örneğin, öngörücüler ne kadar dikse, standart regresyona göre Ridge regresyonunu seçmek o kadar az mantıklıdır. Parametre sayısı büyüdükçe, veri kümesinin kendisinden Empirical Bayes aracılığıyla önceliği çıkarmak ve parametre tahminlerini küçültmek için kullanmak daha doğru olur. Sinyal-gürültü oranı ne kadar yüksek olursa, büzülme vb.


Cevap için teşekkür ederim. İlk merminizle ilgili olarak: ama ridge regresyonunda küçülen, tahmin edicileri kadar boyutları olan , öyle değil mi? β
amip diyor Reinstate Monica,

1
Tamam, o zaman teoride JS, MSE'nin tahmin edilip edilmediği ve beta varyans-kovaryans matrisinin keyfi olduğu duruma genişletildiği varsayılarak daha iyi çalışmalıdır. Bu durumda, JS sadece beta puan tahminini almayacak ve bunu bir ölçekleme faktörü ile çarpmayacaktır. Ridge Regression'a benzer şekilde, beta'nın farklı bileşenleri farklı şekilde küçülecektir.
James

kovaryans matrisi hakkında çok iyi bir nokta ! Sanırım bu cevaplar (en azından sezgisel olarak) ilk kurşunu. β
amip diyor Reinstate Monica,

2
@James: Doğrusal modeller, numuneyi ( yaşayan ) boyutlu bir alt alana (tasarım matrisi tarafından yayılan sütunlar ) yansıtmayı düşünebilirler. sadece bir gözleminiz olduğunda vektörün örnek ortalamasını kullanmakla aynıdır . Rnpn
Andrew M

2

Diğerlerinin de söylediği gibi, bu üç arasındaki bağlantı, önceki bilgileri ölçüme nasıl dahil ettiğinizdir.

  1. Stein paradoksu durumunda, giriş değişkenleri arasındaki gerçek korelasyonun sıfır olması gerektiğini biliyorsunuz (ve tüm olası korelasyon önlemleri, çünkü sadece ilişkisizliği değil bağımsızlığı ima etmek istediğinizden), dolayısıyla basitten daha iyi bir değişken oluşturabilirsiniz. ortalama örnek ve çeşitli korelasyon önlemlerini bastırmak. Bayesian çerçevesinde, tam anlamıyla aşağı örnekleme aracı arasında korelasyona yol açan olayları ağırlaştırır ve diğerlerini ağırlaştırır bir öncelik inşa edebilirsiniz.
  2. Sırt regresyonu durumunda, koşullu beklenti değeri E (y | x) için iyi bir tahmin bulmak istersiniz. Prensipte bu, sonsuz boyutlu bir problemdir ve yalnızca sınırlı sayıda ölçümümüz olduğundan, kötü tanımlanmıştır. Bununla birlikte, öncelikli bilgi, verileri modelleyen bir sürekli fonksiyon aradığımızdır. Bu hala kötü tanımlanmıştır, çünkü sürekli fonksiyonların modellenmesi için hala sonsuz sayıda yol vardır, fakat set biraz daha küçüktür. Ridge regresyon, olası sürekli fonksiyonlarını sıralamak, test etmek ve son bir serbestlik derecesinde durmak için basit bir yoldur. Bir yorum VC-boyut resmidir: ridge regresyonu sırasında, belirli bir serbestlik derecesine sahip af (x, p1, p2 ...) modelinin verinin doğasında belirsizliği ne kadar iyi tanımladığını kontrol edersiniz. Pratik olarak, f (x, p1, p2 ... ne kadar iyi olabilir ) ve ampirik P (p1, p2 ...), sadece E (y | x) değil, P (y | x) dağılımının tamamını yeniden oluşturabilir. Bu şekilde, çok fazla serbestlik derecesine sahip modeller (genellikle donuk olan) tartılır, çünkü belirli bir serbestlik derecesinden sonra daha fazla parametre ortalaması, parametreler ve dolayısıyla daha geniş P (f (x, p1, p2) arasında daha büyük korelasyonlar sağlayacaktır. ..)) dağılımlar. Diğer bir yorumlama, orijinal kayıp fonksiyonunun da bir ölçüm değeri olduğu ve belirli bir örneklemde yapılan değerlendirmenin belirsizlikle ortaya çıktığıdır, dolayısıyla asıl iş, kayıp fonksiyonunu minimize etmek değil, önemli ölçüde daha düşük olan bir minimum bulmaktır. diğerleri (pratik olarak bir serbestlik derecesinden diğerine geçmek Bayesçi karardır, bu nedenle sadece kayıp fonksiyonunda önemli bir düşüş sağlarsa parametre sayısını değiştirir). Sırt regresyonu bu iki fotoğrafa bir yaklaşım olarak yorumlanabilir (CV-boyut, beklenen kayıp). Bazı durumlarda, daha yüksek serbestlik derecelerini tercih etmek istersiniz, örneğin parçacık fiziğinde, üretilen parçacık sayısının Poisson dağılımı olmasını beklediğiniz parçacık çarpışmasını incelersiniz, böylece parçacık izini bir görüntü üzerinde yeniden yapılandırırsınız (örneğin bir fotoğraf) ) verilen parça sayısını tercih eden ve görüntünün daha küçük veya daha yüksek parça numarası yorumuna sahip modelleri bastırır.
  3. Üçüncü vaka, ölçüme önceden bir bilgi vermeye çalışır, yani önceki ölçümlerden öğrencilerin yüksekliğinin örneğin bir Cauchy tarafından değil, Gauss dağılımları ile çok iyi modellenebileceği bilinir.

Kısacası, cevabı, verileri ne beklediğinizi ve önceki bazı verilerle (önceki bilgiler) kategorilere ayıracağınızı biliyorsanız, ölçümün belirsizliğini azaltabileceğinizdir. Bu önceki veriler, ölçümlere uyması için kullandığınız modelleme işlevinizi kısıtlayan şeydir. Basit durumlarda, modelinizi Bayesian çerçevesinde yazabilirsiniz, ancak bazen Bayesian Maximal A Posterior değerine sahip olanı bulmak için tüm olası sürekli fonksiyonlar üzerinde bütünleşmek gibi pratik değildir.


2

James Stein tahmincisi ve Ridge regresyonu

Düşünmek

y=Xβ+ϵ

İle ϵN(0,σ2I)

En küçük kareler çözümü biçimindedir

β^=S1Xy burada .S=XX

β^ için tarafsız bir ve covriance matrisine sahiptir . Bu yüzden yazabilirizβσ2S1

β^N(β,σ2S1) Not , MLE maksimum olabilirlik tahminlerdir.β^

James Stein

Jame Stein'in sadeliği için, varsayımına gireceğiz . James ve Stein daha sonra formun bir öncelik ekler.S=Iβ

βN(0,aI)

Ve biçiminin alırlar. Daha sonra tahmin eder ile ve formun bir James Stein tahmincisi olsunaa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^ .

Ridge Regresyon

Çıkma regresyonunda genellikle tekrar dengelenir ( regresyon parametrelerinin karşılaştırılabilir olması için genellikle (her biri sütunu için vairance 1 . Bu, , .XXβ=(β1,β2,,βp)Sii=1i=1,2,,p

için bir ridge regresyon tahmini , olarak tanımlanır .βλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^ MLE olduğunu unutmayın .β^

Ne edildi türetilmiş ?? hatırlamaβ^(λ)

β^N(β^,σ2S1) ve önceden bir Bayesian eklersek

βN(0,σ2λI)

Sonra alırız

E(β|β^)=(S+λI)1Sβ^

Sırt regresyon tahmini ile aynıdır . Bu yüzden burada verilen James Stein'ın orijinal formu ve .β^(λ)S=Ia=σ2λ

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.