Sırt regresyonunun AIC'si: serbestlik derecesi ve parametre sayısı


13

Bir sırt regresyon modelinin AICc'sini hesaplamak istiyorum. Sorun parametre sayısıdır. Doğrusal regresyon için, çoğu insan parametre sayısının tahmini katsayı sayısına artı sigma'ya (hatanın varyansı) eşit olduğunu önerir.

Sırt regresyonu söz konusu olduğunda, şapka matrisinin izinin - özgürlük derecesi (df) - sadece AIC formülünde (örneğin burada veya burada ) parametre sayısı olarak kullanıldığını okudum .

Bu doğru mu? AICc'yi hesaplamak için df'yi de kullanabilir miyim? Hata farkını hesaba katmak için df'ye +1 ekleyebilir miyim?


2
AICc için genel girdiler RSS, k ve n olduğu için bu soruyu beğendim - ancak aynı sayıda parametre için en az hata modelleri üzerinde sağlam modeller seçmeme eğilimindedir. Aday modeller için aynı uyum yaklaşımını kullanıyorsanız ve aynı verilere uyuyorsanız, model seçimi model seçimidir. Aynı model ve verilerle en iyi bilgiyi nasıl kuracağınızı, ancak en az kare hatası ve Huber kaybı gibi farklı uyum türlerini nasıl kullandığınızı soruyorum.
EngrStudent

3
@EngrStudent, sadece küçük bir not: RSS, normal olasılık için özel bir durumdur. Farklı (normal olmayan) bir dağılım olduğu varsayıldığında, AIC RSS'yi değil, modelin log olasılığını içerecektir. Ayrıca, uyum türleri : modelin değerlendirildiği kayıp işlevleri mi yoksa modelin sığdırılması için kayıp işlevi mi yoksa başka bir şey mi demek istediniz?
Richard Hardy


1
@RichardHardy - Normal olasılık konusunda haklısın! Uygulamada merkezi limit teoremi aşırı kullanılır. Bu durumda "fit fonksiyonu" dediğimde ve "kayıp fonksiyonu" dediğimde aynı anlama geliyordu. Ben ilk önce yalancı ters ve ikinci hata metrikleri açısından en küçük kareler düşünüyorum. Düşünce ve iletişim süreçlerimdeki bir “öğrenme dizisi” eseridir.
EngrStudent

1
@EngrStudent, teşekkürler. Ayrıca, bir kayıp fonksiyonu için iki kullanım önerdiğime dikkat edin: uydurma (bir tahmincinin türetildiği ampirik objektif fonksiyon) ve değerlendirme (optimize etmek istediğimiz teorik objektif fonksiyon).
Richard Hardy

Yanıtlar:


4

Belirli varsayımlar yapıldığında AIC ve sırt regresyonu uyumlu hale getirilebilir. Bununla birlikte, sırt regresyonu için bir büzülme seçmenin tek bir yöntemi yoktur, dolayısıyla ona AIC'yi uygulamak için genel bir yöntem yoktur. Ridge regresyonu, Tikhonov düzenlemesinin bir alt kümesidir . Tikhonov regülarizasyonuyla, örneğin için yumuşatma faktörleri seçilerek uygulanabilir birçok kriter vardır, bakınız bu . Bu bağlamda AIC kullanmak için olduğu gibi, bu düzene bağlama nasıl gerçekleştirileceği oldukça spesifik varsayımlar yapan bir kağıt var hasta sorunların ters şartlandırılmış çözümü için Bilgi karmaşıklığı tabanlı düzenlilestirme parametre seçimi . Özellikle, bu

"İstatistiksel bir çerçevede, ... normalleştirme parametresi α değerini seçerek ve maksimum cezalandırılmış olabilirlik (MPL) yöntemini kullanarak .... Korunmasız Gauss gürültüsünü varyans ile ele alırsak ve cezasını kullanırsak karmaşık bir norm, yukarıdaki bağlantıya bakın , MPL çözümü, Tikhonov (1963) düzenli çözümü ile aynıdır. "σ2p(x)=

O zaman soru, bu varsayımlar yapılmalı mı? Gereken serbestlik derecesi sorunu, AIC ve sırt regresyonunun tutarlı bir bağlamda kullanılıp kullanılmadığı sorusuna ikincildir. Ayrıntılar için bağlantıyı okumanızı öneririm. Sorudan kaçmıyorum, sadece sırt hedefleri olarak birçok şey kullanabilir, örneğin, AIC'nin kendisini optimize eden yumuşatma faktörünü kullanabilir . Yani, iyi bir soru diğerini hak ediyor, "Neden sırt bağlamında AIC ile uğraşalım?" Bazı sırt regresyon bağlamlarında, AIC'nin nasıl alakalı hale getirilebileceğini görmek zordur. Örneğin, sırt regresyon göre en aza indirmek için tatbik edilmiştir hata yayılma ve , dk,b[SD(b)b] tarafından verilen gama dağılımının (GD)

GD(t;a,b)=1tebt(bt)aΓ(a);t0,

bu kağıda göre . Özel olarak, bu zorluk bu yazıda, bu etki, çünkü ortaya çıkan, bir rea u nder zaman optimize edilir urve (AUC), ve iyiliğinin maksimum ihtimal (ML) ölçülen zaman örnekleri arasında uyum sağlar . Açıkçası, bunun nedeni AUC'nin kötü konumlandırılmış bir integraldir ve aksi takdirde, örneğin ML kullanarak, gama dağılımı uyumu sağlamlıktan yoksundur. Dolayısıyla, bu özel uygulama için, maksimum olasılık, dolayısıyla AIC aslında önemsizdir. (AIC'nin tahmin için ve BIC'nin uyum iyiliği için kullanıldığı söylenir. Bununla birlikte, tahmin ve uyum iyiliği, sadece oldukça dolaylı olarak AUC'nin güçlü bir ölçüsü ile ilişkilidir.)[0,)[t1,tn]

Cevabı için de söz konusu , soru metinde birinci referans der temel nokta not etmek" olduğunu azalan bir fonksiyonudur [ Sic ile, yumuşatma faktörü] [ Sic , etkili bir sayı parametrelerden en] aşağıdaki, şapka matrisinin izini sürmek ve az ." Bu, parametre sayısına eksi tahmin edilen miktar sayısına eşit olduğu anlamına gelir, bu da regresyon normal olmayan en küçük kareler ile aynı olduğunda vedfλd f = p λ = 0 d f = 0 λ = d f d f d fdf=pλ=0df=0λ=dfdf yumuşatma faktörü artar . Sonsuz yumuşatma için fitin, hangi yoğunluk fonksiyonunun uygun olduğuna bakılmaksızın düz bir çizgi olduğunu unutmayın. Son olarak, tam sayısının bir işlev olduğu.df

"Biri, ) olduğunu ; burada { }, özdeğerleridir ." İlginçtir, aynı referans şapka matrisinin izi olarak tanımlar , bkz. def .dfridge=(λi/(λi+λλiXTXdf

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.