Bir modelin Akaike Bilgi Kriteri (AIC) puanı ne anlama geliyor?


34

Burada meslekten olmayan anlamlarda ne anlama geldiği hakkında bazı sorular gördüm, ancak bunlar burada amacım için çok meslekten olmayanlar. AIC puanının ne anlama geldiğini matematiksel olarak anlamaya çalışıyorum.

Ancak aynı zamanda, daha önemli noktaları görmememi sağlayacak kesin bir kanıt istemiyorum. Mesela, eğer bu hesapsa, sonsuzluklardan mutlu olurdum ve bu olasılık teorisi olsaydı, ölçü teorisi olmadan mutlu olurdum.

Benim girişim

okuyarak burada ve benim kendi bazı notasyonu şeker modeli AIC kriter veri kümesi üzerinde aşağıdaki gibi: modeli parametrelerinin sayısı ve modeli azami olabilirlik fonksiyonu değeri veri kümesi üzerinde .AICm,DmD

AICm,D=2km2ln(Lm,D)
kmmLm,DmD

İşte benim yukarıdakilerin ne anlama geldiğini anlıyorum:

m=arg maxθPr(D|θ)

Bu yoldan:

  • km , m'nin parametre sayısıdır m.
  • Lm,D=Pr(D|m)=L(m|D) .

Şimdi AIC'yi yeniden yazalım :

AICm,D=2km2ln(Lm,D)=2km2ln(Pr(D|m))=2km2loge(Pr(D|m))

Açıkçası, Pr(D|m) , veri kümesi D'yi mD modeli altında gözlemleme olasılığıdır . Daha iyi bir model Böylece m kümesi uygun D , daha büyük Pr \ (D | m) hale gelir ve böylece daha küçük terimi -2 \ log_e (Pr \ (D | m)) haline gelir.mmDPr(D|m)2loge(Pr(D|m))

Açıkçası AIC, veri kümelerine uyan modelleri ödüllendirir (çünkü daha küçük AICm,D daha iyidir).

Diğer yandan, 2k_m terimi \ text {AIC} _ {m, D} daha büyük 2kmhale getirerek daha fazla parametreli modelleri açıkça cezalandırır .AICm,D

Başka bir deyişle, AIC aşağıdakilerin bir ölçüsü gibi görünmektedir:

  • Logaritmik olarak doğru modelleri ( D daha uygun olanlar ) ödüllendirir. Örneğin, bu gelen uygunluk artış ödül 0.4 için 0.5 ondan uygunluk artış ödül daha 0.8 ile 0.9 . Bu, aşağıdaki şekilde gösterilmiştir.
  • Parametrelerde azalmayı doğrusal olarak verir. Yani gelen parametrelerinde azalma Down to ondan azalma ödüllendirir olduğu kadar ödüllendirilir için aşağı .8 2 19821

görüntü tanımını buraya girin

Başka bir deyişle (yine), AIC, sadeliğin önemi ile zindeliğin önemi arasında bir denge kurar .

Başka bir deyişle (tekrar), AIC şunları önerdi:

  • Zindeliğin önemi azalır.
  • Ancak basitliğin önemi asla azalmaz, fakat her zaman sürekli önemlidir.

S1: Ancak bir soru şudur: neden bu özel uygunluk basitliği değişimini önemsemeliyiz?

S2: Neden ve neden ? Neden sadece: yani y görünümünde olmalıdır için eşit derecede faydalı olmalı ve göreceli olarak farklı modelleri karşılaştırabilmeli ( göre ölçeklenmemiş ; buna ihtiyacımız var mı?).2 log e ( ) AIC m , D = 2 k m - 2 ln ( L m , D ) = 2 ( k m - ln ( L m , D ) ) AIC m , D2k2loge()AICm,D,BASİTAICm,D2

AICm,D=2km2ln(Lm,D)=2(kmln(Lm,D))AICm,D2=kmln(Lm,D)AICm,D,SIMPLE=kmln(Lm,D)
AICm,D,SIMPLEAICm,D2

S3: Bunun bilgi teorisi ile ilişkisi nedir? Birisi bunu bilgi teorik bir başlangıçtan türetebilir mi?


2
daki gösteriminiz ne anlama geliyor? Orada model seçimi hakkında bir şey mi ima ediyorsun? Yukarıda sahip olduklarınız, gerçekten de AIC'nin bir model seçmenizi gerektirdiği anlamına gelmez. S2, sizin de dediğiniz gibi, bir anlamda oldukça keyfi bir şey, ancak AIC’yi K1C - Leibler ıraksaklığı için bir tahmin yapmaktan geliyor, bu da Q1’in cevabını da ifade ediyor ve . exp ( ( AIC m - dak ( AIC 1 , , AIC M ) ) / 2 )m=argmaxθPr(D|θ)exp((AICmmin(AIC1,,AICM))/2)
Björn

θ Pr ( D | θ ) θ D D θ m θarg maxθPr(D|θ) , olasılığını en aza indiren bir tane bulana kadar s aramaya devam etmenizi sağlar . Her , veri kümesi yi açıklamaya çalışan modelimizi tanımlayan bir parametre / vektör dizisidir . Yani aslında diyor ki: veri setine sahibiz , tarafından parametreleştirilmiş bir model tarafından yaratılma olasılığı nedir? Modelimiz aslında bu maksimizasyon problemini çözen . θPr(D|θ)θDDθmθ
mağara adamı,

3
Üzgünüz, ancak birden fazla modele mi bakıyorsunuz ( yazdığınızdan beri ) veya maksimum olasılık tahmini hakkında mı konuşuyorsunuz ? Ayrıca not model kapsamında ve verilen parametreler, veri parametreli bu model tarafından oluşturulan değil olasılık ortaya çıkan veri sığınak olasılığıdır . ... θ : = arg max θ P verilen modeli ( D | θ ) P verilen modeli ( D | θ ) θm=θ^:=argmaxθPgiven model(D|θ)Pgiven model(D|θ)θ
Björn

MLE demek istediğim bu. Ama ben sadece tuple parametrelerinin modeli tanımlayan o kadar kapsamlı olduğunu söylemeye çalışıyorum . Ayrıca her biri farklı bir AIC puanı olan gibi birden fazla modele sahip olabilirim . Ben sadece bu gösterimi yapıyorum çünkü bunun daha basit olduğunu düşünüyorum. Son derece yanlış mıyım yoksa gereksiz yere kafamı karıştırıyor muyum? (ve MLE'nin ne anlama geldiğini düzelttiğin için teşekkür ederim)m 1 , m, 2 AIC 1 , AIC 2θm1,m2AIC1,AIC2
caveman

3
AIC'nin beklenen KL bilgi kaybına bir yaklaşım olarak türetilmesi, Pawitan (2001), Her
Şeye Uygun Olarak

Yanıtlar:


13

Mağara adamı tarafından bu soru popülerdir, ancak tartışmalı olana kadar aylardır hiçbir cevap verilmemiştir . Aşağıdaki asıl cevabın kendi içinde tartışmalı olmayabilir, sadece soruların “yüklü” sorular olduğu tartışmalıdır, çünkü alan (en azından bana göre) AIC ve BIC'in yardımcıları tarafından doldurulmayı tercih ediyor gibi görünüyor. OLS birbirlerinin yöntemlerinden daha. Lütfen listelenen tüm varsayımlara ve veri türlerine ve analiz yöntemlerine getirilen kısıtlamalara bakın ve lütfen yorum yapın; Bunu düzelt, katkıda bulun. Şimdiye kadar, çok akıllı bazı insanlar katkıda bulundu, bu yüzden yavaş ilerleme kaydedilmiştir. Richard Hardy ve GeoMatt22'nin katkılarından, Antoni Parellada'dan kibar sözler ve Cagdas Ozgenc ve Ben Ogorek'in KL sapmasını gerçek bir sapma ile ilişkilendirme konusundaki cesaret dolu girişimlerini kabul ediyorum.

Başlamadan önce AIC'nin ne olduğunu gözden geçirelim ve bunun için bir kaynak AIC model karşılaştırması için Ön Koşullar ve bir diğeri Rob J Hyndman'dan . Spesifik olarak, AIC, eşittir olarak hesaplanır.

2k2log(L(θ)),

burada model ve parametrelerin sayısı olabilirlik fonksiyonu. AIC , modelleme varsayımlarındaki varyans ( ) ve önyargı ( ) arasındaki farkı karşılaştırır . Gönderen AIC Facts ve safsatalarını , nokta 3 "AIC Bu Gauss olasılık en sık kullanılan sadece budur. Artıklar Gauss olan üstlenmez. Ama başka dağılımını kullanmak istiyorsanız, devam edin." AIC hangisi cezalandırılmış olasılığı olduğu olasılığı sen kullanmayı tercih etmektedir. Örneğin, Student's-t dağıtılmış artıkları için AIC'yi çözmek için, Student-t için maksimum olabilirlik çözümünü kullanabiliriz . L ( θ ) 2 k 2 günlük ( L ( θ ) )kL(θ)2k2log(L(θ))genellikle AIC için uygulanan log olabilirlik Gauss log olabilirlikten türetilmiştir ve

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),

K modelin kovaryans yapısıdır,örneklem büyüklüğü; veri setleri gözlem sayısı, ortalama tepki ve bağımlı değişken. Kesinlikle, AIC'nin örneklem büyüklüğünü düzeltmesinin gereksiz olduğunu unutmayın, çünkü AIC veri kümelerini karşılaştırmak için kullanılmaz, sadece aynı veri setini kullanan modeller. Bu nedenle, örneklem büyüklüğü düzeltmesinin doğru yapılıp yapılmadığını araştırmak zorunda değiliz, ancak AIC'yi veri kümeleri arasında yararlı olacak şekilde genelleştirebilirsek endişelenmek zorunda kalacağız. Benzer şekilde, asimptotik etkinliği sağlamak için hakkında çok şey yapılır . Minimalist görünüm olabilir yapmak "dizin" AIC sadece olduğunu düşündüğümüz|D|μxK>>|D|>2K>|D|ilgili veilgisiz. Bununla birlikte, için den daha büyük olmayan değiştirilmiş bir AIC önerilmesi şeklinde bir miktar dikkat gösterilmiştir. AIC adlandırılan cevabın ikinci çeyreğine bakınız: Bu "önlemlerin" çoğalması, yalnızca AIC'nin bir endeks olduğu fikrini güçlendirir. Bununla birlikte, bazı AIC savunucuları gibi "i" kelimesini kullanırken dikkatli olunması tavsiye edilir, "indeks" kelimesini, evlilik dışı olarak kendi cinslerine atıfta bulunabilecekleri gibi aynı düşkünlüğe eşittir.K>>|D|K|D|c

S1: Ancak bir soru şudur: neden bu özel uygunluk basitliği değişimini önemsemeliyiz?

İki bölümden cevap verin. İlk önce spesifik soru. Sadece umursamalısınız, çünkü bu şekilde tanımlandı. Tercih ederseniz, bir CIC tanımlamamak için hiçbir neden yoktur; Bir mağara adamı bilgi kriteri, AIC olmayacak, ancak CIC, AIC ile aynı cevapları üretecek, uyum iyiliği ile poz sadeliği arasındaki tradeoff'u etkilemeyecek. Bir kez de dahil olmak üzere bir AIC çarpanı olarak kullanılabilecek herhangi bir sabit, mutlak bir ölçeği uygulamak için bir referans standardı olmadığı için seçilmeli ve uyulmalıdır. Bununla birlikte, standart bir tanımlamaya uyulması, yalnızca göreceli bir ölçekte tanımlanmış olan AIC gibi bir miktar için bir ve sadece bir tanımlamaya veya "konvansiyona" yer olması anlamında keyfi değildir. Ayrıca aşağıdaki AIC varsayım # 3'e bakınız.

Bu sorunun ikinci cevabı, sürekli çarpanın nasıl seçildiğine bakılmaksızın, uyumluluk iyiliği ile poz sadeliği arasındaki AIC tradeoff özelliğine ilişkindir. Bu, "tradeoff" u gerçekten etkileyen nedir? Bunu etkileyen şeylerden biri, bir modeldeki parametrelerin sayısına göre serbestlik derecesinin ayarlanmasıdır; bu, AIC olarak adlandırılan "yeni" bir AIC'nin tanımlanmasına neden olmuştur :c

AICc=AIC+2k(k+1)nk1=2knnk12ln(L),

burada , örneklem büyüklüğüdür. Farklı sayıdaki parametrelere sahip modelleri karşılaştırırken ağırlıklandırma artık biraz farklı olduğundan, AIC , AIC'nin kendisinden farklı modelleri seçer ve iki model farklı ancak aynı sayıda parametreye sahip olduğunda AIC olarak aynıdır. Diğer yöntemler de farklı modelleri seçecektir, örneğin, “BIC [sic, Bayesian bilgi kriteri ] genellikle serbest parametreleri Akaike bilgi kriterinden daha güçlü bir şekilde cezalandırır, buna rağmen ... parametre değerlerinin vazgeçilmezliği farklıdır ve bazı durumlarda AIC kullanımına tercih edilirnc. Genel olarak, bir modelin uygunluğunun herhangi bir değerlendirme yönteminin avantajları ve dezavantajları olacaktır. Tavsiyem veri regresyon metodolojisine uygulanması için herhangi bir model seçim yönteminin performansını modellerin testinden daha kuvvetli bir şekilde test etmektir. Şüphelenmek için herhangi bir sebep var mı? Evet, metodolojik olarak uygun yöntemleri seçmek için herhangi bir model testi oluştururken ya da seçerken dikkatli olunmalıdır. AIC, sonraki model Q3'e bakınız için bir model değerlendirmeleri alt kümesi için yararlıdır. Örneğin, model A ile bilgi çıkarma en iyi regresyon yöntemi 1 ile ve B modeli için regresyon yöntemi 2 ile gerçekleştirilebilir, burada model B ve yöntem 2 bazen fiziksel olmayan cevaplar verir, ve hiçbir regresyon yönteminin MLR olmadığı,

S3 Bu bilgi teorisi ile nasıl ilişkili :

MLR varsayımı # 1. AIC, bir regresyon problemine maksimum olabilirlik (MLR) uygulanabilirliği varsayımlarına dayanmaktadır. Sıradan en küçük kareler regresyonu ve maksimum olabilirlik regresyonunun bana aynı olduğuna işaret ettiği tek bir durum var. Sıradan en küçük karelerden (OLS) doğrusal regresyondan kalanlar normal olarak dağıldığında ve MLR'nin bir Gauss kaybı fonksiyonuna sahip olduğu durum budur. Diğer OLS doğrusal regresyon durumlarda, doğrusal olmayan OLS regresyonu ve Gauss olmayan kayıp fonksiyonları için, MLR ve OLS farklı olabilir. OLS veya MLR'den başka birçok regresyon hedefi vardır, hatta uyum iyiliği ve çoğu zaman iyi bir cevabın, örneğin ters problemlerin çoğu ile ilgisi yoktur.. Yarı olasılık için AIC'yi genelleştirmeyi kullanmak için yüksek oranda atıf yapılan girişimler (örneğin, 1100 kez) vardır, böylece maksimum olasılık regresyonuna olan bağımlılık daha genel kayıp fonksiyonlarını kabul etmek için gevşetilir . Dahası, Student-t için MLR, kapalı halde olmamasına rağmen, sağlam bir şekilde yakınsaktır . Student-t artık dağılımları, Gauss koşullarının yanı sıra, hem yaygın hem de daha genel olduğu için Gauss varsayımını AIC için kullanmak için özel bir neden görmüyorum.

MLR varsayımı # 2. MLR, uyum iyiliğini ölçmeye çalışan bir girişimdir. Uygun olmadığında bazen uygulanır. Örneğin, kesilmiş menzil verileri için, kullanılan model kesilmediğinde. Tam bilgi kapsamı varsa, uyumluluk iyiliği iyidir ve iyidir. Zaman serilerinde, başlangıçta hangi fiziksel olayların tam olarak gerçekleştiğini anlamak için genellikle yeterince hızlı bilgiye sahip değiliz veya modellerimiz çok erken verileri incelemek için yeterince eksiksiz olmayabilir. Daha da büyük sıkıntı, birinin veri uyumsuzluğunun çok geç saatlerde uyum iyiliğini test edememesidir. Dolayısıyla, uyum iyiliği sadece eğrinin altındaki alanın% 30'unu modellenebilir ve bu durumda, verilerin bulunduğu yere dayanarak ekstrapolasyonlu bir modeli değerlendiriyoruz ve bunun ne anlama geldiğini incelemiyoruz. Tahminde bulunmak için, sadece “miktarların” uygunluğuna değil, aynı zamanda ekstrapolasyonun “iyiliğine” sahip olmadığımız miktarların türevlerine de bakmamız gerekir. Böylece, B-spline gibi uygun teknikler kullanım bulur çünkü türevler uygun olduğunda verinin ne olduğunu daha düzgün bir şekilde tahmin edebilirler veya alternatif olarak ters problemli tedaviler, örneğin hata yayılımı uyarlanabilir Tikhonov gibi tüm model aralığı boyunca kötü niyetli entegral tedavi düzenlileştirme.

Başka bir karmaşık endişe, veriler bize onunla ne yapmamız gerektiğini söyleyebilir. Uyumluluk iyiliği için ihtiyacımız olan (uygun olduğunda), standart sapmanın bir mesafe olduğu anlamında mesafelerde kalan kalıntılara sahip olmaktır. Diğer bir deyişle, tek bir standart sapma iki katı uzunluğa sahip bir artık iki standart sapma uzunluğunda olmazsa, uyum iyiliği pek anlamlı olmaz. Herhangi bir model seçim / regresyon yöntemi uygulanmadan önce veri dönüşümlerinin seçimi araştırılmalıdır. Verilerin orantılı tür hatası varsa, genellikle bir regresyon seçmeden önce logaritmayı almak uygun değildir, çünkü standart sapmaları mesafelere dönüştürür. Alternatif olarak, orantılı verileri yerleştirmek için normların minimize edilmesini değiştirebiliriz. Aynı Poisson hata yapısı için de geçerlidir. hatayı normalleştirmek için verinin karekökünü alabilir veya uydurma normumuzu değiştirebiliriz. Radyonüklid çürümesi sayma verileri ile gerçek kütle arasında üssel bir zamana dayalı bir ilişki ortaya koyarken uydurma normunu değiştiremezsek, örneğin, Poisson sayım istatistiklerini nükleer çürüme istatistiklerini değiştiremezsek daha karmaşık ve hatta inatçı olmayan sorunlar vardır. bu sayıları yayıyordum, hiç bozulma olmadı. Niye ya? Sayım oranlarını geri çürütürsek, artık Poisson istatistiklerine sahip değiliz ve düzeltilmiş sayımların karekökündeki artıklar (veya hatalar) artık mesafeler değil. Daha sonra çürüme düzeltilmiş verilerin (örneğin, AIC) uygunluk testini yapmak istiyorsak, mütevazi benliğim tarafından bilinmeyen bir şekilde yapmalıyız. MLR'yi kullanmakta ısrar edersek okuyucuya açık bir soru, Verilerin hata türünü hesaba katacak normunu değiştirebilir miyiz (arzu edilir) veya MLR kullanımına izin vermek için her zaman verileri dönüştürmeli miyiz (yararlı değil)? Not, AIC, tek bir model için regresyon yöntemlerini karşılaştırmaz, aynı regresyon yöntemi için farklı modelleri karşılaştırır.

AIC varsayımı # 1. MLR'nin normal artıklarla sınırlı olmadığı görülüyor, örneğin, MLR ve Student's-t hakkında bu soruya bakınız . Daha sonra, MLR'nin problemimize uygun olduğunu ve teorik olarak AIC değerlerini karşılaştırmak için kullanımını takip edeceğimizi varsayalım. Varsayıyoruz Sonraki 1) eksiksiz bilgi, 2) örneğin artıkların dağılımı (aynı tür, hem normal hem Student's- olması t en az 2 modeller için). Yani, iki modelin artık artık dağıtım türüne sahip olması gerektiği bir kaza geçirmiştir. Bu olabilir mi? Evet, muhtemelen, ama kesinlikle her zaman değil.

AIC varsayımı # 2. AIC, miktarın negatif logaritmasını (modeldeki Kullback-Leibler sapmalarına bölünen parametre sayısı ) ilgilidir. Bu varsayım gerekli midir? In genel kayıp fonksiyonları kağıt farklı bir "sapma" kullanılır. Bu, diğer önlemlerin KL farklılığından daha genel olup olmadığını sorgulamamızı sağlar, neden onu AIC için de kullanmıyoruz?

Aull için Kullback-Leibler ayrıntısından yanlış eşlenen bilgi "olasılık ... olasılık dağılımları arasındaki mesafeyi ölçmenin bir yolu olarak düşünülse de, Kullback-Leibler ayrıntısı gerçek bir ölçüt değildir." Neden kısa bir süre sonra göreceğiz.

KL argümanı, model (P) ile veri (Q) arasındaki iki şey arasındaki farkın olduğu noktaya gelir.

DKL(PQ)=Xlog(dPdQ)dPdQdQ,

'' Q '' ye göre '' P '' entropisi olarak tanıyoruz.

AIC varsayımı # 3. Kullback-Leibler ayrıntısını içeren çoğu formül, logaritmanın tabanından bağımsız olarak geçerlidir. Sabit çarpan, AIC'nin o sırada birden fazla veri seti ile ilişkilendirildiyse daha fazla anlamı olabilir. Yöntemleri karşılaştırırken olduğu gibi, ise, o zaman yine olacak olan pozitif sayı sayıları . İsteğe bağlı olduğundan, sabiti bir tanım olarak belirli bir değere ayarlamak da uygun değildir.AICdata,model1<AICdata,model2<

AIC varsayımı # 4. Bu, AIC'nin Shannon entropisini veya kişisel bilgisini ölçmesidir . "Bilmemiz gereken" Entropi, bir metrik bilgi için ihtiyacımız olan şey mi? "

“Kendini bilgilendirme” nin ne olduğunu anlamak için, herhangi birisinin yapacağı bilgileri fiziksel bağlamda normalleştirmemiz gerekir. Evet, fiziksel özelliklere sahip olacak bir bilgi ölçüsü istiyorum. Peki bu daha genel bir bağlamda neye benziyor?

Gibbs serbest enerji denklemi (ΔG=ΔHTΔS) enerjideki değişimin entalpi değişimi ile eksi entropinin değişiminin mutlak sıcaklık süreleri ile ilişkilidir. Sıcaklık, başarılı bir normalleştirilmiş bilgi içeriğinin bir örneğidir, çünkü bir sıcak ve bir soğuk tuğla, termal olarak kapalı bir ortamda birbiriyle temas halinde yerleştirilirse, o zaman ısı aralarında akacaktır. Şimdi, çok fazla düşünmeden buna atlarsak, ısının bilgi olduğunu söylüyoruz. Ancak, bir sistemin davranışını öngören göreceli bilgidir. Bilgi dengeye ulaşana kadar akar, ama neyin dengesi? Sıcaklık, bu, belirli parçacık kütlelerinin parçacık hızında olduğu gibi ısınmaması, moleküler sıcaklıktan bahsetmiyorum, farklı kütlelere sahip, farklı malzemelerden yapılmış, farklı yoğunluklara sahip vb. Bunların hiçbiri bilmem gerekmiyor, bilmem gereken tek şey brüt sıcaklığın dengelediği şey. Dolayısıyla eğer bir tuğla daha sıcaksa, daha fazla göreceli bilgi içeriğine ve daha soğuk olduğunda daha az bilgiye sahiptir.

Şimdi, bir tuğlaya diğerinden daha entropiye sahip olduğu söylenirse ne olacak? Bu, kendi başına, başka bir tuğlaya temas ettiğinde entropi kazanıp kazanmayacağını tahmin etmeyecektir. Öyleyse, entropi tek başına yararlı bir bilgi ölçütü mü? Evet, ancak yalnızca aynı tuğlayı kendisiyle karşılaştırırsak, böylece "öz bilgi" olarak adlandırırız.

Bundan son sınırlama gelir: KL sapmasını kullanmak için tüm tuğlalar aynı olmalıdır. Bu nedenle, AIC'yi atipik bir indeks yapan şey, bilgi içeriği normalleştirilerek ele alınabilecek özellikle istenen bir özellik olmayan veri kümeleri (örneğin farklı tuğlalar) arasında taşınabilir olmamasıdır. KL ayrımı doğrusal mı? Belki evet belki hayır. Bununla birlikte, bunun önemi yoktur, AIC kullanmak için doğrusallığı varsaymamız gerekmez ve örneğin entropinin kendisinin sıcaklıkla doğrusal olarak ilişkili olduğunu sanmıyorum. Başka bir deyişle, entropi hesaplamalarını kullanmak için doğrusal bir metriğe ihtiyacımız yoktur.

AIC hakkında iyi bir bilgi kaynağı bu tezde . Karamsar tarafta bu, “Kendi içinde, belirli bir veri seti için AIC'nin değerinin bir anlamı yoktur” diyor. İyimser tarafta bu, yakın sonuçları olan modellerin güven aralıkları oluşturmak için yumuşatma ile farklılaştırılabileceğini ve çok daha fazlasını söylüyor.


1
Yeni cevapla eski silinmiş cevap arasındaki ana farkı gösterebilir misiniz? Öyle görünüyor ki, bir miktar örtüşme var.
Richard Hardy,

2
Cevabımı silindiğinde birkaç saatliğine düzenleme yapıyordum. Devam eden bir çalışma olduğu için başladığım zamana göre çok fazla değişiklik oldu, çok fazla okuma ve düşünme aldı ve bu sitedeki iş arkadaşlarım bununla ilgilenmiyor gibi görünmüyor, ancak hiçbir şeyi yanıtlamaya yardımcı olmuyor. Görünüşe göre AIC eleştirel bir inceleme için çok iyi, nasıl cüret edersin? Düzenlememi tamamladım ve tekrar gönderdim. Cevabımda neyin yanlış olduğunu bilmek istiyorum. Bunun üzerinde çok çalıştım ve doğru olmaya çalıştım ve başka hiç kimse rahatsız etmedi.
Carl

4
Üzülme Buradaki ilk deneyimim de sinir bozucuydu, ancak daha sonra uygun bir şekilde soru sormayı öğrendim. Nötr bir tonda kalmak ve kesin gerçeklere dayanmayan güçlü fikirlerden kaçınmak, IMHO için iyi bir ilk adım olacaktır. (Bu arada sorunuza cevap verdim, ancak yine de cevap konusunda tereddüt ettim.)
Richard Hardy

3
+1 Sadece girişiniz için. Şimdi cevabı okumaya devam edeceğim.
Antoni Parellada

2
@AntoniParellada Sorunun silinmesini önleyerek, takdir ettiğim bir şey yaptınız. AIC ile çalışmak zordu ve bu konuda yardıma ihtiyacım var. Bazı içgörülerimin iyi olduğuna eminim, ancak diğer akılların benden daha iyi yakaladığı ağız hastalığında toynaklarım var
Carl

5

AIC , gerçek güdümlü ile yaklaşık parametrik model arasındaki beklenen Kullback-Leibler sapmasına iki kez model-bazlı ek terimin bir tahminidir .fg

KL ayrımı , bilgi teorisinde bir konudur ve iki olasılık dağılımı arasındaki mesafenin bir ölçüsü olarak sezgisel (titiz olmasa da) çalışır. Aşağıdaki açıklamamda, bu slaytları Shuhua Hu'dan referans olarak alıyorum . Bu cevabın hala "kilit sonuç" için bir alıntıya ihtiyacı var.

Gerçek bir model arasında kl diverjans ve yaklaşan modeli olan fgθ

d(f,gθ)=f(x)log(f(x))dxf(x)log(gθ(x))dx

Gerçek bilinmediğinden, verileri elde edilir ve maksimum olabilirlik tahmininden tahminci . Değiştirme ile KL diverjans formül hem de kl sapma kendisi ikinci terim her iki artık rastgele değişkenler olduğunu vasıtasıyla Yukarıdaki denklemlerde. Slaytlar "temel sonuç" olduğunu göre ikinci katkı terimi ortalama basit bir olabilirlik fonksiyonu fonksiyonu ile tahmin edilebilir (MLE değerlendirilir) ve , boyutu : yfθ^(y)θθ^(y)yLkθ

Ey[f(x)log(gθ^(y)(x))dx]log(L(θ^(y)))+k.

AIC yukarıdaki beklentinin iki katı (HT @ Carl) olarak tanımlanmıştır ve daha küçük (daha negatif) değerler, doğru dağıtım ve modellenmiş dağıtım arasındaki daha küçük bir tahmin edilen KL sapmalarına karşılık gelir .fgθ^(y)


Bildiğiniz gibi log olasılığına uygulandığında sapma terimi jargon ve yanlış. Bunu tartışmamayı ihmal ettim çünkü AIC farklılıklarının doğrusallık değil karşılaştırılabilir değerde olması için yalnızca monotoniklik gerekiyor. Bu yüzden, muhtemelen orada olmayan ve zaten ihtiyaç duyulmayan bir şeyi “görselleştirmek” için aşırı çaba göstermenin uygunluğunu göremiyorum.
Carl

2
Son paragrafın kırmızı bir ringa balığı eklediğini anladığınızı anlıyorum ve hiç kimsenin 2 * x'in x ile aynı sırada olduğuna ikna edilmesi gerekmediğinin farkındayım. Miktarın "kongre ile" 2 ile çarpıldığını söylemek doğru olur mu?
Ben Ogorek

2
Bunun gibi bir şey. Şahsen, başlangıçta bu şekilde seçildiği için "olarak tanımlanır" için oy kullanırdım. Ya da bunu geçici bir perspektife koymak için, bir kez de dahil olmak üzere kullanılabilecek herhangi bir sabit, bir ölçeği uygulamak için bir referans standardı olmadığı için seçilmek ve uymak zorunda kalacaktı.
Carl

4

İlk iki sorunuz için basit bir bakış açısı, AIC'nin maksimum olabilirlik modelinin beklenen örneklem dışı hata oranıyla ilgili olduğudur. AIC kriteri, ilişkiye dayanmaktadır (İstatistiksel Öğrenme denkleminin 7.27 maddesi) burada, takiben, , modelinde maksimum olabilirlik değeri olan parametre sayısıdır .kmmLm,D

2E[lnPr(D|θ)]2NE[lnLm,D]+2kmN=1NE[AICm,D]
kmmLm,D

Soldaki terim , olasılık ölçüsünü hata ölçütü olarak kullanan maksimum olasılık modelinin beklenen örnek dışı "hata" oranıdır . -2 faktörü sapmayı inşa etmek için kullanılan geleneksel düzeltmedir (bazı durumlarda ki-kare dağılımını takip ettiği için yararlıdır).m={θ}

Sağ taraf, maksimize edilmiş log olasılığından tahmin edilen örnek içi "hata" oranından ve ayrıca verileri biraz fazla doldurma özgürlüğüne sahip maksimize edilmiş log olasılığının iyimserliğini düzeltmek için kullanılan teriminden .2km/N

Bu nedenle, AIC, numune dışı "hata" oranının (sapma) çarpı bir tahminidir .N

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.