AIC veya BIC'yi diğerine tercih etmek için herhangi bir sebep var mı?


222

AIC ve BIC, tahmini parametrelerin sayısı için cezalandırılmış modele uygun değerlendirme metotlarıdır. Anladığım kadarıyla BIC, AIC'den daha fazla ücretsiz parametre modeline ceza veriyor. Kriterlerin katılığına dayalı bir tercihin ötesinde, BIC yerine AIC'yi tercih etmenin başka nedenleri var mı?


1
Bu tartışmayı "özellik" seçimi veya "ortak değişken" seçimi olarak adlandırmanın daha uygun olacağını düşünüyorum. Bana göre, model seçimi, hataların dağılımının, bağlantı fonksiyonunun ve eş değişkenlerin formunun belirtilmesini içeren çok daha geniştir. AIC / BIC hakkında konuştuğumuzda, genellikle değişkenlerin seçimi hariç, model binasının tüm yönlerinin sabit olduğu durumdayız.

6
Bir modele belirli değişkenlerin dahil edilmesine karar vermek, genellikle model seçimi terimine dayanır ve modelde hangi modelin hangi değişkenlerin / parametrelerin dahil edileceğine karar veren başlıca model seçimi olan kitaplar vardır.
Michael Chernick

Sorunuzun phylogeny (biyoinformatik) özellikle geçerliyse bilmiyorum, ama eğer öyleyse, bu çalışma bu yönü üzerinde bazı düşünceler sağlayabilir: ncbi.nlm.nih.gov/pmc/articles/PMC2925852
tlorin

Birleştirilmiş soru da KIC hakkında sorular soruyor , lütfen soru metnini güncelleyin ve link ile KIC tanımını belirtin.
smci

1
@smci İnsanların ilgileniyorlarsa KIC ile ilgili soruları incelemelerini sağlamak için stats.stackexchange.com/questions/383923/… adresini ekledim .
russellpierce

Yanıtlar:


179

Sorunuz AIC ve BIC'in aynı soruyu cevaplamaya çalıştıklarını ve bunun doğru olmadığını gösteriyor. AIC, bilinmeyen, yüksek boyutlu bir gerçeği en iyi şekilde tanımlayan modeli seçmeye çalışır. Bu, gerçekliğin asla düşünülen aday modeller kümesinde olmadığı anlamına gelir. Aksine, BIC aday kümesi içinde DOĞRU modelini bulmaya çalışır. Araştırmacıların yol boyunca geliştirdiği modellerden birinde gerçeğin somutlaştırıldığı varsayımını oldukça tuhaf buluyorum. Bu BIC için gerçek bir konudur.

Bununla birlikte, BIC'nin AIC'den daha iyi olduğunu söyleyen pek çok araştırmacı var ve model kurtarma simülasyonlarını bir argüman olarak kullanıyorlar. Bu simülasyonlar, A ve B modellerinden veri üretmekten ve ardından her iki veri kümesini iki modelle uyumlu hale getirmekten ibarettir. Hatalı model, üretime göre yanlış model verilere uygun olduğunda ortaya çıkar. Bu simülasyonların amacı, AIC ve BIC'in bu aşırı kıyafetleri ne kadar iyi düzelttiklerini görmek. Genellikle, sonuçlar AIC'nin çok liberal olduğunu ve hala daha basit ve gerçek bir model yerine daha karmaşık, yanlış bir modeli tercih ettiğini göstermektedir. İlk bakışta bu simülasyonlar gerçekten iyi argümanlar gibi görünmektedir, ancak onlarla ilgili problem, AIC için anlamsız olmalarıdır. Daha önce de söylediğim gibi, AIC test edilen aday modellerin hiçbirinin gerçekten doğru olduğunu düşünmüyor. AIC'e göre, tüm modeller gerçeğe yaklaĢımlardır, ve gerçeklik asla düşük bir boyutluluğa sahip olmamalıdır. Bazı aday modellerden en azından daha düşük.

Benim tavsiyem hem AIC hem de BIC kullanmak. Çoğu zaman tercih ettikleri model üzerinde hemfikir olmadıklarında, sadece rapor ettiler.

Hem AIC hem de BIC'den memnun değilseniz ve yatırım yapmak için boş zamanınız varsa, AIC ve BIC'nin sınırlarını aşan tamamen farklı bir yaklaşım olan Minimum Açıklama Uzunluğu'na (MDL) bakın. Normalleştirilmiş maksimum olabilirlik veya Fisher Bilgi yaklaşımı gibi, MDL'den kaynaklanan birkaç önlem vardır. MDL'deki sorun matematiksel olarak zorlu ve / veya hesaplama açısından yoğun olmasıdır.

Yine de, basit çözümlere bağlı kalmak istiyorsanız, model esnekliğini değerlendirmek için iyi bir yol (özellikle parametre sayısı eşit olduğunda, AIC ve BIC'yi işe yaramaz hale getirmek), uygulanması oldukça kolay olan Parametrik Önyükleme işlemini yapıyor. İşte üzerinde bir kağıda bir link .

Buradaki bazı insanlar çapraz doğrulama kullanımının savunucusudur. Ben şahsen kullandım ve buna karşı hiçbir şeyim yok, ancak onunla ilgili sorun, örnekleme-kesme kuralı (ilk bırakma, K-katlama, vb.) Arasındaki seçimin, ilkesiz bir seçim olması.


7
Fark tamamen matematiksel bakış açısıyla görülebilir - BIC, gerçek model parametrelerinin önceden kaybolan hiçbir yerde kaybolmadan rasgele şekilde örneklendiği, log P'nin (veri) asimptotik bir genişlemesi olarak türetilmiştir
Yaroslav Bulatov

4
“BIC'nin AIC'den daha iyi olduğunu söyleyen, model kurtarma simülasyonlarını bir argüman olarak kullanan birçok araştırmacı var. Bu simülasyonlar, A ve B modellerinden veri üretmeyi ve ardından her iki veri kümesini iki modelle uydurmayı içeriyor” demiştiniz. Bazı referansları gösterecek kadar nazik misiniz? Onları merak ediyorum! :)
deps_stats

2
Bu yazıdaki ifadelere inanmıyorum.
user9352

16
(-1) Harika bir açıklama, ancak bir iddiaya itiraz etmek istiyorum. @Dave Kellen Lütfen TRUE modelinin BIC setinde olması gerektiği fikrine bir referans verebilir misiniz? Bu konuyu araştırmak istiyorum, çünkü bu kitapta yazarlar bunun böyle olmadığı konusunda ikna edici bir kanıt veriyor.
gui11aume

2
Harika cevap, ancak “gerçekliğin asla düşük boyutlara sahip olmamalı” ifadesine kesinlikle katılmıyorum. Bu, ne yoru modelleri uyguladığın "bilim" e bağlı
David

76

AIC ve BIC her ikisi de Maksimum Olabilirlik tahmini olarak hesaplansalar ve fazladan takma ile mücadele etmek için serbest parametreleri cezalandırmakla birlikte, bunu önemli ölçüde farklı davranışlarla sonuçlanan şekillerde yaparlar. Yöntemlerin genel olarak sunulan bir versiyonuna bakalım (sonuçlar normal dağılmış hataları ve diğer iyi davranış varsayımlarını şart koşuyor):

  • AIC = -2 * ln (olabilirlik) + 2 * k,

ve

  • BIC = -2 * ln (olabilirlik) + ln (N) * k,

nerede:

  • k = model serbestlik dereceleri
  • N = gözlem sayısı

Karşılaştırılan gruptaki en iyi model, her iki durumda da bu puanları en aza indiren modeldir. Açıkçası, AIC doğrudan örneklemenin büyüklüğüne bağlı değildir. Üstelik, genel olarak konuşursak, AIC, uyuşma tehlikesini de beraberinde getirirken, BIC, serbest parametreleri (AIC'de 2 * k; BIC'de ln (N) * k) cezalandırmalarından ötürü, maruz kalabileceği tehlikeyi sunmaktadır. Diyakronik olarak, veriler tanıtıldıkça ve puanlar yeniden hesaplanırken, nispeten düşük N'de (7 ve daha az) BIC, AIC'den daha serbest toleranslıdır, ancak daha yüksek N'de daha az toleranslıdır (N'nin doğal logalının 2'yi aştığı gibi).

Ek olarak, AIC bilinmeyen veri üretme sürecine en yakın yaklaşan modeli bulmayı hedeflemektedir (tahmini tahmini KL sapmalarını en aza indirerek ). Bu nedenle, olasılıkla gerçek modele (başarısız olanın değerlendirilen grupta var olduğu varsayılırsa) yakınsamada başarısız olduğu, BIC'nin N'nin sonsuzluğa eğilimi gösterdiği gibi yakınsak olduğu düşünülür.

Bu nedenle, tercih edilecek birçok metodolojik soruda olduğu gibi, ne yapmaya çalıştığınıza, başka hangi metotların mevcut olduğuna ve belirtilen özelliklerin herhangi birinin (yakınsaklık, serbest parametreler için göreceli tolerans, beklenen KL ayrışmasını en aza indirgemek) olup olmamasına bağlıdır. ), amaçlarınızla konuşun.


8
|t|>2|t|>log(n)

2
Güzel cevap, +1. Özellikle, gerçek modelin değerlendirilen grupta gerçekten var olup olmadığına dair ihtarı seviyorum. “Gerçek modelin” asla mevcut olmadığını savunuyorum . (Box & Draper, "tüm modeller yanlış, ancak bazıları yararlıdır" demiştir ve Burnham & Anderson bu "sivrilen efekt büyüklüğü" olarak adlandırmaktadır.) Bu nedenle BIC'in gerçekçi olmayan varsayımlar altındaki yakınsaması ve AIC'nin hedefleri doğrultusunda daha fazla etkilenmemesinin nedeni budur. gerçekte baktığımız modeller arasındaki en iyi yaklaşım.
Stephan Kolassa

68

Benim hızlı açıklamam

  • AIC tahmin için en iyisidir çünkü çapraz doğrulamaya asimptotik olarak eşdeğerdir.
  • BIC, altta yatan veri üretme sürecinin tutarlı bir şekilde tahmin edilmesini sağladığı için açıklama için en iyisidir.

AIC, K-kat çapraz onaylamaya eşdeğerdir, BIC, bir kez dışarı çapraz çapraz onaylamaya eşdeğerdir. Yine de, her iki teorem de yalnızca doğrusal regresyon durumunda geçerlidir.

5
mbq, AIC / LOO (LKO veya K-kat değil) ve Stone 1977'deki ispatın doğrusal modellere dayandığını sanmıyorum. BIC sonucunun detaylarını bilmiyorum.
ars

11
ars doğru. AIC = LOO ve BIC = K-katlaması, K, örneklem büyüklüğünün karmaşık bir işlevidir.
Rob Hyndman

Tebrikler, beni aldınız; Bunu yazmak için acelem vardı ve bu yüzden bu hatayı yaptım, açıkçası Rob nasıl yazdı. Yine de, modelin lineer olduğu varsayımı olan Shao 1995'ten geliyor. Stone’u analiz edeceğim, yine de bence, haklı olabilirsiniz, çünkü alanımdaki LOO çeşitli * IC’ler kadar kötü bir üne sahiptir.

Wikipedia'daki açıklama ( en.wikipedia.org/wiki/… ), K-fold cross-validation'ün, parametrelerin stabilitesini tahmin etmek için tekrarlanan bir simülasyon gibi görünmesini sağlar. AIC'nin neden LOO ile istikrarlı olacağını beklediğimi görebiliyorum (çünkü LOO ayrıntılı bir şekilde gerçekleştirilebiliyordu), ancak K'nin de ayrıntılı olmadığı sürece BIC'nin neden K-kat ile stabil olduğunu anlamıyorum. K değerinin altında yatan karmaşık formül onu yorucu kılıyor mu? Yoksa başka bir şey mi oluyor?
russellpierce

16

Tecrübelerime göre, BIC ciddi bir içgüdülendirme ile sonuçlanır ve AIC genellikle öngörücü ayrımcılığı en üst düzeye çıkarmak olduğunda iyi performans gösterir.


1
Süper gecikmeli, ancak bu hala Google'da üst sıralarda yer aldığından, hangi alanda çalıştığınızı ayrıntılandırabilir misiniz? Bakmamız gereken alanın bir etkisi olup olmadığını merak ediyorum.
09 da

@verybadatthis: klinik biyoistatistik (sadece "Frank Harrell" google, bir web varlığına sahip)
Ben Bolker 22

13

Brian Ripley tarafından AIC ve BIC'in bilgilendirici ve erişilebilir bir "türevi" burada bulunabilir: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

Ripley, matematiksel sonuçların ardındaki varsayımlar hakkında bazı açıklamalar yapar. Diğer cevapların bazılarının gösterdiğinin aksine, Ripley, AIC'nin modelin doğru olduğunu varsaymaya dayandığını vurgulamaktadır. Model doğru değilse, genel bir hesaplama "parametre sayısının" daha karmaşık bir miktarla değiştirilmesi gerektiğini ortaya çıkaracaktır. Bazı referanslar Ripley slaytlarında verilmiştir. Bununla birlikte, doğrusal regresyon için (kesin olarak bilinen bir varyansla konuşmak), genel olarak daha karmaşık olan miktarın, parametre sayısına eşit olmasını basitleştirdiğine dikkat edin.


3
(+1) Bununla birlikte, Ripley, modellerin yuvalanması gerektiğini söylediği noktada yanlıştır. Akaike'nin orijinal türetmesinde veya Kullback-Leibler ayrıntısının bir tahmincisi olarak AIC'nin kullanıldığı türev üzerinde böyle bir kısıtlama yoktur. Aslında üzerinde çalıştığım bir makalede, AIC'nin kovaryans yapılarının model seçimi için bile kullanılabileceğini "ampirik olarak" gösterdim (farklı parametreler, açıkça iç içe olmayan modeller). Farklı kovaryans yapılarıyla koştuğum binlerce zaman serisi simülasyonundan hiçbiri AIC yanlış anlamıyor ...
Néstor

... eğer "doğru" model aslında model setindeyse (bu, üzerinde çalıştığım modeller için, tahmin edicinin varyansının çok küçük olduğu anlamına gelir ... ama bu sadece teknik detay).
Néstor,

1
@ Néstor, katılıyorum. İç içe modeller hakkında mesele garip.
NRH

3
Boyuna veriler için kovaryans yapıları seçerken (karışık etki modelleri veya genelleştirilmiş en küçük kareler) AIC, 3'ten fazla aday yapı varsa kolayca yanlış yapıyı bulabilir. 3'ten fazla olması durumunda, yapıyı seçmek için AIC'nin neden olduğu model belirsizliğini ayarlamak için önyükleme şeridini veya diğer araçları kullanmanız gerekecektir.
Frank Harrell

8

Gerçekten de, tek fark, BIC'nin, nesne sayısını (numuneleri) hesaba katacak şekilde uzatılmış AIC olmasıdır. Her ikisinin de oldukça zayıf olmasına rağmen (örneğin çapraz doğrulama ile karşılaştırıldığında), AIC kullanmak daha iyi, kısaltmaya aşina olacağından daha iyidir - aslında BIC’in göreceği bir makale veya program görmedim kullanılmalı (yine de bu tür kriterlerin işe yaramadığı sorunlara taraflı olduğumu itiraf ediyorum).

Düzenleme: AIC ve BIC, iki önemli varsayımla sağlanan çapraz doğrulamaya eşdeğerdir - tanımlandıklarında, model maksimum olasılık olduğunda ve yalnızca eğitim verilerinde model performansı ile ilgileniyorsanız. Bazı verilerin bir tür fikir birliği halinde çökmesi durumunda, bunlar tamamdır.
Bazı gerçek dünya problemleri için bir tahmin makinesi yapılması durumunda, birincisi yanlıştır, çünkü eğitim setiniz uğraştığınız problemle ilgili sadece bir bilgi notunu gösterir, bu nedenle modelinizi optimize edemezsiniz; ikincisi yanlıştır, çünkü modelinizin, eğitim setinin temsilcisi olmasını bile bekleyemeyeceğiniz yeni verileri işlemesini beklersiniz. Ve bu amaçla CV icat edildi; Bağımsız bir veriyle karşılaştığında modelin davranışını simüle etmek. Model seçimi durumunda, CV size sadece yaklaşık kaliteyi değil, aynı zamanda kalite yaklaşım dağılımını da verir, bu nedenle "Yeni veri ne olursa olsun, ne olacağını bilemiyorum, bilmiyorum" diyebileceği büyük bir avantaja sahiptir. daha iyi."


Bu, belirli BIC örnek büyüklükleri için AIC'den daha az katı olabileceği anlamına mı geliyor?
russellpierce

1
Sıkı burada en iyi kelime değil, parametreler için daha hoşgörülü; Yine de, genel tanımlar için (doğal log ile) 7 ve daha az nesne için gerçekleşir.

AIC, çapraz doğrulamaya asimptotik olarak eşdeğerdir.
Rob Hyndman

5
@mbq - Çapraz doğrulamanın "temsil edilemezlik" problemini nasıl aşacağını anlamıyorum. Eğitim verileriniz gelecekte alacağınız verilerin temsilcisi değilse, istediğiniz her şeyi çapraz doğrulayabilirsiniz, ancak yüzleşeceğiniz "genelleme hatası" nı temsil etmeyecektir. true "yeni veriler, eğitim verilerinin modellenmemiş kısmı tarafından temsil edilmez). İyi bir tahminde bulunmak için temsili bir veri seti almak çok önemlidir.
olasılık

1
@mbq - benim açımdan, sorunu çözmeyen bir alternatife dayanarak IC tabanlı seçimi "nazikçe reddetmiş görünüyorsunuz." Çapraz doğrulama iyidir (hesaplamaya değer olsa da?), Ancak temsili olmayan veriler veriye dayalı bir işlem kullanarak ele alınamaz. En azından güvenilir değil. Size nasıl temsili olmadığını söyleyen önceden bir bilgiye sahip olmanız gerekir (ya da daha genel olarak, "temsili olmayan" verilerin gözlemleyeceğiniz gerçek verilerle ne kadar mantıklı bağlantıları vardır).
olasılık

5

Bahsettiğiniz gibi, AIC ve BIC, daha fazla regresör değişkenine sahip modelleri cezalandırma yöntemleridir. Modeldeki parametre sayısının bir işlevi olan bu yöntemlerde bir ceza işlevi kullanılır.

  • AIC uygulanırken, ceza işlevi z (p) = 2 p'dir .

  • BIC uygulanırken, ceza işlevi, önceki bilgileri içeren cezanın yorumlanmasına dayanan z (p) = p ln ( n ) 'dir (dolayısıyla Bayesian Information Criterion adı).

Ne zaman n büyük iki model oldukça farklı sonuçlar üretecektir. O zaman BIC karmaşık modeller için çok daha büyük bir ceza uygular ve bu nedenle AIC'den daha basit modellere yol açacaktır. Ancak, BIC’de Wikipedia’da belirtildiği gibi :

Birçok uygulamada ..., BIC'nin basit olasılıkla maksimum olasılık seçimine düştüğü, çünkü parametrelerin ilgili modeller için eşit olduğu unutulmamalıdır.


4
AIC'nin, boyut değişmediğinde ML'ye de eşdeğer olduğunu unutmayın. Cevabınız bu sadece BIC için öyle görünüyor.
Olasılık

5

Söyleyebileceğim kadarıyla AIC ve BIC arasında pek bir fark yoktur. Her ikisi de modelleri verimli bir şekilde karşılaştırmak için yapabilecekleri matematiksel olarak uygun yaklaşımlardır . Size farklı "en iyi" modeller verirlerse, bu muhtemelen yüksek model belirsizliğine sahip olduğunuz anlamına gelir; bu, AIC veya BIC kullanmanız gerekip gerekmediğinden endişelenmeniz daha önemlidir. Şahsen BIC'den daha çok hoşlanıyorum çünkü bir modelden daha fazla (daha az) bir modelin parametrelerine uyacak daha fazla (daha az) veri olup olmadığını - bir öğrencisi daha fazla (daha az) olması durumunda daha yüksek (daha düşük) bir performans standardı isteyen bir öğretmen gibi ) konu hakkında bilgi edinmek için zaman. Bana göre bu sadece sezgisel bir şey yapmak gibi görünüyor. Fakat o zaman eminim ki AIC için de aynı şekilde sezgisel ve zorlayıcı argümanlar var, basit şekli de veriliyor.

Şimdi bir yaklaşımda bulunacağınız zaman, bu yaklaşımların artık çöp olduğu durumlarda mutlaka bir takım koşullar olacaktır. Bu, orijinal yaklaşımı kötü yapan belirli koşulları hesaba katan birçok "ayar" (AICc) bulunduğu AIC için kesinlikle görülebilir. Bu, BIC için de mevcuttur, çünkü Zellner g-öncelerinin karışımlarına Tamamen Laplace Yaklaşımları gibi diğer daha kesin (ancak yine de etkili) yöntemler vardır (BIC, integraller için Laplace yaklaşım yöntemine bir yaklaşımdır).

Her ikisinin de boktan olduğu bir yer, herhangi bir modelin içindeki parametreler hakkında önemli bir ön bilginiz olduğunda. AIC ve BIC, parametrelerden kısmen bilinen modelleri, verilerden hesaplanması gereken parametreleri gerektiren modellere kıyasla gereksiz yere cezalandırır.

P(D|M,A)P(M|D,A)MMA

Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best

Ve sonra aynı olasılık modellerini (aynı parametreler, aynı veriler, aynı yaklaşımlar, vb.) Atamaya devam edin, aynı BIC değerleri setini alacağım. "M" mantıksal harfine, "gerçek model" ("gerçek dinin" yankıları) ile ilgili alakasız sorulara bir tür benzersiz anlam ekleyerek elde edilir. M'yi "tanımlayan" tek şey, hesaplamalarında onu kullanan matematiksel denklemlerdir - ve bu neredeyse hiç bir ve sadece bir tanım değildir. Eşit derecede M hakkında bir öngörü önerisinde bulunabilirdim ("bu model en iyi tahminleri verecek"). Kişisel olarak bunun herhangi bir olasılığın nasıl değişeceğini ve dolayısıyla BIC'in ne kadar iyi ya da kötü olacağını göremiyorum (bu konuda AIC - AIC farklı bir türetmeyi temel almasına rağmen).

Ve ayrıca, ifadede yanlış olan şey Eğer gerçek model kümesindeyim, o zaman B modelinin% 57 olması ihtimali vardır . Bana göre yeterince makul görünüyor, ya da daha "yumuşak" versiyonuna gidebilirseniz, B modelinin düşünülen kümenin en iyisi olma ihtimalinin% 57 olması ihtimali var.

Son bir yorum: AIC / BIC hakkında, onları tanıyan insanlar kadar çok fikir bulacağını düşünüyorum.


4

AIC nadiren kullanılmalıdır, çünkü asimptotik olarak gerçekten geçerlidir. AICc ( sonlu örneklem büyüklüğü için bir c ayarlı AIC) kullanmak neredeyse her zaman daha iyidir . AIC aşırı parametreleştirme eğilimindedir: bu sorun AICc ile büyük ölçüde azalır. AICc kullanmanın temel istisnası, temel dağılımların ağır leptokurtik olmalarıdır. Bununla ilgili daha fazla bilgi için Burnham & Anderson'dan Model Seçimi kitabına bakın .


1
Öyleyse, söylediğiniz şey AIC'nin modeller için parametreleri yeterince cezalandırmadığı, bu yüzden bunu bir kriter olarak kullanmak, aşırı parametreleştirmeye neden olabilir. Bunun yerine AICc kullanmanızı öneririz. Bunu ilk sorumun bağlamına geri koymak için, BIC zaten AIC'den daha katı olduğundan, AICc'yi BIC üzerinden kullanmak için bir neden var mı?
russellpierce

1
AIC ile neyi kastediyorsunuz, asimptotik olarak geçerlidir. John Taylor tarafından belirtildiği gibi AIC tutarsız. AIC ile BIC arasındaki zıtlıkları verilenlerin en iyileri olduğunu düşünüyorum. İkisinin çapraz doğrulama ile aynı olduğunu görmüyorum. Hepsinde, genellikle maksimum değişken sayısından daha az olan bir modelde zirve yapabilecekleri güzel bir özellik vardır. Fakat hepsi farklı modeller seçebilir.
Michael Chernick

4

AIC ve BIC, modellerin karşılaştırılmasında bilgi kriteridir. Her biri model uyumunu ve parlamentoyu dengelemeye çalışır ve her biri parametre sayısı için farklı cezalar uygular.

AIC=2k2ln(L)
kL2ln(L)2k

BIC=kln(n)2ln(L)

KIC'i hiç duymadım.


KIC'yi de duymadım, ancak AIC ve BIC için bağlantılı soruya bakın ya da AIC'yi arayın. stats.stackexchange.com/q/577/442
Henrik

1
(Bu cevap, aynı zamanda "KIC" nin yorumlanmasını da içeren, yinelenen bir soru ile birleştirildi.)
whuber

3
Modellerin AIC veya BIC ile karşılaştırılmak için yuvalanması gerekmez.
Makro

1

Çok kısaca:

  • n
  • P(D|M,A)(D=Data,M=model,A=assumptions)P(M|D,A)nnk=n[11/(log(n)1)]n=örneklem büyüklüğü (Shao 1997). BIC'in, marjinal ihtimalin farklı yaklaşımlarını yapmak veya farklı öncelikler almakla ortaya çıkan birçok farklı versiyonu vardır. Örneğin, orijinal BIC'deki tüm olası modellerin önceki bir üniformasını kullanmak yerine, EBIC sabit büyüklükteki modellerin önceki bir üniformasını kullanır ( Chen & Chen 2008 ), BICq ise dahil edilecek her parametrenin önceki olasılığını belirten bir Bernouilli dağılımı kullanır .

lambda=2lambda=log(n)Bir hedefi optimize etmenin (LASSO veya elastik net regresyon), başka bir amaca (örneğin çapraz doğrulama tahmin hatasını, AIC veya BIC'yi en aza indirgeyen) başka bir amaca dayanarak düzenlileştirme parametrelerinin ayarlanması takip edilir.

n1n

LOOCV hatasının ayrıca , herhangi bir çapraz onaylama yapmak zorunda kalmadan , artıklardan ve şapka matrisinin köşegeninden analitik olarak hesaplanabileceğini unutmayın . Bu, her zaman AIC'ye, LOOCV hatasının asimptotik bir yaklaşımı olarak bir alternatif olacaktır.

Referanslar

Stone M. (1977) Çapraz doğrulama ve Akaike kriterine göre model seçiminin asimptotik bir denkliği. Kraliyet İstatistik Kurumu Serisi B. B. 39, 44–7.

Shao J. (1997) Doğrusal model seçimi için asimptotik bir teori. Statistica Sinica 7, 221-242.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.