AIC ve BIC, örneğin aşamalı regresyonda kullanılır. Onlar aslında kullanılan daha büyük bir "sezgisel tarama" sınıfının parçasıdırlar. Örneğin DIC (Sapma Bilgisi Kriteri) genellikle Bayesci Model seçiminde kullanılır.
Ancak, temelde "sezgisel tarama" dır. Her ne kadar AIC ve BIC'nin asemptotik olarak çapraz validasyon yaklaşımlarına (AIC'nin bir defalık CV'ye ve BIC'yi başka bir yaklaşıma doğru gittiğini düşünüyorum, ancak emin değilim) gösterilebilir. sırasıyla az ceza ve aşırı ceza. Yani AIC kullanarak genellikle olması gerekenden daha karmaşık bir model alırken, BIC ile genellikle çok basit bir model elde edersiniz.
Her ikisi de CV ile ilişkili olduğundan, CV genellikle daha iyi bir seçimdir, bu da bu sorunlardan muzdarip değildir.
Son olarak BIC ve AIC için gerekli parametrelerin sayısı sorunu var. Gerçek değerli girişlerde genel fonksiyon tahmin edicileri (örn. KNN'ler) ile parametreleri "gizlemek", yani iki gerçek sayı ile aynı bilgileri içeren gerçek bir sayı oluşturmak mümkündür (örneğin, rakamlarla kesişmeyi düşünün). Bu durumda, gerçek parametre sayısı nedir? Öte yandan, daha karmaşık modellerde, parametreleriniz üzerinde kısıtlamalar olabilir, sadece θ1>θ2 gibi parametrelere uyabileceğinizi varsayalım (örneğin buraya bakın ). Veya tanımlanamayabilirsiniz, bu durumda parametrelerin birden çok değeri aslında aynı modeli verir. Tüm bu durumlarda, sadece parametrelerin sayılması uygun bir tahmin vermez.
Birçok çağdaş makine-öğrenme algoritması bu özellikleri gösterdiğinden (yani evrensel yaklaşım, belirsiz sayıda parametre, tanımlanamazlık), AIC ve BIC bu model için ilk bakışta göründüğünden daha az kullanışlıdır.
DÜZENLE :
Açıklığa kavuşturulabilecek bazı noktalar:
- Görünüşe göre basamakları araya ekleyerek R→RN ( burada bakınız ) arasında bir bijection yaparak haritalamayı düşünmek yanlışmış gibi görünüyor . Ancak, bunun bir neden olmadığının ayrıntılarını anlamak biraz zor. Bununla birlikte, aslında bu fikrin çalışması için bir bijeksiyona ihtiyacımız yok (bir kesinti yeterlidir).
- İle ispat göre Cantor (1877) arasında bir bijection olmalıdır R→RN . Bu karar açık bir şekilde tanımlanamasa da, varlığı kanıtlanabilir (ancak bu, kanıtlanmamış seçim aksiyomunu gerektirir). Bu bijection, teorik bir modelde (bu modeli bir bilgisayara uygulamak aslında mümkün olmayabilir), tek bir parametreyi rastgele sayıda parametreye açmak için kullanılabilir.
- Aslında bir bijection olmak için R→RN arasındaki haritalamaya ihtiyacımız yok . Herhangi bir amaç fonksiyonu R→RN , birden fazla parametreyi tek bir parametreden çıkarmak için yeterlidir. Bu tür enjeksiyonların bir dizi başka fonksiyonun ( boşluk doldurma eğrileri , örneğin Peano eğrisi ) bir limiti için sınırlar olarak var olduğu gösterilebilir .
- Ne Cantor'un kanıtı yapıcı değildir (örnek vermeden basitçe bijeksiyonun varlığını kanıtlar), ne de boşluk doldurma eğrileri (çünkü bunlar sadece yapıcı nesnelerin sınırları olarak bulunurlar ve bu nedenle yapıcı değillerdir), argüman I yapılan sadece teorik bir kanıttır. Teorik olarak, BIC'yi istenen herhangi bir değerin (eğitim setinde) altına düşürmek için bir modele parametre eklemeye devam edebiliriz. Bununla birlikte, gerçek bir model uygulamasında boşluk doldurma eğrisine yaklaşmak zorundayız, bu yüzden yaklaşık hata, bunu gerçekten yapmamızı engelleyebilir (Aslında bunu test etmedim).
- Bütün bunlar seçim aksiyomunu gerektirdiğinden, bu aksiyomu kabul etmezseniz kanıt geçersiz olur (çoğu matematikçi bunu yaparsa da). Bu, yapıcı matematikte bu mümkün olmayabilir, ancak yapıcı matematiğin istatistik için hangi rolü oynadığını bilmiyorum.
- NRN+1RNRNRN. Ancak, bu sadece gayri resmi bir argüman, bu "karmaşıklık" kavramının resmi bir muamelesini bilmiyorum.