Akaike bilgi kriteri neden makine öğreniminde daha fazla kullanılmıyor?


16

Az önce "Akaike bilgi kriteri" ile karşılaştım ve model seçimiyle ilgili bu büyük miktarda literatürü fark ettim (BIC gibi şeyler de var gibi görünüyor).

Çağdaş makine öğrenimi yöntemleri neden bu BIC ve AIC modeli seçim kriterlerinden yararlanmıyor?


9
çünkü hiç kimse olasılıkları hesaplamıyor?
Aksakal

1
"Çağdaş makine öğrenme yöntemleri" ile ne demek istiyorsun? Kullandığım kadarıyla AIC ve BIC sık kullanılır.
Ferdi

4
Ayrıca neden -1? Aptalca soru olmadığını unutmayın - her soru evrene ışık tutmaya çalışır
echo

4
@echo: İndirmedim, ancak ana iddiayı kaynaklayabilir / destekleyebiliyorsanız sorunuzun geliştirileceğini düşünüyorum (makine öğrenme yöntemleri bu BIC ve AIC modeli seçim kriterlerinden yararlanıyor)
user603

2
@Aksakal Teşekkürler. Bence kapsamlı bir iddia etrafında inşa edilen soruların bu iddiayı kaynaklayabilmesi daha iyi olur. Genel bir kural olarak kastediyorum.
user603

Yanıtlar:


15

AIC ve BIC, örneğin aşamalı regresyonda kullanılır. Onlar aslında kullanılan daha büyük bir "sezgisel tarama" sınıfının parçasıdırlar. Örneğin DIC (Sapma Bilgisi Kriteri) genellikle Bayesci Model seçiminde kullanılır.

Ancak, temelde "sezgisel tarama" dır. Her ne kadar AIC ve BIC'nin asemptotik olarak çapraz validasyon yaklaşımlarına (AIC'nin bir defalık CV'ye ve BIC'yi başka bir yaklaşıma doğru gittiğini düşünüyorum, ancak emin değilim) gösterilebilir. sırasıyla az ceza ve aşırı ceza. Yani AIC kullanarak genellikle olması gerekenden daha karmaşık bir model alırken, BIC ile genellikle çok basit bir model elde edersiniz.

Her ikisi de CV ile ilişkili olduğundan, CV genellikle daha iyi bir seçimdir, bu da bu sorunlardan muzdarip değildir.

Son olarak BIC ve AIC için gerekli parametrelerin sayısı sorunu var. Gerçek değerli girişlerde genel fonksiyon tahmin edicileri (örn. KNN'ler) ile parametreleri "gizlemek", yani iki gerçek sayı ile aynı bilgileri içeren gerçek bir sayı oluşturmak mümkündür (örneğin, rakamlarla kesişmeyi düşünün). Bu durumda, gerçek parametre sayısı nedir? Öte yandan, daha karmaşık modellerde, parametreleriniz üzerinde kısıtlamalar olabilir, sadece θ1>θ2 gibi parametrelere uyabileceğinizi varsayalım (örneğin buraya bakın ). Veya tanımlanamayabilirsiniz, bu durumda parametrelerin birden çok değeri aslında aynı modeli verir. Tüm bu durumlarda, sadece parametrelerin sayılması uygun bir tahmin vermez.

Birçok çağdaş makine-öğrenme algoritması bu özellikleri gösterdiğinden (yani evrensel yaklaşım, belirsiz sayıda parametre, tanımlanamazlık), AIC ve BIC bu model için ilk bakışta göründüğünden daha az kullanışlıdır.

DÜZENLE :

Açıklığa kavuşturulabilecek bazı noktalar:

  1. Görünüşe göre basamakları araya ekleyerek RRN ( burada bakınız ) arasında bir bijection yaparak haritalamayı düşünmek yanlışmış gibi görünüyor . Ancak, bunun bir neden olmadığının ayrıntılarını anlamak biraz zor. Bununla birlikte, aslında bu fikrin çalışması için bir bijeksiyona ihtiyacımız yok (bir kesinti yeterlidir).
  2. İle ispat göre Cantor (1877) arasında bir bijection olmalıdır RRN . Bu karar açık bir şekilde tanımlanamasa da, varlığı kanıtlanabilir (ancak bu, kanıtlanmamış seçim aksiyomunu gerektirir). Bu bijection, teorik bir modelde (bu modeli bir bilgisayara uygulamak aslında mümkün olmayabilir), tek bir parametreyi rastgele sayıda parametreye açmak için kullanılabilir.
  3. Aslında bir bijection olmak için RRN arasındaki haritalamaya ihtiyacımız yok . Herhangi bir amaç fonksiyonu RRN , birden fazla parametreyi tek bir parametreden çıkarmak için yeterlidir. Bu tür enjeksiyonların bir dizi başka fonksiyonun ( boşluk doldurma eğrileri , örneğin Peano eğrisi ) bir limiti için sınırlar olarak var olduğu gösterilebilir .
  4. Ne Cantor'un kanıtı yapıcı değildir (örnek vermeden basitçe bijeksiyonun varlığını kanıtlar), ne de boşluk doldurma eğrileri (çünkü bunlar sadece yapıcı nesnelerin sınırları olarak bulunurlar ve bu nedenle yapıcı değillerdir), argüman I yapılan sadece teorik bir kanıttır. Teorik olarak, BIC'yi istenen herhangi bir değerin (eğitim setinde) altına düşürmek için bir modele parametre eklemeye devam edebiliriz. Bununla birlikte, gerçek bir model uygulamasında boşluk doldurma eğrisine yaklaşmak zorundayız, bu yüzden yaklaşık hata, bunu gerçekten yapmamızı engelleyebilir (Aslında bunu test etmedim).
  5. Bütün bunlar seçim aksiyomunu gerektirdiğinden, bu aksiyomu kabul etmezseniz kanıt geçersiz olur (çoğu matematikçi bunu yaparsa da). Bu, yapıcı matematikte bu mümkün olmayabilir, ancak yapıcı matematiğin istatistik için hangi rolü oynadığını bilmiyorum.
  6. NRN+1RNRNRN. Ancak, bu sadece gayri resmi bir argüman, bu "karmaşıklık" kavramının resmi bir muamelesini bilmiyorum.


1
@LiKao Kesişen basamaklar gibi gizleme parametrelerinin "tekniklerine" atıfta bulunabilir misiniz?
horaceT

@horaceT Ne yazık ki bu örneği veren bir kağıt bilmiyorum. MDL ile ilgili makalelerde "fonksiyonel karmaşıklık" kavramı vardır (örn. Lpl.psy.ohio-state.edu/documents/MNP.pdf bkz. Denk 10). Genellikle örnek kısıtlı parametrelerle yapılır (örn. Researchgate.net/publication/… ). Bunu tartışırken örneği ters çevirmeyi seviyorum ve karmaşık bir tek parametrenin birden çok basit parametreyi yakalayabildiğini gösterdim çünkü daha sezgisel buluyorum.
LiKao

f1,2:RR2f1,N:RRNNf1,NNN1

@LiKao Bu oldukça etkileyici. Pls adı geçen "dosyalama eğrileri" kanıt referans. Kısıtlı parametrelerin "daha az" serbestlik derecesine sahip olduğunu görebiliyordum. Naif olarak, f (x, y) = 0 ise, y sadece x'in bir fonksiyonudur; g'yi (x) y'nin olduğu yere koyarsınız. Kısıtlı optimizasyon ile benzer şeyler yapamazsınız.
horaceT
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.