Model seçiminde paradoks (AIC, BIC, açıklamak veya tahmin etmek?)


18

Galit Shmueli'nin "Açıklamak ya da Tahmin Etmek" (2010) bölümünü okuduktan sonra bariz bir çelişkiyle şaşkınım . Üç bina var,

  1. AIC - BIC tabanlı model seçimine karşı (s. 300 sonu - s. 301 başlangıcı): basitçe söylemek gerekirse, tahmin için amaçlanan bir model seçmek için AIC, açıklama için bir model seçmek için BIC kullanılmalıdır . Ek olarak (yukarıdaki makalede değil), bazı koşullar altında BIC'nin aday model seti arasında gerçek modeli seçtiğini biliyoruz ; gerçek model açıklayıcı modellemede aradığımız şeydir (s. 293'ün sonu).
  2. Basit aritmetikler: AIC, 8 veya daha büyük boyutlu numuneler için BIC'den daha büyük bir model seçecektir ( ln(n)>2 BIC'ye karşı farklı karmaşıklık cezaları nedeniyle ln ( n ) > 2'yi tatmin eden).
  3. "True" modeli (doğru regresörler ve doğru fonksiyonel formda ama eksik tahmin katsayılarla yani modeli) tahmin için en iyi model olmayabilir (s 307).: Eksik öngörücü bir regresyon modeli, daha iyi bir tahmin modeli olabilir - eksik öngörücüye bağlı önyargıların ortaya çıkması, tahmin tutarsızlığı nedeniyle varyansın azalmasıyla daha ağır basabilir.

Nokta 1 ve 2, daha büyük modellerin tahmin için daha fazla modellerden daha iyi olabileceğini düşündürmektedir. Bu arada, 3. nokta, daha cimri bir modelin tahmin için daha büyük bir modelden daha iyi olduğu durumun tersi bir örnek verir . Bu şaşırtıcı buluyorum.

Sorular:

  1. Noktalar arasındaki görünür çelişki {1. ve 2.} ve 3. açıklanacak / çözülecek mi?
  2. 3. nokta ışığında, AIC tarafından seçilen daha büyük bir modelin tahmin için neden BIC tarafından seçilen daha cimri bir modele göre daha iyi olduğu konusunda sezgisel bir açıklama verebilir misiniz?

2
Paradoksu / çelişkiyi anlamıyorum. AIC etkilidir (asemptotik olarak beklenen tahmin hatasını en aza indirir) ve BIC tutarlıdır (asimptotik olarak gerçek düzeni seçer). Madde 3) sapmanın varyansla daha ağır basabileceğini söylüyor. Belli bir örnekte birinin diğerinden daha iyi olduğuna dair hiçbir garanti yoktur. Yani "paradoksunuz" belirli bir örnek için AIC, tahmin için en iyi olmayabilir, ki bu hiç de şaşırtıcı değildir. Q2'niz için: BIC'nin daha küçük modelinin neden olduğu önyargı artışı AIC'nin daha büyük varyans artışından daha büyükse, AIC daha iyidir.
16:42

2
Nils Hjort ve Gerda Claeskens'in "Model Seçimi ve Model Ortalaması" bölümünün ilk bölümlerine bakmanızı öneririm, belki bu bazı şeyleri temizler.
hejseb

Yanıtlar:


1

Aynı bağlamda alınmamalıdırlar; 1. ve 2. noktaların farklı bağlamları vardır. Hem AIC hem de BIC için birincisi, hangi sayının en iyi indeksleri verdiğini hangi parametrelerin araştırdığını araştırır (Bazı yazarlar, dizin kelimesini kullandığımda epileptik uyuyorbu içerikte. Bunları yok sayın veya sözlükteki dizine bakın.) 2. noktada, AIC daha zengin olan modeldir, burada daha zengin olan parametreler daha fazla parametreye sahip modelleri seçmek anlamına gelir, çünkü çoğu zaman optimum AIC modeli BIC ile aynı sayıda parametre modelidir. seçimi. Yani, eğer AIC ve BIC, AYNI parametre sayısına sahip modelleri seçerse, iddia AIC'nin tahmin için BIC'den daha iyi olacağıdır. Bununla birlikte, eğer BIC daha az sayıda parametre modeli seçiliyse (ancak garanti yoksa) tersine dönebilir. Sober (2002), AIC'nin tahmin doğruluğunu ölçtüğü, BIC ise uyum iyiliğini ölçtüğü ve tahmin doğruluğunun x'in aşırı değer aralığının dışında y'yi tahmin etmek anlamına gelebileceği sonucuna varmıştır. Dışarıdayken, genellikle zayıf öngörücü parametrelere sahip daha az optimal AIC, seçili modelindeki daha fazla parametreden alınan optimum AIC endeksinden daha iyi tahmin edilen değerleri daha iyi tahmin eder. AIC ve ML'nin, modeller için ayrı bir test olan ekstrapolasyon hata testi ihtiyacını ortadan kaldırmadıklarını not ediyorum. Bu, "eğitim" setindeki aşırı değerleri alıkoyarak ve tahmin edilen "eğitim sonrası" modeli ile gizli veriler arasındaki hatayı hesaplayarak yapılabilir.

f(x)-ykalıntılar (bir tarafta daha fazla negatif kalıntı ve diğer tarafta daha fazla pozitif kalıntı düşünün) böylece toplam hatayı azaltır. Bu durumda x değeri verilen en iyi y değerini istiyoruz ve AIC için x ile y arasında en iyi fonksiyonel ilişkiyi daha yakından istiyoruz. Bunlar arasındaki bir fark, örneğin, BIC, diğer parametre seçimlerinin eşit olması, model ve veriler arasında daha iyi bir korelasyon katsayısına sahip olacağı ve AIC'nin belirli bir ekstrapolasyonlu x değeri için y değeri hatası olarak ölçülen daha iyi ekstrapolasyon hatasına sahip olacağıdır.

Nokta 3 bazı durumlarda bazen bir ifadedir

  • σ


  • β2

  • öngörücüler arasında yüksek korelasyon olduğunda; ve

  • örneklem büyüklüğü küçük veya kalan değişkenler aralığı küçük olduğunda.

2222

Bu ifadelerin iyimser olduğuna dikkat çekmek isterim. Tipik olarak modeller yanlıştır ve genellikle daha iyi bir model, AIC veya BIC ile kullanılamayan bir normu uygular veya uygulamaları için yanlış kalıntı yapısı varsayılır ve alternatif önlemlere ihtiyaç vardır. Yaptığım işte hep böyle.


1
Soruları cevapladığınızdan emin değilim. Bilgi kriterlerinin genel sınırlamalarının farkındayım, ama bunu soruyorum. Dahası, eğer AIC ve BIC SAME parametre sayısına sahipse, AIC'nin tahmin için BIC'den daha iyi olacağı iddiasını anlamıyorum . Alternatif modeller aynı sayıda parametreye sahip olduğunda, AIC ve BIC karşılaştırması olasılıkları karşılaştırmak için kaybolur ve hem AIC hem de BIC aynı alternatifi seçecektir. Daha iyi bir modelle ne demek istediğinizi AIC veya BIC ile kullanılamayacak bir norm uygular mısınız?
Richard Hardy

Devam: Olasılık ve serbestlik derecesine sahip olduğumuz sürece, AIC ve BIC'yi hesaplayabiliriz.
Richard Hardy

@RichardHardy True: Olasılık ve serbestlik derecesine sahip olduğumuz sürece, AIC ve BIC'yi hesaplayabiliriz. Ancak, artıklar Student's-T ise ve Student-T için AIC ve BIC kullanmadıysanız hesaplama alt optimal ve yanıltıcı olacaktır. Student-T'nin aksine, ML'nin yayınlanamayacağı kalıntıların dağılımları vardır, örneğin Gamma, Beta vb.
Carl

Açıklama için teşekkürler! Yukarıdaki sorulara oldukça basit ve genel bir cevap olması gerektiğine inanıyorum. Daha spesifik olarak, "çirkin" vakaları ve AIC ve BIC başarısızlıklarını içermesi gerektiğini düşünmüyorum. Aksine, paradoksun neden gerçek olmaktan ziyade sadece belirgin olduğunu gösteren oldukça temel bir durum olması gerektiğini hissediyorum. Aynı zamanda, ikinci paragrafınız ters yöne gidiyor gibi görünüyor. Kendi başına değerli olmayacağından değil, korkarım ki buradaki gerçek sorulardan bizi rahatsız edebilir.
Richard Hardy

@RichardHardy Genellikle pratik soru AIC için zorlayıcıdır. Örneğin, farklı normlar ve / veya veri dönüşümleri ile aynı veya farklı modellerin karşılaştırılması veya karmaşık normların analizi, örneğin, türetilmiş bir parametrenin Tikhonov düzenlenmesi, genel tersler vb. , BIC yanlış.
Carl
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.