Aşamalı AIC - Bu konuyu çevreleyen tartışmalar var mı?


17

Bu sitede, p-değerlerine dayalı, AIC, BIC vb.

Bu prosedürlerin neden değişkenlerin seçimi için genel olarak oldukça zayıf olduğunu anlıyorum. gung'un buradaki muhtemelen ünlü gönderisi nedenini açıkça göstermektedir; sonuçta, sadece veri taraması olan hipotezi ortaya koyduğumuz aynı veri kümesinde bir hipotezi doğrularız. Ayrıca, p-değerleri, çarpıklık ve uç değerler gibi büyük ölçüde çarpıklık gösteren miktarlardan etkilenir.

Bununla birlikte, son zamanlarda biraz zaman tahminlerini inceliyorum ve Hyndman'ın saygın ders kitabına rastladım, burada özellikle ARIMA modellerinin en uygun sırasını bulmak için kademeli seçimin kullanılmasından bahsediyor . Aslında, forecastR'deki pakette auto.arimavarsayılan olarak bilinen iyi bilinen algoritma aşamalı seçim kullanır (p-değerleri değil AIC ile). Ayrıca, bu web sitesindeki birden çok gönderiyle iyi uyum sağlayan p değerine dayalı özellik seçimini de eleştiriyor.

Sonuç olarak, eğer hedef öngörme / tahmin için iyi modeller geliştirmekse, sonunda her zaman bir şekilde geçerliliği doğrulamalıyız. Ancak, p değerleri dışındaki değerlendirme metrikleri için prosedürün kendisi söz konusu olduğunda, bu kesinlikle bir anlaşmazlıktır.

Bu bağlamda, ama aynı zamanda genel olarak bu bağlamda kademeli AIC kullanımı hakkında herhangi bir fikri olan var mı? Herhangi bir kademeli seçimin kötü olduğuna inanmam öğretildi, ama dürüst olmak gerekirse, auto.arima(stepwise = TRUE)bana örnek sonuçlardan daha iyi verdim auto.arima(stepwise = FALSE)ama belki de bu sadece tesadüf.


Tahmincilerin kabul edebileceği birkaç şeyden biri, bir "en iyi" modelin seçilmesinin genellikle birden fazla farklı modeli birleştirmekten daha az işe yaramasıdır.
S.Kolassa - Monica'yı eski haline getir

Yanıtlar:


20

Burada birkaç farklı sorun var.

  • Muhtemelen ana sorun, model seçiminin (ister p-değerleri ister AIC'ler, kademeli olarak veya tüm alt-gruplar veya başka bir şey kullanması) çıkarım için öncelikle sorunlu olmasıdır (örneğin, uygun tip I hata ile p-değerlerinin alınması, uygun kapsama alanına sahip güven aralıkları). İçin tahmini , model seçim gerçekten eğilim varyans takas ekseni üzerinde daha iyi bir yer almak ve dışı örneği geliştirmek hata.
  • Bazı model sınıfları için, AIC asemptotik olarak bir defalık CV hatası ile eşdeğerdir [bkz. Http://www.petrkeil.com/?p=836 ], bu nedenle AIC'yi CV için hesaplama açısından verimli bir proxy olarak kullanmak mantıklıdır.
  • Kademeli seçim genellikle diğer model seçim (veya ortalama ) yöntemleriyle (hesaplamalı olarak uygulanabilirse tüm alt kümeler veya büzülme yöntemleri) baskındır . Ancak uygulanması basit ve kolaydır ve cevap yeterince açıksa (güçlü sinyallere karşılık gelen bazı parametreler, diğerleri zayıf, orta seviye), o zaman makul sonuçlar verecektir. Yine, çıkarım ve tahmin arasında büyük bir fark vardır. Örneğin, güçlü bir şekilde ilişkilendirilmiş birkaç öngörücünüz varsa, yanlış olanı ("gerçek" / nedensel bakış açısından) seçmek, çıkarım için büyük bir sorundur, ancak size en iyi AIC'yi vermek için olanı seçmek mantıklıdır. tahmin stratejisi (öngörücülerin korelasyonunun değiştiği bir durumu tahmin etmeye çalışırsanız başarısız olacak olsa da ...)

Alt satır: makul bir sinyal / gürültü oranına sahip orta büyüklükteki veriler için, AIC tabanlı aşamalı seçim gerçekten savunulabilir bir öngörücü model üretebilir ; bir örnek için bkz. Murtaugh (2009).

Murtaugh, Paul A. "Gerçek ekolojik verilere uygulanan çeşitli değişken seçim yöntemlerinin performansı." Ekoloji harfleri 12, no. 10 (2009): 1061-1068.


p

Lütfen beni Burnham ve Anderson'da kullanmaya başlama. github.com/bbolker/discretization
Ben Bolker
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.