Değişken seçiminde çelişkili yaklaşımlar: AIC, p değerleri veya her ikisi mi?


13

Anladığım kadarıyla, p-değerlerine (en azından regresyon bağlamında) dayalı değişken seçim çok kusurlu. AIC'ye (veya benzeri) dayalı değişken seçimin de benzer nedenlerle bazıları tarafından kusurlu olduğu düşünülmektedir, ancak bu biraz belirsiz görünmektedir (örneğin soruma ve bu konudaki bazı bağlantılara bakın: "Kademeli model seçimi" tam olarak nedir? ).

Ancak, modelinizdeki en iyi öngörücüler kümesini seçmek için bu iki yöntemden birini tercih ettiğinizi varsayalım.

Burnham ve Anderson 2002 (Model Seçimi ve Çok Modlu Çıkarım: Pratik Bir Bilgi-Teorik Yaklaşım, sayfa 83), kişinin hipotez testine dayanan AIC'ye dayalı değişken seçimi karıştırmamaları gerektiğini belirtmektedir : "Sıfır hipotez ve bilgi-teorik yaklaşım testleri birlikte kullanılmazlar; çok farklı analiz paradigmalarıdır. "

Öte yandan Zuur ve ark. 2009 (R ile Ekolojide Eklentilere Sahip Karışık Etkili Modeller, sayfa 541) , önce en uygun modeli bulmak için AIC kullanımını savunuyor ve sonra hipotez testini kullanarak "ince ayar" gerçekleştiriyor gibi görünüyor : "Dezavantajı AIC'nin muhafazakar olabilmesidir. ve AIC en uygun modeli seçtikten sonra bazı ince ayarları uygulamanız gerekebilir (birinci yaklaşımdan hipotez test prosedürleri kullanarak). "

Bunun, her iki kitabın okuyucusunu hangi yaklaşımı izleyeceği konusunda nasıl karışık bıraktığını görebilirsiniz.

1) Bunlar sadece istatistiksel düşüncenin farklı "kampları" mı ve istatistikçiler arasında bir anlaşmazlık konusu mu? Bu yaklaşımlardan biri şu an "modası geçmiş" midir, ancak yazma sırasında uygun görülmüştür? Yoksa en başından beri yanlış mı?

2) Bu yaklaşımın uygun olacağı bir senaryo var mı? Örneğin, biyolojik bir arka plandan geliyorum, burada hangi değişkenlerin cevabımı etkilediğini veya etkilediğini belirlemeye çalışıyorum. Sık sık aday açıklayıcı değişkenlerim var ve hangisinin "önemli" (göreceli olarak) olduğunu bulmaya çalışıyorum. Ayrıca, aday prediktör değişkenleri kümesinin zaten bazı biyolojik ilgileri olduğu düşünülenlere indirgenmiş olduğuna dikkat edin, ancak yine de 5-20 aday prediktör içerebilir.


3
Zuur'un AIC seçiminden sonra hipotez testi ile ince ayar için istatistiksel argümanın ne olacağını merak ediyorum. Uyumlu bir model oluşturma stratejisi gibi görünmüyor. Ama bu şeyler hakkında yeterince bilgim yok.
Richard Hardy

2
Benim önsezim, Zuur ve arkadaşlarının önerisinin kötü olması (model seçimi için neden önem testlerini kullanasınız?), Ancak Burnham ve Anderson'ın ifadesinin de doğru olduğundan emin değilim. Bu iyi bir soru, ancak cevaplamak için şimdiye kadar okuduğumdan daha ayrıntılı teknik ayrıntıları okumak zorundayım.
Kodiologist

Panel satışlarını tahmin etmek için modellerde her iki yöntemi de kullandım. AIC tabanlı adım adım geriye doğru regresyon deneyimlerimden daha iyi sonuçlar veriyor gibi görünüyordu.
Souptik Dhar

1
@SouptikDhar, "daha iyi" sonuçlar derken, tam olarak ne demek istiyorsun?
Tilen

Belki de cevap analizin amacına bağlıdır? Gözlemsel bir çalışmada, veri kümesi verilen en parsiyel modeli bulmak, örneğin "AIC'ye dayalı değişken seçim" e dayanmak istenebilir. Bununla birlikte, eğer amaç teste bir hipotez koymaksa, hipotezimize ilgi duyan değişkenler için yeterli vekiller açısından hipotezin bir izi olan model, başlangıçtan beri belirtilmiştir, bu nedenle değişken seçim IMHO?
Rodolphe

Yanıtlar:


6

Kısa bir cevap.

Veriye dayalı model seçimi veya ayarlama yapma, ardından seçilen / ayarlanan modelde (à la Zuur ve diğerleri ve Crawley gibi diğer saygın ekolojistler) standart çıkarımsal yöntemler kullanma yaklaşımı her zaman aşırı kapsamlı sonuçlar verecektir : aşırı dar güven aralıklar (zayıf kapsama alanı), aşırı küçük p değerleri (yüksek tip I hatası). Bunun nedeni, standart çıkarımsal yöntemlerin modelin bir a priori olduğunu varsaymasıdır ; model ayarlama işlemini dikkate almazlar.

Bu nedenle Frank Harrell ( Regresyon Modelleme Stratejileri ) gibi araştırmacılar , aşamalı regresyon gibi veri odaklı seçim tekniklerini güçlü bir şekilde onaylamamaktadır ve kişinin model karmaşıklığında herhangi bir azalma ("boyut küçültme", örneğin öngörücü değişkenlerin PCA'sını hesaplama) ve ilk birkaç PCA eksenini belirteç olarak seçmek) yalnızca tahmin değişkenlerine bakarak .

Sadece en iyi tahmin modelini bulmakla ilgileniyorsanız (ve çıkarım alanına giren tahmininizin belirsizliği hakkında herhangi bir güvenilir tahminle ilgilenmiyorsanız!), O zaman veriye dayalı model ayarı iyidir (ancak kademeli seçim nadiren mevcut en iyi seçenektir); makine öğrenimi / istatistiksel öğrenme algoritmaları, en iyi tahmin modelini elde etmek için çok fazla ayar yapar. "Test" veya "örnek dışı" hatası ayrı, bekletilen bir örnek üzerinde değerlendirilmelidir veya herhangi bir ayarlama yönteminin çapraz doğrulama prosedürüne dahil edilmesi gerekir.

Bu konudaki görüşlerde tarihsel bir evrim var gibi görünmektedir; birçok klasik istatistiksel ders kitabı, özellikle regresyona odaklananlar, model seçiminin etkilerini hesaba katmadan standart çıkarımsal prosedürler ve ardından aşamalı yaklaşımlar sunarlar [alıntı gerekli…]

Değişken önemi ölçmenin birçok yolu vardır ve hepsi değişken sonrası seçim tuzağına düşmez.

  • Burnham ve Anderson AIC ağırlıklarının toplanmasını önerir; bu yaklaşım konusunda biraz anlaşmazlık var.
  • Tam modele (uygun şekilde ölçeklendirilmiş / birimsiz öngörücülerle) sığabilir ve öngörücüleri tahmini büyüklük [biyolojik etki büyüklüğü] veya Z-skoru [“netlik” / istatistiksel etki büyüklüğü] ile sıralayabilirsiniz.

1

Biyolojik bir geçmişim var ve bir üniversite hastanesinde çalışan işe alınmış bir biyoistatistim. Özellikle son zamanlarda Harrell'in www hakkındaki görüşleri ve Regresyon Modelleme Stratejileri adlı kitabı da dahil olmak üzere çok şey okudum. Artık onu alıntılamak değil, deneyimlerden bahsetmek gerekirse: Alanla ilgili, bence bu hesaplanması gereken ilk seviye. İkinci seviye iyi bir rasyonel yaklaşım elde etmek olacaktır, yani tahminçilerinizin tahmin etmek istediğiniz şeyi bilimsel deneyimle ifade etmek için temel anlamlı olması gerekir. Üçüncüsü, çok önemli olan ve alınan istatistiksel yaklaşım ya da içgörü ile ele alınabilecek etkileşimleri hesaba katmak olacaktır. Hastane verileriyle ilgili benim durumumda seçilen yöntem, sadece yaklaşık 4 x 10 ^ 3 veri noktasına ve x * 10 ^ 1 gözlemlere sahiptir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.