AIC veya p değeri: model seçimi için hangisini seçmeli?


22

Bu R şeyinde yeniyim ama hangi modeli seçeceğimi bilemiyorum.

  1. En düşük AIC'ye dayanarak her bir değişkeni seçerek adım adım ileri regresyon yaptım . Hangi modelin "en iyisi" olduğundan emin değilim.

    Model 1: Var1 (p=0.03) AIC=14.978
    Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
    Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
    

    Model # 3'e geçmeye meyilliyim çünkü en düşük AIC'ye sahip (negatifin iyi olduğunu duydum) ve p değerleri hala oldukça düşük.

    Hatchling Mass'ın belirleyicisi olarak 8 değişken koştum ve bu üç değişkenin en iyi belirleyici olduğunu gördüm.

  2. Bir sonraki adıma adım adım Model 2'yi seçiyorum çünkü AIC biraz daha büyük olsa da p değerlerinin hepsi daha küçüktü. Bunun en iyisi olduğuna katılıyor musun?

    Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
    Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
    Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905
    

Teşekkürler!


Bize (1) ve (2) arasındaki farkı söyleyebilir misiniz? Açıkça bir şeyler değişti, çünkü Model 3'teki (1) ve Model 2'deki (2) nominal olarak aynıdır ancak p-değerleri ve AIC farklıdır.
whuber

2
Bu soru iki kez tekrar gönderildi, bu da sadece onları kapatmak zorunda değiliz, aynı zamanda zaten size verilen ilgili cevapları da ifade etti. Lütfen hesabınızı kaydedebilir misiniz ( SSS bölümüne bakın ) ve gelecekte StackExchange gönderme politikasına dikkat edebilir misiniz? Teşekkürler.
chl

@whuber, korkarım sorunuzu tam olarak anlamadım. Muhtemelen benim istatistiksel anlayış eksikliği. Ama açıklığa kavuşturmak için. Model 1 4 değişkene sahiptir, Model 2 3 değişkene sahiptir ve Model 3 2 değişkene sahiptir. Değişkenler her modelde aynı sıradadır (yani her modelde bir değişken = temp). Sanırım @GaBorgulya ve @djma sorumu mükemmel bir şekilde yanıtladı. Değişken 4 IS, değişken 3 ile ilişkilidir. AH-HA! Mantıklı. teşekkürler oodles!
MEL

Yanıtınızı yukarıdaki açıklamaya dönüştürdüm. Mevcut yanıtlardan birinin size yardımcı olduğunu veya sorunuzu cevapladığını düşünüyorsanız, @richiemorrisroe tarafından hatırlatıldığı gibi kabul etmeyi unutmayın. Btw, hesabınızı kayıtlı görmek güzel.
chl

Yanıtlar:


23

AIC, modelde daha küçük artık hatayı destekleyen, ancak daha fazla öngörücü eklemek için ceza veren ve fazla uydurmanın önlenmesine yardımcı olan bir uygunluk ölçüsü iyiliğidir. İkinci model setinizde model 1 (en düşük AIC'li olan) veri kümenizin dışındaki tahminlerde kullanıldığında en iyi performansı gösterebilir. Var4'ün model 2'ye eklenmesinin neden daha düşük AIC ile sonuçlandığına dair muhtemel bir açıklama, ancak daha yüksek p değerlerinin Var4'ün biraz Var1, 2 ve 3 ile korele olduğu şeklindedir.


31

Bireysel p değerlerine bakmak yanıltıcı olabilir. Eğer collinear (yüksek korelasyona sahip) değişkenleriniz varsa, büyük p değerleri elde edersiniz. Bu değişkenlerin işe yaramaz olduğu anlamına gelmez.

Kısa bir kural olarak, modelinizi AIC kriterlerine göre seçmek, p-değerlerine bakmaktan daha iyidir.

En düşük AIC olan modeli seçememesinin bir nedeni, değişken veri noktası oranınızın büyük olmasıdır.

Model seçimi ve tahmin doğruluğunun biraz farklı problemler olduğunu unutmayın. Amacınız doğru tahminler almaksa, verilerinizi bir eğitim ve test setinde ayırarak modelinizin çapraz doğrulanmasını öneririm.

Değişken seçimi üzerine bir makale: Değişken Seçim için Stokastik Kademeli Gruplar


4
Amacınız öngörme doğruluğu ise, AIC kullanmak istersiniz (takılan model ile gerçek arasında beklenen KL farklılığını en aza indirir). Tutarlı bir model seçim prosedürü istiyorsanız (sabit p, büyüyen n), bunun yerine BIC kullanabilirsiniz. Hipotezleri seçmek için adım adım regresyonda p-değerleri kullanılması kesinlikle tavsiye edilmez.
emakalic

8
0.154|t|>günlük(N-)

-3

AIC, genelleme hatasının (Mallow's CP, BIC, ... gibi) tahmin edilmesiyle motive edilir. Modeli tahminler için istiyorsanız, bu ölçütlerden birini kullanın. Modelinizin bir fenomeni açıklamasını istiyorsanız, p-değerlerini kullanın.

Ayrıca, buraya bakınız .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.