Bu, model seçimi adı verilen bir istatistik alanıdır. Bu alanda çok fazla araştırma yapıldı ve kesin ve kolay bir cevap yok.
Diyelim ki ve ve modele bir terimi eklemeniz gerekmediğini bilmek istiyorsunuz . Böyle bir durumda, daha gösterişli modeliniz daha karmaşık modelinize yerleştirilir. Başka bir deyişle, ve değişkenleri (değişken model) ve değişkenlerinin bir alt kümesidir (karmaşık model). Model yapımında (en azından) aşağıdaki iki ana hedeften birine sahipsiniz:X1,X2X3X23X1,X2X3X1,X2,X3X23
- Verileri açıklar: Eğer anlamaya çalışıyoruz nasıl değişkenlerden bazıları seti yanıt değişkeni etkileyen veya nasıl ilgilenen edilir etkileri ise etkilerini kontrolX1YX2,...Xp
- Tahmin : Eğer doğru tahmin etmek istiyorum Modelinizdeki ne ya kaç değişkenleri hakkında bakmakta olmadan,YY
Hedefiniz 1 numaraysa, Olabilirlik Oranı Testi'ni (LRT) öneririm. LRT, iç içe geçmiş modelleriniz olduğunda ve "verilerin karmaşık modelden gelme olasılığı daha yüksek olan modelden çok daha mı büyüktür?" Bu, hangi modelin verileriniz arasındaki ilişkiyi daha iyi açıkladığına ilişkin fikir verecektir.
Hedefiniz 2 numaraysa, verilerinizin boyutuna bağlı olarak bir çeşit çapraz doğrulama (CV) tekniği ( -katlı CV, bir defaya mahsus CV, test eğitimi CV) öneririm . Özetle, bu yöntemler verilerinizin bir alt kümesinde bir model oluşturur ve kalan verilerdeki sonuçları tahmin eder. Kalan verileri tahmin ederek en iyi işi yapan modeli seçin.k