Yukarıdaki bağlantılı mesajlardan biri, olasılık oran testi kullanmakla ilgilidir, ancak modellerinizin çalışması için birbirlerinin içine yerleştirilmesi gerekir (yani, modellerden birinde bulunan tüm parametrelerin, test ettiğiniz modelde bulunması gerekir) .
RMSE, modelin verilere ne kadar iyi uyduğunu açıkça göstermektedir. Ancak, olasılık oranı da öyle. Bayan Chen, belirli bir kişinin, tüm parametrelerine sahip bir kişinin sonucuna sahip olma olasılığıdır. Veri kümesinin ortak olasılığı Bayan Chen'in olasılığı * Bayan Gundersen'in olasılığı * Bayan Johnson'ın olasılığı * ... vb.
Bir eş değişken veya herhangi bir sayıda eş değişken eklemek, olasılık oranını daha da kötüleştiremez, sanmıyorum. Ancak, olasılık oranını anlamlı olmayan bir miktarda artırabilir. Daha iyi uyan modellerin olasılığı daha yüksektir. Model A'nın model B'ye daha iyi uyup uymadığını resmi olarak test edebilirsiniz. Hangi yazılımı kullanırsanız kullanın bir çeşit LR test fonksiyonuna sahip olmalısınız, ancak temel olarak LR test istatistiği -2 * olasılıkların günlüklerinin farkıdır ve df = sayıdaki fark ile ki-kare dağıtılır parametrelerin.
Ayrıca, iki modelin AIC veya BIC'sinin karşılaştırılması ve en düşük modelin bulunması da kabul edilebilir. AIC ve BIC temel olarak parametre sayısı için cezalandırılan log olasılıklarıdır.
RMSE'ler için bir t-testi kullanma konusunda emin değilim ve bölgede yapılan bazı teorik çalışmaları bulamazsanız aslında buna karşı eğilirdim. Temel olarak, RMSE değerlerinin asimptotik olarak nasıl dağıldığını biliyor musunuz? Emin değilim. Burada biraz daha tartışma:
http://www.stata.com/statalist/archive/2012-11/index.html#01017