İstatistiksel anlamlılık kullanarak iki farklı modelin doğruluğu nasıl karşılaştırılır


10

Zaman serisi tahmini üzerinde çalışıyorum. İki veri ve . Üç tahmin modelim var: . Bu modellerin tümü, veri kümesi örnekler kullanılarak eğitilir ve performansları, veri kümesi örnekler kullanılarak ölçülür . Performans metriklerinin MSE (veya başka bir şey) olduğunu varsayalım. Veri kümesi için ölçülen modellerin MSE olan ve . Bir modelin diğerine göre gelişiminin istatistiksel olarak anlamlı olduğunu nasıl test edebilirim?D1={x1,x2,....xn}D2={xn+1,xn+2,xn+3,....,xn+k}M1,M2,M3D1D2D2MSE1,MSE2,MSE3

Örneğin, , , ve bu hesaplandığı veri kümesindeki toplam örnek sayısının 2000 olduğunu . , ve önemli ölçüde farklı olduğunu nasıl test edebilirim? . Herkes bu sorun bana yardımcı olabilir eğer çok takdir ediyorum.MSE1=200MSE2=205MSE3=210D2MSE1MSE2MSE3

Yanıtlar:


1

Yukarıdaki bağlantılı mesajlardan biri, olasılık oran testi kullanmakla ilgilidir, ancak modellerinizin çalışması için birbirlerinin içine yerleştirilmesi gerekir (yani, modellerden birinde bulunan tüm parametrelerin, test ettiğiniz modelde bulunması gerekir) .

RMSE, modelin verilere ne kadar iyi uyduğunu açıkça göstermektedir. Ancak, olasılık oranı da öyle. Bayan Chen, belirli bir kişinin, tüm parametrelerine sahip bir kişinin sonucuna sahip olma olasılığıdır. Veri kümesinin ortak olasılığı Bayan Chen'in olasılığı * Bayan Gundersen'in olasılığı * Bayan Johnson'ın olasılığı * ... vb.

Bir eş değişken veya herhangi bir sayıda eş değişken eklemek, olasılık oranını daha da kötüleştiremez, sanmıyorum. Ancak, olasılık oranını anlamlı olmayan bir miktarda artırabilir. Daha iyi uyan modellerin olasılığı daha yüksektir. Model A'nın model B'ye daha iyi uyup uymadığını resmi olarak test edebilirsiniz. Hangi yazılımı kullanırsanız kullanın bir çeşit LR test fonksiyonuna sahip olmalısınız, ancak temel olarak LR test istatistiği -2 * olasılıkların günlüklerinin farkıdır ve df = sayıdaki fark ile ki-kare dağıtılır parametrelerin.

Ayrıca, iki modelin AIC veya BIC'sinin karşılaştırılması ve en düşük modelin bulunması da kabul edilebilir. AIC ve BIC temel olarak parametre sayısı için cezalandırılan log olasılıklarıdır.

RMSE'ler için bir t-testi kullanma konusunda emin değilim ve bölgede yapılan bazı teorik çalışmaları bulamazsanız aslında buna karşı eğilirdim. Temel olarak, RMSE değerlerinin asimptotik olarak nasıl dağıldığını biliyor musunuz? Emin değilim. Burada biraz daha tartışma:

http://www.stata.com/statalist/archive/2012-11/index.html#01017


0

Bu cevap, verilerinizin bir zaman serisi oluşturduğu gerçeğini dikkate almaz, ancak bunun bir sorun olacağını düşünmüyorum.

RMSE kullanırken, bu yazı bir t testi kullanılmasını önermektedir: Modellerin RMSE'sinin önemini test etme

Uyumunuzu değerlendirmek için Pearson korelasyonunu da kullanabilirsiniz. Bu mesaja göre, bunun için Wolfe'nin t-Testini kullanabilirsiniz: Korelasyondaki artışın istatistiksel önemi

Şu anda aynı problemi öğrenmeye çalışıyorum. Daha ayrıntılı cevapları kendim takdir ediyorum.


0

Bunu yapmanın iki ana yolu var, ama önce sadece bir tane seçmek istediğiniz fikrine meydan okuyacağım. Büyük olasılıkla, üç ayrı modelden oluşan bir topluluk modeli, en iyi performansı elde edecektir.

Bunu yapmanın belki de en iyi yolu, modeli değerlendirme metriği etrafında güven aralıkları elde etmek için kullanmaktır. Bu genellikle bootstrapping ( veya Poisson bootstrap ) ile yapılır.

Diğer yol ise istatistiksel test kullanmaktır. Her test farklı varsayımlar yapar ve bunlar genellikle bir nokta değerlendirmesinden ziyade bir dağılımdan alınan bir değeri veya örneği karşılaştırmak için kullanılır. Bu istatistiksel testlerin çoğu, aynı seriye ait birden çok sonucu veya zaman serisi verileri üzerinden birden fazla modeli karşılaştırırken genellikle sahip olmadığınız bağımsızlık gerektirir.

Özellikle zaman serisi tahmini ile, çapraz doğrulamayla geri test yapmalı ve her seferinde tren ve test hatasını değerlendirmelisiniz ( örnek ). Bunu yaptığınızda, modellerinizin benzer şekilde çalışacağından şüpheliyim, farklılaştırmak için istatistiksel bir teste ihtiyacınız var; büyük olasılıkla, büyük farklılıklar göreceksiniz.

Ayrıca, yalnızca tarihsel değerlendirme metriklerinin (gerçekleri tahmin ile karşılaştırmak) tahmin değerlendirmesi için yeterli olmadığını unutmayın. Bilinen geçmiş verilere tam olarak uyan ancak biri geleceğe dair önceki inançlarla eşleşen ve diğeri açıkça ihlal eden iki tahmin göz önüne alındığında (örn. Biri sıfıra giderse ancak bunun gerçekleşemeyeceğine inanmak için bir nedeniniz varsa), tahmini tercih edersiniz önceki ile daha iyi eşleşir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.