Hikaye:
Büyükannem yürür, ama tırmanmaz. Bazı büyükanneler yapar. Bir büyükanne Kilimanjaro'ya tırmandığı için ünlüydü .
Bu uyuyan yanardağ büyüktür. Tabanının 16.000 feet üstünde. (İmparatorluk birimlerimden nefret etme.) Bazen üstte buzullar da var.
Buzulun olmadığı bir yıla tırmanıp zirveye çıkarsanız, buzulun olduğu ile aynı mıdır? İrtifa farklı. Atmanız gereken yol farklı. Buzul kalınlığı arttıkça tepeye çıkarsanız ne olur? Bu onu daha çok başardı mı? Her yıl yaklaşık 35.000 kişi tırmanmaya çalışır, ancak yalnızca 16.000 kişi başarılı olur.
Uygulama:
Böylece, büyükanneme ağırlık kontrolünü (model karmaşıklığını en aza indirgeyerek) şöyle açıklayacağım:
Büyükanne, beynin bilsen de bilmesen harika bir düşünür. Size zirveye ulaştığını düşünen 16.000 kişiden kaçının bunu yaptığını sorarsam, “hepsini” diyeceksiniz.
Sensörleri 30.000 dağcının hepsinin ayakkabısına koyarsam ve deniz seviyesinden yüksekliği ölçersem, bu insanların bir kısmı diğerlerinden daha yükseğe çıkamaz ve kalifiye olmayabilir. Bunu yaptığımda sabit bir modele gidiyorum - Yüksekliğin ölçülen maksimum yüksekliklerin bir yüzdelik değerine eşit olup olmadığını söyleyeyim, o zaman üst değil. Bazı insanlar üste atlar. Bazı insanlar çizgiyi geçip oturur.
Sensöre enlem ve boylam ekleyebilirim ve bazı daha yüksek dereceden denklemleri takabilirim ve belki daha iyi bir form alabilir ve daha fazla insan olabilir, belki de deneyen toplam insanın% 45'ini bile alabilirim.
Diyelim ki gelecek yıl "büyük bir buzul" yılı ya da "buzulsuz" bir yıl, çünkü bazı volkanlar gerçekten dünyanın albümünü dönüştürüyor . Karmaşık ve titiz modelimi bu yıldan alıp gelecek yıl tırmanan insanlara uygularsam, modelin garip sonuçları olacak. Belki herkes "geçer", hatta geçemeyecek kadar yüksek olabilir. Belki hiç kimse geçemez ve hiç kimsenin tırmanışı tamamlayacağını düşünmez. Özellikle model karmaşık olduğunda, genelleme eğiliminde olmayacaktır. Bu yılki "eğitim" verilerine tam olarak uyabilir, ancak yeni veriler geldiğinde kötü davranır.
Tartışma:
Modelin karmaşıklığını sınırladığınızda, aşırı uydurma olmadan genellikle daha iyi genelleme yapabilirsiniz. Daha basit modelleri kullanmak, gerçek dünyadaki varyasyonu karşılamak için daha fazla üretilmiş olanları, her şey eşit olmak üzere daha iyi sonuçlar vermeye meyillidir.
Artık sabit bir ağ topolojisine sahipsiniz, bu nedenle “parametre sayım sabit” diyorsunuz - model karmaşıklığında değişiklik yapamıyorum. Saçmalık. Ağırlıklardaki entropiyi ölçün. Entropi daha yüksek olduğunda, bazı katsayıların diğerlerinden önemli ölçüde daha fazla “bilgilendirici” taşıdığı anlamına gelir. Eğer çok düşük bir entropiye sahipseniz, bu genel olarak katsayıların benzer "bilgilendirici" seviyelere sahip oldukları anlamına gelir. Bilgilendirme mutlaka iyi bir şey değil. Bir demokraside tüm insanların eşit olmasını istersiniz ve George Orwell gibi "diğerlerinden daha eşit" gibi şeyler sistemin başarısızlığının bir ölçüsüdür. Bunun için iyi bir nedeniniz yoksa, ağırlıkların birbirine çok benzemesini istersiniz.
Kişisel bir notta: Vudu ya da sezgisel tarama kullanmak yerine, "bilgi kriterleri" gibi şeyleri tercih ederim çünkü güvenilir ve tutarlı sonuçlar almamı sağlıyorlar. AIC , AICc ve BIC bazı yaygın ve kullanışlı başlangıç noktalarıdır. Çözümün kararlılığını veya bilgi kriterleri sonuç aralığını belirlemek için analizin tekrarlanması ortak bir yaklaşımdır. Biri, ağırlıklardaki entropiye tavan koymak gibi görünebilir.