Kısa bir süre önce bu fikirlerle oynamak için kullanabileceğiniz bir tarayıcı uygulamasında biraz ulaştım : Scatterplot Smoothers (*).
İşte düşük derecede polinom uyumu ile oluşturduğum bazı veriler
İkinci dereceden polinomun verilere iyi bir uyum sağlayacak kadar esnek olmadığı açıktır. Biz arasında çok yüksek bir eğilim sahip bölgelere sahip ve tüm veri uyum altındadır ve sonra tüm veri eğrisi üzerindedir.0.60.850.85
Önyargıdan kurtulmak için, eğrinin derecesini üçe çıkarabiliriz, ancak sorun devam ediyor, kübik eğri hala çok katı
Böylece dereceyi arttırmaya devam ediyoruz, fakat şimdi ters problemi yaşıyoruz
Bu eğri, verileri çok yakından takip eder ve verilerdeki genel biçimlerle iyi karşılanmayan yönlerde uçma eğilimindedir. Düzenlemenin geldiği yer burasıdır. Aynı derece eğrisi (on) ve bazı iyi seçilmiş düzenlemeler ile
Gerçekten güzel bir form yakaladık!
Yukarıda iyi seçilmiş bir yönü üzerinde küçük bir odaklanma değerinde . Polinomları verilere uyarlarken derece için ayrı bir seçim seçeneğiniz vardır. Derece üç eğrisi underfit ve derece dört eğrisi overfit ise, ortada gitmek için hiçbir yerde yok. Düzenlileştirme, size oynayabileceğiniz sürekli bir karmaşıklık parametreleri yelpazesi sağladığından, bu sorunu çözer.
"Gerçekten çok güzel bir form yakaladık!" Benim için hepsi aynı, yani sonuçsuz görünüyorlar. Neyin iyi ve kötü olduğuna karar vermek için hangi mantığı kullanıyorsunuz?
Doğru tespit.
Burada yaptığım varsayımı, uygun bir modelin kalıntılarda ayırt edilebilir bir yapıya sahip olmaması gerektiğidir. Şimdi, artıkları çizmiyorum, bu yüzden resimlere bakarken biraz çalışmanız gerekiyor, ama hayal gücünüzü kullanabilmelisiniz.
İlk resimde, kuadratik eğri verilere uygunken, artıkları aşağıdaki desende görebiliyorum
- 0.0'dan 0.3'e kadar, eğrinin üstüne ve altına düzgün bir şekilde yerleştirilirler.
- 0,3 ile 0,55 arası tüm veri noktaları eğrinin üzerindedir.
- 0,55'ten 0,85'e kadar tüm veri noktaları eğrinin altında.
- 0,85'den itibaren, hepsi tekrar eğrinin üstünde.
Bu davranışları yerel önyargı olarak adlandırırdım , eğrinin verinin koşullu ortalamasına iyi yaklaşmadığı bölgeler var.
Kübik spline ile bunu son uyumla karşılaştırın. Tam olarak veri noktalarının kütle merkezinden geçiyor gibi göründüğü gibi görünmeyen herhangi bir bölgeyi seçemiyorum. Bu, genellikle (kesin olarak), iyi bir uyumla kastettiğim şeydir.
2
- Verilerinizin sınırlarındaki davranışları, düzenlileşmelerde bile çok karmakarışık olabilir.
- Hiçbir şekilde yerel değiller . Verilerinizi tek bir yerde değiştirmek, çok farklı bir yere uyumu önemli ölçüde etkileyebilir.
Bunun yerine, tarif ettiğiniz gibi bir durumda, doğal kübik eğri çizgileri kullanarak , esneklik ve stabilite arasında en iyi uzlaşmayı sağlayan düzenlileştirme ile birlikte tavsiye ederim . Uygulamada bazı splinelar takarak kendiniz görebilirsiniz.
(*) Bazı modern javascript özelliklerini kullandığım için (ve genel olarak temeli ve safari'yi düzeltmek için tembelliği kullandığım için) bunun yalnızca krom ve firefox'ta çalıştığına inanıyorum. Eğer ilgileniyorsanız kaynak kodu burada .