En basit şekilde cevap vermeye çalışacağım. Bu sorunların her birinin kendi ana kaynağı vardır:
Aşırı uydurma: Veriler gürültülüdür, yani açıklayıcı faktörlerimizle gerçek ilişkilerini görmemizi zorlaştıran gerçeklikten (ölçüm hataları, etkili rasgele faktörler, gözlemlenmeyen değişkenler ve çöp korelasyonları nedeniyle) bazı sapmalar vardır. Ayrıca, genellikle tam değildir (her şeyden örneklerimiz yoktur).
Örnek olarak, erkekleri ve kızları boylarına göre sınıflandırmaya çalıştığımı varsayalım, çünkü onlar hakkında sahip olduğum tek bilgi bu. Hepimiz biliyoruz ki, erkekler ortalama olarak kızlardan daha uzun boylu olsalar da, büyük bir çakışma bölgesi vardır, bu da onları bu bilgilerle mükemmel bir şekilde ayırmayı imkansız hale getirir. Verilerin yoğunluğuna bağlı olarak, yeterince karmaşık bir model, bu görevde teorik olarak eğitimde mümkün olandan daha iyi bir başarı oranı elde edebilir.veri kümesi çünkü bazı noktaların kendi başlarına tek başına durmasına izin veren sınırlar çizebilir. Yani, sadece 2.04 metre boyunda bir kişimiz varsa ve o bir kadınsa, model o bölgenin etrafına küçük bir daire çizebilir, bu da 2.04 metre boyunda rastgele bir kişinin kadın olması muhtemeldir.
Her şeyin altında yatan neden , eğitim verilerine çok fazla güveniyor (ve örnekte, model 2.04 boyunda erkek olmadığından, sadece kadınlar için mümkün olduğunu söylüyor).
Yetersiz yerleştirme, modelin verilerimizdeki gerçek karmaşıklıkları (yani verilerimizdeki rasgele olmayan değişiklikler) tanımadığı ters problemdir. Model, gürültünün gerçekte olduğundan daha büyük olduğunu varsayar ve bu nedenle çok basit bir şekil kullanır. Dolayısıyla, veri kümesinin herhangi bir nedenden ötürü erkeklerden çok daha fazla kızı varsa, model onları sadece kızlar gibi sınıflandırabilir.
Bu durumda, model verilere yeterince güvenmedi ve sadece sapmaların tüm gürültü olduğunu varsaydı (ve örnekte, model erkeklerin sadece var olmadığını varsayar).
Sonuç olarak, bu sorunlarla karşı karşıya olduğumuz için:
- Tam bilgiye sahip değiliz.
- Verilerin ne kadar gürültülü olduğunu bilmiyoruz (ne kadar güvenmemiz gerektiğini bilmiyoruz).
- Verilerimizi oluşturan temel işlevi ve dolayısıyla en uygun model karmaşıklığını önceden bilmiyoruz.