Şu anda kendime sınıflandırma yapmayı öğretiyorum ve özellikle üç yönteme bakıyorum: destek vektör makineleri, sinir ağları ve lojistik regresyon. Anlamaya çalıştığım, lojistik regresyonun neden diğer ikisinden daha iyi performans göstereceğidir.
Lojistik regresyon anlayışımdan buradaki fikir, lojistik fonksiyonun tüm verilere uymasıdır. Dolayısıyla verilerim ikiliyse, 0 etiketine sahip tüm verilerim 0 değerine (veya ona yakın) eşlenmeli ve 1 değerine sahip tüm verilerim 1 değerine (veya ona yakın) eşlenmelidir. Şimdi, lojistik fonksiyon sürekli ve pürüzsüz olduğundan, bu regresyonun gerçekleştirilmesi tüm verilerimin eğriye uymasını gerektirir ; karar sınırına yakın veri noktalarına daha fazla önem verilmez ve tüm veri noktaları kayıplara farklı miktarlarda katkıda bulunur.
Bununla birlikte, destek vektör makineleri ve sinir ağları ile sadece karar sınırına yakın olan veri noktaları önemlidir; bir veri noktası karar sınırının aynı tarafında kaldığı sürece, aynı zarara katkıda bulunacaktır.
Bu nedenle, lojistik regresyon neden sadece karar çevresindeki zor verilere odaklanmak yerine çok sayıda önemsiz (kolayca sınıflandırılabilir) verilere bir eğri uydurmaya çalışırken "kaynakları boşa harcaması" nedeniyle vektör makinelerini veya sinir ağlarını desteklemiyor? sınır?