Sorunuzun yorumlarına göre, daha iyi bir şeyler bulmak için çalışan birçok insan var. Ben bu soruyu yanıtlamak istiyorum ancak @josh tarafından bırakılan yorumu genişleterek
Tüm modeller yanlış, ancak bazıları kullanışlıdır (Wiki)
Yukarıdaki ifade, istatistiksel modellerin doğasını tanımlamak için kullanılan genel bir gerçektir. Elimizdeki verileri kullanarak, yaklaşık bir tahmin değeri gibi yararlı şeyler yapmamıza izin veren modeller oluşturabiliriz.
Örneğin Doğrusal Regresyon
Bir dizi gözlem kullanarak, bağımsız değişken (ler) için herhangi bir değer (ler) verilen bağımlı değişken için yaklaşık bir değer verecek bir modele uyabiliriz.
Burnham, KP; Anderson, DR (2002), Model Seçimi ve Multimodel> Çıkarım: Pratik Bir Bilgi-Teorik Yaklaşım (2. baskı.):
“Bir model gerçekliğin basitleştirilmesi ya da yaklaşımıdır ve bu nedenle tüm gerçekliği yansıtmayacaktır.” “Tüm modellerin yanlış, ancak bazılarının faydalı olduğunu” belirtti. çok faydalı, yararlı, biraz yararlı, nihayetinde faydasız olarak sıralanabilir. "
Modelimizden sapmalar (yukarıdaki resimde görüldüğü gibi) rastgele görünür, bazı gözlemler çizginin altında ve bazıları yukarıdadır, ancak regresyon çizgimiz genel bir korelasyon gösterir. Modelimizdeki sapmalar rastgele görünse de, gerçekçi senaryolarda oyunda bu sapmaya neden olan diğer faktörler olacaktır. Örneğin, arabaları devam etmek için sola veya sağa dönmeleri gereken bir kavşaktan geçerken izlediklerini hayal edin, arabalar belirli bir düzende dönmezler. Otomobillerin dönüş yönünün tamamen rastgele olduğunu söyleyebilsek de, her sürücü kavşağa varıyor ve bu noktada hangi yöne döneceğine rastgele bir karar veriyor mu? Gerçekte, muhtemelen belirli bir sebepten dolayı belirli bir yere gidiyorlar ve her arabayı kendi sebeplerini sormalarını engellemeye çalışmadan, eylemlerini sadece rastgele olarak tanımlayabiliriz.
Minimal sapma ile bir modele uyabildiğimizde, bir noktada bilinmeyen, farkedilmeyen veya ölçülemeyen bir değişkenin modelimizi atması ne kadar kesin olabilir? Brezilya'da bir kelebeğin kanatlarının kanatları Teksas'ta bir kasırga patlatıyor mu?
Yalnız bahsettiğiniz Lineer ve SVN modellerini kullanmadaki sorun, değişkenlerimizi ve birbirlerinin birbirlerini nasıl etkilediklerini manuel olarak gözlemlememiz gerektiğidir. Daha sonra hangi değişkenlerin önemli olduğuna karar vermemiz ve göreve özgü bir algoritma yazmamız gerekiyor. Eğer sadece birkaç değişkenimiz varsa, bu basit olabilir, fakat ya binlerce olsaydı? Genelleştirilmiş bir görüntü tanıma modeli oluşturmak istiyorsak, bu gerçekçi bir şekilde bu yaklaşımla başarılabilir mi?
Derin Öğrenme ve Yapay Sinir Ağları (YSA), büyük miktarlarda değişken içeren büyük veri kümeleri için yararlı modeller oluşturmamıza yardımcı olabilir (örn. Görüntü kütüphaneleri). Bahsettiğiniz gibi, YSA'lar kullanarak verilere uyabilecek anlaşılmaz sayıda çözüm var, ancak bu sayı gerçekten deneme yanılma yoluyla kendimizi geliştirmek için ihtiyaç duyduğumuz çözüm miktarından farklı mı?
YSA'ların uygulanması bizim için işin çoğunu yapar, girdilerimizi ve istenen çıktılarımızı belirleyebilir (ve iyileştirmeler yapmak için daha sonra ince ayarlayabiliriz) ve çözümü bulmak için YSA'ya bırakabiliriz. Bu nedenle YSA'ların sıklıkla "kara kutu" olarak tanımlanması . Belirli bir girişten bir yaklaşım çıkarırlar, ancak (genel anlamda) bu yaklaşımlar nasıl yaklaştırıldıkları ile ilgili ayrıntıları içermez.
Ve bu, gerçekten hangi problemi çözmeye çalıştığınıza bağlı olarak ortaya çıkıyor, çünkü problem hangi model yaklaşımının daha faydalı olduğunu belirleyecektir. Modeller kesinlikle doğru değildir ve bu nedenle her zaman 'yanlış' olmanın bir unsuru vardır, ancak sonuçlarınız ne kadar doğru olursa, o kadar faydalı olurlar. Yaklaşımın nasıl yapıldığına dair sonuçlarda daha fazla ayrıntıya sahip olmak da faydalı olabilir, soruna bağlı olarak, artan hassasiyetten daha faydalı olabilir.
Örneğin, bir kişinin kredi puanını hesaplıyorsanız, regresyon ve SVM'leri kullanmak daha iyi araştırılabilecek hesaplamalar sunar. Her iki modeli de doğrudan ayarlayabilmek ve müşterilere ayrı bağımsız değişkenlerin toplam puan üzerindeki etkisini açıklamak çok faydalıdır. Bir YSA, daha kesin bir puan elde etmek için daha büyük miktarlarda değişkenleri işlemede yardımcı olabilir, ancak bu doğruluk daha yararlı olur mu?