Tahmin ile ilgili olarak, istatistik ve makine öğrenimi bilimleri çoğunlukla aynı problemi farklı açılardan çözmeye başladı.
Temel olarak istatistikler, verilerin belirli bir stokastik model tarafından üretildiğini varsayar. Dolayısıyla, istatistiksel açıdan bakıldığında, bir model varsayılır ve çeşitli varsayımlar verildiğinde hatalar ele alınır ve model parametreleri ve diğer sorular çıkarılır.
Makine öğrenimi bilgisayar bilimi perspektifinden gelir. Modeller algoritmiktir ve genellikle verilerle ilgili çok az varsayım gereklidir. Hipotez alanı ve öğrenme yanlılığı ile çalışırız. Bulduğum en iyi makine öğrenimi sergisi Tom Mitchell'in Machine Learning adlı kitabında yer alıyor .
İki kültür hakkında daha kapsamlı ve eksiksiz bir fikir edinmek için İstatistiksel Modelleme: İki Kültür adlı Leo Breiman belgesini okuyabilirsiniz.
Ancak eklenmesi gereken, iki bilim farklı bakış açılarıyla başlasa bile, şimdi her ikisinin de artık oldukça fazla ortak bilgi ve teknik paylaşmasıdır. Neden, çünkü problemler aynıydı, ama araçlar farklıydı. Dolayısıyla, makine öğrenimi çoğunlukla istatistiksel bir perspektiften ele alınmaktadır (Hastie, Tibshirani, Friedman kitabını istatistiksel öğrenme ile makine öğrenme bakış açısından İstatistiksel Öğrenme Unsurları'na ve belki de Kevin P. Murphy'nin Makine Öğrenimi: A olasılıksal perspektif , bugün mevcut olan en iyi kitaplardan sadece birkaçı).
Bu alanın gelişim tarihi bile bu bakış açılarının birleşmesinin faydalarını göstermektedir. İki olayı anlatacağım.
Birincisi, Breiman tarafından sağlam bir istatistiki arka planla oluşturulan CART ağaçlarının yaratılması. Yaklaşık olarak aynı zamanda Quinlan, daha fazla bilgisayar bilimi geçmişine sahip ID3, C45, See5 vb. Karar ağacı paketini geliştirdi. Şimdi hem bu ağaç aileleri hem de torbalama ve ormanlar gibi topluluk yöntemleri oldukça benzer hale geliyor.
İkinci hikaye, artırmakla ilgilidir. Başlangıçta, AdaBoost'u keşfettiklerinde Freund ve Shapire tarafından geliştirildi. AdaBoost'u tasarlama seçenekleri çoğunlukla hesaplama açısından yapıldı. Yazarlar bile neden işe yaradığını iyi anlamadılar. Sadece 5 yıl sonra Breiman (yine!) En ileri modeli istatistiksel açıdan tanımladı ve bunun neden işe yaradığına dair bir açıklama yaptı. O zamandan beri, her iki arka plana sahip çeşitli seçkin bilim adamları, lojistik güçlendirme, gradyan güçlendirme, nazik güçlendirme vb. Sağlam bir istatistiksel altyapı olmadan artırmayı düşünmek artık zor.
Genelleştirilmiş Doğrusal Modeller istatistiksel bir gelişmedir. Ancak yeni Bayes tedavileri bu algoritmayı makine öğrenim oyun alanına da yerleştirmektedir. Bu yüzden her iki iddianın da doğru olabileceğine inanıyorum, çünkü nasıl çalıştığının yorumlanması ve tedavisi farklı olabilir.