Sorum şu gerçeğe dayanıyor. Makine öğrenimi ile ilgili yayınların yanı sıra bloglar, dersler ve kitaplar okuyorum. Benim izlenimim, makine öğrenimi uygulayıcılarının, istatistikçilerin / ekonometrilerin önem verdiği birçok şeye kayıtsız görünmeleridir. Özellikle, makine öğrenimi uygulayıcıları çıkarım üzerine tahmin doğruluğunu vurgular.
Böyle bir örnek Andrew Ng'nin Coursera'da Machine Learning'i alırken oldu . Basit Doğrusal Model'i tartıştığında, tahmincilerin MAVİ özelliği veya heteroskedastisitenin güven aralığını nasıl "geçersiz kılacağı" hakkında hiçbir şey söylemedi. Bunun yerine, gradyan iniş uygulaması ve çapraz doğrulama / ROC eğrisi kavramına odaklanmaktadır. Bu konular ekonometri / istatistik derslerimde yer almıyordu.
Başka bir örnek, Kaggle yarışmalarına katıldığımda oldu. Başkalarının kodlarını ve düşüncelerini okuyordum. Katılımcıların büyük bir kısmı her şeyi SVM / rastgele ormana / XGBoost'a atıyor.
Yine başka bir örnek aşamalı model seçimi ile ilgilidir. Bu teknik, en azından çevrimiçi ve Kaggle'da yaygın olarak kullanılmaktadır. İstatistiksel Öğrenmeye Giriş gibi birçok klasik makine öğrenimi ders kitabı da kapsamaktadır. Bununla birlikte, bu cevaba göre (oldukça ikna edici), adım adım model seçimi, özellikle "gerçek modeli keşfetme" söz konusu olduğunda birçok sorunla karşı karşıyadır. Görünüşe göre sadece iki olasılık var: ya makine öğrenimi uygulayıcıları sorunu aşamalı olarak bilmiyorlar ya da biliyorlar ama umursamıyorlar.
Sorularım işte burada:
- (Genel olarak) makine öğrenimi uygulayıcılarının tahmine odaklandığı ve dolayısıyla istatistikçilerin / iktisatçıların önem verdiği pek çok şeyi umursamadığı doğru mu?
- Eğer doğruysa, arkasındaki sebep nedir? Çıkarım bir anlamda daha zor olduğu için mi?
- Çevrimiçi makine öğrenimi (veya tahmini) hakkında tonlarca materyal vardır. Ancak, çıkarsama yapmayı öğrenmekle ilgileniyorsam, çevrimiçi olarak danışabileceğim bazı kaynaklar nelerdir?
Güncelleme : Az önce "çıkarım" kelimesinin potansiyel olarak birçok şey anlamına gelebileceğini fark ettim. "Çıkarım" ile kastettiğim şu gibi soruları ifade eder:
Mü nedeni veya sebep ? Ya da daha genel olarak, arasındaki nedensel ilişkiler nedir?
"Tüm modeller yanlış" olduğundan, modelimiz gerçek modelden nasıl "yanlış"?
Bir örneklemin bilgileri göz önüne alındığında, nüfus hakkında ne söyleyebiliriz ve bunu ne kadar kendinden emin söyleyebiliriz?
Çok sınırlı istatistik bilgim nedeniyle, bu soruların istatistik alanına girip girmediğinden bile emin değilim. Ancak bunlar, makine öğrenimi uygulayıcılarının umursamadığı soru türleri. Belki istatistikçiler de umurunda değil mi? Bilmiyorum.
fortunes
CRAN'daki paketin bir parçası haline geldi . Bunu söylemek gerekirse, izlenimle yalnız değilsiniz, matematiksel titizlik makine öğreniminde her zaman ana endişe değildir.