Genel olarak, çıkarım yapmak tahmin yapmaktan daha mı zor?


13

Sorum şu gerçeğe dayanıyor. Makine öğrenimi ile ilgili yayınların yanı sıra bloglar, dersler ve kitaplar okuyorum. Benim izlenimim, makine öğrenimi uygulayıcılarının, istatistikçilerin / ekonometrilerin önem verdiği birçok şeye kayıtsız görünmeleridir. Özellikle, makine öğrenimi uygulayıcıları çıkarım üzerine tahmin doğruluğunu vurgular.

Böyle bir örnek Andrew Ng'nin Coursera'da Machine Learning'i alırken oldu . Basit Doğrusal Model'i tartıştığında, tahmincilerin MAVİ özelliği veya heteroskedastisitenin güven aralığını nasıl "geçersiz kılacağı" hakkında hiçbir şey söylemedi. Bunun yerine, gradyan iniş uygulaması ve çapraz doğrulama / ROC eğrisi kavramına odaklanmaktadır. Bu konular ekonometri / istatistik derslerimde yer almıyordu.

Başka bir örnek, Kaggle yarışmalarına katıldığımda oldu. Başkalarının kodlarını ve düşüncelerini okuyordum. Katılımcıların büyük bir kısmı her şeyi SVM / rastgele ormana / XGBoost'a atıyor.

Yine başka bir örnek aşamalı model seçimi ile ilgilidir. Bu teknik, en azından çevrimiçi ve Kaggle'da yaygın olarak kullanılmaktadır. İstatistiksel Öğrenmeye Giriş gibi birçok klasik makine öğrenimi ders kitabı da kapsamaktadır. Bununla birlikte, bu cevaba göre (oldukça ikna edici), adım adım model seçimi, özellikle "gerçek modeli keşfetme" söz konusu olduğunda birçok sorunla karşı karşıyadır. Görünüşe göre sadece iki olasılık var: ya makine öğrenimi uygulayıcıları sorunu aşamalı olarak bilmiyorlar ya da biliyorlar ama umursamıyorlar.

Sorularım işte burada:

  1. (Genel olarak) makine öğrenimi uygulayıcılarının tahmine odaklandığı ve dolayısıyla istatistikçilerin / iktisatçıların önem verdiği pek çok şeyi umursamadığı doğru mu?
  2. Eğer doğruysa, arkasındaki sebep nedir? Çıkarım bir anlamda daha zor olduğu için mi?
  3. Çevrimiçi makine öğrenimi (veya tahmini) hakkında tonlarca materyal vardır. Ancak, çıkarsama yapmayı öğrenmekle ilgileniyorsam, çevrimiçi olarak danışabileceğim bazı kaynaklar nelerdir?

Güncelleme : Az önce "çıkarım" kelimesinin potansiyel olarak birçok şey anlamına gelebileceğini fark ettim. "Çıkarım" ile kastettiğim şu gibi soruları ifade eder:

  1. Mü nedeni veya sebep ? Ya da daha genel olarak, arasındaki nedensel ilişkiler nedir?XYYXX1,X2,,Xn

  2. "Tüm modeller yanlış" olduğundan, modelimiz gerçek modelden nasıl "yanlış"?

  3. Bir örneklemin bilgileri göz önüne alındığında, nüfus hakkında ne söyleyebiliriz ve bunu ne kadar kendinden emin söyleyebiliriz?

Çok sınırlı istatistik bilgim nedeniyle, bu soruların istatistik alanına girip girmediğinden bile emin değilim. Ancak bunlar, makine öğrenimi uygulayıcılarının umursamadığı soru türleri. Belki istatistikçiler de umurunda değil mi? Bilmiyorum.


2
Brian D Ripley useR! 2004 ile "Kışkırtıcı bir şekilde yorum yapmak için makine öğrenimi istatistik eksi modellerin ve varsayımların eksi kontrol edilmesidir." İfade, fortunesCRAN'daki paketin bir parçası haline geldi . Bunu söylemek gerekirse, izlenimle yalnız değilsiniz, matematiksel titizlik makine öğreniminde her zaman ana endişe değildir.
Bernhard

Leo Breiman tam da bu soruyu 2001'de yayınlanan "İstatistiksel Modelleme: iki kültür" adlı makalesinde ele alıyor .
skd

Yanıtlar:


6

İlk olarak, makine öğrenimi için farklı bir perspektifim olurdu. Bahsettiğiniz, Andrew Ng'in Coursera konferansı ve Kaggle yarışması makine öğreniminin% 100'ü değil, pratik uygulamaları hedefleyen bazı dallardır. Gerçek makine öğrenimi araştırması, istatistiklere / matematiğe oldukça yakın olan rastgele orman / SVM / gradyan artırma modelini icat eden çalışma olmalıdır.

Makine öğrenimi uygulayıcılarının istatistikçilere / ekonomistlere kıyasla doğruluk üzerine daha fazla odaklandıklarına katılıyorum. İnsanların "gerçek dağılım hakkında çıkarım" yerine daha iyi doğruluk elde etmekle ilgilenmelerinin nedenleri vardır. Bunun ana nedeni, veri toplama ve kullanma şeklimizin son on yıllarda değişmesidir.

İstatistikler yüz yıl boyunca kuruldu, ancak geçmişte hiç kimse, eğitim için milyarlarca veri ve test için diğer milyarlarca veri olduğunu düşünmezdi. (Örneğin, İnternet'teki görüntü sayısı). Bu nedenle, nispeten az miktarda veri ile, işi yapmak için etki alanı bilgisinden varsayımlar gereklidir. Ya da modeli "normalleştirmeyi" düşünebilirsiniz. Varsayımlar yapıldıktan sonra, “gerçek” dağılımla ilgili çıkarım problemleri vardır.

Ancak, dikkatlice düşünürsek, bu varsayımların doğru olduğundan ve çıkarımların geçerli olduğundan emin olabilir miyiz? George Box'dan alıntı yapmak istiyorum:

Tüm modeller yanlış ama bazıları faydalı

Şimdi, doğruluk üzerine varsayım / çıkarımdan daha fazla vurgu yapmak için pratik yaklaşımı düşünelim. Çok fazla veriye sahip olduğumuzda iyi bir yaklaşımdır.

Piksel düzeyinde insan yüzleri içeren tüm görüntüler için bir model oluşturduğumuzu varsayalım. İlk olarak, milyarlarca görüntü için piksel düzeyinde varsayımları önermek çok zordur: hiç kimse bu alan bilgisine sahip değildir. İkincisi, verilere uymanın tüm olası yollarını düşünebiliriz ve veriler çok büyük olduğundan, sahip olduğumuz tüm modeller yeterli olmayabilir (aşırı uyum neredeyse imkansızdır).

Bu yüzden "derin öğrenme / sinir ağı" yeniden popüler hale geldi. Büyük veri koşulu altında, gerçekten karmaşık olan bir modeli seçebilir ve olabildiğince iyi sığdırabiliriz ve hala iyi olabiliriz, çünkü hesaplama kaynaklarımız, kelimedeki tüm gerçek verilere kıyasla sınırlıdır.

Son olarak, oluşturduğumuz model büyük test veri setinde iyiyse, altı çizili varsayımı veya gerçek dağılımı bilmesek de iyi ve değerlidir.


"Çıkarım" kelimesinin farklı toplumda farklı anlamları olduğunu belirtmek istiyorum.

  • İstatistik topluluğunda, genellikle gerçek dağılım hakkında parametrik veya parametrik olmayan yolla bilgi almak anlamına gelir.
  • Makine öğrenimi topluluğunda, genellikle belirli bir dağılımdan belirli olasılıkların hesaplanması anlamına gelir. Bkz Murphy'nin Grafiksel Modeller Eğitimi örnekler için.
  • Makine öğreniminde, insanlar istatistik topluluğundaki "çıkarım" ile benzer şekilde "gerçek dağılımın parametrelerini almayı" temsil etmek için "öğrenme" kelimesini kullanırlar.

Gördüğünüz gibi, aslında, makine öğrenmede birçok insanın da “çıkarsama” yaptığını görebilirsiniz.

Buna ek olarak, akademideki insanlar “işlerini yeniden markalamak ve yeniden satmak” gibi düşünebilirler: yeni terimler bulmak araştırmanın yeniliğini göstermek için yardımcı olabilir. Aslında, yapay zeka, veri madenciliği ve makine öğrenimi arasında birçok çakışma var. Ve istatistik ve algoritma tasarımı ile yakından ilgilidir. Yine "çıkarım" yapmak için açık bir sınır yoktur.


3
Nereden geldiğini görebiliyorum. Alternatif bir alma şunlar olabilir: tahmin = gözlenen değişkenlere odaklanma, çıkarım = gizli değişkenlere odaklanma. Öyleyse, bir anlamda çıkarım yeni tipte ölçümler üretmeye çalışırken , tahmin daha çok prensipte gözlemlenebilecek ölçümlerin yeni gerçekleşmeleriyle ilgilidir ? (Bu, elbette cevabınızla uyumlu)
GeoMatt22 13:16
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.