Öğrenme ve çıkarım arasındaki fark nedir?


20

Makine öğrenimi araştırma makaleleri genellikle öğrenmeyi ve çıkarımları iki ayrı görev olarak ele alır, ancak bana göre bu ayrımın ne olduğu açık değildir. Örneğin bu kitapta her iki görev için Bayesci istatistik kullanıyorlar, ancak bu ayrım için bir motivasyon sağlamıyorlar. Ne hakkında olabileceğine dair bazı belirsiz fikirlerim var, ancak sağlam bir tanım ve belki de fikirlerimin çürüttüğünü veya uzantılarını görmek istiyorum:

  • Belirli bir veri noktası için gizli değişkenlerin değerlerini çıkarma ve veriler için uygun bir model öğrenme arasındaki fark.
  • Varyansları çıkarma (çıkarım) ve varyansları öğrenebilmek için değişmezlikleri öğrenme arasındaki fark (giriş alanının / sürecin / dünyanın dinamiklerini öğrenerek).
  • Sinirbilimsel benzetme, kısa süreli güçlendirme / depresyon (hafıza izleri) ile uzun vadeli güçlendirme / depresyon olabilir.

4
Bunun yardımcı olup olmadığından emin değilim, ancak istatistiklerde bir ayrım, öğrenmeyi çıkarım (çoğunlukla Bayes) veya tahmin (çoğunlukla Frequentist) olarak düşünmek isteyip istemediğiniz arasındadır. Birincisi için, her şeyi öğrenmek - gizli değişkenler, parametreler, tahminler, modeller - bir çıkarımdır (bir dağılım döndürür). İkincisi için, bazı öğrenme problemleri bir çıkarım ve diğerleri bir tahmin problemi (bunun için bir tahmin ve örnekleme-teorik olarak motive edilmiş belirsizlik aralığı döndürür) olabilir.
konjugateprior

5
"Öğrenme" sadece bir makine öğrenme algoritması eğitimi süreci için uyarıcı bir mecazdır. Burada kazanılacak çok şey olduğunu sanmıyorum.
Sycorax, Reinstate Monica'yı


1
@Winks Bağlantılı soruyu hiç okudunuz mu? Cevapların hiçbiri, istediğim ayrımı açık yapmıyor.
Lenar Hoyt

1
@conjugateprior Makine öğreniminde hiç kimse "her şeyi öğrenmek - gizli değişkenler, parametreler, tahminler, modeller - bir çıkarım değildir" demez. Her ikisi de dağıtım üretmesine rağmen öğrenme ve çıkarım tamamen ayrı kabul edilir.
Neil G

Yanıtlar:


11

Neil G'nin cevabına katılıyorum, ancak belki de bu alternatif ifade de yardımcı oluyor:

Basit bir Gauss karışım modeli oluşturmayı düşünün. Burada model parametrelerini karışım modelinin Gauss bileşenlerinin (her biri ortalamalarının ve varyanslarının ve her birinin karışımdaki ağırlığı) kümesi olarak düşünebiliriz.

Bir dizi model parametresi göz önüne alındığında, çıkarım hangi bileşenin genellikle her bileşen için bir "sorumluluk" şeklinde verilen tek bir örnek oluşturduğunu belirleme problemidir. Burada, latent değişkenler sadece verilen vektörün hangi bileşenin üretildiği tek tanımlayıcıdır ve hangi bileşenin olması muhtemel olduğunu tahmin etmekteyiz. (Bu durumda, çıkarım basittir, ancak daha karmaşık modellerde oldukça karmaşık hale gelir.)

Öğrenme , modelden bir dizi örnek verildiğinde, verilen verilere en uygun model parametrelerini (veya model parametreleri üzerinde bir dağılımı) belirleme sürecidir: Gauss'ların araçlarını, varyanslarını ve ağırlıklarını seçme.

Beklenti-Maksimizasyon öğrenme algoritması, eğitim seti için çıkarsama gerçekleştirme, sonra bu çıkarımda verilen en iyi parametreleri öğrenme, sonra tekrarlama olarak düşünülebilir. Çıkarım genellikle öğrenme sürecinde bu şekilde kullanılır, ancak gizli bir Markov modelinde en olası gizli duruma karar vermek için Gauss karışım modelinde belirli bir veri noktasını hangi bileşenin oluşturduğunu seçmek, daha genel bir grafik modelde eksik değerleri ima etmek, ....


1
Ve kişinin bu şekilde öğrenme ve çıkarım haline getirmeyi seçebileceği küçük bir uyarı, ama aynı zamanda tüm şeyi çıkarım olarak da seçebilir: stats.stackexchange.com/questions/180582/…
Konjugateprior

Neden bu kadar çok satır? Onları bir-iki cümlede ayıran basit bir cevap görmek istiyorum. Ayrıca, herkes GMM'lere veya EM'ye aşina değildir.
nbro

9

Çıkarım, tek bir girdiye dayalı bir konfigürasyon seçmektir. Öğrenme, bazı eğitim örneklerine göre parametreleri seçmektir.

Enerji tabanlı model çerçevesinde (neredeyse tüm makine öğrenimi mimarilerine bakmanın bir yolu), çıkarım , parametreleri sabit tutarken bir enerji fonksiyonunu en aza indirecek bir konfigürasyon seçer ; öğrenme , kayıp fonksiyonunu en aza indirmek için parametreleri seçer .

Konjugateprior'ın işaret ettiği gibi, diğer insanlar aynı şey için farklı terminoloji kullanırlar. Örneğin Bishop, öğrenme ve çıkarım anlamında "çıkarım" ve "karar" kullanır. Nedensel çıkarım öğrenme demektir. Ancak hangi terime karar verirseniz verin, bu iki kavram farklıdır.

Nörolojik analoji, nöronları ateşleyen bir düzendir; bir dizi bağlantı kuvveti parametrelerdir.


@mcb Hala "varyans" ile ne demek istediğinizi bilmiyorum. "Değişmezlikler" sözlükte bir kelime bile değildir. Evet, Dougal'ın cevabında açıklanan EM gibi çıkarılan bir yapılandırmaya dayanan birçok öğrenme algoritması var.
Neil G

@mcb Sorularınızı da anlamıyorum; belki bir örnek model belirtmek ve hangi dağıtım / varyanslar / değişmezler (?) hakkında konuştuğunuz konusunda spesifik olmak yardımcı olacaktır.
Dougal

Cevaplarınız için teşekkürler. Belki de bir şeyi yanlış anladım.
Lenar Hoyt

@NeilG Bu terminolojinin çoğunlukla, sınıflandırma kararlarının nesne çevirisi, döndürme, yeniden ölçekleme vb. İçin 'değişmez' olması gereken ML vizyon çalışmasında kullanıldığına inanıyorum. İyi bir kısa referans bulamıyorum, ancak bu var: en.wikipedia.org/wiki / Prior_knowledge_for_pattern_recognition
eşlenik

@conjugateprior Elde ettiği şeyi hissettim, ama sorusunu netleştirip netleştiremeyeceğini görmek istedim.
Neil G

4

Bu klasik çapraz disiplinli lingo karışıklığına benziyor. OP, söz konusu iki terimin farklı çağrışımlara sahip olabileceği nörobilim benzeri terminolojiyi kullanıyor gibi görünmektedir. Ancak Cross Validated genellikle istatistik ve makine öğrenimi ile uğraştığı için, bu terimlerin bu alanlarda ortak kullanımına dayanarak soruyu cevaplamaya çalışacağım.

Klasik istatistiklerde, çıkarım basitçe bir örnek hakkında bildiklerinizi alma ve (umarım) temsil ettiği popülasyon hakkında matematiksel bir açıklama yapma eylemidir. Casella & Berger (2002) kanonik ders kitabından: "Olasılık teorisi konusu, tüm istatistiklerin üzerine inşa edildiği temeldir ... bu modeller sayesinde, istatistikçiler popülasyonlar hakkında çıkarımlar yapabilirler, sadece incelemeye dayalı çıkarımlar yapabilirler. bütünün bir parçası ". Yani istatistiklerde, çıkarım özellikle p-değerleri, test istatistikleri ve örnekleme dağılımları vb.

Öğrenmeye gelince, bence Wasserman'ın Tüm İstatistikleri'nden (2003) bu tablo yararlı olabilir:

resim açıklamasını buraya girin


Bu, Bishop'ın yorumlarda bahsedilen kitabı da dahil olmak üzere diğer birçok ders kitabına katılmıyor. Sınıflandırma, hedef değişkenler kategoriler olduğunda bir tür denetimli öğrenmedir. Yalnızca "tahmin" kelimesi belirsizdir: genellikle "yoğunluk tahmini" veya "parametre tahmini" veya "sıralı tahmin" veya "maksimum olabilirlik tahmini" anlamına gelir.
Neil G

1
Ayrıca, Bayes net sadece yönlendirilmiş bir asiklik grafik değildir! Düğümleri önermeleri temsil eden ve kenarları olasılıksal bağımlılıkları temsil eden bir tür dag. Koşullu bağımsızlık ilişkilerini belirtir.
Neil G

1
@NeilG Oldukça. En yakın istatistik çevirisi muhtemelen "yapısal eşitlik modeli" olacaktır
konjugateprior

2
Ve dehşet verici bir miktarda istatistikte verilerle ilgili iki satır olmalıdır: CS: eğitim verileri, İstatistikler: veriler. CS: test verileri, İstatistik: wut?
konjugateprior

Stat 101: wut = popülasyonundan başka (umarım rastgele) bir örnek ...
Zoë Clark

-1

Kimsenin bundan bahsetmediği garip, ancak sadece olasılık dağılımına sahip olduğunuz durumlarda çıkarım yapabilirsiniz. Oxford sözlükten alıntı yapan Wiki'yi burada alıntılamak için:

İstatistiksel çıkarım, temeldeki bir olasılık dağılımının özelliklerini çıkarmak için veri analizi kullanma sürecidir (Oxford İstatistik Sözlüğü)

https://en.wikipedia.org/wiki/Statistical_inference

Geleneksel sinir ağları, k-NN veya vanilya SVM'lerinde tahmin etme olasılığınız veya herhangi bir yoğunlukla ilgili varsayımlarınız yoktur, dolayısıyla orada istatistiksel bir çıkarım yoktur. Sadece eğitim / öğrenim. Bununla birlikte, çoğu (tümü?) İstatistiksel prosedür için, hem çıkarsama hem de öğrenme kullanabilirsiniz, çünkü bu prosedürler söz konusu nüfusun dağılımı hakkında bazı varsayımlara sahiptir.


Bu yanlış. Her neyse, sinir ağlarını isterseniz bir dağıtım üretmek olarak yorumlayabilirsiniz. Bkz. Örneğin Amari 1998.
Neil G

Yanlış değil ya da belirtin. Yorumlayabilirsiniz, ancak başlangıçta böyle bir yorum yoktur.
SWIM S.

Yanlış çünkü insanlar çıkarım terimini autoenciders gibi modellerle kullanıyor.
Neil G

Peki, bu yanlış mı, çünkü bazı insanlar bu terimi yanlış kullanıyorlar mı? Ya da NN'leri için bazı olasılıksal yorumları olduğu için (oto-kodlayıcılara çok aşina değilim)? Bir terimin diğer terimden neden farklı olduğunu mantıklı bir şekilde gerekçelendirdim. Bu nedenle, yukarıdaki tanım göz önüne alındığında, NN, k-NN veya SVM'lerle çıkarım terimini kullananların (olasılıksal yorumlama olmadan) gösterimi neredeyse kötüye kullandığını görüyorum.
SWIM S.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.