Parametreleri tahmin etmek için 'temel' makine öğrenimi fikri nedir?


19

Parametreleri tahmin etmek için 'temel' istatistik fikri maksimum olasılıktır . Makine öğreniminde buna karşılık gelen fikrin ne olduğunu merak ediyorum.

Sn 1. Parametreleri tahmin etmek için makine öğrenmesindeki 'temel' fikrin 'Kayıp Fonksiyonları' olduğunu söylemek adil olur mu?

[Not: Makine öğrenimi algoritmalarının genellikle bir kayıp fonksiyonunu ve dolayısıyla yukarıdaki soruyu optimize ettiği izlenimimdir.]

Soru 2: İstatistik ve makine öğrenimi arasındaki boşluğu kapatmaya çalışan bir literatür var mı?

[Not: Belki de kayıp fonksiyonlarını maksimum olasılıkla ilişkilendirerek. (örn. OLS, normal olarak dağıtılan hatalar vb. için maksimum olasılığa eşittir)


3
Kurgusal bir boşluğu kapatmaya çalışmakla ilgili bu soruların ilgisini görmüyorum. tüm bunların amacı nedir? Ayrıca istatistiğin temelini oluşturan pek çok başka fikir var ... ve kayıp fonksiyonu en az 100 yaşında. istatistiği böyle azaltabilir misin? belki de sorunuz, veri madenciliği / istatistik / makine öğreniminde fondamental konsept hakkındadır, ancak siz onu çağırırsınız ... O zaman soru zaten var ve çok geniş istatistikleri.stackexchange.com/questions/372/… .
robin girard

Makine öğrenimi veya istatistiklere olan bağlantıları hakkında fazla bir şey bilmiyorum. Her durumda, şu soruya bakın: stats.stackexchange.com/questions/6/… , en azından aynı soruları cevaplama yaklaşımlarının farklı olduğunu göstermektedir. Aralarında bir tür bağlantı olup olmadığını merak etmek doğal olmayan bir şey mi? Evet, istatistiklerde çok fazla fikir olduğunu kabul ediyorum. Bu yüzden alıntılarda temelim var ve kapsamı ilgili parametreleri tahmin etmekle sınırlandırdım.

@ Neler arasında çarpıcı bağlantı? iyi tanımlanmış nesneler arasındaki bağlantıyı aramayı gerçekten seviyorum, gerçekten doğal buluyorum.
robin girard

6
Tartışmalı bir şekilde, bir makine öğrenicisi olarak, size olasılıkları en üst düzeye çıkardığımızı söylemek için buradayım. Her zaman. Bir sürü makine öğrenimi makalesi "benim ihtimalime bak, nasıl çarpanlarına bak, beni en üst düzeye çıkarmama dikkat et" ile başlar. Çıkarım teknikleri açısından her iki disiplinin de temelini talep etmenin tehlikeli olduğunu söyleyebilirim. Hangi konferansa gittiğinizle ilgili!
Mike Dewar

6
Bayeslilerin, istatistiklerin temel fikri olan maksimum olasılıkla aynı fikirde olacağını düşünmüyorum.
Marc Claesen

Yanıtlar:


17

İstatistiklerin tümü olasılığı en üst düzeye çıkarmakla ilgiliyse, makine öğrenimi tamamen kaybı en aza indirmekle ilgilidir. Gelecekteki verilerinizle karşılaşacağınız zararı bilmediğinizden, yaklaşık olarak, yani ampirik zararı en aza indirirsiniz.

Örneğin, bir tahmin göreviniz varsa ve yanlış sınıflandırmaların sayısı ile değerlendirilirseniz, sonuçta ortaya çıkan modelin eğitim verileri üzerinde en az sayıda yanlış sınıflandırma üretmesi için parametreleri eğitebilirsiniz. "Yanlış sınıflandırma sayısı" (yani, 0-1 kayıp) farklı bir özellik olmadığından çalışmak zor bir kayıp işlevidir, bu yüzden düzgün bir "vekil" ile yaklaşık olarak hesaplarsınız. Örneğin, günlük kaybı 0-1 kaybında bir üst sınırdır, bu nedenle bunu en aza indirebilirsiniz ve bu, verilerin koşullu olasılığını en üst düzeye çıkarmakla aynı olacaktır. Parametrik modelde bu yaklaşım lojistik regresyona eşdeğer hale gelir.

Yapısal bir modelleme görevinde ve 0-1 kaybının günlük kaybı yaklaşımında, maksimum koşullu olasılıktan farklı bir şey elde edersiniz, bunun yerine (koşullu) marjinal olasılıkların ürününü en üst düzeye çıkarırsınız .

Zararın daha iyi tahmin edilmesini sağlamak için, insanlar kaybı en aza indirmek için eğitim modelinin ve bu kaybı gelecekteki zararın bir tahmini olarak kullanmanın aşırı iyimser bir tahmin olduğunu fark ettiler. Dolayısıyla, daha doğru (gerçek gelecekteki kayıp) minimizasyonu için ampirik kayba bir önyargı düzeltme terimi ekler ve bunu en aza indirir, bu yapılandırılmış risk minimizasyonu olarak bilinir.

Uygulamada, doğru önyargı düzeltme terimini bulmak çok zor olabilir, bu nedenle önyargı düzeltme teriminin "ruhunda" ifadesini, örneğin parametrelerin karelerinin toplamını eklersiniz. Sonunda, neredeyse tüm parametrik makine öğrenimi denetimli sınıflandırma yaklaşımları, aşağıdakileri en aza indirmek için modeli eğitir

iL(m(xi,w),yi)+P(w)

burada vektör tarafından parametrik daki model W , i her veri noktasını üzerinden alınır { x i , y ı } , L gerçek kayıp ve bazı hesaplama güzel bir tahmindir P ( W ), bir eğilim düzeltme / düzenlilestirme terimmwi{xi,yi}LP(w)

Örneğin, , y { - 1 , 1 } ise m ( x ) = işaretine ( w x ) , L ( m ( x ) , y ) = - log ( y × ( x w ) ) , P (x{1,1}dy{1,1}m(x)=sign(wx)L(m(x),y)=log(y×(xw)) veçapraz doğrulama ile q seçeneğini seçinP(w)=q×(ww)q


3
Kümelenme, kNN veya rasgele eğrelti

K-en yakın komşu anlamına gelen kayıp fonksiyon karakterizasyonu için bu makalenin ilgili alt bölümüne (2.5) bakınız: hpl.hp.com/conferences/icml2003/papers/21.pdf
John L. Taylor

@John Yine de, bu amaçlarla nedenleri karıştırıyor. Her algoritmayı bir şeyi en aza indirgeme açısından açıklayabilir ve buna "kayıp" diyebilirsiniz. kNN böyle bir şekilde icat edilmedi: Çocuklar, böyle bir kaybı düşündüm, optimize edelim ve ne olacağını görelim !; daha doğrusu Millet, diyelim ki karar, özellik alanı üzerinde daha az süreklidir, o zaman iyi bir benzerlik ölçüsüne sahip olsaydık ... vb.

2
"Eğer istatistiklerin tümü olasılığı en üst düzeye çıkarmakla ilgiliyse, o zaman makine öğrenimi tamamen kaybı en aza indirmekle ilgilidir" Öncülünüze katılmıyorum - güçlü bir şekilde ve bütünüyle. Belki 1920'de istatistiğin gerçek ishiydi, ama kesinlikle bugün değil.
JMS

19

Ayrıntılı bir cevap vereceğim. Bu gerçekten tartışmalı olmasa da, talep üzerine daha fazla alıntı sağlayabilir.

  • İstatistik tamamen (log) olasılığını maksimuma çıkarmakla ilgili değildir . Bu, posteriorlarını güncelleyen veya inançlarını uygun bir modelle yayan ilkeli bayeslerin anathema'sı.
  • İstatistiklerin Bir çok olan kayıp minimizasyonu hakkında. Ve bir çok Makine Öğrenmesi de öyle. Ampirik kayıp minimizasyonu ML'de farklı bir anlama sahiptir. Açık ve anlatısal bir bakış için Vapnik'in "İstatistiksel öğrenmenin doğası" na bakın
  • Makine Öğrenimi tamamen kayıp minimizasyonu ile ilgili değildir . Birincisi, ML'de çok sayıda bayes var; ikincisi, çünkü ML'deki bazı uygulamalar geçici öğrenme ve yaklaşık DP ile ilgilidir. Elbette, nesnel bir işlev vardır, ancak "istatistiksel" öğrenmeden çok farklı bir anlamı vardır.

Alanlar arasında bir boşluk olduğunu düşünmüyorum, sadece birçok farklı yaklaşım, hepsi bir dereceye kadar örtüşüyor. Bunları, iyi tanımlanmış farklılıklar ve benzerlikler ile sistematik disiplinlere dönüştürme gereği duymuyorum ve geliştikleri hız göz önüne alındığında, bunun zaten mahkum bir girişim olduğunu düşünüyorum.


8

Yeterli bir itibara sahip olmadığım için bir yorum gönderemiyorum (bu yorum için uygun yer), ancak soru sahibi tarafından en iyi cevap olarak kabul edilen cevap noktayı kaçırıyor.

"İstatistiklerin tümü olasılığı en üst düzeye çıkarmakla ilgiliyse, makine öğrenimi tamamen kaybı en aza indirmekle ilgilidir."

Olasılık bir kayıp fonksiyonudur. Olasılığı en üst düzeye çıkarmak, bir kayıp işlevini en aza indirgemekle aynıdır: sapma, günlük olabilirlik işlevinin sadece -2 katıdır. Benzer şekilde, en küçük kareler çözümü bulmak, karelerin kalan toplamını tanımlayan kayıp fonksiyonunu en aza indirmekle ilgilidir.

Hem ML hem de istatistikler, bazı işlevlerin (en geniş anlamda) verilere uyumunu optimize etmek için algoritmalar kullanır. Optimizasyon mutlaka bazı kayıp fonksiyonlarının en aza indirilmesini içerir.


1
İyi bir nokta, yine de ana farklılıklar başka bir yerde; birincisi, istatistikler bir modelin sahip olduğu verilere uydurulmasıyla ilgilidir, ML modelin sahip olacağı verilere bir model takılmasıyla ilgilidir; ikincisi, bir kişinin gözlemlediği bir sürecin tamamen kazmak istedikleri bazı aldatıcı derecede "gizli" bir model tarafından yürütüldüğünü varsayarken, ML TRIES'nin problemden bağımsız bir model olacak kadar karmaşık hale getirmesi gerçeğe benzer davranır.

@mbq. Bu istatistiklerin oldukça sert bir karikatürü. Beş üniversite istatistik bölümünde çalıştım ve bunun gibi istatistikleri düşünen kimseyle tanıştığımı sanmıyorum.
Rob Hyndman

1
@Rob Karikatürü? Bence istatistikleri güzel yapan da bu! Tüm bu gaussianları ve doğrusallıkları varsayıyorsunuz ve sadece işe yarıyor - ve bunun Taylor genişlemesi olarak adlandırılan bir nedeni var. Dünya karmaşık bir cehennemdir, ancak yaklaşık olarak doğrusaldır. (bu genellikle karmaşıklığın% doksanıdır) utanç verici derecede önemsizdir. ML (ve parametrik olmayan istatistikler), daha ince bir yaklaşıma ihtiyaç duyulan durumların yüzde birkaçında gelir. Bu sadece ücretsiz bir öğle yemeği değil - teoremler istiyorsanız, varsayımlara ihtiyacınız var; varsayımlar istemiyorsanız, yaklaşık yöntemlere ihtiyacınız vardır.

@mbq. Yeterince adil. Yorumunuzu yanlış yorumlamalıydım.
Rob Hyndman

4

Önemsiz bir cevap var - makine öğreniminde parametre tahmini yok! Modellerimizin bazı gizli arka plan modellerine eşdeğer olduğunu varsaymıyoruz; hem gerçekliğe hem de modele kara kutular gibi davranırız ve model kutusunu (resmi terminolojide tren) sallamaya çalışırız, böylece çıktısı gerçeklik kutusununkine benzer olur.

Sadece olasılık değil, eğitim verilerine dayalı tüm model seçiminin yerini, görünmeyen verilerdeki doğruluğu (ne tanımlanırsa tanımlayın; prensip olarak istenen kullanımdaki iyilik) optimize eder; bu, hem hassasiyeti hem de hatırlamayı birleştirilmiş bir şekilde optimize etmeyi sağlar. Bu, öğrenci türüne bağlı olarak farklı şekillerde elde edilen genelleme yeteneği kavramına yol açar.

İkinci soruya verilen cevap büyük ölçüde tanımlara bağlıdır; hala parametrik olmayan istatistiklerin ikisini birleştiren bir şey olduğunu düşünüyorum.


Bunun tamamen doğru olduğundan emin değilim. Makine öğrenme yöntemleri hangi anlamda parametre kestirimi olmadan çalışır (parametrik veya dağıtımsız bir model seti içinde)?
John L. Taylor

1
Bir şeyi tahmin ediyor / hesaplıyorsunuz (tam terim farklı olabilir). Örneğin, bir sinir ağını düşünün. Bir şey tahmin etmeye çalıştığınızda net ağırlıklarını hesaplamıyor musunuz? Buna ek olarak, çıktıyı gerçeğe uydurmak için eğittiğinizi söylediğinizde, dolaylı olarak bir tür kayıp fonksiyonu hakkında konuşuyorsunuz.

@John, @Srikant Öğrenenlerin parametreleri vardır, ancak bunlar istatistiksel anlamda parametreler değildir. Doğrusal regresyonu y = a x (basit için serbest terim olmadan) düşünün . a, istatistiksel yöntemlerin sığacağı, y = a x olduğu varsayımıyla beslenen bir parametredir . Makine öğrenimi sadece tren aralığında x istendiğinde x üretmeye çalışır (bu mantıklıdır, çünkü y = a x olduğu varsayılmaz ); bunu yapmak için yüzlerce parametreye uygun olabilir.

3
[kaynak belirtilmeli]. Başka bir deyişle, ilgi çekici cevap, en azından ML literatürü ile jive değil (en azından).
gappy

1
Klasik olan, Breiman'ın "İstatistiksel Modelleme: İki Kültür" dür.

2

Makine Öğreniminde parametre tahmini konusunda temel bir fikir olduğunu düşünmüyorum. ML kalabalık, algoritmalar verimli olduğu ve "doğru" tahmin edildiği sürece, olasılığı veya posterioru en üst düzeye çıkaracaktır. Odak noktası hesaplama üzerinedir ve istatistik sonuçları yaygın olarak kullanılmaktadır.

Genel olarak temel fikirler arıyorsanız, o zaman hesaplama öğrenme teorisinde, PAC merkezdir ; istatistiksel öğrenme teorisinde yapısal risk minimizasyonu ; ve başka alanlar da var (örneğin, John Langford'un Tahmin Bilimi görevine bakınız ).

Köprü istatistiklerinde / ML'de, bölünme aşınmış görünüyor. "İki Kültür" sorusuna cevap vermeyi sevdim .


İstatistiksel kalabalık istenen p değeri görünene kadar SPSS'de rastgele

1

Kaybı negatif günlük olasılığı olarak tanımlayarak, bir olasılık maksimizasyon problemini bir kayıp minimizasyon problemi olarak yeniden yazabilirsiniz. Olasılık bağımsız olasılıkların veya olasılık yoğunluklarının bir ürünü ise, kayıp etkin bir şekilde hesaplanabilen bağımsız terimlerin toplamı olacaktır. Ayrıca, stokastik değişkenler normal olarak dağıtılırsa, karşılık gelen kayıp-minimizasyon problemi en küçük kareler problemi olacaktır.

Olasılık maksimizasyonunu yeniden yazarak bir kayıp minimizasyon problemi oluşturmak mümkün ise, bu sıfırdan bir kayıp minimizasyon problemi yaratmayı tercih etmelidir, çünkü (umarım) daha fazla bir kayıp minimizasyon problemine yol açacaktır. teorik olarak kurulmuş ve daha az ad hoc. Örneğin, genellikle değerlerini tahmin etmeniz gereken ağırlıklı en küçük kareler gibi ağırlıklar, orijinal olabilirlik maksimizasyonu problemini yeniden yazma işleminden ve zaten (umarım) optimal değerlere sahip olmanızdan ortaya çıkar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.