Ne kullanıldığında - Makine Öğrenmesi [kapalı]


39

Geçenlerde, UPC / Barselona'daki Profesör Oriol Pujol'den Makine Öğrenimi dersinde, geniş bir makine öğrenimi ile ilgili görev için kullanılacak en yaygın algoritmaları, prensipleri ve kavramları tanımladı. İşte onları sizinle paylaşıyorum ve size soruyorum:

  • farklı makine öğrenimi ile ilgili problemlere ilişkin yaklaşımlar veya yöntemler ile eşleşen herhangi bir kapsamlı çerçeve var mı?

Basit bir Gaussian'ı nasıl öğrenirim? Olasılık, rasgele değişkenler, dağılımlar; tahmin, yakınsama ve asimptotik, güven aralığı.

Gauss'luların (MoG) bir karışımını nasıl öğrenirim? Olabilirlik, Beklenti-Maksimizasyon (EM); genelleme, model seçimi, çapraz doğrulama; k-aracı, gizli markov modelleri (HMM)

Herhangi bir yoğunluğu nasıl öğrenirim? Parametrik ve Parametrik olmayan kestirim, Sobolev ve diğer fonksiyonel uzaylar; 1, 2 hata; Çekirdek yoğunluğu kestirimi (KDE), optimal çekirdek, KDE teorisi

Sürekli bir değişkeni (regresyon) nasıl tahmin edebilirim? Doğrusal regresyon, düzenlileşme, sırt regresyonu ve LASSO; lokal doğrusal regresyon; koşullu yoğunluk kestirimi.

Kesikli değişkenleri nasıl sınıflandırabilirim (sınıflandırma)? Bayes sınıflandırıcısı, saf Bayes, üretici vs. ayrımcı; algılayıcı, ağırlık kaybı, doğrusal destek vektör makinesi; en yakın komşu sınıflandırıcı ve teorisi

Hangi kayıp fonksiyonunu kullanmalıyım? Maksimum olabilirlik tahmini teorisi; -1 -2 kestirim; Bayessian tahmini; minimax ve karar teorisi, Bayescilik ve sıklıkçılık

Hangi modeli kullanmalıyım? AIC ve BIC; Vapnik-Chervonenskis teorisi; çapraz doğrulama teorisi; önyükleme; Muhtemelen Yaklaşık Doğru (PAC) teorisi; Hoeffding kaynaklı sınırlar

Daha meraklı (birleşik) modelleri nasıl öğrenebilirim? Topluluk öğrenme teorisi; artırılması; torbalama; istif

Meraklısı (doğrusal olmayan) modelleri nasıl öğrenebilirim? Genelleştirilmiş doğrusal modeller, lojistik regresyon; Kolmogorov teoremi, genelleştirilmiş katkı modelleri; çekirdekleme, çekirdeklerin çoğaltılması Hilbert uzayları, doğrusal olmayan SVM, Gauss işleminde regresyon

Meraklısı (kompozisyon) modelleri nasıl öğrenebilirim? Özyinelemeli modeller, karar ağaçları, hiyerarşik kümeleme; sinir ağları, geri yayılım, derin inanç ağları; grafik modeller, HMM karışımları, koşullu rasgele alanlar, maksimum marjlı Markov ağları; log-doğrusal modeller; dilbilgisi

Özellikleri nasıl azaltır veya ilişkilendiririm? Özellik seçimi - boyutsallık azaltma, özellik seçimi için sarıcı yöntemler; nedensellik-korelasyon, kısmi korelasyon, Bayes net yapı öğrenmesi

Yeni özellikleri nasıl oluşturabilirim? temel bileşen analizi (PCA), bağımsız bileşen analizi (ICA), çok boyutlu ölçeklendirme, manifold öğrenme, denetimli boyutluluk azaltma, metrik öğrenme

Verileri nasıl azaltabilir veya ilişkilendirebilirim? Kümeleme, iki kümeleme, kısıtlı kümeleme; birleşme kuralları ve pazar sepeti analizi; sıralama / sıra regresyonu; bağlantı analizi; ilişkisel veri

Zaman serilerine nasıl davranırım? ARMA; Kalman filtresi ve stat-uzay modelleri, parçacık filtresi; fonksiyonel veri analizi; değişim noktası tespiti; zaman serileri için çapraz doğrulama

İdeal olmayan verileri nasıl ele alabilirim? değişken değişme; sınıf dengesizliği; eksik veriler, düzensiz örneklenmiş veriler, ölçüm hataları; anomali tespiti, sağlamlık

Parametreleri nasıl optimize ederim? Kısıtsız ve kısıtsız / Konveks optimizasyon, türevsiz yöntemler, birinci ve ikinci dereceden yöntemler, backfitting; doğal gradyan; bağlı optimizasyon ve EM

Doğrusal işlevleri nasıl optimize ederim? hesaplamalı doğrusal cebir, regresyon için matris inversiyonu, boyutsallığın azaltılması için tekil değer ayrışımı (SVD)

Kısıtlamalarla nasıl optimize edebilirim? Dışbükeylik, Lagrange çarpanları, Karush-Kuhn-Tucker koşulları, iç nokta yöntemleri, SVM için SMO algoritması

Derin iç içe toplamları nasıl değerlendirebilirim? Tam grafik model çıkarımı, toplamlar üzerinde değişken sınırlar, yaklaşık grafik model çıkarımı, beklenti yayılımı

Büyük miktarları ve aramaları nasıl değerlendirebilirim? Genelleştirilmiş N-vücut problemleri (GSMH), hiyerarşik veri yapıları, en yakın komşu araştırması, hızlı çoklu yöntem; Monte Carlo entegrasyonu, Markov Zinciri Monte Carlo, Monte Carlo SVD

Daha büyük problemleri nasıl tedavi edebilirim? Paralel / dağıtılmış EM, paralel / dağıtılmış GSMH; Stokastik yeraltı yöntemleri, çevrimiçi öğrenme

Tüm bunları gerçek dünyada nasıl uygularım? ML'nin bölümlerine genel bakış, her görev için kullanılacak yöntemler, ön bilgi ve varsayımlar; keşifsel veri analizi ve bilgi görselleştirmesi; değerlendirme ve yorumlama, güven aralıkları ve hipotez testi, ROC eğrileri kullanılarak; ML'deki araştırma problemleri nerede


Gerçekten geniş. Bence her alt soru, anlamlı bir cevap alabilmek için ayrı bir soru olmalıdır.
Amir Ali Akbari,

2
Bu soru, ona nasıl baktığınıza bağlı olarak çok geniş veya çok geniş olmayabilir. Soru , görevlerin ve yöntemlerin ayrıntılı bir tanımını ima ederse , bu yalnızca bir soru için değil, tek bir kitap için bile kesinlikle geniş olacaktır. Ancak bu sorunun bu yorumu ima ettiğini sanmıyorum . Bu sorunun, görevleri yaklaşımlarla veya yöntemlerle eşleştiren bir çerçeve veya taksonomi istediğine inanıyorum ( algoritmalar ve kavramlar , ayrıntı düzeyi sorunları nedeniyle göz ardı edilmeli). Bu açıdan bakıldığında, bu cevap çok geniş değil ve dolayısıyla IMHO geçerli.
Aleksandr Blekh

@AleksandrBlekh Tam olarak bahsettiğiniz türden bir çerçeve sorunun amacıdır. Netleştirmek için düzenliyorum. Teşekkür ederim
Javierfdr

@Javierfdr: Bir şey değil.
Aleksandr Blekh,

@SeanOwen Ana soruyu değiştirdim. Lütfen bana hala geniş olup olmadığını ve daha keskin yapmam gerektiğini söyleyin. Teşekkür!
Javierfdr

Yanıtlar:


6

@Geogaffer ile aynı fikirdeyim. Bu gerçekten çok iyi bir liste. Ancak, şu anda formüle edildiği gibi bu listeyle ilgili bazı sorunlar görüyorum . Örneğin, bir mesele önerilen çözümler farklı olmasıdır ayrıntı düzeylerine - bazıları temsil yaklaşımları - Bazı yöntemler , bazı - algoritmalar sadece - ve diğer bazı kavramları (diğer bir deyişle, terimleri , konuların alanı terminolojisi içinde). Ek olarak, - ve bunun yukarıdakilerden çok daha önemli olduğuna inanıyorum - listedeki tüm çözümler birleşik bir tematik istatistiksel çerçevede düzenlenmişse, bunun çok değerli olacağını düşünüyorum.. Bu fikir, Lisa Harlow'un "Çok değişkenli düşüncenin özü" adlı mükemmel bir kitabını okumaktan esinlenmiştir. Dolayısıyla, geçenlerde karşılık gelen, şu anda biraz sınırlı da olsa başlattık tartışma Stack Exchange en üstünde Haç Validated sitesinde. Başlığın sizi karıştırmasına izin vermeyin - ima ettiğim niyet ve umut, yukarıda bahsedildiği gibi birleşik bir çerçeve oluşturmaktır .


Bahsettiğiniz bu çerçeve olması harika bir şey olurdu! Yazılan benzer bir şey var mı?
Javierfdr

@Javierfdr: Bildiğim hiçbir şey yok. Ancak bakmaya devam ediyorum.
Aleksandr Blekh

@ AleksandrBlekh hakkında ne kadar çok düşünürsem o kadar fazla istatistiksel bir çerçeve aramanın yanlış yönlendirildiğini düşünüyorum. Frank Harrell'ın soruna cevabını ve benim bu cevabını gör. Ama Harlow'un kitabı gerçekten ilginç geliyor ve bu hafta kütüphaneden alacağım.
shadowtalker,

1
@ssdecontrol: Saygılarımla aynı fikirde değilim. Böyle bir çerçevenin mevcut olmadığını varsayarak (ki şu anda büyük olasılıkla durum böyledir) ve bir tane yaratmanın kolay bir iş olmadığını fark ederek, bunun çok mümkün olduğuna inanıyorum. Bahsettiğiniz cevaplara gelince (her zaman hepsini okudum), ikisini de okudum, ancak böyle bir çerçeve oluşturmanın imkansız olduğunu ispat etmiyorlar - belirttiğim gibi zor. Bu, insanların bunu düşünmesini ve hatta bu konuda çalışmasını engellemesi gereken bir şey değil. Harlow'un kitabının tadını çıkar.
Aleksandr Blekh

3

Çok şey kapsayan iyi bir liste. Bu yöntemlerden bazılarını kullandım, çünkü daha önce hiçbir şey makine öğrenmesi olarak adlandırılmıyordu ve sanırım listelediğiniz yöntemlerden bazılarının zaman içinde kullanılıp kullanılmayacağını göreceksiniz. Bir yöntem çok uzun süre lehte değilse, tekrar ziyaret etme zamanı gelebilir. Bazı yöntemler, farklı çalışma alanlarından kaynaklanan farklı isimlerin arkasını gizleyebilir.

Bu yöntemleri kullandığım ana alanlardan biri, mekansal ve yönlendirilmiş veri yöntemleri ile ilgili bazı ek kategoriler ekleyebilmenizi desteklemek için jeo-uzamsal olan mineral potansiyeli modellemesidir.

Sorunuzu belirli alanlara götürmek, muhtemelen kapsamlı listenizde olmayan yöntemlerden daha fazla örnek bulduğunuz yerde olacaktır. Örneğin, mineral potansiyelinde gördüğüm iki yöntem geriye doğru gerileme ve kanıt modelleme ağırlıkları olmuştur. Ben istatistikçi değilim; belki de bunlar doğrusal regresyon ve Bayesian yöntemleri altındaki listede ele alınacaktır.


1

Bence yaklaşımın biraz geriye doğru.

“Bu verilere uygun bir Gauss dağılımının anlamı nedir?” asla sorun ifadesi değildir, bu yüzden "nasıl bir Gausyalıya sığarım?" Asla çözmek istediğiniz sorun değildir.

Fark anlamsal olmaktan çok daha fazla. "Yeni özellikleri nasıl kurarım?" Sorusunu düşünün. Amacınız bir dizin geliştirmekse, bir tür faktör analizi kullanabilirsiniz. Amacınız doğrusal bir modele geçmeden önce özellik alanını azaltmaksa, adımı tamamen atlayıp yerine elastik net regresyon kullanabilirsiniz.

Daha iyi bir yaklaşım, üstesinden gelmek istediğiniz gerçek veri analizi görevlerinin bir listesini derlemektir . Gibi sorular:

Müşterilerin alışveriş siteme geri dönüp dönmeyeceğini nasıl tahmin ederim?

Kaç tane “büyük” tüketici alışveriş modelinin olduğunu ve bunların neler olduğunu nasıl öğrenebilirim?

Çevrimiçi mağazamdaki farklı öğeler için "oynaklık" endeksini nasıl oluşturabilirim?

Ayrıca şu anda listeniz çok fazla miktarda malzeme içeriyor; “İncelemek” ve yüzeysel bir anlayıştan daha fazlasını kazanmak için çok fazla. Aklında gerçek bir amaç olması, önceliklerinizi çözmenize yardımcı olabilir.


Ne demek istediğinizi @ ssdecontrol, aslında bahsettiğiniz gibi tipik sorunların kapsamlı bir çözüm listesine sahip olmak da çok yararlı olabilir. Şimdi, iki yaklaşım arasındaki temel fark, benim önerdiğim şeyin, alternatifleri deniyorken, kendinize soracağınız teknik sorularla doğrudan bağlantılı olduğudur ve bu noktada, zaten bazı varsayımlar yaptınız. özelliklerinizin gauss olmadığını, PCA'nın boyutsallığı azaltması için kullanmalı mıyım? Hayır. Yaklaşımınız daha geniştir: Loş için ne kullanılmalı. azaltma -> PCA, ancak gauss özellikleri varsayalım. Thx
Javierfdr

@Javierfdr benim açımdan, eğer aklınızda bir soru yoksa, teknik soruların bir dikkat dağıtıcı olduğu.
shadowtalker,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.