Makine öğrenimi için “sıcak algoritmalar” nelerdir?


14

Bu, makine öğrenmesini öğrenmeye başlayan birinden naif bir sorudur. Bu günlerde Marsland'dan "Makine Öğrenimi: Algoritmik bir bakış açısı" kitabını okuyorum. Bir tanıtım kitabı olarak yararlı buluyorum, ama şimdi şu anda en iyi sonuçları veren gelişmiş algoritmalara girmek istiyorum. Çoğunlukla biyoinformatikle ilgileniyorum: biyolojik ağların kümelenmesi ve biyolojik dizilerde örüntüler bulmak, özellikle tek nükleotid polimorfizm (SNP) analizine uygulanır. Okumam için bazı yorumlar veya kitaplar tavsiye eder misiniz?

Yanıtlar:


15

Derin Öğrenme 2006'dan beri çok odaklanmıştır. Temel olarak derin sinir ağlarını eğitmek için bir yaklaşımdır ve çok sert veri kümelerinde (belge kümeleme veya nesne tanıma gibi) gerçekten etkileyici sonuçlara yol açmaktadır. Bazı insanlar ikinci sinir ağı rönesansından bahsediyorlar (örneğin Schmidhuber'ın bu Google konuşmasında ).

Etkilenmek istiyorsanız , Sinir Ağları, Hinton ve Salakhutdinov ile Verilerin Boyutsallığını Azaltma başlıklı bu Bilim makalesine bakmalısınız.

(Şu anda bu alanda o kadar çok çalışma var ki, bunu tedavi edeceğimi bildiğim sadece iki yaklaşan kitap var: Büyük ölçekli makine öğrenimi , Langford ve arkadaşları ve Makine Öğrenimi: Kevin Murphy'nin olasılıklı bir perspektifi .)

Daha fazla bilgi edinmek istiyorsanız, ana derin öğrenme gruplarının ne yaptığını kontrol edin: Stanford , Montreal ve en önemlisi Toronto # 1 ve Toronto # 2 .


8

Şimdiye kadar verilen cevapların çoğu "Denetimli Öğrenim" (yani veri kümenizin bir kısmı için, algoritmaları eğitmek için kullanabileceğiniz etiketlere sahip olduğunuz) anlamına gelir. Soru özellikle "Denetimsiz" bir yaklaşım olan kümelenmeden bahsetmiştir (yani önceden hiçbir etiket bilinmemektedir). Bu senaryoda şunlara bakmanızı öneririm:

  • k-araçları ve çekirdek k-araçları
  • Aglomerasyon Kümelemesi
  • Negatif Olmayan Matris Çarpanlarına Ayırma
  • Gizli Dirichlet Tahsisi
  • Dirichlet Süreçleri ve Hiyerarşik Dirichlet Süreçleri

Ancak aslında benzerlik / mesafe ölçünüzün kullandığınız algoritmadan daha önemli olduğunu göreceksiniz.

Etiketlenmiş verileriniz varsa, "Yarı Denetimli Öğrenme" yaklaşımları popülerlik kazanıyor ve çok güçlü olabilir. SSL için iyi bir başlangıç ​​noktası LapSVM'dir (Laplacian Destek Vektör Makinesi).


7

Bunlar yardımcı olabilecek kitaplar:

  • Veri Madenciliğine Giriş Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Bu, üniversitedeki Veri Madenciliği derslerim sırasında önerilen kitaptı. Düzeni ve teorik yaklaşımını seviyorum;
  • Veri Madenciliği: Pratik Makine Öğrenme Araçları ve Teknikleri , Ian H. Witten, Eibe Frank, Mark A. Hall. Çok ilginç bir kitap. Bu kitap aynı zamanda Veri Madenciliği Çerçevesi WEKA ;
  • Makine Öğrenimi Thomas Mitchell. Biraz eski bir kitap ama faydalı olabilir.

O zaman Stanford'da ücretsiz Makine öğrenimi derslerine katılabileceğinizi unutmayın: www.ml-class.com .

Ve sizin özel probleminiz için, yani SNP analizi, Di Camillo'nun Padova Üniversitesi'ndeki grubuna bir göz atmanızı öneririm .


5

İşte en popüler yöntemlerin çoğunun mantığını, teorisini ve uygulamasını açıklayan harika bir makale ve kitap:

Veri Madenciliğinde En İyi 10 Algoritma

Özellikle temiz, çünkü bu alandaki anket uzmanları tarafından seçilen bir "ilk 10".

Ayrıca, genel olarak gen verileri için, birçok özellik nedeniyle özellik seçimi son derece önemlidir. Örneğin, SVM özyinelemeli özellik eliminasyonu (SVM-RFE) ve ilgili yöntemler çok popülerdir ve gen verileri bağlamında aktif olarak geliştirilir ve uygulanır.


4

Artırılmış ağaçlar ve bir tür svm çok sayıda yarışma kazanır, ancak her zaman bağlama gelir. Manifold düzenlenmesi de son teknolojidir.


4

Hastie, Tibshirani ve Friedman'ın "İstatistiksel Öğrenmenin Unsurları" nı öneririm. Sadece okumayın, tarif ettikleri bazı algoritmalarla oynayın (çoğu R'de uygulanır, hatta bazılarını kendiniz de uygulayabilirsiniz) ve zayıf ve güçlü noktalarını öğrenin.



3

Rasmussen ve Williams (MIT Press) tarafından Makine Öğreniminde Gauss Süreçleri şarttır. Gauss süreçleri, şimdi Beklenti Yayılımı ve varyasyonel çıkarım algoritmalarının mevcut olduğu, makine öğrenimi için sıcak algoritmalardan biridir. Kitap çok iyi yazılmış, ücretsiz bir MATLAB araç kutusu (iyi bir kit) ve kitap ücretsiz olarak indirilebilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.