Makine öğrenme algoritmalarının incelenmesi: anlama derinliği ve algoritma sayısı


13

Son zamanlarda Veri Bilimi alanına girdim (yaklaşık 6 aydır) ve Ii, Andrew Ng tarafından Makine Öğrenimi Kursu ve JHU tarafından Veri Bilimi Uzmanlığı üzerinde çalışmaya başlayan yazı ile başladı.

Pratik uygulama cephesinde, yıpranmayı tahmin edecek bir öngörücü model oluşturmaya çalışıyorum. Şimdiye kadar bu yöntemleri öğrenmek ve uygulamak için glm, bayesglm, rf kullandım, ancak bu algoritmaları anladığımda çok fazla boşluk buluyorum.

Temel ikilem:

Birkaç algoritmanın inceliklerini öğrenmeye daha fazla odaklanmalı mıyım, yoksa birçoğunu ne zaman ve ne zaman gerektiği kadar tanıma yaklaşımını mı kullanmalıyım?

Lütfen bana kitaplarınızı, makalelerinizi ya da yardımcı olacağını düşündüğünüz herhangi bir şeyi önererek doğru yönde rehberlik edin.

Veri Bilimi alanında kariyerine yeni başlamış ve iş dünyası için pratik sorunları çözen bir kişi olmak isteyen bir kişiye rehberlik etme fikriyle cevap verirseniz minnettar olurum.

Bu yazıda önerilen kaynakları (kitaplar, makaleler) okuyabiliyordum ve benzer bir soruya rastlayan insanlar için yararlı bir yazı haline getirmek için aynı artıları ve eksileri hakkında kişisel bir geri bildirim sağlayacaktım. Gelecekte, ve bu kitapları öneren insanların aynı şeyi yapmasının harika olacağını düşünüyorum.

Yanıtlar:


9

Kendinizi birkaç denenmiş ve güvenilir algoritmayla sınırlandırmanızı tavsiye ederim. İstatistiksel öğrenme unsurlarını tavsiye etmem (ilk kitap olarak). Çok teorik, lisansüstü öğrencilere yönelik, X veya Y'yi nasıl kanıtlayacağınızı soran egzersizlerle ... Bence ISL daha uygun, daha pratik önerilerle (her iki kitap da pdf indirme olarak ücretsiz).

İstatistiklerin yanı sıra, deneysel tasarım / AB testleri ve İş Zekası / Görselleştirme ile de rahat olmanızı sağlayacağım.


Bazı ÖZGÜRLÜKLERİN KAÇIRMAMASI gerektiğini veya pratik iş sorunlarını çözmek için en yararlı olduğunu söylemek daha iyi olabilir eğer takdir ediyorum. Mümkünse lütfen onları öğrenmenin en iyi yollarını belirtin (belirli kitaplar, kendi kendine yardım makaleleri veya deneme yanılma olabilir)

2
ISL'deki hemen hemen tüm algosları söyleyebilirim: doğrusal regresyon, lojistik regresyon, ağaç tabanlı yöntemler, SVM; Kümeleme ve boyut küçültme, örneğin PCA. Kitapta gezinin ve ilgili çevrimiçi kursa bakın ( online.stanford.edu/course/statistic-learning-winter-2014 - belki youtube'da?).
seanv507

Büyük Kaynak, Yazarların kendileriyle aynı kitap ve videoya sahip olmak iyi. Bağlantı için çok teşekkürler, bunun farkında değildi.
Vinay Tiwari

Üzgünüm, ama bu korkunç bir tavsiye. Bir veri bilimcisi asla birkaç algoritmaya güvenmemelidir. Kendi veri ve analiz becerilerinize güvenmeniz gerekir ve iki veri sorunu birbirine benzemez. Bazıları X ile, diğeri Y ile çözülecektir. Veri evreninin birkaç algoritmanızla uyumlu olmasını beklemek makul değildir. Meraklı olun, esnek olun, bilgili olun ve sadece tanıdıklarınız için değil, iş için doğru aracı kullanın.
I_Play_With_Data

5

Tartışmalı bir şekilde, kendilerine veri bilimcisi diyen biri, kullandığı algoritmaların karmaşıklığı hakkında daha fazla bilgi sahibi olmalıdır - örn. maksimum olabilirlik çözümü bulunacaktır (belki bir fincan kahve yaptıktan sonra). Her durumda, istatistik ve makine öğreniminin genel kavramlarını anlamak, kullandığınız yöntemlere (bunların arkasındaki teori, yaptıkları varsayımlara, hangi teşhis kontrollerini gerçekleştirmeniz gerektiğine, sonuçların nasıl yorumlanacağına) aşina olmanın yanı sıra önemlidir. Bu parodi olmaktan kaçının .

Muhtemelen Hastie ve ark. (2009), İstatistiksel Öğrenmenin Unsurları .


Elbette okuyacak! Gerçekten son satır sevdim ... Ben ASAP sonuçları almak için dürtü ve bazen baskı sık sık böyle Parodi yol açar düşünüyorum. Ve bunun tersine kaçınmak da aynı derecede önemlidir, ki burada öğrenme o kadar derine iner ki, gerçek dünya sorunları için işe yaramaz hale gelir. Büyürken / öğrenirken bazen ne YAPMAYI bilmek daha önemlidir, rehberlik için çok teşekkürler, benzer bir Yolculuk'ta beni ve diğerlerini aydınlatacak daha fazla içgörü görmeyi umuyoruz.

"GLM Fisher puanlama algoritması yakınsama oranını ne etkiler" - Sanırım burada Veri Bilimciler% 99 kaybetti.

@Momo: "Veri bilimcisi", devalüasyona başlamadan önce para kazanamayan kötü niyetli terimlerden biridir.
Scortchi - Monica'yı eski durumuna döndür

2

Peki, 1 veya 2 algoritmanın karmaşıklıklarını ayrıntılı olarak bilmek (parametrelerinin iç çalışması gibi) kesinlikle bir demet nasıl çalıştırılacağını bilmekten daha iyidir.

Yaklaşık 11 yıldır Analytics bölgesinde, 2,5 yıldır Veri Bilimcisinde çalışıyorum ve deneyimlerimden bahsediyorum. Öte yandan, probleminiz için daha geçerli olabilecek diğer şeylerin (derin öğrenme, SVM, XGboost vb. Gibi daha yeni algoritmalar) kesinlikle farkında olmalısınız.

Sanırım Dr.Andrew Ng'nin kursu bazı algoritmaların birkaç ayrıntısına giriyor ve iyi bir başlangıç. Diğerlerinin de belirttiği gibi, http://statweb.stanford.edu/~tibs/ElemStatLearn/ iyi bir kitap ve onunla birlikte gitmek için videolar var.

Bu benim kişisel görüşüm, kaçırmamanız gereken algoritmalar şunlardır: (Bunları ayrıntılı olarak bilin):

1) Çoklu doğrusal regresyon 2) Lojistik regresyon 3) PCA gibi boyutsal küçültmenin yaygın teknikleri 4) K-kümeleme anlamına gelir 5) Doğrusal olmayan regresyon 6) Optimizasyon yöntemleri: gradyan tabanlı arama yöntemleri, doğrusal programlama ve ayrık optimizasyon 7) Kavramlar ve algoritmalar özellik mühendisliğinde 8) Basit zaman serisi tahmin yöntemleri

Diğer Ezoterik algoritmalar:

1) Rastgele Ormanlar 2) SVM 3) derin öğrenme 4) LDA gibi diğer boyutsallık azaltma yöntemleri 5) Diğer çekirdek tabanlı yöntemler 6) Genetik algoritmalar 7) XgBoost 8) Dinamik regresyon 9) GARCH / ARCH yöntemleri 10) Yapısal eşitlik modellemesi 11) Zaman serisi tahmininde Box Jenkins yöntemleri 12) Bilgi teorisi: bilgi kazancı, karşılıklı kazanç vb.


0

Ben de benzer bir durumdaydım. Her algoritma ile burada başladım (ve ayrıntılı olarak).

resim açıklamasını buraya girin

Ancak, yakında makine / derin öğrenmedeki akademinin gerçek hızlı hareket ettiğini ve her zaman birçok gerçek dünya uygulamasında geleneksel algoritmaları aşmanın uzun bir yolunu açan daha hızlı / son teknoloji algoritmalarla geldiğini öğrendim. . Bu nedenle, en son trendlerle güncellenmesi her zaman tercih edilir. (Normalde kendim yaptığım gibi) iyi bir haber beslemesinin (Orta gibi) veya şaşırtıcı, en ileri araştırma dergisinin aboneliğini almanızı ve takip etmenizi öneririm. Birçok kez şaşırtıcı algoritmalar, belirli bir problemle (muhtemelen sizinkine benzer) mücadele eden araştırma kağıtlarından gelir.

Mesele şu ki, iyi bir veri bilimcisi (veya ML mühendisi) olmak için hem derinlik hem de genişliğin bir karışımına ihtiyacınız var. Kişisel olarak yüzeylerinde çok fazla algoritma bilmeyi yararlı buluyorum (sadece yaptıkları, ne zaman kullanıldıkları, artıları ve eksileri). Belirli bir sorunu çözmeme yardımcı olabileceklerini hissettiğimde ( sadece hissediyorum ) onlara geri dönüyorum. Onları ayrıntılı olarak okudum ve uygun olup olmadıklarını görüyorum. Olabilirler ya da olmayabilirler. Ancak ayrıntıları düşünmek, bu yaklaşıma ilişkin içgörü eksikliği nedeniyle probleminize şaşırtıcı bir yaklaşımı kaçırmamanızı sağlamak için gereklidir. Örneğin, bir kez Nesne algılama gerektiren bir şey üzerinde çalışıyordum (çok basit olsa da). R-CNN, Fast-CNN, YOLO hakkında bir yer okudum. Hemen uygun olup olmadıklarını görmek için hemen onlara döndüm. O gün onları daha detaylı tanıyordum.

Birkaç algoritmanın inceliklerini öğrenmeye daha fazla odaklanmalı mıyım, yoksa birçoğunu ne zaman ve ne zaman gerektiği kadar tanıma yaklaşımını mı kullanmalıyım?

Karmaşıklıkları öğrenmek inanılmaz. Ancak dünya gerçek bir hızla ilerliyor. Öğrendiklerinizi ayrıntılı bir şekilde aşan yeni bir algoritma olabilir. Bu nedenle, bu kullanımdan kurtulmanın ve yenisinin sizi daha iyi yapıp yapmadığını görmenin zamanı geldi.

Gerektiğinde bir şeyler öğrenin. Ve gerektiğinde, bunları ayrıntılı olarak öğrenin. Muhtemelen işe yarayabileceklerini düşünüyorsanız, bir şeyler uygulayabilmelisiniz. Ve bu içgörü bilgiden gelir.

İyi şanslar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.