Veri madenciliği hakkında okumaya nasıl başlanır?


14

Veri madenciliği hakkında okumaya başlayacak bir acemiyim. Temel yapay zeka ve istatistik bilgim var. Birçoğu makine öğreniminin veri madenciliğinde de önemli bir rol oynadığını söylediği için, veri madenciliğine devam edebilmek için makine öğrenimi hakkında okumak gerekli mi?


1
Veri Madenciliği: Kavramlar ve Teknikler Jiawei Han tarafından iyi bir başlangıç
aaronjg

Yanıtlar:


12

Biraz bu pozisyonda olduğum için, biraz fikir vermeye çalışacağım.

İlk olarak, İstatistiksel Öğrenmenin Unsurlarını indirin . Kalkülüs ve lineer cebiri varsayar ve çok teknik olmasına rağmen son derece iyi yazılmıştır.

İkincisi (veya ilk olarak) Andrew Ng'in makine öğrenimi hakkındaki eğitimlerine bakın .

Üçüncü olarak, bazı veriler alın ve verileri analiz etmeye çalışın. Eğitim ve test setlerine ayrılmanız ve daha sonra eğitim setinde modeller oluşturmanız ve test setine karşı test etmeniz gerekir. R için caret paketini tüm bunlar için çok yararlı buldum. Bundan sonra pratiği, pratiği yapın (hemen hemen her şey gibi).


1
fakir adamı sonsuza dek korkutacaksın!
Neil McGuigan

Andew Ng'nin kursu, 2011 sonbaharında ml-class.org
Andre Holzner


4

Veri madenciliği tanımlayıcı veya öngörücü olabilir.

Bir yandan, açıklayıcı veri madenciliği ile ilgileniyorsanız, makine öğrenimi yardımcı olmaz.

Öte yandan, tahmini veri madenciliği ile ilgileniyorsanız, o zaman makine öğrenimi, ampirik riski en aza indirirken bilinmeyen riski (kayıp fonksiyonunun beklentisi) en aza indirmeye çalıştığınızı anlamanıza yardımcı olacaktır: hata ve çapraz doğrulama. Örneğin, tutarlılık açısından, büyüklüğünde bir eğitim örneği için -NN şöyle olmalıdır:nkn

  • nk sonsuza gittiğinde sonsuza gider,n
  • nkn sonsuza gittiğinde 0 olur .n

3
Bazı yazarların büyüklüğüne bağlı olarak DM ve ML arasında bir ayrım yapmaktan hoşlandıklarını belirtmek gerekir . Kişisel olarak Radford Neale'in yaklaşımını seviyorum, Makine Öğrenimi ve Veri Madenciliği için İstatistiksel Yöntemler dersinde : Birçok makine öğrenimi probleminin çok sayıda değişkeni var, Veri madenciliği uygulamaları genellikle çok sayıda vaka içeriyor. k/n
chl

3

Sadece Tom Mitchell tarafından veri madenciliği / makine öğrenimi hakkında çok iyi bir öğretici kaynak ekliyorum .

Çok açık bir şekilde açıklıyor ve sunumlarını web sitesinden de indirebilirsiniz (orada derslerini izlerken).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.