Veri madenciliği yazılım araçlarının incelenmesi


15

Mühendis olarak eğitilmiş olmama rağmen, veri madenciliğiyle daha fazla ilgilendiğimi fark ettim. Şu anda alanı daha fazla araştırmaya çalışıyorum. Özellikle, var olan farklı yazılım araçları kategorilerini ve her kategoride hangi araçların ve neden önemli olduğunu anlamak istiyorum. ("En iyi" araçları söylemediğimi unutmayın, sadece önemli olanlar bir alev savaşı başlattığımız sürece.) Özellikle açık kaynaklı ve serbestçe kullanılabilen araçları not edin - buna rağmen bunu almayın Ben sadece açık kaynak kodlu ve özgür ilgileniyorum.


1
Bunun bir topluluk wiki'si olmasını tavsiye ediyorum.
Tal Galili

bir ödev sorusu gibi geliyor
Neil McGuigan

@Tal Kesinlikle, şimdi dönüştürüldü.

@el şef - Bu çok geniş ve genel bir soru ... ama korkarım bu bir ev ödevi sorusu değil.
John Berryman

Yanıtlar:


7

Bu muhtemelen bulabileceğiniz en kapsamlı listedir: mloss.org


Yine de yapay zeka gibi veri madenciliği ile ilgili bir alan olarak görülebilen Makine Öğrenme üzerine odaklanmıştır. Her ne kadar yaygın olarak kullanılsa da, "tahmin" veri madenciliğindeki temel zorluklardan biridir. Ancak veri madenciliğinde "öğrenmekten" daha fazlası var.
QUIT - Anony-Mousse

7

Şuna bir bak

  • Weka (java, sınıflandırmada güçlü)
  • Turuncu (python komut dosyası, çoğunlukla sınıflandırma)
  • GNU R (R dili, biraz vektör tablosu odaklı, bkz. Makine Öğrenimi görev görünümü ve Rattle UI)
  • ELKI (java, kümeleme ve aykırı değer tespiti konusunda güçlü, hızlandırmalar için dizin yapısı desteği, algoritma listesi )
  • Mahout (Java, bir kümeniz ve büyük veri kümeleriniz varsa Hadoop'a aittir)

ve veri setleri için UCI Makine Öğrenim Deposu .


1
listeye Red-R ekleyebilirsiniz (R'de Turuncu bir klon türü): red-r.org
Amro

R'yi indirdim ve şimdi onunla oynuyorum.
John Berryman

@Amro Teşekkürler! Ancak, yanlış yapmadıkça Mac platformunda mevcut değil mi?
chl

Mac kullanıcısı değilim, ancak Linux derlemesinin sizin için çalışabileceğini düşünüyorum (tüm python bağımlılıklarını manuel olarak yüklemeniz gerekir): red-r.org/forum/topic.php?id=22#post-76
Amro

@Amro bir deneyeceğim; geçmişte RAnalyticFlow'u ( j.mp/bYF8xs ) test ediyordum ama ikna olmadım: Temelde bir CLI kullanıcısıyım :-)
chl


3

KNIME'a bir göz atın .

Öğrenmesi çok kolay. Daha fazla ilerleme için geniş kapsam. Weka ve R ile güzel bir şekilde bütünleşir.




2

WEKA ile karşılaştırılabilir bir açık kaynak üniversite projesi olan ELKI var , ancak kümelenme ve aykırı algılama konusunda çok daha güçlü. WEKA aslında veri madenciliği değil, makine öğrenme yazılımı.


1

Bu var Güzel bir GUI ve görsel programlama arayüzü olan Red-R var. Çeşitli veri analizlerini işlemek için R'yi kullanır.



0

SQL Server Veri Madenciliği (SSDM) uzun zamandır güncellenmedi, ancak büyük ilişkisel veritabanlarını ve küpleri madenciliyorsanız hala oldukça rekabetçi. Yavaş ama sistematik olarak elimden geldiğince çok sayıda madencilik aracının testleriyle yolumu açıyorum ve SQL Server'ın Windows arayüzü bugüne kadar bulduğum en üretken ve kararlı (özellikle kurumsal veritabanları söz konusu olduğunda, bazıları şaşırtıcı bir şekilde özensiz arayüzler) yaşına rağmen. Modern bir Windows Presentation Foundation (WPF) arayüzünü tercih ederim ama bu en iyi şey.

Bazı temel madencilik becerileri kazanmaya çalışırken, SQL Server Veri Madenciliğine A Rickety Merdivenleri başlıklı bir dizi ayrıntılı amatör öğretici yazdım . Benim deneyimim rağmen onlar hala bazı "gotchas" önceden tanımlamak yardımcı olur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.