ELKI (ayrıca GitHub'da ) veri madenciliği ve veri bilimi açık kaynak projesidir. Modüler mimarisi açısından benzersizdir: Hızlanma için algoritmaları, mesafe işlevlerini ve dizinleri çok az sınırlama ile birleştirebilirsiniz (elbette, mesafeleri kullanmayan algoritmalar mesafelerle birleştirilemez). Verimlilik nedeniyle en kolay kod değildir. Veri madenciliği için, bellek konusunda dikkatli olmanız gerekir - ArrayList<Integer>
ölçeklenebilirlik istiyorsanız kullanmak hiç de kolay değildir.
Modüler mimari nedeniyle, tek mesafe fonksiyonu veya algoritma gibi sadece küçük modüllere katkıda bulunmak kolaydır.
Kabaca zorluklara göre gruplandırılmış veri madenciliği proje fikirlerinin bir listesini tutarız . Çoğu proje bir algoritmanın bazı varyantlarının uygulanmasıdır. ELKI, algoritmaların karşılaştırmalı çalışmalarına izin vermeyi amaçlamaktadır, bu nedenle herhangi bir kombinasyona izin vermeye çalışıyoruz ve ayrıca algoritma varyantlarını da kapsıyoruz. Örneğin k-araçlarında, sadece Lloyds algoritmasına değil, genel k-araç temasının 10 çeşidine sahibiz. 220'den fazla makale ELKI'de (en azından kısmen) yeniden uygulanmıştır.
Her şeyi aynı araçta uygulayarak çok daha karşılaştırılabilir sonuçlar elde ederiz. Kıyaslama için R kullanırsanız, genellikle elma ve portakalları karşılaştırırsınız. R'nin içindeki k-araçları aslında eski bir Fortran programıdır ve çok hızlıdır. k-R 'de, ancak "flexclust" paketinde 100x daha yavaştır, çünkü gerçek R kodunda yazılmıştır. Bu yüzden R ... 'de bir kıyaslamaya güvenmeyin, R modülleri uyumsuz olma eğilimindedir, bu nedenle ELKI'de B modülünden B algoritması ile A modüllerinden A mesafesini sık sık kullanamazsınız. bu tür eserleri azaltmak için uygulamalarda mümkün (elbette,% 100 adil bir kıyaslamaya sahip olmak asla mümkün olmayacaktır - her zaman optimizasyon için yer vardır), aynı zamanda modüllerin kolayca birleştirilmesine izin vermek.
Hartigan & Wong k-araç varyantı gibi küçük bir şeyle başlayabilir ve daha sonra küresel k-araçlara (farklı performans optimizasyonlarının gerekli olabileceği seyrek veriler içindir) devam edebilir ve kategorik veriler için daha iyi destek eklemeye devam edebilirsiniz; veya indeksleme işlevselliği ekleme.
Ayrıca ELKI için daha iyi bir kullanıcı arayüzü görmek isterim , ancak bu büyük bir çaba.