İlk olarak, bazı uyarılar
Tercih ettiğiniz programlama (alt) paradigmasını *, Endüktif Mantık Programlamasını (ILP) veya sınıflandırmada kullandığınız şeyin neden kullanılamadığından emin değilim . Daha fazla ayrıntı vermek muhtemelen çok daha iyi bir cevaba yol açacaktır; özellikle sınıflandırma algoritmalarının seçimine, ilişkilendirildikleri programlama paradigması temelinde yaklaşmak biraz sıra dışı olduğu için. Gerçek dünya örneğiniz gizliyse, kurgusal ama benzer bir örnek oluşturun.
ILP'siz Büyük Veri Sınıflandırması
ILP'yi çıkardıktan sonra, dikkate aldığımız sette 4 mantık programlama paradigmamıza sahip olduğumuzu söyledikten sonra:
- dışaçekimsel
- Yanıt Seti
- Kısıtlama
- Fonksiyonel
mantık programlamanın dışında düzinelerce paradigma ve alt paradigmaya ek olarak.
İçinde fonksiyonel Mantık Programlama , örneğin İLP uzantıları vardır denir Varlığından Endüktif Fonksiyonel Mantık Programlama inversiyon daralması dayanır, (daralma mekanizması yani ters). Bu yaklaşım, ILP'nin bazı sınırlamalarının üstesinden gelir ve ( en azından bazı bilim adamlarına göre ) temsil açısından uygulama için uygundur ve sorunların daha doğal bir şekilde ifade edilmesine izin verme avantajına sahiptir.
Veritabanınızın özellikleri ve ILP'yi kullanmanın önündeki engeller hakkında daha fazla bilgi sahibi olmadan, bunun sorununuzu çözüp çözmediğini veya aynı sorunlardan muzdarip olup olmadığını bilemiyorum. Bu nedenle, tamamen farklı bir yaklaşım ortaya koyacağım.
ILP, veri madenciliğine "klasik" veya "öneri" yaklaşımlarıyla tezat teşkil etmektedir . Bu yaklaşımlar, karar ağaçları, sinir ağları, regresyon, torbalama ve diğer istatistiksel yöntemler gibi Makine Öğrenmesinin et ve kemiklerini içerir. Verilerinizin boyutu nedeniyle bu yaklaşımlardan vazgeçmek yerine, bu yöntemleri büyük veri kümeleriyle kullanmak için Yüksek Performanslı Hesaplama (HPC) kullanan birçok Veri Bilimcisi, Büyük Veri mühendisi ve istatistikçinin saflarına katılabilirsiniz ( ayrıca ilişkisel veritabanınızdaki Büyük Verileri analiz etmek için gereken hesaplama kaynaklarını ve zamanı azaltmak için kullanmayı seçebileceğiniz örnekleme ve diğer istatistiksel teknikler).
HPC, birden fazla CPU çekirdeği kullanmak, analizinizi yüksek belleğe ve çok sayıda hızlı CPU çekirdeğine sahip sunucuların elastik kullanımı ile ölçeklendirmek, yüksek performanslı veri ambarı cihazları kullanmak, kümeler veya diğer paralel bilgi işlem yöntemlerini kullanmak gibi şeyleri içerir. Verilerinizi hangi dille veya istatistiksel süitle analiz ettiğinizden emin değilim, ancak örnek olarak bu CRAN Görev Görünümü , R dili için bir öneri algoritmasını ölçeklendirmenize izin verecek birçok HPC kaynağı listeler.