ILP'siz İlişkisel Veri Madenciliği


9

Ben bir sınıflandırma modeli oluşturmak için gereken ilişkisel bir veritabanından büyük bir veri kümesi var. Normalde bu durum için İndüktif Mantık Programlama (ILP) kullanırım, ancak özel durumlar nedeniyle bunu yapamam.

Bunun üstesinden gelmenin diğer bir yolu da sadece yabancı bir ilişkim olduğunda değerleri toplamaya çalışmak olacaktır. Bununla birlikte, bazı nominal özellikler için binlerce önemli ve farklı satırım var (örneğin: Birkaç farklı ilaç reçetesi ile ilişkisi olan bir hasta). Bu nedenle, o nominal özelliğin her bir ayrı satırı için yeni bir özellik oluşturmadan bunu yapamam ve ayrıca bunu yaparsam yeni sütunların çoğunun NULL değerleri olur.

Binlerce yeni sütun oluşturacak şekilde dönme gibi tekniklere başvurmadan veri ilişkisel veritabanlarını veriye izin veren ILP dışı bir algoritma var mı?


2
Kural madenciliği ne olacak? Bana göre amacın ne olduğu belli değil.
adesantos

İyi bir soru olsa da birden fazla Stack Exchange forumunda göründüğünü fark ettim ... stackoverflow.com/questions/24260299/… ; Böyle şeyler hakkında bir çöpçü olduğumdan değil, ama bunu yapmamız gerekmediğini düşünüyorum
Hack-R

Ayrıca, ne sınıflandırdığınıza, karşılaştığınız bariyere ve ideal bir dünyada bize bakmak için bazı örnek veriler sağladığınız konusunda biraz daha spesifik olmanız çok yararlı olacaktır
Hack-R

Yanıtlar:


1

İlk olarak, bazı uyarılar

Tercih ettiğiniz programlama (alt) paradigmasını *, Endüktif Mantık Programlamasını (ILP) veya sınıflandırmada kullandığınız şeyin neden kullanılamadığından emin değilim . Daha fazla ayrıntı vermek muhtemelen çok daha iyi bir cevaba yol açacaktır; özellikle sınıflandırma algoritmalarının seçimine, ilişkilendirildikleri programlama paradigması temelinde yaklaşmak biraz sıra dışı olduğu için. Gerçek dünya örneğiniz gizliyse, kurgusal ama benzer bir örnek oluşturun.

ILP'siz Büyük Veri Sınıflandırması

ILP'yi çıkardıktan sonra, dikkate aldığımız sette 4 mantık programlama paradigmamıza sahip olduğumuzu söyledikten sonra:

  1. dışaçekimsel
  2. Yanıt Seti
  3. Kısıtlama
  4. Fonksiyonel

mantık programlamanın dışında düzinelerce paradigma ve alt paradigmaya ek olarak.

İçinde fonksiyonel Mantık Programlama , örneğin İLP uzantıları vardır denir Varlığından Endüktif Fonksiyonel Mantık Programlama inversiyon daralması dayanır, (daralma mekanizması yani ters). Bu yaklaşım, ILP'nin bazı sınırlamalarının üstesinden gelir ve ( en azından bazı bilim adamlarına göre ) temsil açısından uygulama için uygundur ve sorunların daha doğal bir şekilde ifade edilmesine izin verme avantajına sahiptir.

Veritabanınızın özellikleri ve ILP'yi kullanmanın önündeki engeller hakkında daha fazla bilgi sahibi olmadan, bunun sorununuzu çözüp çözmediğini veya aynı sorunlardan muzdarip olup olmadığını bilemiyorum. Bu nedenle, tamamen farklı bir yaklaşım ortaya koyacağım.

ILP, veri madenciliğine "klasik" veya "öneri" yaklaşımlarıyla tezat teşkil etmektedir . Bu yaklaşımlar, karar ağaçları, sinir ağları, regresyon, torbalama ve diğer istatistiksel yöntemler gibi Makine Öğrenmesinin et ve kemiklerini içerir. Verilerinizin boyutu nedeniyle bu yaklaşımlardan vazgeçmek yerine, bu yöntemleri büyük veri kümeleriyle kullanmak için Yüksek Performanslı Hesaplama (HPC) kullanan birçok Veri Bilimcisi, Büyük Veri mühendisi ve istatistikçinin saflarına katılabilirsiniz ( ayrıca ilişkisel veritabanınızdaki Büyük Verileri analiz etmek için gereken hesaplama kaynaklarını ve zamanı azaltmak için kullanmayı seçebileceğiniz örnekleme ve diğer istatistiksel teknikler).

HPC, birden fazla CPU çekirdeği kullanmak, analizinizi yüksek belleğe ve çok sayıda hızlı CPU çekirdeğine sahip sunucuların elastik kullanımı ile ölçeklendirmek, yüksek performanslı veri ambarı cihazları kullanmak, kümeler veya diğer paralel bilgi işlem yöntemlerini kullanmak gibi şeyleri içerir. Verilerinizi hangi dille veya istatistiksel süitle analiz ettiğinizden emin değilim, ancak örnek olarak bu CRAN Görev Görünümü , R dili için bir öneri algoritmasını ölçeklendirmenize izin verecek birçok HPC kaynağı listeler.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.