Bu iki teknik arasındaki pratik farklılıkların gerçekten basit bir açıklaması var mı?
Her ikisi de denetimli öğrenme için kullanılmış gibi görünmektedir (ilişkilendirme kuralları denetimsiz olarak da ele alınabilir).
Her ikisi de tahmin için kullanılabilir
'İyi' bir açıklama bulduğum en yakın Statsoft Ders Kitabı'ndan . İlişkilendirme Kurallarının aşağıdakiler için kullanıldığını söylüyorlar :
... büyük veri kümelerindeki kategorik değişkenlerin belirli değerleri arasındaki ilişkileri veya ilişkileri algılayabilir.
İken karar ağacı sınıflandırıcılar için kullanılır bir şekilde tarif edilmektedir:
... kategorik bir bağımlı değişkenin sınıflarındaki vakaların veya nesnelerin bir veya daha fazla tahmin değişkeni üzerindeki ölçümlerinden üyeliğini tahmin edebilir.
Bununla birlikte, R Data Mining'de, bir hedef alanla kullanılan İlişkilendirme Kurallarına bir örnek verir .
Yani her ikisi de grup üyeliğini tahmin etmek için kullanılabilir, karar ağaçlarının kategorik olmayan girdi verilerini işleyebilmeleri arasındaki temel fark ilişkilendirme kuralları yapamazken mi? Yoksa daha temel bir şey mi var? Bir site ( sqlserverdatamining.com ) temel farkın şöyle olduğunu söylüyor:
Karar ağaçları kuralları bilgi kazanımına, ilişkilendirme kuralları popülerliğe ve / veya güveye dayanır.
Yani (muhtemelen kendi sorumu cevaplamak) bu, karar ağaçlarının gerçekten varyansı en aza indirmeye çalışırken ilişkilendirme kurallarının yalnızca veri kümesinde ne sıklıkta göründükleri (ve ne sıklıkla 'doğru' oldukları) üzerinde değerlendirildiği anlamına mı geliyor?
Herkes iyi bir tanım bilirse beni işaret etmeye istekli olurlarsa, bu harika olur.