Veri madenciliğinde ilişkilendirme kuralları ve karar ağaçları arasındaki pratik fark nedir?


19

Bu iki teknik arasındaki pratik farklılıkların gerçekten basit bir açıklaması var mı?

  • Her ikisi de denetimli öğrenme için kullanılmış gibi görünmektedir (ilişkilendirme kuralları denetimsiz olarak da ele alınabilir).

  • Her ikisi de tahmin için kullanılabilir

'İyi' bir açıklama bulduğum en yakın Statsoft Ders Kitabı'ndan . İlişkilendirme Kurallarının aşağıdakiler için kullanıldığını söylüyorlar :

... büyük veri kümelerindeki kategorik değişkenlerin belirli değerleri arasındaki ilişkileri veya ilişkileri algılayabilir.

İken karar ağacı sınıflandırıcılar için kullanılır bir şekilde tarif edilmektedir:

... kategorik bir bağımlı değişkenin sınıflarındaki vakaların veya nesnelerin bir veya daha fazla tahmin değişkeni üzerindeki ölçümlerinden üyeliğini tahmin edebilir.

Bununla birlikte, R Data Mining'de, bir hedef alanla kullanılan İlişkilendirme Kurallarına bir örnek verir .

Yani her ikisi de grup üyeliğini tahmin etmek için kullanılabilir, karar ağaçlarının kategorik olmayan girdi verilerini işleyebilmeleri arasındaki temel fark ilişkilendirme kuralları yapamazken mi? Yoksa daha temel bir şey mi var? Bir site ( sqlserverdatamining.com ) temel farkın şöyle olduğunu söylüyor:

Karar ağaçları kuralları bilgi kazanımına, ilişkilendirme kuralları popülerliğe ve / veya güveye dayanır.

Yani (muhtemelen kendi sorumu cevaplamak) bu, karar ağaçlarının gerçekten varyansı en aza indirmeye çalışırken ilişkilendirme kurallarının yalnızca veri kümesinde ne sıklıkta göründükleri (ve ne sıklıkla 'doğru' oldukları) üzerinde değerlendirildiği anlamına mı geliyor?

Herkes iyi bir tanım bilirse beni işaret etmeye istekli olurlarsa, bu harika olur.

Yanıtlar:


14

Temel olarak, Karar Ağaçları saf bir sınıflandırma tekniğidir . Bu teknikler, özelliklerini kullanan bilinmeyen sınıf kayıtlarını etiketlemeyi amaçlamaktadır. Temelde kayıt özellikleri kümesini (öznitelikler, değişkenler) sınıflandırma nesnesi olan sınıf özniteliği (hedef değişken) ile . ve arasındaki ilişki , eğitim seti olarak tanımlanan bir dizi etiketli kayıt kullanılarak öğrenilir. Sınıflandırma modellerinin nihai amacı, model tarafından tahmin edilen sınıfın gerçek olandan farklı olduğu etiketlenmemiş kayıtlardaki yanlış sınıflandırma hatasını en aza indirmektir. özellikleri kategorik veya sürekli olabilir.F=F1,,FmCFCF

İlişkilendirme analizi ilk uygulamaları, pazar sepeti analizi ile ilgiliydi, bu uygulamada, özellikle hedeflenene odaklanmayan öğeler arasındaki ilişkiyi bulmak istiyorsunuz. Yaygın olarak kullanılan veri kümeleri işlemsel kümelerdir: her bir işlem koleksiyonu bir dizi öğe içeriyorsa. Örneğin: gibi kuralları bulmak istiyorsunuz

t1={ben1,ben2}t2={ben1,ben3,ben4,ben5}t3={ben2,ben3,ben4,ben5}tn={ben2,ben3,ben4,ben5}
{ben3,ben5}{ben4}

Bazı özel sınıflandırma görevleri için, örneğin tüm özellikleriniz kategorik olduğunda, ilişkilendirme analizini kullanabileceğiniz ortaya çıkıyor. Sadece öğeleri özellik olarak görmek zorundasınız, ancak ilişkilendirme analizi bunun için doğmadı.


3
  • "Birlik kuralları, örtüşen kayıt alt kümelerini içeren verilen eşiklerin üzerindeki tüm kuralları bulmayı hedeflerken karar ağaçları, çoğu kaydın aynı sınıfa ait olduğu bölgeleri bulur. çünkü bir karar ağacı tarafından bulunan bir kural ilişkilendirme kurallarına göre bulunamazsa, bunun nedeni ya bir kısıtlamanın arama alanını budanması ya da destek ya da güvenin çok yüksek olmasıdır. "

  • "Birleşme alanı üzerinde çalıştıkları için literatürde önerilen birçok optimizasyona rağmen ilişkilendirme kuralları algoritmaları yavaş olabilir, oysa karar bölgeleri nispeten daha hızlı olabilir, çünkü her bir bölme art arda daha küçük kayıt alt kümeleri elde eder."

  • Başka bir sorun, karar ağaçlarının aynı kural için aynı özelliği birden çok kez tekrarlayabilmesidir, çünkü bu özellik iyi bir ayrımcıdır. Kurallar birleşim olduğundan bu büyük bir sorun değildir ve bu nedenle kural öznitelik için bir aralığa sadeleştirilebilir, ancak bu aralık genellikle küçük ve kural çok spesifik olacaktır. "

Alıntılar:

Ordonez, C. ve Zhao, K. (2011). Birden çok hedef özelliği tahmin etmek için ilişkilendirme kurallarını ve karar ağaçlarını değerlendirme. Akıllı Veri Analizi, 15 (2), 173–192.

Bu konuyu kapsayan güzel bir makale, kesinlikle okumaya değer.


2

Hem ilişkilendirme kurallarının hem de karar ağaçlarının kullanıcıya bir takım kurallar önerdiğini ve bu nedenle her ikisinin de benzer olduğunu iddia edebiliriz, ancak karar ağaçları ile ilişkilendirme kuralları arasındaki teorik farkı ve her ikisi tarafından önerilen kuralların anlam bakımından farklı olduğunu veya kullanımda.

İlk olarak, karar ağacı , algoritmanın bir "sonucu" tahmin etmeye çalıştığı denetimli bir yaklaşımdır. Gerçek yaşamdaki durumlara tipik bir "sonuç" örneği, örneğin, karmaşa, sahtekarlık, bir kampanyaya yanıt, vb. Olabilir. Dolayısıyla, sonucu tahmin etmek için karar ağacı kuralları kullanılır.

İlişkilendirme kuralı öğrenimi , algoritmanın öğeler arasında, genellikle büyük ticari veritabanlarında ilişkilendirmeler bulmaya çalıştığı denetimsiz bir yaklaşımdır. Büyük bir ticari veritabanının tipik bir örneği, bir e-ticaret web sitesindeki müşteri satın alma geçmişi gibi perakendecilerin işlemlerini içeren bir örnektir. Öğeler mağazalardan satın alınan ürünler veya çevrimiçi bir akış platformunda izlenen filmler olabilir. İlişki kuralı öğrenimi, bir ürünün satın alınmasının başka bir ürünün satın alınmasını nasıl teşvik ettiği ile ilgilidir.

İkinci olarak, karar ağaçları bilgi kazancı, Gini katsayısı veya entropi gibi bazı safsızlık / belirsizlik metriklerine dayanılarak oluşturulurken, ilişkilendirme kuralları destek, güven ve yükselmeye dayalı olarak türetilir.

Üçüncüsü, karar ağacı "denetimli" bir yaklaşım olduğundan, doğruluğu ölçülebilirken, ilişkilendirme kuralı öğrenimi "denetimsiz" bir yaklaşımdır ve dolayısıyla doğruluğu özneldir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.