TAA≤xT
Tl={t∈T:t(A)≤x}
ve
Tr={t∈T:t(A)>x}
BB={b1,…,bk}iB=bi
Karar ağacını indüklemek için özyinelemeli algoritmanın bölünme adımı, her özellik için olası tüm bölünmeleri dikkate alır ve seçilen bir kalite ölçüsüne göre en iyi olanı bulmaya çalışır: bölme kriteri. Veri kümeniz aşağıdaki şemada oluşturulmuşsa
A1,…,Am,C
AjC(E1,E2,…,Ek)EI(⋅)
Δ=I(E)−∑i=1k|Ei||E|I(Ei)
EpjEcj
pj=|{t∈E:t[C]=cj}||E|
Gini(E)=1−∑j=1Qp2j
Q
Tüm kayıtlar aynı sınıfa ait olduğunda 0 safsızlığa yol açar.
T(1/2,1/2)T
Tl(1,0)Tr(0,1)TlTr|Tl|/|T|=|Tr|/|T|=1/2Δ
Δ=1−1/22−1/22−0−0=1/2
Δ
Δ=1−1/22−1/22−1/2(1−(3/4)2−(1/4)2)−1/2(1−(1/4)2−(3/4)2)=1/2−1/2(3/8)−1/2(3/8)=1/8
İlk bölme en iyi bölme olarak seçilir ve daha sonra algoritma özyinelemeli bir şekilde ilerler.
Yeni bir örneği bir karar ağacı ile sınıflandırmak kolaydır, aslında kök düğümden bir yaprağa giden yolu takip etmek yeterlidir. Bir kayıt ulaştığı yaprağın çoğunluk sınıfıyla sınıflandırılır.
Diyelim ki bu rakamdaki kareyi sınıflandırmak istiyoruz
A,B,CCAB
Olası bir karar ağacı aşağıdakiler olabilir:
Rekor olduğu açıktır kare kayıt çevrelerinde ile etiketlenmiş bir yaprağın üzerine düştüğünü verilen bir çember olarak karar ağacı tarafından sınıflandırılır.
Bu oyuncak örneğinde, eğitim seti üzerindeki doğruluk% 100'dür çünkü hiçbir kayıt ağaç tarafından yanlış sınıflandırılmaz. Yukarıdaki eğitim setinin grafik sunumunda, ağacın yeni örnekleri sınıflandırmak için kullandığı sınırları (gri kesik çizgiler) görebiliriz.
Karar ağaçları hakkında çok sayıda literatür var, sadece kabataslak bir giriş yazmak istedim. Bir başka ünlü uygulama C4.5.