Sınıflandırma ve regresyon ağaçlarının arkasındaki matematik


14

Herkes CART'ta sınıflandırmanın ardındaki bazı matematiği açıklamaya yardımcı olabilir mi? İki ana aşamanın nasıl gerçekleştiğini anlamak istiyorum. Örneğin, bir veri kümesi üzerinde bir CART sınıflandırıcısı eğittim ve tahmini performansını işaretlemek için bir test veri kümesi kullandım ancak:

  1. Ağacın ilk kökü nasıl seçilir?

  2. Her dal neden ve nasıl oluşturulur?

15 sütun ve 23 sınıf ile 400 bin kayıt olan veri setim bir karışıklık matrisinden% 100 doğruluk sağlıyor, veri setinde 10 kat çapraz değerleme kullanıyorum. Birisi CART sınıflandırmasının aşamalarını açıklamaya yardımcı olabilirse gerçekten harika olurdu?

Yanıtlar:


24

TAAxT

Tl={tT:t(A)x}

ve

Tr={tT:t(A)>x}

BB={b1,,bk}iB=bi

Karar ağacını indüklemek için özyinelemeli algoritmanın bölünme adımı, her özellik için olası tüm bölünmeleri dikkate alır ve seçilen bir kalite ölçüsüne göre en iyi olanı bulmaya çalışır: bölme kriteri. Veri kümeniz aşağıdaki şemada oluşturulmuşsa

A1,,Am,C

AjC(E1,E2,,Ek)EI()

Δ=I(E)i=1k|Ei||E|I(Ei)

EpjEcj

pj=|{tE:t[C]=cj}||E|
Gini(E)=1j=1Qpj2
Q

Tüm kayıtlar aynı sınıfa ait olduğunda 0 safsızlığa yol açar.

T(1/2,1/2)T

İyi bölünme

Tl(1,0)Tr(0,1)TlTr|Tl|/|T|=|Tr|/|T|=1/2Δ

Δ=11/221/2200=1/2

ΔBozuk bölme

Δ=11/221/221/2(1(3/4)2(1/4)2)1/2(1(1/4)2(3/4)2)=1/21/2(3/8)1/2(3/8)=1/8

İlk bölme en iyi bölme olarak seçilir ve daha sonra algoritma özyinelemeli bir şekilde ilerler.

Yeni bir örneği bir karar ağacı ile sınıflandırmak kolaydır, aslında kök düğümden bir yaprağa giden yolu takip etmek yeterlidir. Bir kayıt ulaştığı yaprağın çoğunluk sınıfıyla sınıflandırılır.

Diyelim ki bu rakamdaki kareyi sınıflandırmak istiyoruz

İki özellik veri kümesi

A,B,CCAB

Olası bir karar ağacı aşağıdakiler olabilir: resim açıklamasını buraya girin

Rekor olduğu açıktır kare kayıt çevrelerinde ile etiketlenmiş bir yaprağın üzerine düştüğünü verilen bir çember olarak karar ağacı tarafından sınıflandırılır.

Bu oyuncak örneğinde, eğitim seti üzerindeki doğruluk% 100'dür çünkü hiçbir kayıt ağaç tarafından yanlış sınıflandırılmaz. Yukarıdaki eğitim setinin grafik sunumunda, ağacın yeni örnekleri sınıflandırmak için kullandığı sınırları (gri kesik çizgiler) görebiliriz.

Karar ağaçları hakkında çok sayıda literatür var, sadece kabataslak bir giriş yazmak istedim. Bir başka ünlü uygulama C4.5.


1
harika diyagramlar!
Cam.Davidson.Pilon

Teşekkürler, ne yazık ki editörün PDF formatında yüklemeyi desteklemediği anlaşılıyor. Onlar vektöreldi.
Simone

2

CART'larda uzman değilim, ancak çevrimiçi olarak ücretsiz olarak sunulan "İstatistiksel Öğrenmenin Unsurları" kitabını deneyebilirsiniz (CART'lar için bölüm 9'a bakın). Kitabın CART algoritmasının (Friedman) yaratıcılarından biri tarafından yazıldığına inanıyorum.


Bu çok yardımcı oldu! +1 parlak bul!
G Gr

@GarrithGraham sorun değil, bu ücretsiz kitabın "iyi bilinen bir sır" olduğunu düşündüm.
Bitwise
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.