CHAID - CRT (veya CART)

Yaklaşık 20 tahminciye sahip bir veri setinde SPSS kullanarak bir karar ağacı sınıflandırması yapıyorum (birkaç kategoriyle kategorik). CHAID (Ki-kare Otomatik Etkileşim Algılama) ve CRT / CART (Sınıflandırma ve Regresyon Ağaçları) bana farklı ağaçlar veriyor. Herhangi biri CHAID'in CRT'ye olan göreceli değerini açıklayabilir mi? Bir yöntemi diğerine kullanmanın etkileri nelerdir?

spss cart

— Placidia
kaynak

Bazı mülkleri listeleyeceğim ve daha sonra size neye değer verdiğime ilişkin değerlendirmemi vereceğim:

CHAID, varsayılan olarak çok yollu bölmeler kullanır (çok yollu bölmeler, geçerli düğümün ikiden fazla düğüme bölündüğü anlamına gelir). Bu istenebilir veya olmayabilir (daha iyi bölümlere veya daha kolay yorumlanmaya yol açabilir). Yine de kesinlikle yaptığı şey, düğümlerdeki örneklem büyüklüğünü incelemek ve böylece daha az derin ağaçlara yol açması. Segmentasyon amacıyla kullanıldığında, CHAID'in iyi çalışması için büyük bir örneklem büyüklüğüne ihtiyaç duyduğu anda geri tepebilir. CART varsayılan olarak ikili bölmeler yapar (her düğüm iki ek düğüme ayrılır).
CHAID, kategorik / ayrıklaştırılmış hedeflerle çalışmayı amaçlamaktadır (XAID, regresyon içindi ancak belki o zamandan beri birleştirildi). CART kesinlikle regresyon ve sınıflandırma yapabilir.
CHAID budama öncesi bir fikir kullanır . Bir düğüm yalnızca bir önem ölçütünün yerine getirilmesi durumunda bölünür. Bu, Chi-Square testi küçük numunelerde çok az güce sahip olduğundan (çoklu test için bir Bonferroni düzeltmesi ile daha da etkili bir şekilde azaltılabilir) yukarıdaki büyük örneklem büyüklüklerine ihtiyaç duyma problemi ile bağlantılıdır. Öte yandan CART, büyük bir ağaç yetiştirir ve sonra ağacı daha küçük bir sürüme geri gönderir .
Bu yüzden CHAID , en başından itibaren fazladan takılmayı önlemeye çalışır (sadece bölünme önemli bir ilişki vardır), oysa ki ağaç geri alınmadıkça, CART kolayca üst üste gelebilir . Öte yandan, bu, CART'ın örnek içi ve örnek dışı CHAID'den daha iyi performans göstermesini sağlar (belirli bir ayarlama parametresi kombinasyonu için).
Benim düşünceme göre en önemli fark, CHAID'deki bölünmüş değişken ve bölünmüş nokta seçiminin, CART'ta olduğu gibi daha az kuvvetlendirilmesidir . Ağaçlar tahmin için kullanıldığında, bunun büyük oranda önemi yoktur, ancak ağaçların yorumlanması için kullanıldığında önemli bir konudur: Algoritmanın bu iki bölümünü yüksek oranda karıştırdığı bir ağacın "değişken seçimde önyargılı" olduğu söylenir (talihsiz bir ad) . Bu, değişken değişken seçiminin birçok olası bölmeyle değişkenleri tercih ettiği anlamına gelir (örneğin metrik tahminciler). CART bu anlamda oldukça "önyargılı", CHAID pek değil.
Vekil bölmeleri ile CART, kayıp değerlerin nasıl ele alınacağını bilir (vekil bölmeler, prediktör değişkenleri için eksik değerlerle (NA) olduğu gibi, algoritmanın primer bölünmüş değişken kadar "iyi" olmayan ancak primer tarafından üretilen bölmeleri taklit eden diğer prediktif değişkenleri kullandığı anlamına gelir. ayırıcı). CHAID'in böyle bir şeyi yok.

Öyleyse, neye ihtiyacınız varsa, örnek biraz büyükse ve yorumlamanın özellikleri daha önemliyse, CHAID kullanmanızı öneririm. Ayrıca çok yollu bölmeler veya daha küçük ağaçlar istenirse CHAID daha iyidir. Öte yandan, CART iyi çalışan bir tahmin makinesidir, bu yüzden tahmin sizin amacınızsa CART'a giderdim.

— Momo
kaynak

(1). Güzel bakış. "Çok yollu bölmeler" ve "yedek bölmeler" in ne olduğunu açıklayabilir misiniz? Bölmeler iki taraflı değilse çoklu yol bölmeleri midir?

— COOLSerdash

@Momo: Güncellenmiş cevap için çok teşekkürler. Çok yollu bölünmelerle ilgili olarak, Hastie ve ark. (2013) İstatistiksel öğrenmenin Elemanları : "[...] Bu [çok yollu bölmeler] bazen yararlı olsa da, iyi bir genel strateji değildir. böler, ikincisi tercih edilir. " Acaba bu, (makine öğrenimi konusunda çok tecrübeli değilim) belirttikleri kadar kesin midir, ancak diğer yandan, onların kitabı bir referans olarak kabul edilir.

— COOLSerdash

Evet, bir dizi ikili bölme çoklu yol bölmeleri ile aynı olabilir. Ayrıca farklı olabilirler. Açıklamaya katılıyorum. Unutulmaması gereken bir başka husus, kapsamlı arama ile bölünmüş nokta aramanın belirli bir düğümün ikili bölümleri için algoritmik olarak daha basit ve daha hızlı olmasıdır.

— Momo

Çok eksiksiz cevap. CHAID'i 100.000'den fazla veritabanına sahip bir araştırmada kullandım. Bu seviyede, sınıflandırma çok kesindir ancak farklı bölümlerde ve ağacın daha az derinliğinde birkaç kez denemeyi tavsiye ederim (SPSS yazılımı daha önce bu parametreleri belirlemeye izin verir). Bunun nedeni, CHAID'in birkaç grupla (çok bölümlü) sınıflandırılmış ağaçlar oluşturması ve veritabanı büyükse daha da kötüleşmesidir. Son ağaç çok büyük olur. Son olarak, veritabanının örnek bölümünün "iç kontrolünü" kullanmayı unutmayın. Ayrıca bakınız SPSS sınıflandırma ağaçları El

— kitabında

QUEST ne olacak?

— Madhu Sareen

Tüm tek ağaç yöntemleri, sonuca büyük dengesizlik getiren şaşırtıcı sayıda çoklu karşılaştırma içerir. Bu nedenle tatmin edici tahmine dayalı ayrımcılığa ulaşmak için bir tür ağaç ortalamalama (çuvallama, güçlendirme, rastgele ormanlar) gereklidir (ağaçların avantajını yitirmeniz dışında - yorumlanabilirlik). Tek ağaçların sadeliği, büyük ölçüde bir yanılsamadır. Onlar basit çünkü ağacın verinin çok sayıda büyük alt kümesine eğitilmesi ağaç yapıları arasında büyük bir anlaşmazlık olacağını ortaya çıkaracak şekilde yanlış.

Son zamanlarda herhangi bir CHAID metodolojisine bakmadım, ancak orijinal enkarnasyonundaki CHAID, verilerin fazla yorumlanmasında harika bir egzersizdi.

— Frank Harrell
kaynak