CART modelleri sağlam hale getirilebilir mi?


14

Ofisimdeki bir meslektaşım bugün bana "Ağaç modelleri iyi değil çünkü aşırı gözlemlere yakalandılar" dedi.

Burada yapılan bir arama , temelde iddiayı destekleyen bu konu ile sonuçlandı .

Bu da beni şu soruya yönlendiriyor - hangi durumda bir CART modeli sağlam olabilir ve bu nasıl gösterilir?

Yanıtlar:


15

Hayır, şimdiki formlarında değil. Sorun, dışbükey kayıp fonksiyonlarının aykırı değerlerle kontaminasyona karşı sağlam hale getirilememesidir (bu, 70'lerden beri iyi bilinen bir gerçektir, ancak periyodik olarak yeniden keşfedilmeye devam etmektedir, örneğin, bu tür bir yeniden keşif için bu makaleye bakınız):

http://www.cs.columbia.edu/~rocco/Public/mlj9.pdf

Şimdi, regresyon ağaçları söz konusu olduğunda, CART'ın marjinaller (veya alternatif olarak tek değişkenli projeksiyonlar) kullanması kullanılabilir: sd ölçütünün daha sağlam bir muadili ile değiştirildiği bir CART sürümünü düşünebiliriz (MAD veya daha iyisi, Qn tahmincisi).

Düzenle:

Son zamanlarda yukarıda önerilen yaklaşımı uygulayan daha eski bir makaleyle karşılaştım (MAD yerine sağlam M ölçeği tahmincisi kullanarak). Bu, CART / RF'lerin "y" aykırı değerlerine sağlamlık kazandıracaktır (ancak tasarım alanında bulunan ve modelin hiper parametrelerinin tahminlerini etkileyecek aykırı değerlere değil ) Bkz:

Galimberti, G., Pillati, M. ve Soffritti, G. (2007). M-tahmincilere dayanan sağlam regresyon ağaçları. Statistica, LXVII, 173–190.


Teşekkürler kwak. Bu makale artırıcı yöntemler hakkında konuşuyor gibi görünüyor. Sundukları sonuçlar bir CART modelinin basit sınıflandırıcı durumu için geçerli mi? (yüzeyde kulağa benziyor, ama gerçekten bilmek için makaleyi
geçmedim

Sundukları sonuç herhangi bir dışbükey kayıp fonksiyonu için geçerlidir ve başlangıçta Tukey tarafından tartışılmıştır. Bir şeyleri özetlemek gerekirse, bir düğümün kalitesini ölçmek için kullanılan yayılma ölçüsü (Gini veya entropi) aykırı değerlerle kontaminasyona duyarlıdır (yani veri kümesinde yanlış etiketlenmiş gözlemler). Bu sorun hem binayı hem de heyecan verici aşamayı etkiler. Bir veri kümesinin yanlış yerleştirilmiş etiketle gözlemleyerek kontaminasyonu tipik olarak ortaya çıkan ağacın çok karmaşık olmasına neden olur (bunu kendiniz oldukça hevesle kontrol edebilirsiniz).
user603

Teşekkür ederim Kwak! Sağlam bir kayıp fonksiyonu yok mu?
Tal Galili

1
bir dışbükey kayıp fonksiyonunu. Dışbükey olmayan kayıp fonksiyonları ile neler yapılabileceğine dair bir örnek için "Minimum kovaryans belirleyici tahmincisi için hızlı bir algoritma" makalesine bakın (sınıflandırma ile ilgili olmasa da, makale okunmaya değer).
user603

2
@Tal CART, bir "pivot sınıflandırıcısının" (her ağaç düğümünde yer alan, bir şeyden bazı nitelik rende veya bir şey setindeki bazı nitelik değeri gibi) yükseltmeye eşdeğerdir.

6

Breiman'ın torbalarını veya rastgele ormanlarını kullanmayı düşünebilirsiniz . İyi bir referans Breiman "Bagging Predictors" (1996). Ayrıca Clifton Sutton'ın İstatistik El Kitabı'ndaki "Sınıflandırma ve Regresyon Ağaçları, Torbalama ve Arttırma" da özetlenmiştir .

Ayrıca randomForest paketinin Andy Liaw ve Matthew Wiener R News tartışmasını da görebilirsiniz .


2
Partiyi bozmamak için, ama rastgele ormanların aykırı değerlerle kirlenmeye karşı sağlamlık sağlaması nasıl bir gizemdir.
user603

3
@kwak Yine de bu iyi bir cevap; RF'deki ağaçlar tüm seti görmez, bu yüzden birçoğu kirlenmez. Daha da iyisi - yaprakların OOB vakalarını hangi arazi ile takip ettiği, yanlış etiketlenmiş nesneleri bulmak ve ortadan kaldırmak için kullanılabilir. (Şimdi hatırladığım gibi, bu Breiman'ın RF hakkındaki makalesinde belirtilmiştir).

4
Sorun, aykırı değerlerin bazı 'kötü' (yani kirlenmiş) ağacın iyi (kirlenmemiş) ağaçlardan daha iyi görünmesini sağlamasıdır. Buna maskeleme etkisi denir ve simüle edilmiş verilerle çoğaltılması kolaydır. Sorun, ağaçları değerlendirmek için kullandığınız kriter, kendi başına aykırı değerlere karşı sağlam olmadığından kaynaklanmaktadır. Köktendinci bir molla gibi konuşmaya başladığımı biliyorum, ancak kullandığınız her araç sağlam hale getirilmedikçe, prosedürünüz aykırı değerlere (ve dolayısıyla sağlam değil) duyarlı olarak gösterilebilir.
user603

3

R'deki 'gbm' paketini kontrol ederseniz (genelleştirilmiş gradyan artırma), 'artırma' mutlaka kare hatası anlamına gelmeyen kayıp işlevlerini kullanır. Bu, 'gbm ()' işlevine yönelik 'dağıtım' bağımsız değişkeninde görünür. Böylece, ağacın kuvvetlendirme yoluyla işlenmesi, M-tahmin edicilerinin çalışma şekline benzer şekilde, aykırı değerlere karşı dirençli olacaktır.

Buradan başlayabilirsiniz .

Başka bir yaklaşım, ağacı olağan şekilde (SSE'ye dayalı bölümler) oluşturmak, ancak sağlam bir uyum ölçüsü ile çapraz doğrulamayı kullanarak ağacı budamak olacaktır. Ben rpart xpred daha sonra ortalama mutlak değer gibi kendi hata ölçüsü uygulayabilirsiniz çapraz doğrulanmış tahmin (çeşitli ağaç karmaşıklıkları için) verecek düşünüyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.