Karar ağacının VC boyutu nedir?


17

İki boyutta bölünmüş karar ağacının VC boyutu nedir ? Diyelim ki model CART ve izin verilen bölünmeler sadece eksenlere paralel.

Yani bir bölünme için bir üçgende 3 puan sipariş edebiliriz ve daha sonra noktaların herhangi bir etiketlenmesi için mükemmel bir tahmin alabiliriz (yani: parçalanmış noktalar)

Peki ya 2 yarma ya da herhangi bir genel k?

Yanıtlar:


13

Bunun basit bir cevabı olan bir soru olduğundan emin değilim, bunun karar ağaçları hakkında bile sorulması gereken bir soru olduğuna inanmıyorum.

Bakınız Aslan ve ark. , Ağaçların VC Boyutunun Hesaplanması (2009). Bu sorunu, küçük ağaçlarda kapsamlı bir arama yaparak ve daha sonra büyük ağaçlarda VC boyutunu tahmin etmek için yaklaşık, özyinelemeli bir formül sağlayarak çözerler. Daha sonra bu formülü budama algoritmasının bir parçası olarak kullanırlar. Sorunuza kapalı formda bir yanıt olsaydı, emin olabilirsiniz ki onlar temin ederdi. Oldukça küçük ağaçlarda bile yollarını yineleme ihtiyacını hissettiler.

d2d2dd2d yaprakları , o zaman herhangi bir desenini parçalayabilirim2dtepkiler. Ama kimse tam ağaçlara uymuyor. Genellikle, ters doğrulama yaparsınız ve sonra çapraz doğrulama kullanarak budama yaparsınız. Sonunda elde ettiğiniz şey daha küçük ve daha basit bir ağaçtır, ancak hipotez setiniz hala büyüktür. Aslan ve diğ. izomorfik ağaç ailelerinin VC boyutunu tahmin etmeye çalışın. Her aile kendi VC boyutuna sahip bir hipotezdir.

resim açıklamasını buraya girin

Bir önceki resim, d=3 4 puan paramparça olur: (1,0,0,1),(1,1,1,0),(0,1,0,1),(1,1,0,1). Dördüncü giriş "yanıttır". Aslan ve diğ. aynı şekle sahip amax1 ve x2, örneğin, izomorfik ve aynı hipotez kümesinin bir parçası olmak. Bu nedenle, bu ağaçların her birinde sadece 3 yaprak olmasına rağmen, bu tür ağaçlar kümesi 4 nokta paramparça edebilir ve bu durumda VC boyutu 4'tür. Bununla birlikte, aynı ağaç 4 değişkenli bir alanda ortaya çıkabilir, bu durumda VC boyutu 5 olur. Bu yüzden karmaşıktır.

Aslan'ın kaba kuvvet çözümü gayet iyi çalışıyor gibi görünse de, elde ettikleri, budama ve çapraz validasyona bağlı olduğu için insanların kullandığı algoritmaların VC boyutu değildir. Hipotez alanının gerçekte ne olduğunu söylemek zor, çünkü prensip olarak, parçalanan olası ağaçlarla başlıyoruz, ancak daha makul bir şeye geri dönüyoruz. Birisi, iki katmanın ötesine geçmemek için a priori bir seçenekle başlasa bile, diyelim ki, hala ağaç budaması gerekebilir. VC boyutuna gerçekten ihtiyacımız yok, çünkü çapraz doğrulama doğrudan örnek dışı hatadan sonra gider.

Aslan ve arkadaşlarına adil olmak için, hipotez alanlarını karakterize etmek için VC boyutunu kullanmazlar. Dalların VC boyutunu hesaplar ve dalın kesilip kesilmeyeceğini belirlemek için bu miktarı kullanırlar. Her aşamada, söz konusu dalın özel yapılandırmasının VC boyutunu kullanırlar. Sorunun bir bütün olarak VC boyutuna bakmıyorlar.

Değişkenleriniz sürekliyse ve yanıt bir eşik değere ulaşmaya bağlıysa, bir karar ağacı temelde bir grup algılayıcı oluşturur, bu nedenle VC boyutu muhtemelen bundan daha büyük olacaktır (bölünmeyi yapmak için kesme noktasını tahmin etmeniz gerektiğinden) . Yanıt monoton olarak sürekli bir yanıta bağlıysa, CART bir regresyon modelini yeniden oluşturmaya çalışarak bir grup adıma parçalayacaktır. Bu durumda ağaçları kullanmam - muhtemelen gam veya regresyon.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.