Birden fazla çıkışı olan bir Rastgele Orman mümkün / pratik olabilir mi?

17

Rastgele Ormanlar (RF) rekabetçi bir veri modelleme / madencilik yöntemidir.
Bir RF modelinin bir çıkışı vardır - çıkış / tahmin değişkeni.
RF'lerle çoklu çıkışların modellenmesine yönelik naif yaklaşım, her çıkış değişkeni için bir RF oluşturmak olacaktır. Bu yüzden N bağımsız modelimiz var ve çıktı değişkenleri arasında korelasyon olduğunda, yedekli / yinelenen model yapısına sahip olacağız. Bu gerçekten çok savurgan olabilir. Ayrıca, genel bir kural olarak, daha fazla model değişkeni, daha fazla uyum modeli (daha az genelleme) anlamına gelir. Bunun burada geçerli olup olmadığından emin değilim ama muhtemelen geçerli.

Prensip olarak birden fazla çıkışa sahip bir RF olabilir. Tahmin değişkeni artık bir vektördür (n-tuple). Her karar ağacındaki karar düğümleri şimdi bir eşik vektörüne göre hedef / tahmin vektörleri kümesini ayırıyor, bu eşiğin n boyutlu uzayda bir düzlem olarak alındığını ve bu nedenle eşiğin hangi tarafının belirlendiğini vektör Hedef vektörlerin her biri açıktır.

Karar bölümünün her iki tarafı için en uygun tahmin değeri, her iki taraftaki vektörler için hesaplanan ortalamadır (sentroid).

Tek değişkenlerle çalışırken optimum ayrılma noktasını bulmak önemsiz ve hesaplama açısından hızlı / verimlidir. Bir n-tuple için en uygun ayrımı bulamayız (veya en azından N arttıkça hesaplamaya uygun hale gelir), ancak Monte Carlo tipi bir yöntem (veya Monte Carlo ve yerel hibritin bir melezini kullanarak neredeyse optimal bir bölünme bulabiliriz) eğim geçişi).

Bu gerçekten işe yarar mı? Yani, eğitim çiftlerini genelleme olmadan haritalamak mı gerekir? Bu teknik zaten farklı bir isim altında var mı?

Bunun Kısıtlı Boltzmann Makineleri (RBM'ler) ve Derin İnanç Ağları gibi sinir ağları ile nasıl ilişkili olduğunu da düşünebilirsiniz.

— redcalx
kaynak

Google'ın "çok etiketli rasgele orman" olması bunun birkaç farklı şekilde yapıldığını gösterir; Her neyse, müzikal bilgi alımında bu çok ikili-rfs yaklaşımıyla oynuyorum ve oldukça iyi gidiyordu.

1

Size bu makaleyi öneririm . Tarif ettiğinize çok yakın bir şey yaparlar.

— Dmitry Laptev

2

Bu parti paketinde ve diğer bazı paketlerde (R dili) zaten var.

— Jase

9

Çoklu çıktı karar ağaçları (ve dolayısıyla rastgele ormanlar) geliştirilmiş ve yayınlanmıştır. Pierre Guertz bunun için bir paket dağıtıyor ( indir). Ayrıca bkz. Segal & Xiao, Çok değişkenli rastgele ormanlar, WIREs Data Mining Knowl Discov 2011 1 80–87, DOI: 10.1002 / widm.12 Scikit-learn'un en son sürümünün de bunu desteklediğine inanıyorum. En son teknolojinin iyi bir incelemesi, Henrik Linusson tarafından "ÇOK ÇIKTI RASTGELİ ORMANLAR" başlıklı tezde bulunabilir. Her bir düğümde bölünmüş seçimler yapmanın en basit yöntemi, çıktı değişkenlerinden BİRİNİ rastgele seçmek ve ardından bir bölme seçmek için olağan rastgele orman yaklaşımını uygulamaktır. Her bir girdi özelliği ve çıktı değişkeni ile ilgili olarak karşılıklı bilgi puanının ağırlıklı toplamına dayanan diğer yöntemler geliştirilmiştir, ancak bunlar randomize yaklaşıma kıyasla oldukça pahalıdır.

— Tom Dietterich
kaynak

-1

Belirtildiği gibi burada :

Scikit-learn'daki tüm sınıflandırıcılar çok sınıflı sınıflandırma yapar.

Buna Rastgele Orman da dahildir.

Ayrıca sayfa: http://scikit-learn.org/stable/modules/tree.html#tree-multioutput'ın bu konuda birçok referansı var.

— 0asa
kaynak

8

Açık olmak gerekirse; soru çoklu çıktı regresyonu ile ilgilidir .

— redcalx

Cevabımdaki gecikme için özür dilerim ama scikit-learn çok çıkışlı regresyon da sunuyor gibi görünüyor, örneğin: scikit-learn.org/stable/auto_examples/tree/… Ve her durumda, bir tane takmaktan oluşan bir strateji var. hedef başına regresör. Bu, çok hedefli regresyonu yerel olarak desteklemeyen regresörleri genişletmek için basit bir stratejidir: scikit-learn.org/stable/modules/generated/… HTH

— 0asa