Rastgele Ormanlar (RF) rekabetçi bir veri modelleme / madencilik yöntemidir.
Bir RF modelinin bir çıkışı vardır - çıkış / tahmin değişkeni.
RF'lerle çoklu çıkışların modellenmesine yönelik naif yaklaşım, her çıkış değişkeni için bir RF oluşturmak olacaktır. Bu yüzden N bağımsız modelimiz var ve çıktı değişkenleri arasında korelasyon olduğunda, yedekli / yinelenen model yapısına sahip olacağız. Bu gerçekten çok savurgan olabilir. Ayrıca, genel bir kural olarak, daha fazla model değişkeni, daha fazla uyum modeli (daha az genelleme) anlamına gelir. Bunun burada geçerli olup olmadığından emin değilim ama muhtemelen geçerli.
Prensip olarak birden fazla çıkışa sahip bir RF olabilir. Tahmin değişkeni artık bir vektördür (n-tuple). Her karar ağacındaki karar düğümleri şimdi bir eşik vektörüne göre hedef / tahmin vektörleri kümesini ayırıyor, bu eşiğin n boyutlu uzayda bir düzlem olarak alındığını ve bu nedenle eşiğin hangi tarafının belirlendiğini vektör Hedef vektörlerin her biri açıktır.
Karar bölümünün her iki tarafı için en uygun tahmin değeri, her iki taraftaki vektörler için hesaplanan ortalamadır (sentroid).
Tek değişkenlerle çalışırken optimum ayrılma noktasını bulmak önemsiz ve hesaplama açısından hızlı / verimlidir. Bir n-tuple için en uygun ayrımı bulamayız (veya en azından N arttıkça hesaplamaya uygun hale gelir), ancak Monte Carlo tipi bir yöntem (veya Monte Carlo ve yerel hibritin bir melezini kullanarak neredeyse optimal bir bölünme bulabiliriz) eğim geçişi).
Bu gerçekten işe yarar mı? Yani, eğitim çiftlerini genelleme olmadan haritalamak mı gerekir? Bu teknik zaten farklı bir isim altında var mı?
Bunun Kısıtlı Boltzmann Makineleri (RBM'ler) ve Derin İnanç Ağları gibi sinir ağları ile nasıl ilişkili olduğunu da düşünebilirsiniz.