Rasgele bir orman modelinden bir tahmin açıklamanın bir yolu var mı?


11

Diyelim ki rastgele bir ormana dayalı bir öngörme sınıflandırma modelim var (R'deki randomForest paketini kullanarak). Son kullanıcıların tahmin oluşturmak için bir öğe belirleyebilmesi ve bir sınıflandırma olasılığı ortaya çıkması için ayarlamak istiyorum. Şimdiye kadar, sorun değil.

Ancak, değişken önem grafiği gibi bir şeyin çıktısını alabilmek yararlı olabilir, ancak tahmin edilen belirli bir öğe için, eğitim seti için değil. Gibi bir şey:

X maddesinin Köpek olduğu tahmin edilmektedir (% 73 olasılıkla)
Çünkü:
Bacaklar = 4
Nefes = kötü
Kürk = kısa
Yiyecek = kötü

Sen anladın. Bu bilgiyi eğitimli rastgele bir ormandan çıkarmanın standart veya en azından haklı bir yolu var mı? Öyleyse, herkesin randomForest paketi için bunu yapacak bir kodu var mı?


Biraz karmaşıklık ... Legs değişkeninin karar yolunun bir parçası olduğunu saymayı hayal edebilirsiniz. Ama bunu sadece çoğunluk cevabını tahmin eden ağaçlar için mi yoksa hepsini mi yapardınız? Yoksa fark?
Harlan

Ve tüm myordayıcıları birer birer değiştirmek ve ormanın nasıl farklı tahminlerde bulunduğunu görmek sorta pahalı görünüyor. Daha iyi bir yol olmalı.
Harlan

ilk düşüncem, yapmak istediğiniz şeyin eğitim verilerinin değişken öneminden nasıl farklı olduğunu merak etmekti? Diğer değerler oldukları gibi verildiğinde, tahminlerin bacaklar üzerindeki hassasiyeti = 4'e karşı bacaklar = 2 veya bacaklar = 0 olduğunu söylemek mi istiyorsunuz? Randomforest paketindeki kısmi çizim fonksiyonuna baktınız mı?
B_Miner

Değişken önemi genellikle tüm eğitim setine (veya varsayılan popülasyona veya bir şeye) bağlı olarak tanımlanır. Ama istediğim tek bir öngörülen öğe için değişken önem . Ormanın çok eğimli karar ağaçlarından oluştuğu bir durum düşünün. Test Örneği 1, 1 veya çok az sayıda karar düğümü ile açıklanabilirken Test Örneği 2, çok daha büyük bir dizi karar düğümü ile açıklanabilir. Bunun çok basit, insan tarafından yorumlanabilir bir versiyonunu istiyorum, örneğin ilk 5'i verebileceğim sıralı bir karar kümesi gibi. Tek bir karar ağacı için onları okurdum.
Harlan

Yanıtlar:


3

İlk fikir, nakavt stratejisini değişken önemden taklit etmek ve her bir özniteliğin karıştırılmasının, nesne sınıflandırmasında orman güvenini nasıl dejenere edeceğini test etmektir (OOB'de ve bazı tekrarlarla açıkça). Bu biraz kodlama gerektirir, ancak kesinlikle elde edilebilir.

Ancak, bunun sadece kötü bir fikir olduğunu hissediyorum - sonuç muhtemelen cehennem gibi değişken olacak (nesneler üzerinde ortalamanın stabilize etkisi olmadan), gürültülü (çok emin olmayan nesneler için saçma niteliklerin büyük etkileri olabilir) ve zor yorumlamak (iki veya daha fazla özellik işbirliği kuralı muhtemelen her katkıda bulunan özelliklerin rastgele etkilerine neden olur).

Sizi olumsuz cevapla bırakmamak için, yakınlık matrisine ve ortaya çıkarabileceği olası arketiplere bakmayı tercih ederim - bu çok daha istikrarlı ve basit görünüyor.


İşbirliği kuralları / ilişkili öngörücüler noktası mükemmel bir eleştiri. Bu işi yapmak için, RF'yi önceden indirgenmiş bir dizi değişken seti üzerinde eğitmek veya RF'nin bir dizi alt kümeye odaklanmasına neden olacak bir tür cezalandırma stratejisi eklemek gerekebilir.
Harlan

0

Kireç çerçevesini denerdim .

Birçok modelle çalışır (rastgele orman dahil). Bu kullanılabilir yerel yorumlanması (tek bir tahmini açıklayan olduğunu) ya da için küresel yorumlanması (bir bütün modelini açıklayan gelir).

Asbtract'tan alıntı

Bu çalışmada, herhangi bir sınıflandırıcının tahminlerini yorumlanabilir ve sadık bir şekilde, tahmin etrafında yerel olarak yorumlanabilir bir model öğrenerek açıklayan yeni bir açıklama tekniği olan LIME'yi öneriyoruz. Ayrıca, temsili bir alt-optimizasyon sorunu olarak çerçeveleyen temsili bireysel tahminleri ve açıklamalarını yedeksiz bir şekilde sunarak modelleri açıklamak için bir yöntem öneriyoruz.

Bu hem paketlere sahip Ar ve piton ve birçok örnekler bunu google eğer.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.