Rastgele orman çarpıtma doğruluğu ve özellik seçimindeki yüksek korelasyonlu değişkenler olmaz mı?


32

Anladığım kadarıyla, yüksek korelasyonlu değişkenler, rastgele orman modelinde çoklu-derinlik sorunlarına neden olmayacak (Lütfen hatalıysam düzeltin). Bununla birlikte, diğer taraftan, benzer bilgileri içeren çok fazla değişkenim varsa, model bu sette diğerlerinden çok daha fazla ağırlık alır mı?

Örneğin, aynı tahmine dayalı güce sahip iki bilgi seti (A, B) vardır. Değişken , , ... hepsi A bilgisini içerir ve sadece Y bilgi B'yi içerir. Rastgele örnekleme değişkenleri olduğunda, ağaçların çoğu A bilgisinde yetişir ve sonuç olarak B tamamen yakalanmaz mı?X1X2X1000

Yanıtlar:


19

Bu doğru, ancak bu nedenle Y değişkeninin mevcut olduğu alt örneklemelerin çoğunda mümkün olan en iyi ayrımı üretecektir.

Bunun daha sık olmasını sağlamak için mtry'i yükseltmeyi deneyebilirsiniz.

Yinelemeli korelasyon budama işlemlerini deneyebilirsiniz, bu da sırasıyla birlikte en yüksek korelasyona sahip olan iki değişkenden birini kaldırmak için yapılır. Bu budamayı durdurmanın mantıklı bir eşiği, herhangi bir korelasyon çiftinin (pearson) düşük olması olabilir.R,2<0,7

Özyinelemeli değişken önemini budama işlemini, yani en düşük değişken öneme sahip, örneğin% 20 kaldırmayı deneyebilirsiniz. Örnek olarak, randomForest paketinden rfcv'yi deneyin.

Fazlalık değişkenlerinizin bazı parçalanma / toplanmalarını deneyebilirsiniz.


3
Bazı kaynaklarda multicollinearityrastgele orman modeli üzerinde NO etkisinin olduğunu gördüm . Örneğin, burada en çok oy alan cevap, “rastgele orman modelinin hiçbir parçasının yüksek düzeyde kolinear olmayan değişkenler tarafından zarar görmeyeceğini” söylüyor. Bunun geçerliliği var mı?
Hunle

5
Bence HAYIR'ı tam anlamıyla okuyorsun. RF modelleri oldukça iyi korelasyonlu / fazlalık değişkenleri ele alır, evet. Ancak bu, modelinizin, ilişkisiz veya tamamen gereksiz değişkenlerden (örneğin doğrusal rekombinasyonlar) uzak durmalardan fayda sağlaması anlamına gelmez, ya da çökmez. Çapraz onaylanmış model performansında mütevazı bir iyileşme beklemek için yalnızca mütevazı değişken seçimini savunuyorum.
Soren Havelund Welling

24

Eski iş parçacığı, ancak ortaklığın rastlantısal orman modelleri ile ilgili bir sorun olmadığı konusunda bir battaniye ifadesine katılmıyorum. Veri kümesi, iki (veya daha fazla) ilişkili özelliğe sahip olduğunda, model açısından, bu ilişkili özelliklerin herhangi biri, diğerlerinden daha somut bir tercihi olmadan, öngörücü olarak kullanılabilir.

Ancak bunlardan biri kullanıldığında, diğerlerinin önemi önemli ölçüde azalır, çünkü etkili bir şekilde çıkardıkları kirlilik ilk özellik tarafından kaldırılır.

Sonuç olarak, rapor edilen önemi daha düşük olacaktır. Bu, fazla uyumu azaltmak için özellik seçimini kullanmak istediğimizde bir sorun değildir, çünkü diğer özellikler tarafından çoğunlukla çoğaltılmış olan özellikleri kaldırmak mantıklıdır, ancak verileri yorumlarken , değişkenlerden birinin yanlış olduğu sonucuna varılabilir. Aynı gruptaki diğerleri önemsizken güçlü bir tahminci iken, cevap değişkeni ile olan ilişkileri açısından oldukça yakındırlar.

Bu fenomenin etkisi, her düğüm oluşumunda rastgele özelliklerin seçilmesi sayesinde bir miktar azalır, ancak genel olarak etki tamamen ortadan kaldırılmaz.

Yukarıdakiler çoğunlukla buradan kaynaklanmaktadır: İyi özellikler seçmek


3
Değişken önemi sıklıkla metrik olarak kullanılır gibi bu RF özellik seçimi için yazıya zaman git olmuştur bmcbioinformatics.biomedcentral.com/articles/10.1186/... ben özellik selection.Feature seçimin daha şüpheci hale gelmiştir önce iki yıldan bu yana aşırı iyimser haç verir Doğru bir dış çapraz doğrulama döngüsü içinde yapılmazsa -validasyon. Doğru şekilde yapılırsa, çoğu zaman tahmin performansının optimizasyonunun hiçbirini veya yalnızca çok az optimizasyonunu görürüm. Şimdi esas olarak üretimdeki tahmin makinelerini basitleştirmek veya son bir modeli daha şeffaf hale getirmek için özellik seçimini kullanıyorum.
Soren Havelund Welling

@SorenHavelundWelling - "Özellik seçimi, uygun bir dış çapraz doğrulama döngüsü içinde yapılmazsa aşırı zaman aşımına uğrayan çapraz doğrulama sağlar" diyorsunuz. Bunu açıklayabilir misiniz veya açıklayan bir kaynağa başvurabilir misiniz? Şimdiye kadar okuduğum her şeye aykırı ...
Jack Fleeting

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.