Küçük n, büyük p problemlerinde ağaç temelli topluluk yöntemlerinin sınırları?


10

Rastgele Orman ve sonraki türevler (örn. Koşullu orman) gibi ağaç temelli topluluk yöntemleri , göreceli değişken önemini tanımlamak için sözde "küçük n , büyük p " problemlerinde faydalıdır . Aslında, durum böyle görünüyor, ama sorum şu ki bu yetenek ne kadar ileri götürülebilir? Örneğin 30 gözlem ve 100 değişken olabilir mi? Böyle bir yaklaşımın kırılma noktası nedir ve var olan makul kurallar var mı? Ben simüle veya gerçek veri setleri kullanarak, gerçek kanıt bağlantıları (varsayım değil) ile desteklenen cevapları tercih ediyorum ve kabul edeceğim . İkincisinde fazla bir şey bulamadım ( burada ve burada)), bu yüzden düşüncelerinizi / tavsiyelerinizi / (konu hakkında) referans önerilerinizi bekliyoruz!

Yanıtlar:


3

Bazı simülasyon çalışmaları yapılıncaya kadar bu soruya kesin bir cevap olmayacağından şüpheleniyorum. Bu arada, Genuer ve arkadaşlarının Rastgele Ormanlarını buldum : bazı metodolojik görüşler , en azından RF'yi çeşitli "düşük n, yüksek p" veri kümelerine karşı test etmek açısından bu soruya bir bakış açısı kazandırmaya yardımcı oldu. Bu veri kümelerinin birçoğu> 5000 öngörücüye ve <100 gözleme sahiptir !!


3

Karşılaşacağınız başarısızlık modu, yeterince rastgele özelliklerle, her ağaç için kullanılan torbalanmış örnekler içindeki hedefle ilgili olan, ancak daha büyük veri kümesinde olmayan özellikler olacağıdır. Çoklu testlerde görülenlere benzer bir sorun.

Bunun için kesin kuralların geliştirilmesi zordur, çünkü bunun tam olarak gerçekleştiği nokta, verilerdeki sinyalin gürültü ve gücüne bağlıdır. Ayrıca, birden fazla test düzeltmeli p-değerini bölme kriteri olarak kullanarak, değişken önem ve / veya özellik önemlerinin gerçek özelliğe rastgele izin verilerek üretilen yapay kontrast özellikleriyle karşılaştırılması, bölünmüş seçimi ve diğer yöntemleri doğrulamak için çanta kılıflarının. Bunlar son derece etkili olabilir.

~ 1000 vaka ve 30.000-1.000.000 özellikli veri kümelerinde rastgele ormanlar (yukarıdaki metodolojik ayarlamalar dahil) kullandım. (Değişen özellik seçimi veya mühendislik düzeyine sahip insan genetiğinde veri setleri). Bu tür verilerde güçlü bir sinyali (veya toplu etkiyi) geri kazanmada kesinlikle etkili olabilirler, ancak rastgele varyasyon miktarı her sinyalin üstesinden geldiği için heterojen nedenleri olan bir hastalık gibi bir şeyi birlikte iyi bir şekilde yapmazlar.


0

Ayrıca verilerinizdeki sinyale ve gürültüye de bağlı olacaktır. Bağımlı değişkeniniz modelinizdeki değişkenlerin bir kombinasyonu ile oldukça iyi açıklanmışsa, bence daha düşük bir n / p oranı ile kurtulabilirsiniz.

Ben sadece oran dışında iyi bir model almak için de mutlak bir minimum n sayısı gerekli olduğundan şüpheleniyorum.

Buna bakmanın bir yolu, her ağacın yaklaşık SQRT (p) değişkenleri kullanılarak inşa edilmesidir ve bu sayı büyükse ve puan sayısı küçükse, orada gerçek bir model olmadan küçük ağaçlar takılabilir. Bu nedenle, bu tür aşırı yüklü ağaçların birçoğu yanlış değişken önem verecektir.

Genellikle değişken önem şemasında, hemen hemen aynı önem düzeyine sahip çok sayıda üst değişken görürsem, bana sadece gürültü verdiğine karar veririm.


SQRT (p) nereden geliyor?
LauriK

RandomForest'ta her ağaç değişkenlerin bir örneği kullanılarak oluşturulur. Varsayılan olarak (en az R randomForest paketinde) aldığı değer SQRT (p) 'den küçük veya ona en yakın sayıdır; burada p sütun sayısıdır.
DeepakML
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.