Çok seyrek verilerle iyi çalışan bir Rastgele Orman uygulaması var mı?


23

Çok seyrek verilerle iyi çalışan bir R rasgele orman uygulaması var mı? Binlerce veya milyonlarca boole girdi değişkenine sahibim, ancak verilen herhangi bir örnek için yalnızca yüzlerce kadar TRUE olacaktır.

R'ye nispeten yeniyim ve seyrek verilerle ilgilenmek için bir 'Matrix' paketi olduğunu fark ettim, ancak standart 'randomForest' paketi bu veri türünü tanımıyor gibi görünüyor. Önemli ise, girdi verileri R dışında üretilecek ve ithal edilecektir.

Herhangi bir tavsiye? Ayrıca Weka, Mahout veya diğer paketleri de kullanabilirim.


Söyleyebileceğim kadarıyla, seyrek karar ağaçları için R paketi yok. R'de uygulandığı takdirde rastgele ormanlar oluşturmak için kullanılabilecek seyrek karar ağaçları için bir algoritma olduğuna inanıyorum.
Zach

2
İşte iyi bir aday: cs.cornell.edu/~nk/fest . Verilerinizi libsvm biçiminde dışa aktarabilirseniz, bu komut satırı programını kullanabilirsiniz. Bir R limanı görmek isterdim ...
Zach

Zach - bağlantı ölü gibi görünüyor.
Benoit_Plante

2
@ cmoibenlepro bağlantı lowrank.net/nikos/fest olduğunu
seanv507

Link benim için iyi çalıştı
David Marx

Yanıtlar:


13

Hayır, R'de seyrek veriler için RF uygulaması yoktur, çünkü kısmen RF, bu tip problemlere çok iyi uymaz - torbalama ve düşük kaliteli bölmeler seçimi, yalnızca sıfır alanlardaki model görüşlerinin çoğunu boşa harcayabilir.

Bazı çekirdek yöntemlerini deneyin veya verilerinizi bazı tanımlayıcılarla daha yemyeşil bir gösterime dönüştürmeyi (veya bazı boyutluluk azaltma yöntemini kullanın) daha iyi düşünün.


Hack-R'nin cevabı, seyrek matrislerle rastgele ormanlar yapabilen xgboost paketine işaret ediyor.
Edgar

7

Aslında, evet .

Bu var xgboosteXtreme degrade artırılması için yapılmış olan. Bu, şu anda birçok insan için R'de seyrek matrisleri olan modelleri çalıştırmak için tercih edilen bir pakettir ve yukarıdaki bağlantı açıklandığı gibi , parametreleri değiştirerek Rasgele Orman için kullanabilirsiniz !


4

R paketi "Ranger" yapmalı.

https://cran.r-project.org/web/packages/ranger/ranger.pdf

Özellikle yüksek boyutlu veriler için uygun olan Rastgele Ormanların hızlı bir şekilde uygulanması.

RandomForest ile karşılaştırıldığında, bu paket muhtemelen gördüğüm en hızlı RF uygulaması. Kategorik değişkenleri doğal bir şekilde ele alır.


-4

R temelleri ile size yardımcı olması gereken Quick-R adlı bir blog var

R paketlerle çalışır. Her paket farklı bir şey yapabilir. Tam olarak ne istediğin gibi olması gereken "randomForests" adı verilen bu paketler var.

Hangi yöntemin uygulandığına bakılmaksızın seyrek verinin sorun yaratacağını unutmayın. Bildiğim kadarıyla bu çok açık bir problem ve genel olarak veri madenciliği bir bilimden çok bir sanattır. Rastgele ormanlar genel olarak çok iyi performans göstermektedir ancak bunlar her zaman en iyi yöntem değildir. Yardımcı olabilecek birçok katmanı olan bir sinir ağı denemek isteyebilirsiniz.


4
Hayır, randomForest, seyrek verilerle kötü bir şekilde kötüdür, dolayısıyla bütün soru. classwt parametresi randomForest boyunca doğru şekilde uygulanmadı. Manuel aşırı örnekleme bir yaklaşımdır, ancak OOB hatasını düzeltir. Bu arada, paket 'randomForests' olarak adlandırılmamıştır.
smci

1
Bunun doğru olan kısımları sorunun cevabı değil.
Sycorax, Reinstate Monica'nın
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.