R ile hız kazanmaya çalışıyorum. Sonunda metin sınıflandırma yapmak için R kütüphanelerini kullanmak istiyorum. Metin sınıflandırma söz konusu olduğunda, insanların R'nin ölçeklenebilirliği ile ilgili deneyimlerinin neler olduğunu merak ediyordum.
Büyük boyutlu verilerle karşılaşmam muhtemel (~ 300k boyutları). Özellikle sınıflandırma algoritmaları olarak SVM ve Random Forest kullanmaya bakıyorum.
R kütüphaneleri sorun büyüklüğüme ölçeklenir mi?
Teşekkürler.
EDIT 1: Açıklığa kavuşturmak için, veri setimin 1000-3000 satır (belki biraz daha fazla) ve 10 sınıfa sahip olması muhtemel.
2 EDIT: R için çok yeni olduğum için, posterlerin mümkün olduğunda daha spesifik olmasını isteyeceğim. Örneğin, bir iş akışı / boru hattı öneriyorsanız, lütfen mümkünse her adımda yer alan R kitaplıklarından bahsettiğinizden emin olun. Bazı ek işaretçiler (örnekler, örnek kodlar vb.) Kek üzerine krema yapar.
EDIT 3: Öncelikle, yorumlarınız için herkese teşekkürler. İkincisi, özür dilerim, belki de sorun için daha fazla bağlam vermeliydim. R'ye yeniyim, ancak metin sınıflandırması için fazla değil. Verilerimin bir kısmını tm paketini kullanarak , sadece bir şeyler hissetmek için ön işleme (stemming, stopword kaldırma, tf-idf dönüştürme vb.) Yaptım . Tm yaklaşık 200doc'da bile yavaştı, ölçeklenebilirlik konusunda endişelendim. Sonra FSelector ile oynamaya başladım ve hatta bu gerçekten yavaştı. İşte bu benim OP'mi yaptığım nokta.
DÜZENLEME 4: Yeni ortaya çıktı, sınıf başına 10 sınıf ve yaklaşık ~ 300 eğitim belgesine sahibim ve aslında Xdoc matrisi terimini tüm eğitim setinin dışına çıkarıp çok yüksek bir boyutluluğa neden oluyor. Ancak, her biri bir arada sınıflandırma problemini bir dizi ikili sınıflandırma problemine indirgemeye ne dersiniz? Bu, K-1 adımlarının her birindeki eğitim belgelerinin sayısını (ve dolayısıyla boyutsallığı) büyük ölçüde azaltacaktır, değil mi? Öyleyse bu yaklaşım iyi mi? Normal çok sınıflı uygulama ile doğruluk açısından nasıl karşılaştırılır?