Metin verilerim üzerinde sınıflandırma yapmak istiyorum. 300 classes
Sınıf başına 200 eğitim dokümanım var 60000 documents in total
ve bu muhtemelen çok yüksek boyutlu verilerle sonuçlanacaktır ( 1 milyondan fazla boyutu inceliyor olabiliriz ).
Boru hattında aşağıdaki adımları gerçekleştirmek istiyorum (sadece gereksinimlerimin ne olduğu hakkında bir fikir vermek için):
- Her belgeyi özellik vektörüne (
tf-idf
veyavector space model
) dönüştürme Feature selection
(Mutual Information
tercihen veya diğer standart olanları temel alır)- Sınıflandırıcı Eğitim (
SVM
,Naive Bayes
,Logistic Regression
veyaRandom Forest
) - Eğitimsiz sınıflandırıcı modeline göre görünmeyen verileri tahmin etme.
Buradaki soru, bu tür yüksek boyutlu verileri işlemek için hangi araçları / çerçeveyi kullanacağım? Her zamanki şüphelilerin farkındayım (R, WEKA ...) ama bilgim ilerledikçe (yanlış olabilirim) muhtemelen hiçbiri bu kadar büyük veriyi işleyemez. Raf aletinden bakabileceğim başka bir şey var mı?
Paralellemem gerekirse Apache Mahir'e mi bakmalıyım ? Görünüşe göre tam istediğim işlevselliği sağlayamayabilir.
Şimdiden teşekkürler.
Güncelleme: Bu web sitesine , posta listesine ve genel olarak internete baktım . Bana öyle geliyor ki benim durumumda aşağıdaki sorunlar ortaya çıkabilir:
(1) Verilerimin R ( özellikle tm paketi ) kullanılarak ön işleme tabi tutulması pratik olmayabilir , çünkü tm
yasaklayıcı derecede yavaş olacaktır.
(2) Paketler arasında birlikte çalışabilirlik bir sorun haline gelebilir ve bir formattan diğerine veri dönüştürmede ek bir yüke neden olabilirim. . Örneğin, ön tm
işlemimi (veya WEKA gibi harici bir aracı) kullanarak yaparsam, bu verileri R'deki HPC kitaplıklarının okuyabileceği bir forma dönüştürmenin bir yolunu bulmam gerekir. Ve yine, sınıflandırma paketlerinin HPC kütüphaneleri tarafından sağlanan verileri doğrudan alıp alamayacağı net değil.
Ben doğru yolda mıyım? Ve daha da önemlisi, mantıklı mıyım?
foreach
R'de kütüphane yazma paralel kodunu kullanabilirsiniz. Bu özellikle doğası gereği paralelleştirilmesi kolay olan rasgele ormanlarla birlikte iyi çalışır.