Metin verilerini kategorilere dönüştürün. Kategorilerin ne kadar bilgi içermesi gerektiğine ilişkin farklı alternatifler deneyebilirsiniz, ancak her değişken için belirli kategoriler olmalıdır. Örnek olarak, anket formunun bir metin alanından insanların işe gitme biçimleri konusunda gelen bir değişkeni varsayacağım.
İlk başta, benzer anlamdaki cevapların aynı şekilde yazıldığından ve aynı kategoriye ait olduğundan emin olmalıyız (örneğin "bisikletle", "bisikletle", "bisikletle" hepsi aynı anlama sahiptir). Ardından daha az ayrıntılı kategorilere (örneğin "tramvay", "metro" ve "otobüs" ile "toplu taşıma araçlarına" birleştir) veya daha fazlasını (ör. "Yürüyüş", "Jogging", "Bisiklet" Fiziksel aktivite ") ne bulmaya çalıştığınıza bağlı olarak.
Veri kümenize bazı farklı kombinasyonlar bile koyabilirsiniz ve ardından sonraki adımlar analiz için hangilerinin kullanılacağını belirler. Metin verilerinin sıralı değişkenlerde "çevrilebildiği" durumlarda bunu yaptığınızdan emin olun (örneğin "küçük, orta, yüksek" varsa "1,2,3" değerine dönüştürün).
Principal Component Analysis
veyaNon-Negative Matrix Factorization
değişken sayısını azaltacak, seyrek verileri zenginleştirecek ve tüm değişkenleri nicel hale getirecektir. Ayrıca, boyutsal küçültme modelinin kalitesini değerlendiren soru yazarı, metinsel değişkenlerin yararlılığını tahmin edebilir.