Metin madenciliği için geleneksel özellik yapım yaklaşımı, kelime torbası yaklaşımıdır ve belirli bir metin belgesini karakterize eden özellik vektörünü ayarlamak için tf-idf kullanılarak geliştirilebilir. Şu anda, özellik vektörü oluşturmak için bi-gram dil modeli veya (N-gram) kullanmaya çalışıyorum, ancak bunu nasıl yapacağımı tam olarak bilmiyorum? Sadece kelime torbası yaklaşımını izleyebilir miyiz, yani, frekans sayısını kelimeler yerine bi-gram cinsinden hesaplayabilir ve tf-idf ağırlıklandırma şemasını kullanarak artırabilir miyiz?