Metin belgesi için özellik vektörü oluşturmak için bigram (N-gram) modeli kullanma ile ilgili

10

Metin madenciliği için geleneksel özellik yapım yaklaşımı, kelime torbası yaklaşımıdır ve belirli bir metin belgesini karakterize eden özellik vektörünü ayarlamak için tf-idf kullanılarak geliştirilebilir. Şu anda, özellik vektörü oluşturmak için bi-gram dil modeli veya (N-gram) kullanmaya çalışıyorum, ancak bunu nasıl yapacağımı tam olarak bilmiyorum? Sadece kelime torbası yaklaşımını izleyebilir miyiz, yani, frekans sayısını kelimeler yerine bi-gram cinsinden hesaplayabilir ve tf-idf ağırlıklandırma şemasını kullanarak artırabilir miyiz?

— user3125
kaynak

4

Evet. Bu, daha birçok özellik yaratacaktır: Sınıflandırıcınızı çok fazla gürültüyle boğmamak için bazı kesme (örneğin, bi-gram veya veri kümenizde 5 kereden daha az ortaya çıkan kelimeler) atmak önemli olabilir. özellikleri.

— ogrisel
kaynak

Teşekkürler. Her özellik değerini bigram (N-gram) cinsinden hesaplama konusunda genel fikrimin doğru olduğunu mu söylüyorsunuz? Başka bir deyişle, kelime torbası ve N-gram modeli arasındaki özellik değerlerinin hesaplanmasında büyük bir fark yoktur. Açıklama için teşekkürler.

— user3125

Evet, tüm bigramları + unigramları (kelimeler) büyük bir özellik torbasında kullanabilirsiniz (bazı kesme seviyelerinde en az sıklığı kesdiğiniz sürece).

— ogrisel

3

Bigram sayısı sadece karşılıklı karşılıklı bilgi sahibi olanlar seçilerek azaltılabilir.

Bunu, http://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.asp INEX XML Madencilik parkurunda bir torba bigram temsili oluşturmak için yaptık .

Denemediğimiz şey, iki gramın ağırlıklandırılması terimleri arasındaki karşılıklı bilgileri kullanmaktır. Bkz. Https://en.wikipedia.org/wiki/Pointwise_mutual_information , https://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdf ve http: //www.nltk. Bigramlar için noktasal karşılıklı bilgilerin daha iyi bir açıklaması için org / howto / collocations.html .

Bkz. Https://stackoverflow.com/questions/20018730/computing-pointwise-mutual-information-of-a-text-document-using-python ve /programming/22118350/python-sentiment-analysis Bununla ilgili diğer sorular için -uluşma-puan-karşılıklı-bilgi .

— Chris de Vries
kaynak

ölü bağlantı :-( ...

— Renaud

1

@Renaud Bağlantılar güncellendi :-)

— Chris de Vries

0

Verilerin boyutsallığını azaltmak için rastgele projeksiyonlar kullanmak, özellikleri depolamak için gereken alanı azaltmak için yararlı olabilir, https://en.wikipedia.org/wiki/Random_projection . Çok iyi ölçeklenir ve her örnek bağımsız olarak ve PCA, SVD, Sammon Maps, NMF vb. Gibi doğrudan optimizasyon yöntemleri olmadan daha düşük boyutlu bir alana yansıtılabilir.

— Chris de Vries
kaynak