Metin belgesi için özellik vektörü oluşturmak için bigram (N-gram) modeli kullanma ile ilgili


10

Metin madenciliği için geleneksel özellik yapım yaklaşımı, kelime torbası yaklaşımıdır ve belirli bir metin belgesini karakterize eden özellik vektörünü ayarlamak için tf-idf kullanılarak geliştirilebilir. Şu anda, özellik vektörü oluşturmak için bi-gram dil modeli veya (N-gram) kullanmaya çalışıyorum, ancak bunu nasıl yapacağımı tam olarak bilmiyorum? Sadece kelime torbası yaklaşımını izleyebilir miyiz, yani, frekans sayısını kelimeler yerine bi-gram cinsinden hesaplayabilir ve tf-idf ağırlıklandırma şemasını kullanarak artırabilir miyiz?

Yanıtlar:


4

Evet. Bu, daha birçok özellik yaratacaktır: Sınıflandırıcınızı çok fazla gürültüyle boğmamak için bazı kesme (örneğin, bi-gram veya veri kümenizde 5 kereden daha az ortaya çıkan kelimeler) atmak önemli olabilir. özellikleri.


Teşekkürler. Her özellik değerini bigram (N-gram) cinsinden hesaplama konusunda genel fikrimin doğru olduğunu mu söylüyorsunuz? Başka bir deyişle, kelime torbası ve N-gram modeli arasındaki özellik değerlerinin hesaplanmasında büyük bir fark yoktur. Açıklama için teşekkürler.
user3125

Evet, tüm bigramları + unigramları (kelimeler) büyük bir özellik torbasında kullanabilirsiniz (bazı kesme seviyelerinde en az sıklığı kesdiğiniz sürece).
ogrisel

3

Bigram sayısı sadece karşılıklı karşılıklı bilgi sahibi olanlar seçilerek azaltılabilir.

Bunu, http://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.asp INEX XML Madencilik parkurunda bir torba bigram temsili oluşturmak için yaptık .

Denemediğimiz şey, iki gramın ağırlıklandırılması terimleri arasındaki karşılıklı bilgileri kullanmaktır. Bkz. Https://en.wikipedia.org/wiki/Pointwise_mutual_information , https://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdf ve http: //www.nltk. Bigramlar için noktasal karşılıklı bilgilerin daha iyi bir açıklaması için org / howto / collocations.html .

Bkz. Https://stackoverflow.com/questions/20018730/computing-pointwise-mutual-information-of-a-text-document-using-python ve /programming/22118350/python-sentiment-analysis Bununla ilgili diğer sorular için -uluşma-puan-karşılıklı-bilgi .


ölü bağlantı :-( ...
Renaud

1
@Renaud Bağlantılar güncellendi :-)
Chris de Vries

0

Verilerin boyutsallığını azaltmak için rastgele projeksiyonlar kullanmak, özellikleri depolamak için gereken alanı azaltmak için yararlı olabilir, https://en.wikipedia.org/wiki/Random_projection . Çok iyi ölçeklenir ve her örnek bağımsız olarak ve PCA, SVD, Sammon Maps, NMF vb. Gibi doğrudan optimizasyon yöntemleri olmadan daha düşük boyutlu bir alana yansıtılabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.