NLP - neden bir dur sözcüğü değil?


19

Konu modelleme yapmadan önce stop kelimeleri kaldırmaya çalışıyorum. Bazı olumsuzlama kelimelerinin (değil, asla, hiçbiri vb.) Genellikle durma kelimeleri olarak kabul edildiğini fark ettim. Örneğin, NLTK, spacy ve sklearn durdurma kelime listelerine "not" ekler. Ancak, aşağıdaki cümlelerden "değil" i kaldırırsak, anlamlı anlamı kaybederler ve bu konu modelleme veya duyarlılık analizi için doğru olmaz.

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

Herkes bu olumsuzlama kelimelerinin neden genellikle durma kelimeleri olarak kabul edildiğini açıklayabilir mi?


2
Cümlelerin anlamsal bir analizini yapıyorsanız, mantıklı bağlaçlar önemlidir: (1) iff not (2). Bu cümlelerin mantığını modellemek istiyorsanız, bunları stop çantasından uzak tutun. Genellikle oraya atılırlar çünkü bir veri madenciliği açısından, bir belgede 'not'un varlığı bize konuyu diğer belgelerden ayırmamıza yardımcı olacak çok şey anlatmayacaktır; yeterince nadir değil. Nlp görevlerinde onları görmezden gelmenin başka nedenleri de olabilir.
Hunan Rostomyan

Yanıtlar:


20

Durdurma sözcükleri genellikle "bir dildeki en yaygın kelimeler" olarak düşünülür. Ancak, farklı görevlere dayanan başka tanımlar da mümkündür.

Göreviniz kelime sıklıklarına dayanıyorsa, 'not' olarak durma sözcüğü olarak düşünmek mantıklıdır (örn . Belge sınıflandırması için tf – idf analizi).

Metnin bağlamıyla (örn. Duyarlılık analizi ) ilgileniyorsanız, olumsuzlama kelimelerine farklı davranmak mantıklı olabilir. Olumsuzluk bir metnin valans değerini değiştirir. Bunun dikkatli bir şekilde ele alınması gerekir ve genellikle önemsiz değildir. Bir örnek Twitter olumsuzluk grubu olabilir. Bu makalede yaklaşımın bir açıklaması verilmiştir .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.