Bir engellenecek kelimeler listesinin nasıl seçileceğine dair bazı ipuçları arıyorum. Birisi önişleme ve filtreleme için veri kümesinin kendisinden engellenecek kelime listelerini çıkarmak için iyi bir yöntem biliyor mu / önerebilir mi?
Veri:
birkaç yıl içinde değişken uzunlukta (arama ve tam cümleler (200 karaktere kadar)) çok sayıda insan metni girişi. Metin çok fazla spam içeriyor (botlardan makine girişi, tek kelime, aptal aramalar, ürün aramaları gibi) ve bunların yalnızca% 1'i yararlı gibi görünüyor. Bazen (çok nadiren) insanların gerçekten harika sorular sorarak tarafımı aradıklarını fark ettim. Bu sorular o kadar güzel ki, insanların zaman içinde nasıl arama yaptığını ve insanların web sitemi kullanmakla ilgilendikleri konuları görmek için onlara daha derin bir göz atmaya değer olduğunu düşünüyorum.
Benim sorunum:
i gerçekten önişleme ile mücadele (yani spam bırakarak) olmasıdır. Zaten web'den (NLTK vb.) Bazı engellenenler listesi denedim, ancak bunlar gerçekten bu veri kümesiyle ilgili ihtiyaçlarıma yardımcı olmuyor.
Fikirleriniz ve tartışma arkadaşlarınız için teşekkürler!
stop words
. Dur-wrods bazı dilinde en sık kullanılan kelimeler, örneğin bir listesidir I
, the
, a
vb. Hangi metnin spam olup olmadığını belirlemeye çalışan algoritmanızı geliştirmeye başlamadan önce bu kelimeleri metninizden kaldıracaksınız. Hangi metnin spam olup olmadığını belirlemenize yardımcı olmadı, öğrenme algoritmanıza bazı iyileştirmeler sağlayabilir.