Örneğin, sabit bir şirkette NER, POS etiketleme veya başka bir şey gibi sınırlı boyutta bir sorununuz olduğunda, gazetelerde veya kasıtlı olarak sabit boyutta herhangi bir başka seçenek akademik makalelerde çok popüler bir yaklaşım gibi görünmektedir . Kullanacağınız tek özellik Gazetteer eşleşmesi olmadığı sürece hile yapmayı düşünmem.
Ancak, eğitim sırasında sözlüğe dayanan herhangi bir NLP modelini eğittiğinizde, tüm ilgi çekici nesneleri gazeteciye dahil etmedikçe, ilk testinizin raporlayacağından daha düşük bir gerçek performans elde edebilirsiniz (ve neden eğitimli modeliniz bir noktada özelliğe güvenecek ve diğer özelliklerin çok zayıf olacağı veya açıklayıcı olmayacağı durumlarda yeni ilgi çekici nesneler tanınmayacaktır.
Modellerinizde bir Gazetteer kullanıyorsanız, bu özelliğin modelin dengesini sağlamak için bir sayaç özelliğine sahip olduğundan emin olmalısınız, böylece basit sözlük eşleşmesi pozitif sınıfın (ve daha da önemlisi, gazetteer'ın tek özelliği olmayacaktır) sadece pozitif örnekleri değil, negatif örnekleri de eşleştirin).
Örneğin, genel kişi NER'i ilgisiz kılan, tüm kişi adlarında tam bir sonsuz varyasyon kümeniz olduğunu varsayalım, ancak şimdi metinde bahsedilen nesnenin şarkı söyleyip söyleyemeyeceğine karar vermeye çalışıyorsunuz. Size çok sayıda yanlış pozitif verecek Kişi gazetenize dahil edilme özelliklerine güveneceksiniz; o zaman " Fiil şarkısının konusu " nun fiil merkezli bir özelliğini ekleyeceksiniz ve bu muhtemelen kuşlar, aç olduğunuzda karnınız ve düşünen sarhoş bir adam gibi her türlü nesneden yanlış pozitifler verecektir.şarkı söyleyebilir (ama dürüst olalım, yapamaz) - ancak bu fiil merkezli özellik, hayvanlara veya diğer nesnelere değil, kişilere pozitif 'Şarkıcı' sınıfı atamak için kişi gazetecinizle dengelenecektir. Yine de, sarhoş sanatçı davasını çözmez.