Gazeteer bir hile mi?


16

NLP'de, Gazetteerek açıklama oluşturmak için oldukça yararlı olabilecek bir kavram vardır . Anladığım kadarıyla:

Bir gazeteci, şehirler, kuruluşlar, haftanın günleri, vb. Gibi varlıkların adlarını içeren bir dizi listeden oluşur. Bu listeler, bu adların oluşumlarını metinde, örneğin adlandırılmış varlık tanıma görevi için bulmak için kullanılır.

Yani aslında bir arama. Bu tür bir hile değil mi? GazetteerAdlandırılmış varlıkları tespit etmek için a kullanırsak , fazla bir şey olmaz Natural Language Processing. İdeal olarak, adlandırılmış varlıkları NLPteknikleri kullanarak tespit etmek istiyorum . Aksi takdirde, normal ifade eşleştiricisinden nasıl daha iyi olabilir?


2
Özellikle sözlü olmayan bir arama çözümü kullanmak için tasarlanmış olmadıkça, kendi başına hile olarak adlandırmazdım. Ayrıca geleneksel NLP olarak da adlandırmam, ancak bir probleme basit bir çözümden kurtulabileceğiniz önemli mesafeyi asla gözden kaçırmamalısınız.
Kyle.

1
Belki de adlandırılmış varlık tanıyıcıyı eğitmek için kullanabilirsiniz. Gazeteciniz cesedinde olmayan varlıklar hakkında ne yapacak?
Emre

i doğru pos etiketleri ve isim chunking kullanarak hiç hiç bir gazeteciye ihtiyacım olmayacağını umuyordum. mümkün mü?
AbtPst

2
Endüstride hile diye bir şey yoktur. :-) Ama yine de, "genel bir yaklaşım" istiyorsanız, daha fazla NE öğrenmek için NE'lerin göründüğü bağlamları öğrenmek için elle açıklamalı bazı verilerle, yani tohumla başlamanız gerekir.
Adam Bittlingmayer

Yanıtlar:


15

Örneğin, sabit bir şirkette NER, POS etiketleme veya başka bir şey gibi sınırlı boyutta bir sorununuz olduğunda, gazetelerde veya kasıtlı olarak sabit boyutta herhangi bir başka seçenek akademik makalelerde çok popüler bir yaklaşım gibi görünmektedir . Kullanacağınız tek özellik Gazetteer eşleşmesi olmadığı sürece hile yapmayı düşünmem.

Ancak, eğitim sırasında sözlüğe dayanan herhangi bir NLP modelini eğittiğinizde, tüm ilgi çekici nesneleri gazeteciye dahil etmedikçe, ilk testinizin raporlayacağından daha düşük bir gerçek performans elde edebilirsiniz (ve neden eğitimli modeliniz bir noktada özelliğe güvenecek ve diğer özelliklerin çok zayıf olacağı veya açıklayıcı olmayacağı durumlarda yeni ilgi çekici nesneler tanınmayacaktır.

Modellerinizde bir Gazetteer kullanıyorsanız, bu özelliğin modelin dengesini sağlamak için bir sayaç özelliğine sahip olduğundan emin olmalısınız, böylece basit sözlük eşleşmesi pozitif sınıfın (ve daha da önemlisi, gazetteer'ın tek özelliği olmayacaktır) sadece pozitif örnekleri değil, negatif örnekleri de eşleştirin).

Örneğin, genel kişi NER'i ilgisiz kılan, tüm kişi adlarında tam bir sonsuz varyasyon kümeniz olduğunu varsayalım, ancak şimdi metinde bahsedilen nesnenin şarkı söyleyip söyleyemeyeceğine karar vermeye çalışıyorsunuz. Size çok sayıda yanlış pozitif verecek Kişi gazetenize dahil edilme özelliklerine güveneceksiniz; o zaman " Fiil şarkısının konusu " nun fiil merkezli bir özelliğini ekleyeceksiniz ve bu muhtemelen kuşlar, aç olduğunuzda karnınız ve düşünen sarhoş bir adam gibi her türlü nesneden yanlış pozitifler verecektir.şarkı söyleyebilir (ama dürüst olalım, yapamaz) - ancak bu fiil merkezli özellik, hayvanlara veya diğer nesnelere değil, kişilere pozitif 'Şarkıcı' sınıfı atamak için kişi gazetecinizle dengelenecektir. Yine de, sarhoş sanatçı davasını çözmez.


4

Varlıklar listesini kullanmanın birkaç dezavantajı vardır:

  • Liste kapalı
  • Liste içeriğe duyarlı değildir. "Beyaz Saray" ile "Beyaz Saray" arasında ayrım yapabilmek için içeriğe ihtiyacınız var.
  • Liste oluşturma çok fazla emek gerektirir
  • Liste ayrıca hatalar içerebilir.
  • Hile gibi geliyor (veya listede NLP bilgileri kullanılmıyor).

Önerilen @emre yönünde ilerleyerek bu dezavantajlarla başa çıkabilir ve bir sınıflandırıcı öğrenmek için listeyi kullanabilirsiniz.

Örneğin, tüzel kişinin yakınındaki jetonları kullanabilir ve "X'de yaşıyorum" bir yerin göstergesi ve "X ile konuştum" bir kişinin bir göstergesi olduğu gibi kural öğrenebilirsiniz. Listenizi kuralların hitlerine göre artırarak bu oyunu birkaç tur oynayabilir ve daha fazla kural öğrenmek için yeni listeyi kullanabilirsiniz.

Lütfen bu öğrenmede verilere gürültülü kalacağınızı unutmayın, bu nedenle çoğu durumda öğrenme çok açık olmalıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.