Paragraftaki tarihlerle ilgili olayları belirleme


13

Bir paragrafta verilen tarihlerin paragraftaki belirli olaylarla (kelime öbekleriyle) ilişkili olduğunu tanımlamak için algoritmik bir yaklaşım var mı ?

Örnek olarak, aşağıdaki paragrafı göz önünde bulundurun:

Haziran 1970'te büyük lider yemin etti. Ancak, ancak Devletin Bakanının ölümünden sonra, Mayıs 1972'den sonra ülkenin dizginlerini devraldı. 1980 ortasına kadar popüler desteğe sahip olsa da, etkisi daha sonra düşmeye başladı.

Olayın paragraf tarafından tarihte meydana geldiği ima edilen 2-demet (tarih, olay) oluşturabilecek bir algoritma (deterministik veya stokastik) # var mı? Yukarıdaki durumda:

  • (Haziran 1970, büyük lider yemin etti)
  • (Mayıs 1972, dizginleri ele geçirdi)

    ya da daha iyisi

  • (Mayıs 1972'de büyük lider dizginleri devraldı)
  • (1980, nüfuz sahibi)

# Daha sonra ekleme


2
Bu problem üç aşama içermektedir: 1) ekstrakt tarihleri, 2) ekstrakt olayları ve 3) her iki veri setini ilişkilendirir. 1) kesinlikle yapılabilir ve 3 için iyi bir sezgisel hayal edebiliyorum, ama 2) nasıl çözmeyi umuyorsunuz?
Raphael

1
@ Raphael Sorumun güzel bir şekilde yeniden ifade edilmesi!
123

Eh, bunu 2'ye ilişkin bazı bilgiler), ilginç olaylar (yani kelime) ör sınırlı set var? Tüm isim / fiil çiftlerini bir tarihleri ​​olduğu sürece çıkarmak ister misiniz?
Raphael

Zaman çerçevelerini de çıkarmak istiyor musunuz? Örneğinizde (<= May 1972, death of the Minister of State)veya öğesini düşünün (<= Mid-1980, [the great leader] enjoyed popular support).
Raphael

@ Raphael Geç cevap için özür dilerim. 2) Hayır. Genel bir yaklaşım için çalışıyorum.
17.04.2012

Yanıtlar:


4

Genel olarak, metindeki tarihleri ​​ve diğer zamansal işaretleyicileri belirleme problemine zamansal referansları çıkarma problemi denir . Bağlantılı arama sizi bununla ilgili makalelere götürür.


Sorunun bir ismi olduğunu bilmiyordum. Bu konuda daha fazla bakacak ve değerli bir şey bulabileceğimi göreceğim. :)
check123 18:12

2

Bir algoritmik yaklaşım istediğin için, bir algoritma kadar inatçı olacağım. Bu soruyu bu şekilde ele aldığım için üzgünüm, ancak karmaşık bir teorik sorun gibi görünmediğinden, olası yaklaşımları sentezleyeceğim.

Soru: Bana bir tarihin ve belirli bir olayın algoritmik bir tanımını verebilir misiniz?

Yapabiliyorsanız: Tanımınız algoritmik olduğu için, bu muhtemelen bir tür resmi dilbilgisi ve probleminiz, düşünmeniz gereken her durumu yakalamak için bu dilbilgisini ayarlamak olacaktır. ( Resmi bir dilbilgisi olmayan kesin bir tanım verebilir misiniz?

Yapamazsan: en azından örnekler verebilirsin. Tamam o zaman. En iyi - ve sadece düşünebildiğim - yaklaşım, tarihlerinizi ve sonra olaylarınızı tanımak için eğitmeniz gereken makine öğrenme algoritmalarıdır. (El ile açıklamalı cümleler cümlesinin kullanılması) Ancak bu, muhtemelen işi yapacak bazı büyük el yapımı normal ifadeye kıyasla oldukça fazladır. Gerçekten, gerçekten yapmak istiyorsanız, en verimli öğrenme algoritması için bir parametre olarak verilen bu tür regexp olacağını düşünüyorum ama makine öğrenme uzmanlarına sorsan iyi olur.

Bununla iyi şanslar, sadece onun hakkında konuşmak çok daha kolay (her iki durumda da).


1
Bununla birlikte, tarihleri ​​ve olayları birleştirmenin kesinlikle bazı stokastik modellere ihtiyacı olacağını düşünüyorum .
Raphael

Regexp kullanarak yakalayabildiğim çoğu formattaki tarihler. Bazı programlama mantığı ile cümleleri tarihler boyunca çıkarabilirim. O zaman sorun, belirli bir cümle deseni, Örn .: Kedi 25 Ağustos'ta fareyi yediğinde bir modele veya olasılık dağılımına ihtiyacım var. [<article> <noun> <verb> <article> <noun> <preposition> <date>], sonra bir (alt) desen kümesi görünür, Kedi fareyi yedi (bizim durumumuzda), tarihle ilişkilidir y (25 Ağustos) olasılıkla z.
check123

@jmad Sakıncası yoksa yayınınızın biçimlendirmesini ayarlayabilir misiniz? Bir teklif olmayan (veya kendi kendine bir alıntı?) İçin teklif stilini kullanmak oldukça kafa karıştırıcıdır.
uli
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.