Metnin en bilgilendirici bölümlerini belgelerden çıkarın


16

Mevcut belge hakkında en fazla bilgiyi içeren metnin bir kısmını çıkartma hakkında herhangi bir makale veya tartışma var mı?

Örneğin, aynı etki alanından büyük bir belge topluluğum var. Metnin, tek bir belgenin bahsettiği temel bilgileri tutan kısımları vardır. Bu parçalardan bazılarını çıkarmak ve bunları metnin bir özeti olarak kullanmak istiyorum. Böyle bir şeye nasıl ulaşılacağına dair faydalı belgeler var mı?

Birisi beni, Doğal dil işleme alanında bu alanda yapılmış olabilecek bazı içgörüleri bulmak için ne aramam veya okumam gerektiğini doğru yöne yönlendirebilirse gerçekten yararlı olacaktır.

Yanıtlar:


23

Açıkladığınız şey genellikle TF-IDF ve ekstraktif özetlemenin basit bir kombinasyonu kullanılarak elde edilir .

Özetle, TF-IDF, her belgedeki kelimelerin geri kalanına kıyasla göreli önemini anlatır. Bu noktada, her belgedeki her kelime için "önemine" yaklaşan bir puanınız olur. Daha sonra, her cümledeki her kelimenin puanlarını toplayarak, her cümle için bileşik bir puan hesaplamak için bu ayrı ayrı kelime puanlarını kullanabilirsiniz. Son olarak, her bir belgeden top-N puanlama cümlelerini özet olarak almanız yeterlidir.

Bu yılın başlarında, NLTK ve Scikit-learn: Python'da bir NLP Sıçraması kullanarak Python'da bunun uygulanmasıyla sonuçlanan bir iPython Notebook'u bir araya getirdim .


2
Evet, muhtemelen bu olurdu. Ayrıca, bilgilendirici olduğunu bildiğim bazı kelimelere ek ağırlık ekleyebilirim. Yardımınız ve faydalı bağlantılarınız için teşekkürler.
MaticDiba

Peki bunu bir pdf üzerinde kullanabilir miyim? :)
Adam

Evet, pdftotext gibi bir şey kullanarak PDF'den düz metni zaten çıkardığınızı varsayarak bunu PDF'deki metinde kullanabilirsiniz.
Charlie Greenbacker

1

Orada anahtar kelime çıkarma teknikleri bir sürü gibi faktörlere bağlıdır:

  1. Metnin dilbilgisel kalitesi
  2. Metin uzunluğu
  3. Tek bir anahtar kelime veya kelime öbeği vb.

Ancak genel olarak, uzun bir metniniz varsa ve anahtar kelimeleri otomatik olarak buradan ayıklamak istiyorsanız, aşağıdaki makaleleri incelemenizi öneririz:

  1. TextRank

  2. RAKE [Hızlı Otomatik Anahtar Kelime Çıkarma]

  3. TOPICA

Ayrıca, yukarıdaki tekniklerden gelmeyen özel (özel) anahtar kelimeleri çıkarmak için aşağıdaki yazıyı inceleyin:

Python'da NLTK POS etiketleyicisini kullanarak Özel Anahtar Kelimeleri ayıklayın

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.