Kısa belgeler için konu modelleri

14

Bu sorudan esinlenerek , çok kısa metinlerin büyük koleksiyonları için konu modelleri üzerinde herhangi bir çalışma yapılıp yapılmadığını merak ediyorum. Benim sezgim Twitter'ın bu modeller için doğal bir ilham kaynağı olması. Bununla birlikte, bazı sınırlı deneylerden, standart konu modellerinin (LDA, vb.) Bu tür veriler üzerinde oldukça düşük performans gösterdiği görülmektedir.

Orada kimse bu alanda yapılmış herhangi bir iş biliyor mu? Bu makale LDA'yı Twitter'a uygulamaktan bahsediyor, ancak kısa belge bağlamında daha iyi performans gösteren başka algoritmaların olup olmadığıyla gerçekten ilgileniyorum.

— Martin O'Leary
kaynak

2

Twitter, yalnızca 'belgelerin' küçük boyutundan değil, aynı zamanda metin türünden dolayı konu modelleme için özellikle zor bir veri kümesidir. İnsanlar, çeşitli olayları tanımlamayı daha da zorlaştıran çeşitli kısa mesajlar kullanma eğilimindedir.

— Nick

Tweet'lerde konu modelleme için iyi kağıtların ve ilgili kaynak kodlarının listesine bakın: quora.com/…

— NQD

7

Bu geç bir cevaptır, ancak bu soruna ilişkin araştırma ve araçları arayan diğer insanlar için yararlı olabilir:

Columbia'dan Weiwei Guo, kısa metinli konu modellemesi için kod uyguladı. Uygulamayı "Gizli Alandaki Cümleleri Modelleme" makalesinde ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) tanımladı ve kod burada mevcuttur: http: // www .cs.columbia.edu / ~ weiwei / code.html
Bu konu modellemesi olmasa da, kısa metin parçalarını içeren bir sınıflandırma göreviniz varsa LibShortText'i kullanabilirsiniz. Web sitesi açıklamalarından

"LibShortText kısa metin sınıflandırması ve analizi için açık kaynaklı bir araçtır. Örneğin, başlıklar, sorular, cümleler ve kısa mesajların sınıflandırılmasını yapabilir ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

— DPS
kaynak

6

Çalışmasına aşina olmasam da , Jacob Eisenstein'ın twitter verilerinde metin analizi ve grafik modellerde çalıştığını biliyorum . Özellikle, bu yazıda Twitter verileri ve mikrobloglarda konu modelleme uygulaması açıklanmaktadır.

Düzenleme: aslında makaleyi biraz daha okuduktan sonra şunları belirtirler:

Bununla birlikte, Twitter'daki ortalama mesaj, geleneksel konu modellemesi için çok seyrek olan on altı kelime jetonudur; bunun yerine, belirli bir kullanıcıdan gelen tüm iletileri tek bir belgede topladık.

Belki de çok fazla kağıt çok yardımcı olmayabilir, belki de diğer Eisenstein yayınları sizi doğru yönde yönlendirebilir.

— Junier
kaynak

6

" Kısa metin için biterm konu modeli " (WWW13) adı verilen yeni bir makale bu konuda biraz ilerleme kaydetti ve işte kodu

— Xiaohui Yan
kaynak

2

BiTerm LDA'nın kısa metin ifadeleri (3-8 kelime) konu modellemesi ve sonraki sınıflandırma için oldukça iyi çalıştığını onaylıyorum.

— Vladislavs Dovgalecs