Kısa belgeler için konu modelleri


14

Bu sorudan esinlenerek , çok kısa metinlerin büyük koleksiyonları için konu modelleri üzerinde herhangi bir çalışma yapılıp yapılmadığını merak ediyorum. Benim sezgim Twitter'ın bu modeller için doğal bir ilham kaynağı olması. Bununla birlikte, bazı sınırlı deneylerden, standart konu modellerinin (LDA, vb.) Bu tür veriler üzerinde oldukça düşük performans gösterdiği görülmektedir.

Orada kimse bu alanda yapılmış herhangi bir iş biliyor mu? Bu makale LDA'yı Twitter'a uygulamaktan bahsediyor, ancak kısa belge bağlamında daha iyi performans gösteren başka algoritmaların olup olmadığıyla gerçekten ilgileniyorum.


2
Twitter, yalnızca 'belgelerin' küçük boyutundan değil, aynı zamanda metin türünden dolayı konu modelleme için özellikle zor bir veri kümesidir. İnsanlar, çeşitli olayları tanımlamayı daha da zorlaştıran çeşitli kısa mesajlar kullanma eğilimindedir.
Nick

Tweet'lerde konu modelleme için iyi kağıtların ve ilgili kaynak kodlarının listesine bakın: quora.com/…
NQD

Yanıtlar:


7

Bu geç bir cevaptır, ancak bu soruna ilişkin araştırma ve araçları arayan diğer insanlar için yararlı olabilir:

  1. Columbia'dan Weiwei Guo, kısa metinli konu modellemesi için kod uyguladı. Uygulamayı "Gizli Alandaki Cümleleri Modelleme" makalesinde ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) tanımladı ve kod burada mevcuttur: http: // www .cs.columbia.edu / ~ weiwei / code.html

  2. Bu konu modellemesi olmasa da, kısa metin parçalarını içeren bir sınıflandırma göreviniz varsa LibShortText'i kullanabilirsiniz. Web sitesi açıklamalarından

"LibShortText kısa metin sınıflandırması ve analizi için açık kaynaklı bir araçtır. Örneğin, başlıklar, sorular, cümleler ve kısa mesajların sınıflandırılmasını yapabilir ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/


6

Çalışmasına aşina olmasam da , Jacob Eisenstein'ın twitter verilerinde metin analizi ve grafik modellerde çalıştığını biliyorum . Özellikle, bu yazıda Twitter verileri ve mikrobloglarda konu modelleme uygulaması açıklanmaktadır.

Düzenleme: aslında makaleyi biraz daha okuduktan sonra şunları belirtirler:

Bununla birlikte, Twitter'daki ortalama mesaj, geleneksel konu modellemesi için çok seyrek olan on altı kelime jetonudur; bunun yerine, belirli bir kullanıcıdan gelen tüm iletileri tek bir belgede topladık.

Belki de çok fazla kağıt çok yardımcı olmayabilir, belki de diğer Eisenstein yayınları sizi doğru yönde yönlendirebilir.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.