İstatistikler ve Büyük Veri topic-models

4

Konu modellemesi yapmak için R paketleri / LDA: sadece `topicmodels 've` lda` [kapalı]

Bana öyle geliyor ki Latent Dirichlet Allocation'ı yalnızca iki R paketi yapabiliyor : Birincisi, ldaJonathan Chang tarafından yazılmış; Diğeri topicmodelsBettina Grün ve Kurt Hornik tarafından yazılmıştır. Bu iki paket arasındaki performans, uygulama detayları ve genişletilebilirlik açısından farklar nelerdir?

29 r bayesian text-mining topic-models latent-dirichlet-alloc

3

Konu modelleri ve kelime birlikte ortaya çıkma yöntemleri

LDA gibi popüler konu modelleri genellikle aynı konu (birlikte) içinde birlikte ortaya çıkma eğiliminde olan kelimeleri kümeler. Bu konu modelleri ve PMI gibi diğer basit eşzamanlılık tabanlı kümeleme yaklaşımları arasındaki temel fark nedir? (PMI, Pointwise Mutual Information anlamına gelir ve verilen bir kelimeyle birlikte gelen kelimeleri tanımlamak için kullanılır.)

26 machine-learning text-mining natural-language topic-models

2

Konu modellerinde konu dengesi

Bir dizi açık uçlu makalenin içeriği hakkında biraz bilgi edinmek istediğim bir proje üzerinde çalışıyorum. Bu özel projede 148 kişi, daha büyük bir deneyin parçası olarak varsayımsal bir öğrenci organizasyonu hakkında yazılar yazdı. Alanımda (sosyal psikoloji), bu verileri analiz etmenin tipik yolu, makaleleri elle kodlamak olsa da, bunu nicel olarak …

23 machine-learning model-selection small-sample topic-models dirichlet-process

2

LDA hiperparametreleri için doğal yorumlama

Birisi LDA hiperparametrelerinin doğal yorumunun ne olduğunu açıklayabilir mi? ALPHAve BETAsırasıyla (belge başına) konu ve (konu başına) kelime dağılımları için Dirichlet dağılımlarının parametreleridir. Bununla birlikte, birisi bu hiperparametrelerin daha küçük değerlere göre daha büyük değerlerini seçmenin ne anlama geldiğini açıklayabilir mi? Bu, belgelerdeki konuların azlığı ve kelimelerin konuların karşılıklı olarak …

21 interpretation prior topic-models hyperparameter

2

Gizli Dirichlet Tahsisi ile bir dağıtım kutusunun şaşkınlığı nasıl hesaplanır?

Gizli Dirichlet Tahsisi (LDA) yaparken bir sınırlama örneğinin şaşkınlığını nasıl hesaplayacağım konusunda kafam karıştı. Konuyla ilgili yazılar, bana belirgin bir şeyi kaçırdığımı düşündürüyor ... Şaşkınlık, LDA için iyi bir performans ölçüsü olarak görülmektedir. Fikir, bir ayırma örneği tutmanız, LDA'nızı verilerin geri kalanında eğitmeniz ve ardından ayırmanın şaşkınlığını hesaplamanızdır. Şaşkınlık şu …

18 text-mining topic-models

1

Gizli Dirichlet tahsisini kullanarak konu tahmini

LDA'yı bir belge topluluğunda kullandım ve bazı konular buldum. Kodumun çıktısı olasılıkları içeren iki matristir; bir doc-konu olasılıkları ve diğer word-konu olasılıkları. Ancak aslında bu sonuçların yeni bir belgenin konusunu tahmin etmek için nasıl kullanılacağını bilmiyorum. Gibbs örneklemesi kullanıyorum. Nasıl olduğunu bilen var mı? Teşekkürler

17 text-mining topic-models

3

Kısa belgeler için konu modelleri

Bu sorudan esinlenerek , çok kısa metinlerin büyük koleksiyonları için konu modelleri üzerinde herhangi bir çalışma yapılıp yapılmadığını merak ediyorum. Benim sezgim Twitter'ın bu modeller için doğal bir ilham kaynağı olması. Bununla birlikte, bazı sınırlı deneylerden, standart konu modellerinin (LDA, vb.) Bu tür veriler üzerinde oldukça düşük performans gösterdiği görülmektedir. …

14 references text-mining topic-models natural-language

«topic-models» etiketlenmiş sorular