Gizli Dirichlet Tahsisi - Hiyerarşik Dirichlet Süreci


49

Gizli Dirichlet Tahsisi (LDA) ve Hiyerarşik Dirichlet Süreci (HDP) hem konu modelleme süreçleridir. En büyük fark LDA'nın konu sayısının belirtilmesini gerektirmesi ve HDP'nin gerektirmemesi. Neden böyle? Ve her iki konu modelleme yönteminin farklılıkları, artıları ve eksileri nelerdir?


HDP'nin seçeceği konu sayısı konusunda veri odaklı olması gerekiyor mu? Pratik tarafta, Blei'nin HDP uygulamasını çalıştırmaya çalıştım ve süreci öldürene kadar tüm hafızayı yedim. Analiz etmek için 16GB RAM'im ve 100K'dan az kısa belgem var.
Vladislavs Dovgalecs

Yanıtlar:


35

HDP, karışım bileşenlerinin sayısının (belge modelleme terimlerindeki "konu" sayısı) önceden bilinmediği durumu ele almak için tasarlanmış bir LDA'nın uzantısıdır. Demek bu yüzden bir fark var.

Belge modellemesi için LDA kullanımı, biri her "konu" yu bilinen bazı sözcük dağarcığındaki kelimelerin dağılımı olarak değerlendirir. Her belge için bir Dirichlet dağıtımından bir konuların karışımı çizilir ve daha sonra belgedeki her kelime o karışımdan bağımsız bir çizimdir (yani bir konu seçmek ve daha sonra bir kelime oluşturmak için kullanmak).

HDP için (belge modellemeye uygulanır), konu sayısındaki belirsizliği yakalamak için bir Dirichlet işlemi de kullanılır. Böylece, korpus için sınırsız sayıda olası konu kümesini temsil eden ortak bir taban dağılımı seçilir ve daha sonra her bir doküman için konuların sonlu dağılımı bu taban dağılımından örneklenir.

Avantaj ve dezavantajları göz önüne alındığında, HDP, önceden belirtilenler yerine, maksimum konu sayısının sınırlandırılmaması ve verilerden öğrenilmesi avantajına sahiptir. Sınırlı sayıda konunun kabul edilebilir olması durumunda uygulamanın daha karmaşık ve gereksiz olmasına rağmen, sanırım.


22

Tek kelimeyle, hiyerarşik LDA'nın çıktısından hiç etkilenmedim. Konu sayısını seçmek için optimal düzeyde bir ayrıntı düzeyi bulmuyor gibi görünüyor. Birkaç kez düzenli LDA yinelemeleri yaparak, ürettiği konuları elle inceleyerek, konu sayısının artırılıp azaltılmayacağına karar vererek ve aradığım ayrıntıyı elde edene kadar yinelemeye devam ederek çok daha iyi sonuçlar aldım.

Unutmayın: hiyerarşik LDA fikrinizi okuyamaz ... gerçekte konu modelleme için kullanmayı amaçladığınızı bilmiyor. K-aracı kümelemesinde olduğu gibi, kullanım durumunuz için en anlamlı olan k'yı seçmelisiniz.


16

Bu konunun en önemli Google isabetlerinden biri olduğu için Latent Dirichlet Tahsisi (LDA), Hiyerarşik Dirichlet Prosesleri (HDP) ve hiyerarşik Latent Dirichlet Tahsisi (hLDA) 'nin farklı modeller olduğunu belirtmek isterim.

LDA, dokümanları, kullanıcı tarafından modelin bir parametresi olarak seçilen, sırayla kelimelerin dirichlet karışımları olan, belirli sayıda konunun dirichlet karışımları olarak modellemektedir. Bu, terimlerin konulara ve belgelerin konulara düz, yumuşak bir olasılıksal kümelemesi oluşturur.

HDP, konuları LDA'ya benzeyen kelimelerin karışımları olarak modellemekte, ancak sabit sayıda konunun karışımları olmaktan ziyade, konuların sayısı bir dirichlet işlemi tarafından üretilmekte, bu da konu sayısının rastgele bir değişken olmasına yol açmaktadır. Adın "hiyerarşik" kısmı, üretken modele (konu sayısını üreten dirichlet işlemi) eklenen başka bir seviyeye atıfta bulunur, konuların kendileri değil - konular hala düz kümelerdir.

Öte yandan hLDA, konuları dirichlet dağılımlarından elde edilen yeni ve farklı bir konu seviyelerinin karışımı olarak modelleyen LDA'nın bir uyarlamasıdır.ve süreçleri değil. Hala konu sayısını hiperparametre, yani verilerden bağımsız olarak ele alıyor. Buradaki fark şu ki kümelenme artık hiyerarşiktir - ilk başlık kümesinin kendisinin kümelenmesini öğrenerek konular (ve dolayısıyla sözcükler ve belgeler) arasında daha genel, soyut bir ilişki kurar. Veri değişimini kümelemek yerine, matematik, bilim, programlama, tarih vb. İşlemlerin kümelenmiş olarak kümelenmesi, yazılım mühendisliği ile ilgili bazı kavramları paylaşan soyut bir istatistik ve programlama konusuna çapraz doğrulama yapılması gibi düşünün. bilgisayar bilimleri borsasıyla değişim daha somut bir düzeyde kümelenir ve bahsedilen tüm değişimler arasındaki benzerlik kümelenmelerin üst katmanına kadar görünmez.


0

HDP'nin LDA'ya kıyasla daha iyi çalıştığı bir durum var. Çeşitli sınıflara ait yaklaşık 16000 belgem var. Her sınıf için kaç farklı konu toplayabileceğimin farkında olmadığım için, HDP bu durumda gerçekten yardımcı oluyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.