Bu konunun en önemli Google isabetlerinden biri olduğu için Latent Dirichlet Tahsisi (LDA), Hiyerarşik Dirichlet Prosesleri (HDP) ve hiyerarşik Latent Dirichlet Tahsisi (hLDA) 'nin farklı modeller olduğunu belirtmek isterim.
LDA, dokümanları, kullanıcı tarafından modelin bir parametresi olarak seçilen, sırayla kelimelerin dirichlet karışımları olan, belirli sayıda konunun dirichlet karışımları olarak modellemektedir. Bu, terimlerin konulara ve belgelerin konulara düz, yumuşak bir olasılıksal kümelemesi oluşturur.
HDP, konuları LDA'ya benzeyen kelimelerin karışımları olarak modellemekte, ancak sabit sayıda konunun karışımları olmaktan ziyade, konuların sayısı bir dirichlet işlemi tarafından üretilmekte, bu da konu sayısının rastgele bir değişken olmasına yol açmaktadır. Adın "hiyerarşik" kısmı, üretken modele (konu sayısını üreten dirichlet işlemi) eklenen başka bir seviyeye atıfta bulunur, konuların kendileri değil - konular hala düz kümelerdir.
Öte yandan hLDA, konuları dirichlet dağılımlarından elde edilen yeni ve farklı bir konu seviyelerinin karışımı olarak modelleyen LDA'nın bir uyarlamasıdır.ve süreçleri değil. Hala konu sayısını hiperparametre, yani verilerden bağımsız olarak ele alıyor. Buradaki fark şu ki kümelenme artık hiyerarşiktir - ilk başlık kümesinin kendisinin kümelenmesini öğrenerek konular (ve dolayısıyla sözcükler ve belgeler) arasında daha genel, soyut bir ilişki kurar. Veri değişimini kümelemek yerine, matematik, bilim, programlama, tarih vb. İşlemlerin kümelenmiş olarak kümelenmesi, yazılım mühendisliği ile ilgili bazı kavramları paylaşan soyut bir istatistik ve programlama konusuna çapraz doğrulama yapılması gibi düşünün. bilgisayar bilimleri borsasıyla değişim daha somut bir düzeyde kümelenir ve bahsedilen tüm değişimler arasındaki benzerlik kümelenmelerin üst katmanına kadar görünmez.