İlk önce bir uyarı. Kümelemede genellikle tek bir "doğru cevap" yoktur - bir kümelenme bir metrikten diğerine göre daha iyi olabilir ve bunun tersi başka bir metrik kullanılarak doğru olabilir. Bazı durumlarda, aynı ölçüm altında iki farklı kümelenme aynı derecede olası olabilir.
Bunu söyledikten sonra Dirichlet İşlemlerine bir göz atmak isteyebilirsiniz . Ayrıca bu öğreticiye bakınız .
Bir Gauss Karışımı modeliyle başlarsanız, k-aracıyla aynı problemi yaşarsınız - küme sayısını seçmek zorundasınız. Model kanıt kullanabilirsiniz, ancak bu durumda sağlam olmayacaktır. Bu yüzden püf noktası, karışım bileşenlerinden önce Dirichlet Süreci kullanmaktır; bu da potansiyel olarak sınırsız sayıda karışım bileşenine sahip olmanıza izin verir, ancak model (genellikle) otomatik olarak "doğru" bileşen sayısını (varsayımların altında) bulacaktır. model).
Önceden Dirichlet İşleminin konsantrasyon parametresini belirtmeniz gerektiğini unutmayın . Küçük değerleri için, DP'den alınan örneklerin büyük ağırlıkları olan az sayıda atomik ölçümden oluşması muhtemeldir. Büyük değerler için, çoğu numunenin belirgin (konsantre) olması muhtemeldir. Konsantrasyon parametresinde bir hiper önceliği kullanabilir ve daha sonra verilerini değerden çıkartabilirsiniz ve bu hiper öncü, birçok farklı olası değere izin verecek şekilde uygun şekilde belirsiz olabilir. Bununla birlikte, yeterli veri verildiğinde, konsantrasyon parametresi çok önemli olmaktan çıkacak ve bu hiper-öncelik bırakılabilir.ααα