Dikran Marsupial'ın yorumuna sadece bir miktar uzantı (çapraz doğrulama). Ana fikir, verilerinizi bir şekilde eğitim ve doğrulama setlerine ayırmak, farklı sayıda bileşeni denemek ve karşılık gelen eğitim ve doğrulama olabilirlik değerlerine göre en iyisini seçmek.
GMM olasılığı sadece p ( x | π, μ , Σ ) =ΣKπkN-( x |μk,Σk) tanım gereği, nerede K bileşen (küme) sayısı ve π,μ,Σmodel parametreleridir. Değerini değiştirerekK GMM'nin eğitim ve doğrulama kümeleri olasılığını aşağıdaki gibi çizebilirsiniz.
Bu örnekte, optimum bileşen sayısının 20 civarında olduğu açık olmalıdır . Coursera'da bununla ilgili güzel bir video var ve yukarıdaki resmi aldığım yer burası.
Yaygın olarak kullanılan bir başka yöntem Bayesci bilgi ölçütüdür (BIC) :
B IC= - 2 günlük( L ) + Kgünlük( n )
nerede
L olasılık, K parametre sayısı ve
nveri noktalarının sayısı. Günlük olasılığına parametre sayısı için bir ceza eklemek olarak anlaşılabilir.