Bulunan çözüm:
Peki, soruyu yeniden ifade etmek için, Mclust
işlev neden "en iyi" model olarak en yüksek BIC değerine sahip modeli varsayılan olarak kullanıyor?
Harika bir soru! Size bunun için uzun soluklu bir cevap vereyim.
TL; DR : BIC değerleri, entegre (maksimum değil) olasılığa yaklaşık bir değerdir ve en büyük entegre olasılığı (Bayes faktörü) olan modeli istiyorsunuz, böylece en büyük BIC'ye sahip modeli seçersiniz.
Uzun cevap : k-ortalamaları ve hiyerarşik (aglomeratif) kümeleme gibi sezgisel tabanlı kümeleme yaklaşımları üzerinde model tabanlı kümelemeyi kullanmanın amacı, verileriniz için uygun bir küme modelini karşılaştırmak ve seçmek için daha resmi ve sezgisel bir yaklaşım sağlamaktır.
Mclust olasılık modellerine, Gauss karma modellerine dayalı kümeleme tekniklerini kullanır. Olasılık modellerinin kullanılması, farklı küme modellerini ve boyutlarını karşılaştırmak için model tabanlı yaklaşımların geliştirilmesine olanak tanır. Daha fazla bilgi için bkz. * Model Tabanlı Sınıflandırma Yöntemleri: Chemometrics'te mclust Yazılımını Kullanma * ( https://www.jstatsoft.org/article/view/v018i06 ).
Yukarıda belirtildiği gibi, yazarlar "en iyi" modelin en büyük BIC değerlerine sahip olduğunu belirtmektedir. Geliştirilmiş Model Tabanlı Kümeleme, Yoğunluk Tahmini ve Diskriminant Analiz Yazılımı'ndan başka bir örnek : MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):
Baysian Bilgi Kriteri veya BIC (?), Maksimuma çıkarılan mantıksallık değeridir ve modeldeki parametrelerin sayısına bir ceza verir ve farklı parametreli ve / veya farklı sayıda kümeye sahip modellerin karşılaştırılmasına olanak tanır. Genel olarak BIC değeri ne kadar büyük olursa, model ve küme sayısı için kanıtlar o kadar güçlü olur (bkz. Örneğin Fraley ve Raftery 2002a).
Model Seçimi : Artık kümelere bağlı bir olasılık modeli bulunduğundan, Bayes faktörleri aracılığıyla Bayesci model seçimini kullanarak çoklu küme modellerini karşılaştırmak için daha karmaşık araçlar kullanabilirsiniz.
Onların yazıda, Kaç Kümeler? Hangi Kümeleme Yöntemi? Modele Dayalı Küme Analizi ile Yanıtlar ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )
Bayes faktörü, ikisinin de a priori olmadıklarını varsayarak, bir model için diğerine karşı posterior oranlardır. Banfield ve Raftery [2], sınıflandırma olasılığına bağlı olarak hiyerarşik kümelemedeki kümelerin sayısını belirlemek için 'AWE' adı verilen log Bayes faktörünün iki katına sezgisel olarak türetilmiş bir yaklaşım kullandı. EM, maksimum karışım olasılığını bulmak için kullanıldığında, BIC (Schwarz [32]) adı verilen log Bayes faktörünün iki katına daha güvenilir bir yaklaşım uygulanabilir:
2log(p(x|M))+constant≈2lM(x,θ^)−mmlog(n)≡BIC
p(x|M)lM(x,θ^)a priorip(x|M)M
Dolayısıyla, özet olarak, BIC en aza indirilmemelidir. Bu model tabanlı kümeleme yaklaşımını kullanan kişi, Bayes faktörüne maksimum entegre olasılıkla yaklaştığından BIC'yi en üst düzeye çıkaran modeli aramalıdır.
Bu son ifadenin ayrıca bir referansı vardır:
Banfield, JD ve Raftery, AE (1993) Model tabanlı Gauss ve Gauss olmayan kümeleme. Biyometri, 49, 803-821.
EDIT : Bir e-posta alışverişine dayanarak,
Bir yan not olarak, her zaman BIC'nin nasıl tanımlandığını kontrol edin. Bazen, örneğin çoğu regresyon bağlamında (geleneksel olarak bir istatistik parametresi tahmini için bir istatistik en aza indirgendiğinde, örn. Artık kareler, sapma, vb.) BIC, -2 * loglik + npar * log (n), yani mclust'da ne kullanılır. Açıkçası, bu durumda BIC en aza indirilmelidir.
BIC=−2×ln(L(θ|x))+k×ln(n)