Mclust model seçimi


11

R paketi mclustküme modeli seçimi için bir ölçüt olarak BIC kullanır. Anladığım kadarıyla, en düşük BIC'ye sahip bir model diğer modellere göre seçilmelidir (sadece BIC'yi önemsiyorsanız). Ancak, BIC değerlerinin tümü negatif olduğunda, Mclustişlev varsayılan olarak en yüksek BIC değerine sahip olan modeldir. Çeşitli denemelerden elde ettiğim genel anlayış, mclust"en iyi" modelleri sahip olan modeller olarak tanımlamaktadır .max{BICi}

Yazarların neden bu kararı verdiğini anlamaya çalışıyorum. CRAN sitesinde gösterilmektedir: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

Ayrıca, mclustpaket yazarları bunu makalelerinde not alırlar Model tabanlı Sınıflandırma Yöntemleri: Chemometrics'de mclust Yazılımını Kullanma sayfa 5.

'En iyi' model, monte edilen modeller arasında en yüksek BIC'ye sahip olan model olarak kabul edilir.

Herkes bu konuya ışık tutabilir mi? Daha düşük bir BIC her zaman daha iyiyse, yazarlar neden en düşük BIC'li modeli değil, en küçük mutlak BIC'li modeli seçerler? Mümkünse referanslar sağlayın.

Yanıtlar:


10

Bulunan çözüm:

Peki, soruyu yeniden ifade etmek için, Mclustişlev neden "en iyi" model olarak en yüksek BIC değerine sahip modeli varsayılan olarak kullanıyor?

Harika bir soru! Size bunun için uzun soluklu bir cevap vereyim.

TL; DR : BIC değerleri, entegre (maksimum değil) olasılığa yaklaşık bir değerdir ve en büyük entegre olasılığı (Bayes faktörü) olan modeli istiyorsunuz, böylece en büyük BIC'ye sahip modeli seçersiniz.

Uzun cevap : k-ortalamaları ve hiyerarşik (aglomeratif) kümeleme gibi sezgisel tabanlı kümeleme yaklaşımları üzerinde model tabanlı kümelemeyi kullanmanın amacı, verileriniz için uygun bir küme modelini karşılaştırmak ve seçmek için daha resmi ve sezgisel bir yaklaşım sağlamaktır.

Mclust olasılık modellerine, Gauss karma modellerine dayalı kümeleme tekniklerini kullanır. Olasılık modellerinin kullanılması, farklı küme modellerini ve boyutlarını karşılaştırmak için model tabanlı yaklaşımların geliştirilmesine olanak tanır. Daha fazla bilgi için bkz. * Model Tabanlı Sınıflandırma Yöntemleri: Chemometrics'te mclust Yazılımını Kullanma * ( https://www.jstatsoft.org/article/view/v018i06 ).

Yukarıda belirtildiği gibi, yazarlar "en iyi" modelin en büyük BIC değerlerine sahip olduğunu belirtmektedir. Geliştirilmiş Model Tabanlı Kümeleme, Yoğunluk Tahmini ve Diskriminant Analiz Yazılımı'ndan başka bir örnek : MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

Baysian Bilgi Kriteri veya BIC (?), Maksimuma çıkarılan mantıksallık değeridir ve modeldeki parametrelerin sayısına bir ceza verir ve farklı parametreli ve / veya farklı sayıda kümeye sahip modellerin karşılaştırılmasına olanak tanır. Genel olarak BIC değeri ne kadar büyük olursa, model ve küme sayısı için kanıtlar o kadar güçlü olur (bkz. Örneğin Fraley ve Raftery 2002a).

Model Seçimi : Artık kümelere bağlı bir olasılık modeli bulunduğundan, Bayes faktörleri aracılığıyla Bayesci model seçimini kullanarak çoklu küme modellerini karşılaştırmak için daha karmaşık araçlar kullanabilirsiniz.

Onların yazıda, Kaç Kümeler? Hangi Kümeleme Yöntemi? Modele Dayalı Küme Analizi ile Yanıtlar ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

Bayes faktörü, ikisinin de a priori olmadıklarını varsayarak, bir model için diğerine karşı posterior oranlardır. Banfield ve Raftery [2], sınıflandırma olasılığına bağlı olarak hiyerarşik kümelemedeki kümelerin sayısını belirlemek için 'AWE' adı verilen log Bayes faktörünün iki katına sezgisel olarak türetilmiş bir yaklaşım kullandı. EM, maksimum karışım olasılığını bulmak için kullanıldığında, BIC (Schwarz [32]) adı verilen log Bayes faktörünün iki katına daha güvenilir bir yaklaşım uygulanabilir:

2log(p(x|M))+constant2lM(x,θ^)mmlog(n)BIC

p(x|M)lM(x,θ^)a priorip(x|M)M

Dolayısıyla, özet olarak, BIC en aza indirilmemelidir. Bu model tabanlı kümeleme yaklaşımını kullanan kişi, Bayes faktörüne maksimum entegre olasılıkla yaklaştığından BIC'yi en üst düzeye çıkaran modeli aramalıdır.

Bu son ifadenin ayrıca bir referansı vardır:

Banfield, JD ve Raftery, AE (1993) Model tabanlı Gauss ve Gauss olmayan kümeleme. Biyometri, 49, 803-821.

EDIT : Bir e-posta alışverişine dayanarak,

Bir yan not olarak, her zaman BIC'nin nasıl tanımlandığını kontrol edin. Bazen, örneğin çoğu regresyon bağlamında (geleneksel olarak bir istatistik parametresi tahmini için bir istatistik en aza indirgendiğinde, örn. Artık kareler, sapma, vb.) BIC, -2 * loglik + npar * log (n), yani mclust'da ne kullanılır. Açıkçası, bu durumda BIC en aza indirilmelidir.

BIC=2×ln(L(θ|x))+k×ln(n)


1
Bu yanıtın e-posta yazışmasının hangi Mclust sürümüyle ilişkili olduğundan emin değilim. Mclust sürüm 4, BIC'nin negatif bileşenini kullanır ve bu nedenle maksimize edilmelidir. Bir maksimizasyonun veya minimizasyonun yapılması gerekip gerekmediğini anlamaya çalışan insanlar için faydalı olabileceğini umuyoruz.
Rasika

Belirttiğiniz için teşekkürler, bu soruyu mantıklı olacak şekilde güncelleyeceğim. Bu değişikliği yıllar sonra neden yapmaya karar verdiklerini görmek için belgelere de bakabilirim
Jon
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.