Zaman serisi verilerini analiz etmek için hiyerarşik kümeleme kullanıyorum. Kodum, aşağıdaki girdiler verildiğinde hiyerarşik kümeler oluşturan Mathematica işlevi kullanılarak uygulanır DirectAgglomerate[...]
:
bir mesafe matrisi D
kümeler arası bağlantıyı belirlemek için kullanılan yöntemin adı.
Manhattan mesafesini kullanarak D mesafe matrisini hesapladım:
burada ve zaman serilerimdeki veri noktalarının sayısıdır.
Sorum şu: Ward'ın kümeler arası bağlantısını Manhattan mesafe matrisi ile kullanmak uygun mudur? Bazı kaynaklar Ward'ın bağlantısının sadece Öklid mesafesiyle kullanılmasını önermektedir.
DirectAgglomerate[...]
Ward'ın bağlantısını orijinal gözlemleri değil, yalnızca mesafe matrisini kullanarak hesapladığını unutmayın . Ne yazık ki, Mathematica'nın Ward'ın orijinal algoritmasını nasıl değiştirdiğinden emin değilim . Örneğin, tek değişkenli gözlemlerin bir vektöründen oluşan bir küme için Ward, karelerin hata toplamını şu şekilde formüle etti:
(Matlab ve R gibi diğer yazılım araçları da Ward'ın kümelenmesini sadece bir mesafe matrisi kullanarak uygular, böylece soru Mathematica'ya özgü değildir.)