Manhattan mesafesini Ward'ın hiyerarşik kümelemede kümeler arası bağıyla kullanmak uygun mudur?


15

Zaman serisi verilerini analiz etmek için hiyerarşik kümeleme kullanıyorum. Kodum, aşağıdaki girdiler verildiğinde hiyerarşik kümeler oluşturan Mathematica işlevi kullanılarak uygulanır DirectAgglomerate[...]:

  • bir mesafe matrisi D

  • kümeler arası bağlantıyı belirlemek için kullanılan yöntemin adı.

Manhattan mesafesini kullanarak D mesafe matrisini hesapladım:

d(x,y)=i|xiyi|

burada ve zaman serilerimdeki veri noktalarının sayısıdır.i=1,,nn150

Sorum şu: Ward'ın kümeler arası bağlantısını Manhattan mesafe matrisi ile kullanmak uygun mudur? Bazı kaynaklar Ward'ın bağlantısının sadece Öklid mesafesiyle kullanılmasını önermektedir.

DirectAgglomerate[...]Ward'ın bağlantısını orijinal gözlemleri değil, yalnızca mesafe matrisini kullanarak hesapladığını unutmayın . Ne yazık ki, Mathematica'nın Ward'ın orijinal algoritmasını nasıl değiştirdiğinden emin değilim . Örneğin, tek değişkenli gözlemlerin bir vektöründen oluşan bir küme için Ward, karelerin hata toplamını şu şekilde formüle etti:c

(j||cjmean(c)||2)2

(Matlab ve R gibi diğer yazılım araçları da Ward'ın kümelenmesini sadece bir mesafe matrisi kullanarak uygular, böylece soru Mathematica'ya özgü değildir.)


Yakın zamanda Ward yöntemini kullanarak oldukça büyük bir veri setini analiz ettim. Özel durumumda, Manatthan mesafesi esasen Öklid mesafesiyle aynı kümelenmeyi verdi. Herhangi bir yöntem kombinasyonu lehine size herhangi bir matematiksel kanıt sunamam, ancak en azından benim durumumda - kümelenme mesafe yönteminden etkilenmedi
nico

Tüm R fonksiyonları bir mesafe matrisi beklemek zorunda değildir. İçin, örneğin on-line yardımına bakın agnesyılında küme paketinin.
chl

Aslında herhangi bir mesafe kullanmak iyidir. Kontrol vlado.fmf.uni-lj.si/pub/preprint/ward.pdf Tek yakalama, bahsettiğimiz ortalamanın artık aritmetik ortalama değil Frechet ortalaması olduğu.
Randy Lai

ama tam bağlantı için Manhattan mesafesini kullanabilir miyiz ??
Payel Banerjee

Yanıtlar:


8

Ward kümeleme algoritması, her adımda 'atalet' ölçütlerini en aza indiren hiyerarşik bir kümeleme yöntemidir. Bu atalet, azaltılmış sinyal ile başlangıç ​​sinyali arasındaki karesi alınmış artıkların toplamını nicelleştirir: l2 (Öklid) bir algıdaki hatanın varyansının bir ölçüsüdür. Aslında, sorunuzda bile bahsediyorsunuz. Bu yüzden, inanıyorum ki, onu l2 Öklid mesafesi olmayan bir mesafe matrisine uygulamak mantıklı değil.

Öte yandan, ortalama bir bağlantı veya tek bir bağlantı hiyerarşik kümeleme, diğer mesafeler için mükemmel bir şekilde uygun olacaktır.


2
Yorumun için teşekkürler; Bence haklısın. Bununla birlikte, pratikte Ward'ın bağlantısının genellikle Öklidyen olmayan mesafelerde kullanıldığı görülmektedir. Bunun etkilerinin ne olabileceğinden hala emin değilim.
Rachel

Muhtemelen Ward'u kullanan insanlardan geliyor çünkü sadece iyi biliniyor. Ward'ın bu ortamlardaki ortalama bir bağlantıya kıyasla kazanç getirmediğini söyleyebilirim. Bununla birlikte, daha hesaplama açısından pahalıdır (her birleştirme için ilk iki anı hesaplamanız veya bunları önceden hesaplamanız gerekir). Böylece, pragmatik bir bakış açısıyla, ortalama bir bağlantıya girerim.
Gael Varoquaux

1
Aslında, atalet (Öklit olması gerekli değildir) bakınız karesi mesafenin toplamına kullanılarak tanımlanacaktır vlado.fmf.uni-lj.si/pub/preprint/ward.pdf
Randy Lai

5

Ward'ın herhangi bir metriği tercih etmesi için herhangi bir neden düşünemiyorum. Ward yöntemi, topaklanma sırasında hangi kümelerin kaynaştırılacağına karar vermek için başka bir seçenektir. Bu, füzyonu belirli bir hatayı ( formül için örnek kaynak ) en aza indirecek iki kümenin bulunmasıyla elde edilir .

Bu nedenle iki konsepte dayanır:

  1. (Sayısal vektörler için) genellikle her boyutun ayrı ayrı ortalaması alınarak hesaplanan vektörlerin ortalaması.
  2. Mesafe metriğinin kendisi yani bu metrik tarafından ifade edilen benzerlik kavramı.

Bu nedenle: Seçilen metriğin özellikleri (örneğin, döndürme, çeviri veya ölçek değişmezliği gibi) ihtiyaçlarınızı karşıladığı sürece (ve metrik, küme ortalamasının hesaplanma şekline uyuyor), kullanmamak için herhangi bir neden görmüyorum .

Çoğu insanın öklid metriğini önerdiğinden şüpheleniyorum çünkü

  • bir küme ortalaması ile tek bir gözlem vektörü arasındaki farkların ağırlığını artırmak istemektedir (ki bu da kuadrasyon ile yapılır)
  • ya da dayalı doğrulama en iyi metrik olarak çıktı çünkü onların verilerinin
  • veya genel olarak kullanıldığı için.

Yanıtınız için teşekkürler. 'DirectAgglomerate [...]' algoritmasının sadece bir mesafe matrisi aldığını vurgulamak için sorumu biraz açıkladım. Bu göz önüne alındığında, Ward bağlantısının değiştirilmiş uygulaması, Matris'in Öklid mesafesi olduğu varsayımına dayanır mı? Matlab'ın Ward bağlantısının uygulanması, örneğin yalnızca Öklid mesafeleri için uygun olduğunu not eder ( mathworks.com/help/toolbox/stats/linkage.html ).
Rachel

1
@Rachel: aaah, anlıyorum. Herhangi bir koğuş uygulaması küme üyeleri ile sentroid arasındaki mesafeyi hesaplamalıdır. Sezgisel olarak, bunun için kullanılan metriğin gözlemler arasındaki mesafeleri hesaplamak için kullanılan metriğe eşdeğer olması gerektiği açıktır ... bu nedenle matlab bir öklid distmatrisi gerektirir. Ama şimdi soru, uygulamaların neden mesafe matrisi yerine bir işlev talep etmediği ortaya çıkıyor? Her iki görev için farklı metrikler kullanıldığında ne kadar hasar verilir? Kabul ediyorum, doğru bilmiyorum.
steffen

merhaba örnek kaldırıldı. başka herhangi bir web sitesi?
MonsterMMORPG

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.