Ward'ın kriteri değilse hclust () içindeki ward.D hangi algoritmayı uygular?


16

"Ward.D" seçeneği tarafından kullanılan (R sürümleri <= 3.0.3'teki tek Ward seçeneği "ward" ile eşdeğer) Ward'ın (1963) kümeleme ölçütünü uygulamazken, "ward.D2" seçeneği bu kriteri uygular ( Murtagh ve Legendre 2014).

( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html )

Görünüşe göre ward.D Ward'ın kriterlerini doğru bir şekilde uygulamıyor. Yine de ürettiği kümelenmeler konusunda iyi bir iş çıkarmış gibi görünüyor. Ward ölçütü değilse method = "ward.D" ne uygulanır?

Referanslar

Murtagh, F. ve Legendre, P. (2014). Ward'ın hiyerarşik aglomerasyon kümeleme yöntemi: Ward'ın ölçütünü hangi algoritmalar uyguluyor? Sınıflandırma Dergisi , 31 (3), 274-295.


Murthagh ve Legendre gazetesi bunun hakkında bir şey söylüyor mu?
cbeleites,

Bu makaleye erişimim yok
Raffael

Bir araştırmanın benim için ortaya çıktığı ilk şey, u montreal'daki el yazmasının pdf'sidir !?
cbeleites,

öyleyse kağıt ne diyor? Ben bulamıyorum
Raffael

Bize söylemeni istiyorum.
cbeleites

Yanıtlar:


11

İlgili makale burada .

Ward.D ve ward.D2 arasındaki fark, makalede Ward1 ve Ward2 olarak adlandırılan iki kümeleme kriteri arasındaki farktır.

Temel olarak, Ward algoritmasının sadece Ward2'de (koğuş D2) doğrudan doğru bir şekilde uygulandığı gerçeğine dayanır, ancak Öklid mesafeleri (from dist()), hclust()yöntem olarak koğuş.

Örneğin, SPSS ayrıca Ward1'i uygular, ancak kullanıcıları Ward kriterlerini elde etmek için mesafelerin kare olması gerektiği konusunda uyarır. Bu anlamda koğuş D'nin uygulanması onaylanmamıştır ve yine de geriye dönük uyumluluk için onu korumak iyi bir fikir olabilir.      


2
Ward algorithm is directly correctly implemented in just Ward2Bağladığınız makaleden değil , aşağıdakileri izler : (1) her iki uygulamada da doğru sonuçlar elde etmek için, Ward1 ile kareli Öklid mesafelerini ve Ward2 ile kareli Öklid mesafelerini kullanın; (2) çıktı dendrogramlarını karşılaştırılabilir (özdeş) hale getirmek için dendrogram oluşturmadan önce Ward1'den sonra füzyon seviyelerine veya Ward2'den sonra kare füzyon seviyelerine karekök uygulayın.
ttnphns

Haklısın tabi ki. Açıklama için teşekkürler. "Doğrudan doğru bir şekilde uygulanmış" ile kastettiğim, ward.D2 yöntemiyle doğru sonuca ulaşmak için yüksekliklerin kare kökünü almak gibi başka adımlara gerek olmadığıdır.
JTT

1
Burada minik nüans Ward yöntemi ile, olmasıdır değil onlar "nonsquared" veya "kare" çizilen gerekip gerekmediğini - "Doğru" ya da gerçek füzyon seviyeleri sunum ne tanımladı. Kararsızlığın nedeni Ward'daki füzyon seviyelerinin mesafeler olmaması , artımlı dağılımlar olmasıdır.
ttnphns

9

ward.D& Arasındaki tek fark ward.D2giriş parametresidir.

hclust(dist(x)^2,method="ward.D") ~ hclust(dist(x)^2,method="ward")

eşdeğer olanlar: hclust(dist(x),method="ward.D2")

Araştırma belgesini bulabilirsiniz: Ward'ın Hiyerarşik Kümeleme Yöntemi: Kümeleme Kriteri ve Aglomerasyon Algoritması

Ward2 kriter değerler “olan mesafeleri bir ölçekte oysa” Ward1 ölçüt değerlerinde “dir mesafeler bir ölçekte kare üzerinde ”.


Bu yanıtı tercih ediyorum, çünkü diğeri koğuşun yanlış olduğunu ima ediyor. Sadece farklı.
Chris

6

"Ward1 (ward.D)" ile optimize edilen objektif işleve karşılık gelen araştırma belgesine rastladım: Mesafeler Arası Bağlantılar Yoluyla Hiyerarşik Kümeleme: Ward'ın Minimum Varyans Yöntemini Uzatma . R'nin "Ward1 (ward.D)" uygulamasının, küme grupları arasındaki enerji mesafesini en aza indirmeye eşdeğer olduğu ortaya çıktı.

2.1 Küme direnci ve Amaç Fonksiyonue

Let ve B = { b 1 , ... , b , n 2 } ve boş olmayan alt-kümeleri olarak R, d . Arası olan, ya da tanımlama e -uzaklık e ( A , B ) arasında, A ve B olarak e ( A , B ) = N 1 , n 2A={a1,,an1}B={b1,,bn2}Rdee(A,B)AB

e(A,B)=n1n2n1+n2(2n1n2i=1n1j=1n2aibj(1)1n12i=1n1j=1n1aiaj1n22i=1n2j=1n2bibj).

e(2)ward.D2e(1)ward.D10<α<2e(α)1
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.