Farklı mesafeler ve yöntemler ile elde edilen hiyerarşik kümeleme dendrogramlarının karşılaştırılması


28

[İlk sıradaki "Hiyerarşik kümelenme ağaçları için benzerliğin ölçülmesi" başlığı daha sonra konuyu daha iyi yansıtacak şekilde @ tnphns tarafından değiştirildi]

Hasta kayıtlarının bir veri çerçevesi üzerinde bir dizi hiyerarşik küme analizi yapıyorum (örneğin, http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y )

Ağacın son kümeleri / yapısı / görünümü üzerindeki etkilerini anlamak için farklı uzaklık ölçüleri, farklı parametre ağırlıkları ve farklı hiyerarşik yöntemler ile deneyler yapıyorum (dendrogram). Benim soruma göre farklı hiyerarşik ağaçlar arasındaki farkı hesaplamak için standart bir hesaplama / önlem olup olmadığı ve bunun R'de nasıl uygulanacağı (örneğin, bazı ağaçların neredeyse aynı olduğunu ve bazılarının oldukça farklı olduğunu ölçmek için).

Yanıtlar:


44

İki hiyerarşik (ağaç benzeri) yapının benzerliğini karşılaştırmak için kofenetik korelasyon fikrine dayanan önlemler kullanılır. Peki hiyerarşik kümelemede "doğru" yöntemi veya mesafe ölçüsünü seçmek için dendrogramların karşılaştırmasını yapmak doğru mudur?

Oldukça önemli tutacağım hiyerarşik küme analiziyle ilgili bazı noktalar - gizli engeller var :

  • Asla karşılaştırmayın ( daha güçlü bölme veren yöntemi seçmek için ) görsel olarak farklı topaklaştırma yöntemleriyle elde edilen dendrogramları. Bu konuda hangi yöntemin "daha iyi" olduğunu söylemez. Her yöntem vardır verilerin hiçbir küme yapısına sahip veya rastgele küme yapısına sahip olduğunda ağaçlar dahi sürekli farklılık gösterir: kendi "prototipi" ağaç görünüm. (Ve bu içsel farklılıkları ortadan kaldıracak bir standardizasyon veya önlem olduğunu sanmıyorum.). Bununla birlikte, aynı yöntemle fakat farklı verilerle elde edilen sonuçların dendrogram görünüşlerini karşılaştırabilirsiniz. Maxim: Direkt, farklı yöntemlerden sonra dendrogramların görünüş karşılaştırması kabul edilemez .
  • 1 Maxim: Bir dendrogram görünümünü düşünerek bir kesim seviyesi seçmek, mümkün olsa da, bölümü seçmek için en iyi yöntem değildir ve bazı yöntemler için yanıltıcı olabilir . Bunun yerine bazı resmi iç kümelenme kriterlerine güvenmeniz önerilir .
  • Hiç kimse sizi mesafe ölçütleri veya aglomeratif yöntemlerle "denemenizi" yasaklayamasa da, mesafeyi ve yöntemi bilinçli olarak seçmek, kör denemeyi seçmek daha iyidir . Mesafe, ilgilendiğiniz farkın özelliklerini yansıtmalıdır ve yöntem - birinin farkında olması gerekir - bir kümenin belirli bir arketipini belirtir (örneğin, bir Ward kümesinin metaforu, şunu söyleyebilirim, tür ; tam bir bağlantıdan sonra küme olur. olduğu çevre [hobi veya plotundan]; bir bağlantı sonra küme olacak spektrumu [zincir]; ağırlık merkezi yöntem sonra küme olacak platformlar yakınlığı [politika]; ortalama bağlantı küme kavramsal en farklılaşmamış ve olur genellikle birleşik sınıf ).
  • Bazı yöntemler için çağrı doğru mesafe önlemleri ve / veya verilerin doğru tip. Örneğin koğuş ve centroid, mantıksal olarak (kare) öklid mesafesini gerektirir - çünkü bu yöntemler, öklid uzayda merkezlerin hesaplanmasında yer alır. Ve geometrik centroidlerin hesaplanması, örneğin ikili verilerle uyuşmaz; Veriler ölçek / sürekli olmalıdır. Maxim: veri / mesafe / yöntem varsayımları ve yazışmalar çok önemli ve çok kolay bir soru değil.
  • Bir mesafe matrisinin önceden hesaplanması ve kümelemenin yapılması için ön işleme (merkezleme, ölçeklendirme ve değişkenlerin / özelliklerin diğer dönüşüm biçimleri gibi) da son derece önemlidir. Sonuçları çarpıcı şekilde etkileyebilir. Önişlemenin size neyin yardımcı olabileceğini ve yorum açısından mantıklı olacağını düşünün. Ayrıca, küme analizi yapmadan önce verilerinizi grafik olarak dikkatlice incelemek için asla utangaç olmayın.
  • Aglomeratif kümelenme yöntemlerinin hepsi aynı derecede felsefi gerekçelerle size hiyerarşik bir sınıflandırma ... olarak verilemez . Örneğin, centroid yöntemi bir anlamda hiyerarşi sağlar, çünkü küme merkezi bir kümenin bir bütün olarak ortaya çıkan ve tanımlayan bir özelliğidir ve birleştirme kümeleri bu özellik tarafından yönlendirilir. Komple bağlantı, diğer taraftan, "reddine" Her iki Alt Kümesi onları birleştirmesi durumunda - arasında uzaklaştırarak sayesinde bireysel ikisinin nesneler. Bu nedenle, tam bağlantı dendrogramı, bir ebeveyn-çocuk taksonomisi değil , yalnızca bir koleksiyon tarihidir .Maxim: genel olarak hiyerarşik aglomeratif küme analizi, sonucu hiyerarşik taksonomi olarak görmek yerine, sonucuna göre bir bölüm oluşturmanızı bekler.
  • Hiyerarşik kümeleme, sonuçta optimal çözüme yaklaşma ümidiyle her adımda ortaya çıkan alternatifler arasında en iyi seçimi yapan tipik açgözlü algoritmadır . Bununla birlikte, yüksek düzeyde bir adımda görünen "en iyi" seçimin , bu adımda teorik olarak mümkün olan en uygun küresel ihtimalden daha zayıf olması muhtemeldir . Adım ne kadar büyük olursa, kural olarak o kadar düşük olur. Genellikle birkaç küme istediğimiz göz önüne alındığında, son adımlar önemlidir; ve az önce de belirtildiği gibi, eğer adımların sayısı yüksekse (örneğin, bininci adım) nispeten zayıf olmaları beklenmektedir. Hiyerarşik kümeleme genellikle sebebi bu değil büyük nesnelerin örneklerinin programı bu kadar büyük bir mesafe matrisi kaldırabileceğinden bile (nesneler binlerce numaralandırma) için önerilir.

XijYij


1 uygulamalar) ve biriktirmemek. Tekrarlamak gerekirse, bu farklılıklar kümeleme sonuçlarını değil, dendrogramın genel şeklini / görünüşünü etkiler. Ancak dendrogramın görünümü, küme sayısıyla ilgili kararınızı etkileyebilir. Ahlaki, programınızdaki bu katsayıların tam olarak ne olduğunu ve bunların nasıl doğru yorumlandığını tam olarak bilmiyorsanız, Ward'ın yönteminde dendrograma güvenmemenizin güvenli olacağıdır.


5
Bunların hepsini hemen hemen ikinci yapabilirim. Eklemek istediğim iki nokta var: A) Yaptığınız şey bir çeşit abartma . Ölçümleri, ağırlıkları ve yöntemleri sistematik bir şekilde değerlendirerek, elde ettiğiniz parametrelerin mevcut verileriniz için oldukça spesifik olma riski vardır ve diğer verilerde veya daha sonra verilerde işe yaramaz olma ihtimali yüksektir. B) dendrogramların benzerliğini bilmek ne işe yarar ki. Daha sonra onlarla ne yapmak istediğinizi düşünün ve ardından sonucu değerlendirmeyi deneyin. Ara sonuçların değerlendirilmesi yanıltıcı olabilir.
Anony-Mousse,

1
Hala konuyla ilgilenen ediyorsanız, size bulabileceği düşünülen DS SE benim son cevap o ikisinin, sınırlı da olsa, bir kapsama alanı sunuyor, özellikle de yararlı frequentist ve Bayes yaklaşımları hiyerarşik topikal modelleri (gömülü sınıf bilgileri ile) ve benzerlik önlemlerinin seçilmesi .
Aleksandr Blekh

@ttnphns, İki hiyerarşik sınıflandırmayı karşılaştırmak için "çarpışma katsayısının" nasıl kullanılacağını daha ayrıntılı olarak açıklayabilir misiniz?
basir
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.