İki hiyerarşik (ağaç benzeri) yapının benzerliğini karşılaştırmak için kofenetik korelasyon fikrine dayanan önlemler kullanılır. Peki hiyerarşik kümelemede "doğru" yöntemi veya mesafe ölçüsünü seçmek için dendrogramların karşılaştırmasını yapmak doğru mudur?
Oldukça önemli tutacağım hiyerarşik küme analiziyle ilgili bazı noktalar - gizli engeller var :
- Asla karşılaştırmayın ( daha güçlü bölme veren yöntemi seçmek için ) görsel olarak farklı topaklaştırma yöntemleriyle elde edilen dendrogramları. Bu konuda hangi yöntemin "daha iyi" olduğunu söylemez. Her yöntem vardır verilerin hiçbir küme yapısına sahip veya rastgele küme yapısına sahip olduğunda ağaçlar dahi sürekli farklılık gösterir: kendi "prototipi" ağaç görünüm. (Ve bu içsel farklılıkları ortadan kaldıracak bir standardizasyon veya önlem olduğunu sanmıyorum.). Bununla birlikte, aynı yöntemle fakat farklı verilerle elde edilen sonuçların dendrogram görünüşlerini karşılaştırabilirsiniz. Maxim: Direkt, farklı yöntemlerden sonra dendrogramların görünüş karşılaştırması kabul edilemez .
- 1 Maxim: Bir dendrogram görünümünü düşünerek bir kesim seviyesi seçmek, mümkün olsa da, bölümü seçmek için en iyi yöntem değildir ve bazı yöntemler için yanıltıcı olabilir . Bunun yerine bazı resmi iç kümelenme kriterlerine güvenmeniz önerilir .
- Hiç kimse sizi mesafe ölçütleri veya aglomeratif yöntemlerle "denemenizi" yasaklayamasa da, mesafeyi ve yöntemi bilinçli olarak seçmek, kör denemeyi seçmek daha iyidir . Mesafe, ilgilendiğiniz farkın özelliklerini yansıtmalıdır ve yöntem - birinin farkında olması gerekir - bir kümenin belirli bir arketipini belirtir (örneğin, bir Ward kümesinin metaforu, şunu söyleyebilirim, tür ; tam bir bağlantıdan sonra küme olur. olduğu çevre [hobi veya plotundan]; bir bağlantı sonra küme olacak spektrumu [zincir]; ağırlık merkezi yöntem sonra küme olacak platformlar yakınlığı [politika]; ortalama bağlantı küme kavramsal en farklılaşmamış ve olur genellikle birleşik sınıf ).
- Bazı yöntemler için çağrı doğru mesafe önlemleri ve / veya verilerin doğru tip. Örneğin koğuş ve centroid, mantıksal olarak (kare) öklid mesafesini gerektirir - çünkü bu yöntemler, öklid uzayda merkezlerin hesaplanmasında yer alır. Ve geometrik centroidlerin hesaplanması, örneğin ikili verilerle uyuşmaz; Veriler ölçek / sürekli olmalıdır. Maxim: veri / mesafe / yöntem varsayımları ve yazışmalar çok önemli ve çok kolay bir soru değil.
- Bir mesafe matrisinin önceden hesaplanması ve kümelemenin yapılması için ön işleme (merkezleme, ölçeklendirme ve değişkenlerin / özelliklerin diğer dönüşüm biçimleri gibi) da son derece önemlidir. Sonuçları çarpıcı şekilde etkileyebilir. Önişlemenin size neyin yardımcı olabileceğini ve yorum açısından mantıklı olacağını düşünün. Ayrıca, küme analizi yapmadan önce verilerinizi grafik olarak dikkatlice incelemek için asla utangaç olmayın.
- Aglomeratif kümelenme yöntemlerinin hepsi aynı derecede felsefi gerekçelerle size hiyerarşik bir sınıflandırma ... olarak verilemez . Örneğin, centroid yöntemi bir anlamda hiyerarşi sağlar, çünkü küme merkezi bir kümenin bir bütün olarak ortaya çıkan ve tanımlayan bir özelliğidir ve birleştirme kümeleri bu özellik tarafından yönlendirilir. Komple bağlantı, diğer taraftan, "reddine" Her iki Alt Kümesi onları birleştirmesi durumunda - arasında uzaklaştırarak sayesinde bireysel ikisinin nesneler. Bu nedenle, tam bağlantı dendrogramı, bir ebeveyn-çocuk taksonomisi değil , yalnızca bir koleksiyon tarihidir .Maxim: genel olarak hiyerarşik aglomeratif küme analizi, sonucu hiyerarşik taksonomi olarak görmek yerine, sonucuna göre bir bölüm oluşturmanızı bekler.
- Hiyerarşik kümeleme, sonuçta optimal çözüme yaklaşma ümidiyle her adımda ortaya çıkan alternatifler arasında en iyi seçimi yapan tipik açgözlü algoritmadır . Bununla birlikte, yüksek düzeyde bir adımda görünen "en iyi" seçimin , bu adımda teorik olarak mümkün olan en uygun küresel ihtimalden daha zayıf olması muhtemeldir . Adım ne kadar büyük olursa, kural olarak o kadar düşük olur. Genellikle birkaç küme istediğimiz göz önüne alındığında, son adımlar önemlidir; ve az önce de belirtildiği gibi, eğer adımların sayısı yüksekse (örneğin, bininci adım) nispeten zayıf olmaları beklenmektedir. Hiyerarşik kümeleme genellikle sebebi bu değil büyük nesnelerin örneklerinin programı bu kadar büyük bir mesafe matrisi kaldırabileceğinden bile (nesneler binlerce numaralandırma) için önerilir.
XijYij
1 uygulamalar) ve biriktirmemek. Tekrarlamak gerekirse, bu farklılıklar kümeleme sonuçlarını değil, dendrogramın genel şeklini / görünüşünü etkiler. Ancak dendrogramın görünümü, küme sayısıyla ilgili kararınızı etkileyebilir. Ahlaki, programınızdaki bu katsayıların tam olarak ne olduğunu ve bunların nasıl doğru yorumlandığını tam olarak bilmiyorsanız, Ward'ın yönteminde dendrograma güvenmemenizin güvenli olacağıdır.