Dendrogram kümelemesi için kojenetik korelasyon hakkında


10

Bir dendrogram kümelemesi bağlamını düşünün. Bireyler arasındaki mesafeleri orijinal farklılıklar olarak adlandıralım . Dendrogramı oluşturduktan sonra, iki birey arasındaki kojenetik farklılığı , bu bireylerin ait olduğu kümeler arasındaki mesafe olarak tanımlarız .

Bazı insanlar, orijinal farklılıklar ile kojenetik farklılıklar ( kofenetik korelasyon olarak adlandırılır) arasındaki korelasyonun , sınıflandırmanın "uygunluk endeksi" olduğunu düşünmektedir . Bu bana çok şaşırtıcı geliyor. İtirazım Pearson korelasyonunun özel seçimine değil, orijinal farklılıklar ile kojenetik farklılıklar arasındaki herhangi bir bağlantının sınıflandırmanın uygunluğu ile ilgili olabileceği genel fikrine dayanıyor.

Benimle aynı fikirde misiniz, yoksa dendrogram sınıflandırması için uygunluk indeksi olarak kofenetik korelasyonun kullanımını destekleyen bir argüman sunabilir misiniz?


İtirazınızı (oldukça sezgisel) açıklamıyorsunuz general idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification. Sınıflandırma orijinal farklılıkları yansıtmalıdır. Dendrogramik sınıflamanın bunu yapmanın temel özelliği, kojenetik farklılıktır. Bir şey var mı? yanlış?
ttnphns

1
Bu arada, bir kavramı karıştırmak olmamalı hiyerarşik (agglometative) kümeleme ile hiyerarşik (dendrogramic) sınıflandırma . Kümeleme, dendrogramını bir süreç raporu olarak üretir ; hiyerarşik sınıflandırma sonucu olduğunu iddia etmez .
ttnphns

1
Cophenetic korelasyon sadece "dogmatik" sınıflandırmalar için önerilmiştir - bu sınıflamanın ikili farklılıkları yansıtması gerektiğinde , (kofenetik) korelasyonun yararlılık kavramı hemen ardından gelir.
ttnphns

2
Bunu okumak isteyebilirsiniz kağıdı kofenetik korelasyona
ttnphns

3
@ StéphaneLaurent Sorunuza cevap olarak katkıda bulunacak hiçbir şeyim yok ama iletişim kutusunu okuyorum. Söylediğin hiçbir şey bana rahatsız edici gelmedi. Ayrıca sınıflandırma ve kümeleme arasındaki farkı bilmediğinizi söylediniz ve bu basit sorunun cevaplandığını görmedim. İnsanların makine öğrenimi tarafından denetimli ve denetimsiz öğrenme olarak adlandırdığı şey arasındaki farktır. Sınıflandırmada verileriniz için tüm sınıf etiketlerini bilir ve bu bilgileri, etiketi olmayan gelecekteki durumlar için bir sınıflandırma kuralı oluşturmak için kullanırsınız. Kümede etiketleme yok.
Michael R. Chernick

Yanıtlar:


2

... sınıflandırmanın "uygunluk endeksidir"

Benim için bunun ne anlama geldiğini açık değil. Anladığım gibi,

orijinal farklılıklar ile kojenetik farklılıklar arasındaki ilişki (kofenetik korelasyon olarak adlandırılır)

gözlemler arasındaki hiyerarşik yapının bir ölçüsüdür , yani mesafelerinin . Başka bir deyişle, farklı bir kümedeki gözlemlere olan benzerlikler tercihen benzerdir. Öklid mesafesi ve tam bağlantı kullanılarak kümelenmiş A ve B veri kümeleri göz önüne alındığında ... resim açıklamasını buraya girin ... kofenetik mesafe haritasına bakmadan veya kofenetik korelasyonu hesaplamadan bile, A'nın kofenetik korelasyonunun B'den daha yüksek olduğunu görebilirsiniz. Bir hiyerarşide seviyeler vardır. Dolayısıyla BİDB, aynı düzeydeki (küme) gözlemlere olan mesafelerin benzer olup olmadığını anlatır.

Bütünlük uğruna: Kofenetik korelasyonlar CC (A) = 0.936 ve CC (B) = 0.691'dir.


2
Keşke bu konuda daha uzman olsaydım. Isı haritalarıyla örneğinizi tam olarak takip etmiyorum. Gördüğünüz şey CC (A)> CC (B) 'yi açıkça ortaya koyuyor? Örneğin, üst üçgenler kofenetik mesafelerdi ve alt üçgenler orijinal mesafeler olsaydı ve her ikisi de benzer desenler gösterdiyse, CC'nin yüksek olacağını, vb. . Sadece A doğal olarak daha iyi kümelenmeye yol açacak mı ve sonuçta ortaya çıkan CC'nin sadece iyi eşleşmesi gerekecek mi?
gung - Monica'yı eski
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.