Düzeltilmiş Rand Endeksi ve Düzeltilmiş Karşılıklı Bilgiler


10

Kümeleme performansını değerlendirmeye çalışıyorum. Metriklerle ilgili skiscit-learn belgelerini okuyordum . ARI ve AMI arasındaki farkı anlamıyorum. Bana öyle geliyor ki aynı şeyi iki farklı şekilde yapıyorlar.

Belgelerden alıntı:

Ground_tre sınıfı atamaları label_true ve aynı sample_pred örneklerinin kümeleme algoritması atamaları hakkında bilgi verildiğinde, düzeltilmiş Rand endeksi , iki atamanın benzerliğini ölçen, permütasyonları göz ardı eden ve şans normalleştiren bir işlevdir .

vs

Zemin gerçeği sınıfı atamaları label_true ve aynı sample_pred örneklerinin kümeleme algoritması atamaları hakkında bilgi verildiğinde Karşılıklı Bilgi , iki atamanın anlaşmasını ölçen, permütasyonları göz ardı eden bir işlevdir ... AMI daha yakın zamanda önerildi ve şans.

Her ikisini de kümeleme değerlendirmemde kullanmalı mıyım yoksa bu gereksiz mi?


Bay Rand rastgele değil.
ÇIKIŞ - Anony-Mousse

Yanıtlar:


2

Kümeleri karşılaştırmaya çalışan bir düzineden ikisi.

Ama eşdeğer değiller. Farklı teori kullanırlar.

Bazen ARI bir sonucu diğerini AMI tercih edebilir. Ancak çoğu zaman tercih ederler (sayılarda değil).


Ne demek istersiniz: "tercihte hemfikirdirler (sayılarda değil)?"
al27091

Birden çok sonucu karşılaştırdığınızda.
QUIT - Anony-Mousse

10

Temel kural:

  • Temel hakikat kümelenmesinin eşit büyüklükte kümeleri olduğunda ARI kullanın
  • Temel AMI kümelenmesi dengesiz olduğunda ve küçük kümeler olduğunda ABD AMI

Bu konuda çalıştım. Referans: Şans Kümeleme Karşılaştırma Önlemleri için Ayarlama


Bazı veri kümelerime KMeans için doğru sayıda küme ve HDBSCAN için doğru min küme boyutu ile HDBSCAN ve KMeans uyguladım. Benim sorunum, AMI'deki ilerlemenin ARI'deki ilerlemeyle ilişkili olmadığıdır. Düşük AMI'de ortalama 0.3 ve 0.35 alıyorum. ARI sonuçlarını sırasıyla 0: 0.07 ve 0.01 ortalamasına yakın alıyorum. HDBSCAN ile daha iyi AMI elde ettiğim durumlarda bile, ARI puanlarım 0'a çok yakındı, yani HDBSCAN, AMI'nin daha yüksek olduğu durumlarda bile KMeanlardan daha düşük ARI üretir.
ryuzakinho

AMI için ortalama 0.3 ve 0.35 ne tür kümeleme sonuçları karşılık gelir?
Simone

1
pastebin.com/raw/WHvTxbLm Anlamadığım durumlardan biri: Daha iyi AMI, daha iyi ARI ve tersi anlamına gelmez. Birinin ya da diğerinin göreli gelişimine güvenmem için herhangi bir neden var mı? Sonuçlarımı geliştirmek için hangi metriğe bakacağımdan emin değilim (bağladığınız makaleden, sınıf dağılımım göz önüne alındığında AMI olması gerektiğini düşünüyorum ama hala kafam karıştı).
ryuzakinho

1
Sizin durumunuzda, HDBSCAN sonucu çok büyük bir küme ve tanım olarak dengesiz bir çözüm olan birçok küçük küme gösterir. Bu nedenle AMI, DBSCAN ile daha büyüktür. Temel gerçeğiniz bu çözümden daha dengelidir. Bu nedenle, buradaki çözümü seçmek için ARI'yi kullanırdım. Bu, elde ettiğiniz kümeleme çözümlerinin o kadar iyi olmadığını söyledi. Belki de birçok kümeniz var. İstediğiniz küme sayısını azaltabilir misiniz? Yoksa yalnızca mesafeye dayalı bir kümeleme kullanmak yerine dikkate almanız gereken özellikleriniz mi var?
Simone

1
Daha kalitatif testlerden sonra, AMI'nin kullanım durumum için daha güvenilir olduğu ortaya çıktı. Gerçekten AMI, HDBSCAN'ın daha iyi olduğunu söyledi ve gerçekten daha iyi buldum. Büyük bir gürültü kümem olmasına rağmen, diğer kümeler KMEANS kümelerinden daha saftı.
ryuzakinho
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.