Saflık nasıl hesaplanır?


16

Küme analizinde saflığı nasıl hesaplarız? Denklem nedir?

Benim için yapacak bir kod aramıyorum.

resim açıklamasını buraya girin

Let küme k olacak ve sınıf j olun.c jωkcj

Saflık pratik doğruluk mu? örnek büyüklüğü üzerinden küme başına gerçek sınıflandırılmış sınıf miktarını toplamak gibi görünüyor.

denklem kaynağı

Soru, çıktı ile girdi arasındaki ilişki nedir?

Gerçekten Pozitif (TP), Gerçekten Negatif (TN), Yanlış Pozitif (FP), Yanlış Negatif (FN) varsa. Oluyor da ?Purity=TPK(TP+TN+FP+FN)


3
Sadece hızlı bir tanımlamaya ihtiyacınız varsa: Kümelenme saflığında en iyi google araması **, buradaki matematiksel bir tanım verir. (** benim için, en azından - bireysel sonuçlarınız farklı olabilir)
Glen_b -Restate Monica

'Saflık' ile ne demek istediğiniz hakkında hiçbir fikrim yok, ama David Colquhoun onun mükemmel ders kitabının 111-114 s. yazarın web sitesinden ücretsiz bir pdf olarak mevcuttur: dcscience.net Sorunuzla ilgisi olmasa bile, harika bir hikaye.
Michael Lew

Sınıflandırma ağaçlarında safsızlığı ölçme fonksiyonlarından bazıları şunlardır: tekrar ikame hatası, gini-indeksi ve entropi. (Sınıflandırma ağaçları belirli bir kümelenme biçimi gerçekleştirir, bu yüzden bunun alakalı olması gerektiğini düşünüyorum.) Umarım bu yardımcı olur!
Angelorf

Yanıtlar:


26

Küme analizi kapsamında Saflık, küme kalitesinin dış değerlendirme kriteridir. Birim aralığında [0.1], doğru bir şekilde sınıflandırılan toplam nesne (veri noktası) sayısının yüzdesidir.

Purity=1Ni=1kmaxj|citj|

burada = nesne (veri noktası sayısı), = küme sayısı, bir küme ve küme için en fazla sayısına sahip sınıflandırmaNkciCtjci

"Doğru" , bu her küme temel gerçeğin belirttiği sınıfla aynı grupla bir grup nesne tanımladığını ima eder. Bu nesnelerin temel doğruluk sınıflandırmasını atama doğruluğu ölçüsü olarak kullanırız, ancak bunun için hangi küme hangi zemin gerçeği sınıflandırmasına . % 100 doğru olsaydı, her tam olarak 1 , ama gerçekte bizim , temel gerçeği onları birkaç başka sınıflandırma olarak sınıflandırmış bazı noktalar içeriyor. Doğal olarak o zaman kullanarak en yüksek kümelenme kalitesi elde edilecektir görebilirsiniz içinciticiticiticiciti olmak üzere en fazla sayıda doğru sınıflandırmaya sahip eşleme . Burada denklemde gelir.citimax

Saflığı hesaplamak için önce karışıklık matrisinizi oluşturun Bu, her küme döngü yaparak ve her bir sınıfı olarak kaç nesnenin sınıflandırıldığını sayarak .citi

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

Daha sonra her küme , satırından maksimum değeri seçin, ve son olarak toplam veri noktası sayısına bölün.ci

Purity = (53 + 60 + 16) / 140 = 0.92142

ayrıca entropiye cevap verebilir misiniz?
MonsterMMORPG


tjmaxj
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.