Küme analizi kapsamında Saflık, küme kalitesinin dış değerlendirme kriteridir. Birim aralığında [0.1], doğru bir şekilde sınıflandırılan toplam nesne (veri noktası) sayısının yüzdesidir.
Pu r ı t y= 1N-Σi = 1km bir xj| cben∩ tj|
burada = nesne (veri noktası sayısı), = küme sayısı, bir küme ve küme için en fazla sayısına sahip sınıflandırmaN-kcbenCtjcben
"Doğru" , bu her küme temel gerçeğin belirttiği sınıfla aynı grupla bir grup nesne tanımladığını ima eder. Bu nesnelerin temel doğruluk sınıflandırmasını atama doğruluğu ölçüsü olarak kullanırız, ancak bunun için hangi küme hangi zemin gerçeği sınıflandırmasına . % 100 doğru olsaydı, her tam olarak 1 , ama gerçekte bizim , temel gerçeği onları birkaç başka sınıflandırma olarak sınıflandırmış bazı noktalar içeriyor. Doğal olarak o zaman kullanarak en yüksek kümelenme kalitesi elde edilecektir görebilirsiniz içincbentbencbentbenciticiciti olmak üzere en fazla sayıda doğru sınıflandırmaya sahip eşleme . Burada denklemde gelir.ci∩timax
Saflığı hesaplamak için önce karışıklık matrisinizi oluşturun Bu, her küme döngü yaparak ve her bir sınıfı olarak kaç nesnenin sınıflandırıldığını sayarak .citi
| T1 | T2 | T3
---------------------
C1 | 0 | 53 | 10
C2 | 0 | 1 | 60
C3 | 0 | 16 | 0
Daha sonra her küme , satırından maksimum değeri seçin, ve son olarak toplam veri noktası sayısına bölün.ci
Purity = (53 + 60 + 16) / 140 = 0.92142