(Yinelemeli) katlı çapraz doğrulama sırasında yapılan gibi yeniden örnekleme , birkaç durumu kaldırarak orijinal veri kümesinden farklı "yeni" veri setleri oluşturur.k
Açıklama kolaylığı ve netlik için kümelenmeyi başlatırdım.
Genel olarak, çözümünüzün kararlılığını ölçmek için bu tür yeniden örneklenmiş kümeleri kullanabilirsiniz: hiç değişmiyor mu veya tamamen değişiyor mu?
Hiçbir temel gerçeğiniz olmasa da, elbette aynı yöntemin farklı çalışmalarından (yeniden örnekleme) elde edilen kümelemeyi veya farklı kümeleme algoritmalarının sonuçlarını, örneğin tabloyu kullanarak karşılaştırabilirsiniz:
km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)
# 1 2 3
# 1 96 0 0
# 2 0 0 33
# 3 0 21 0
kümeler nominal olduğundan, sıralamaları keyfi olarak değişebilir. Ancak bu, kümelerin karşılık gelmesi için sırayı değiştirmenize izin verildiği anlamına gelir. Daha sonra diyagonal * öğeler, aynı kümeye atanan vakaları sayar ve diyagonal öğeler, atamaların hangi şekilde değiştiğini gösterir:
table (km1$cluster, km2$cluster)[c (1, 3, 2), ]
# 1 2 3
# 1 96 0 0
# 3 0 21 0
# 2 0 0 33
Kümelenmenin her yöntemde ne kadar kararlı olduğunu belirlemek için yeniden örneklemenin iyi olduğunu söyleyebilirim. Bu olmadan, sonuçları diğer yöntemlerle karşılaştırmak çok mantıklı değildir.
* farklı sayıda küme ortaya çıkarsa kare olmayan matrislerle de çalışır. Daha sonra, elemanlar eski diyagonalin anlamına sahip olacak şekilde hizalanırdım . Ek satırlar / sütunlar daha sonra yeni kümenin hangi kümelerden kendi durumlarını aldığını gösterir.i,i
K-kat çapraz doğrulamayı karıştırmıyorsunuz ve k-kümeleme anlamına geliyor, değil mi?