Çapraz doğrulama ile temel gerçeği olmayan bir veri kümesinde farklı kümeleme yöntemlerini karşılaştırabilir misiniz?


12

Şu anda, temel gerçeği olmayan bir metin belgesi veri kümesini analiz etmeye çalışıyorum. Farklı kümeleme yöntemlerini karşılaştırmak için k-kat çapraz doğrulamayı kullanabileceğiniz söylendi. Ancak, geçmişte gördüğüm örnekler temel bir hakikat kullanır. Sonuçlarımı doğrulamak için bu veri kümesinde k-katlama araçlarını kullanmanın bir yolu var mı?

Yanıtlar:


12

Bildiğim kümelenmeye çapraz doğrulamanın tek uygulaması budur:

  1. Örneği 4 parça eğitim setine ve 1 parça test setine bölün.

  2. Kümeleme yönteminizi eğitim setine uygulayın.

  3. Test setine de uygulayın.

  4. Test setindeki her bir gözlemi bir eğitim seti kümesine (örn. K-ortalamaları için en yakın centroid) atamak için Adım 2'deki sonuçları kullanın.

  5. Test kümesinde, Adım 3'teki her küme için, her bir çiftin Adım 4'e göre aynı kümede olduğu gözlem grubundaki gözlem çiftlerinin sayısını sayın (böylece @cbeleites'in işaret ettiği küme tanımlama probleminden kaçınılmalıdır). Bir orantı vermek için her kümedeki çift sayısına bölün. Tüm kümeler arasındaki en düşük oran, yöntemin yeni örnekler için küme üyeliğini tahmin etmede ne kadar iyi olduğunun ölçüsüdür.

  6. 5 kat yapmak için eğitim ve test setlerinde farklı parçalarla 1. Adımdan itibaren tekrarlayın.

Tibshirani ve Walther (2005), "Tahmin Gücü ile Küme Doğrulama", Hesaplamalı ve Grafik İstatistik Dergisi , 14 , 3.


ayrıca bir çift gözlemin ne olduğunu açıklayabilir misiniz (ve ilk etapta neden çift gözlem kullanıyoruz)? Ayrıca, eğitim setinde test setine kıyasla "aynı küme" nin ne olduğunu nasıl tanımlayabiliriz? Makaleye bir göz attım, ama fikri alamadım.
Tanguy

1
@Tanguy: Tüm çiftleri göz önünde bulundurursunuz - gözlemler A, B ve C ise çiftler {A, B}, {A, C}, & {B, C} - ve " aynı kümeyi "farklı gözlemler içeren tren ve test setlerinde. Bunun yerine, her bir çiftin üyelerini birleştirmeye veya ayırmaya ne sıklıkta katıldıklarına bakarak test setine uygulanan iki küme çözümünü (biri eğitim setinden ve diğeri test setinden) karşılaştırırsınız.
Scortchi - Eski durumuna getirin Monica

tamam, daha sonra biri tren setinde, diğeri test setinde olmak üzere iki gözlem çifti matrisi benzerlik ölçüsü ile karşılaştırıldı mı?
Tanguy

@Tanguy: Hayır, sadece test setindeki gözlem çiftlerini dikkate alıyorsunuz.
Scortchi - Monica'yı eski durumuna getirin

üzgünüm yeterince açık değildim. Test setinin 0 ve 1 ile doldurulmuş bir matrisin oluşturulabileceği tüm gözlem çiftlerini alması gerekir (gözlem çifti aynı kümede yer almıyorsa 0, eğer varsa 1). Eğitim setinden ve test setinden elde edilen kümeler için gözlem çiftine baktığımız için iki matris hesaplanmıştır. Bu iki matrisin benzerliği daha sonra bir miktar metrik ile ölçülür. Doğrumuyum?
Tanguy

7

Yeni gelen verilerin sentroidi ve hatta mevcut kümenizdeki kümeleme dağılımlarını değiştireceği için k-ortalamaları gibi kümeleme yöntemine çapraz doğrulamayı nasıl uygulayacağınızı anlamaya çalışıyorum.

Kümeleme üzerindeki denetimsiz doğrulama ile ilgili olarak, yeniden örneklenen verilerde farklı küme numaralarına sahip algoritmalarınızın kararlılığını ölçmeniz gerekebilir.

Kümelenme kararlılığının temel fikri aşağıdaki şekilde gösterilebilir:

resim açıklamasını buraya girin

2 veya 5 kümeleme sayısıyla, en az iki farklı kümeleme sonucu olduğunu (şekillerde bölünen tire çizgilerine bakın), ancak 4 kümeleme sayısı ile sonucun nispeten kararlı olduğunu gözlemleyebilirsiniz.

Kümelenme kararlılığı: Ulrike von Luxburg'a genel bakış yardımcı olabilir.


7

(Yinelemeli) katlı çapraz doğrulama sırasında yapılan gibi yeniden örnekleme , birkaç durumu kaldırarak orijinal veri kümesinden farklı "yeni" veri setleri oluşturur.k

Açıklama kolaylığı ve netlik için kümelenmeyi başlatırdım.

Genel olarak, çözümünüzün kararlılığını ölçmek için bu tür yeniden örneklenmiş kümeleri kullanabilirsiniz: hiç değişmiyor mu veya tamamen değişiyor mu?

Hiçbir temel gerçeğiniz olmasa da, elbette aynı yöntemin farklı çalışmalarından (yeniden örnekleme) elde edilen kümelemeyi veya farklı kümeleme algoritmalarının sonuçlarını, örneğin tabloyu kullanarak karşılaştırabilirsiniz:

km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)

#      1  2  3
#   1 96  0  0
#   2  0  0 33
#   3  0 21  0

kümeler nominal olduğundan, sıralamaları keyfi olarak değişebilir. Ancak bu, kümelerin karşılık gelmesi için sırayı değiştirmenize izin verildiği anlamına gelir. Daha sonra diyagonal * öğeler, aynı kümeye atanan vakaları sayar ve diyagonal öğeler, atamaların hangi şekilde değiştiğini gösterir:

table (km1$cluster, km2$cluster)[c (1, 3, 2), ]

#      1  2  3
#   1 96  0  0
#   3  0 21  0
#   2  0  0 33

Kümelenmenin her yöntemde ne kadar kararlı olduğunu belirlemek için yeniden örneklemenin iyi olduğunu söyleyebilirim. Bu olmadan, sonuçları diğer yöntemlerle karşılaştırmak çok mantıklı değildir.

* farklı sayıda küme ortaya çıkarsa kare olmayan matrislerle de çalışır. Daha sonra, elemanlar eski diyagonalin anlamına sahip olacak şekilde hizalanırdım . Ek satırlar / sütunlar daha sonra yeni kümenin hangi kümelerden kendi durumlarını aldığını gösterir.i,i


K-kat çapraz doğrulamayı karıştırmıyorsunuz ve k-kümeleme anlamına geliyor, değil mi?


0

Buradaki küme sayısını belirlemek için iki çapraz doğrulama yöntemiyle ilgili yeni bir yayın var .

ve birisi burada sci-kit öğrenmek ile uygulamaya çalışıyor .

Başarıları biraz sınırlı olmasına rağmen. Yayınların belirttiği gibi, küme merkezleri yüksek derecede korelasyonlu olduğunda bu yöntem iyi çalışmaz, bu da düşük boyutlu sistemlerde büyük küme boyutları için olabilir. (örneğin , küme iyi çalışmıyor.)72D

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.