Değişkenleri düşürmeyin, ancak PCA kullanmayı düşünün. İşte nedeni.
İlk olarak, Anony-mousse tarafından işaret edildiği gibi, k-ortalamaları, eş-doğrusallık / korelasyonlardan kötü bir şekilde etkilenmez. Bu yüzden bilgi atmanıza gerek yok.
İkincisi, değişkenlerinizi yanlış bir şekilde bırakırsanız, bazı örnekleri yapay olarak birbirine yaklaştırırsınız. Bir örnek:
Customer CatA CatB CatC
1 1 0 0
2 0 1 0
3 0 0 1
(% Gösterimini kaldırdım ve sadece 0 ile 1 arasında değerler koydum, böylece hepsi 1'e sınırlandı.)
Bu müşterilerinin her birinin doğal 3 boyutlu alanlarındaki öklid mesafesi(1−0)2+(0−1)2+(0−0)2−−−−−−−−−−−−−−−−−−−−−−−√=2–√
Şimdi CatC'yi düşürdüğünüzü varsayalım.
Customer CatA CatB
1 1 0
2 0 1
3 0 0
Şimdi 1 ve 2 müşterileri arasındaki mesafe hala , ancak 1 ve 3 müşterileri ile 2 ve 3 müşterileri arasında sadece . Ham verileri desteklemeyecek şekilde müşteri 3'ü 1 ve 2'ye daha benzer şekilde yapay hale getirdiniz.2–√(1−0)2+(0−0)2−−−−−−−−−−−−−−−√=1
Üçüncüsü, kolinerarlık / korelasyonlar sorun değildir. Boyutsallığınız. 100 değişken, 10 milyon veri noktasıyla bile, k-araçlarının verilerde sahte desenler bulabileceğinden ve buna uygun olabileceğinden endişeleniyorum. Bunun yerine, PCA'yı daha yönetilebilir bir boyuta sıkıştırmak için kullanmayı düşünün - başlangıç olarak 10 veya 12 deyin (belki çok daha yüksek, belki çok daha düşük - her bileşen boyunca varyansa bakmanız ve oyun oynamanız gerekir. doğru sayıyı bulmak için). Bunu yaparken yapay olarak bazı örnekleri birbirine yakınlaştıracaksınız, evet, ancak bunu verilerdeki varyansın çoğunu koruyacak ve tercihen korelasyonları kaldıracak şekilde yapacaksınız.
~~~~~
DÜZENLE:
Re, aşağıda PCA hakkında yorumlar. Evet, kesinlikle patolojileri var. Ancak denemesi oldukça hızlı ve kolaydır, bu yüzden sorunun boyutsallığını azaltmak istiyorsanız yine de bana kötü bir bahis gibi görünmüyor.
Bu notta, birkaç adet 100 boyutlu sentetik veri setini, k-araç algoritmasına hızlı bir şekilde atmaya çalıştıklarını gördüm. Küme merkezi konum tahminleri bu kadar doğru olmasa da, küme üyeliği (yani, aynı kümeye iki örnek atanmış olsun ya da olmasın, OP'nin ilgilendiği gibi görünüyor), düşündüğümden çok daha iyiydi. Bağırsak duygularım daha önce muhtemelen yanlıştı - k-ham veri üzerinde sadece iyi çalışma anlamına geliyor.