Boyutsal azaltmayı ne zaman kümeleme ile birleştiriyoruz?


16

Belge düzeyinde kümeleme yapmaya çalışıyorum. Doküman terim frekans matrisini oluşturdum ve bu yüksek boyutlu vektörleri k-araçları kullanarak kümelemeye çalışıyorum. Doğrudan kümeleme yerine, U, S, Vt matrislerini elde etmek için LSA'nın (Latent Semantic Analysis) tekil vektör ayrışmasını uygulamak, dağlama grafiğini kullanarak uygun bir eşik seçti ve indirgenmiş matrislere kümeleme uygulandı (özellikle Vt çünkü bana bir kavram-belge bilgisi verir) bana iyi sonuçlar veriyor gibi görünüyor.

Bazı insanlar SVD (tekil vektör ayrışma) söylediğini duymuştum edilir (kosinüs benzerliği ölçüsünü vb kullanarak) kümeleme ve emin ben SVD çıkışındaki k-ortalama geçerli olabilir eğer oldu. Bunun mantıksal olarak doğru olduğunu düşündüm çünkü SVD boyutsallık azaltma tekniğidir, bana bir sürü yeni vektör verir. Öte yandan k-, kümelerin sayısını girdi olarak alır ve bu vektörleri belirtilen sayıda kümeye böler. Bu prosedür kusurlu mu veya iyileştirilebilecek yollar var mı? Herhangi bir öneri?


iyi soru. Şahsen ben bu şeyleri düşünüyorum. ama iyi bir cevabınız yok.
suncoolsu

1
Boyutsal küçültme ve kümelemeyi aynı anda gerçekleştiren yöntemler vardır. Bu yöntemler, kümelerin tanımlanmasını kolaylaştırmak için optimal olarak seçilmiş düşük boyutlu bir gösterim arar. Örneğin, R'deki clustrd paketine ve ilgili referanslara bakın.
Nat

Yanıtlar:


6

Bu hiçbir şekilde tam bir cevap değildir, sormanız gereken soru "boyutsallık azalması yapılırken ne tür mesafelerin korunduğu" sorusudur. K-araçları gibi kümeleme algoritmaları sadece mesafelerde çalıştığından, kullanılacak doğru mesafe ölçüsü (teorik olarak) boyutsallık azalması ile korunan uzaklık ölçüsüdür. Bu şekilde, boyutsallık azaltma adımı, verileri daha düşük boyutlu bir alanda kümelemek için bir hesaplama kısayolu olarak görülebilir. (ayrıca yerel minima, vb önlemek için)

Burada anlamayacağım pek çok incelik var (yerel mesafeler ve küresel mesafeler, göreli mesafelerin çarpıtılması vb.) Ama bence bu şeyler hakkında teorik olarak düşünmek için doğru yön bu.


+1 Bu çok ilginç bir soru. Bu durumda Öklidyen böyle bir metrik olarak düşünülebilir mi? Boyutsallık azaldıkça, noktalar daha düşük bir boyutsal uzaya yansıtılır, ancak bu mesafe kavramının kaybolabileceği anlamına gelebilir. Bunun gibi indirimler kullanırken mesafelerin nasıl korunabileceğini görmek için zorlanıyorum.
Efsane

1
Bence bu cevap temel olarak doğru. Mesafeleri koruyan daha küçük bir alana bir miktar gömme bulmak istiyorsunuz (bir miktar mesafe için). Kontrol etmek için iki iyi algoritma Isomap ve Lokal Doğrusal Gömmedir . Hedefiniz kümeleniyorsa, "mahalle koruması" iyi bir yaklaşım gibi görünüyor.
Stumpy Joe Pete

5

"Boyutsal küçültmeyi kümelemeyle ne zaman birleştiririz?" tam sorudan ziyade. Olası bir neden açıktır: agaist aykırı değerlerin güvenliğini sağlamak istediğimizde. K-algo, başlangıç ​​merkezleri ipucu olmadan, buluttaki en ayrı noktaları ilk merkezler olarak alırsa, ve bunların bunların aykırı olması muhtemeldir. PCA tarafından vaaz vermek, genç bileşenler boyunca uzanan aykırı değerleri, PCA'da tutulan birkaç kıdemli bileşene yansıtarak etkisiz hale getirir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.