Kümeleme için


14

Herkes kullanımı mu veya yerine kümeleme ilişkin metrikleri ? Aggarwal ve ark., Yüksek boyutlu uzayda mesafe ölçütlerinin şaşırtıcı davranışı üzerine (2001 yılında)L .5 L 2L1L.5L2

L 2L1 , yüksek boyutlu veri madenciliği uygulamaları için Öklid uzaklık metriği sürekli olarak daha fazla tercih edilir L2

ve veya daha iyi olabileceğini iddia etti .L .1L.5L.1

veya kullanmanın nedenleri teorik veya deneysel olabilir, örn. Aykırı değerlere / Kaban'ın belgelerine duyarlılık veya gerçek veya sentetik veriler üzerinde çalışan programlar (lütfen tekrarlanabilir). Bir örnek ya da resim mesleğimin sezgisine yardımcı olur.L .5L1L.5

Bu soru Bob Durrant'ın bugün en yakın-komşusu-anlamlı-bugünkü cevabının bir devamıdır . Dediği gibi, seçimi hem veriye hem de uygulamaya bağlı olacaktır; yine de, gerçek deneyim raporları yararlı olacaktır.p


7 Haziran Salı günü eklenen notlar:

"L1 normuna ve ilgili yöntemlere dayanan istatistiksel veri analizi" ile karşılaştım, Dodge ed., 2002, 454p, isbn 3764369205 - düzinelerce konferans makalesi.

Herkes iid üstel özellikler için mesafe konsantrasyonunu analiz edebilir mi? Üstel olmanın bir nedeni ; bir diğeri (uzman olmayan) maksimum entropi dağılımı 0 olmasıdır; üçüncüsü, bazı gerçek veri kümelerinin, özellikle SIFT'lerin kabaca üstel göründüğüdür.|expexp|exp


Aggarwal ve ark. bu özel makalesinde davranışları arayan nerede kümeleme, en yakın komşusu ve indeksleme gibi sorunlar normlarına. Lp
deps_stats

muhtemelen anlamına geliyordu ziyade diziler için ölçümleri L p fonksiyonları için? Benim düşünceme göre, herhangi bir optimizasyon kriteri varsa, problem onu ​​optimize ederek çözülebilir. Genel kural genellikle bunun kesin çözümü ile ilgili olacaktır. Her neyse, knn çözeltisinin özelliklerini düşünmeye çalışın tercih edilir. Makaleleri okuduktan sonra muhtemelen konuyla ilgili biraz daha söyleyebilirim. lpLp
Dmitrij Celov

@deps_stats, evet, teşekkürler; başlığı ve ilk satırı değiştirdi. @Dmitrij, 1) evet little-l kesinlikle doğru konuşuyor, ancak big-L yaygın ve anlaşılabilir. 2) evet, belirli bir sorun için en uygun p'yi bulabilir, ancak ilk tercihiniz nedir ve neden?
denis

Yanıtlar:


6

Buradaki anahtar, makalede atıfta bulunulan "boyutsallığın laneti" ni anlamaktır. Vikipedi'den: boyut sayısı çok fazla olduğunda,

yüksek boyutlu uzayın neredeyse tamamı merkezden "uzakta" veya başka bir deyişle, yüksek boyutlu birim alanının neredeyse tamamen hiper küpün "köşelerinden" oluştuğu söylenebilir. "orta"

Sonuç olarak, hangi noktaların diğer noktalara yakın olduğunu düşünmek zorlaşır, çünkü hepsi aşağı yukarı eşit olarak birbirlerinden ayrılır. İlk bağlandığınız makaledeki sorun budur.

Yüksek p ile ilgili sorun, daha büyük değerleri vurgulamasıdır - beş kare ve dört kare dokuz birim aralıklıdır, ancak bir kare ve iki kare yalnızca üç birimdir. Böylece daha büyük boyutlar (köşelerdeki şeyler) her şeye hakim olur ve kontrastı kaybedersiniz. Yani bu büyük mesafelerin enflasyonu kaçınmak istediğiniz şeydir. Kesirli bir p ile vurgu, daha fazla kontrast sağlayan daha küçük boyutlardaki (aslında ara değerlere sahip boyutlar) farklılıklar üzerinedir.


(+1) Peki @David, genel olarak kontrastın kalitesini tanımlayan bir kriter var mı?
Dmitrij Celov

Bağladığınız ilk kağıt, maksimum mesafe eksi minimum mesafe önermektedir. Yine de daha iyi yollar olabilir.
David J. Harris

L1L.5

1
@Denis Teşekkürler! Bence veriler en küçük veya tüm boyutlarda sınırlanmışsa köşeler biti en mantıklı. Her neyse, korkarım sizin için farklı metrikler hakkında iyi sezgilere sahip olmak için kümeleme konusunda yeterli deneyime sahip değilim. Olduğu gibi can sıkıcı, en iyi yaklaşım birkaçını denemek ve ne olduğunu görmek olabilir
David J. Harris

1

1 ile 5 arasında Lp metriğini kullanan ve bir göz atmak isteyebileceğiniz bir kağıt vardır:

Amorim, RC ve Mirkin, B., Minkowski Metrik, K-Ortalama Kümelemede Özellik Ağırlıklandırma ve Anormal Küme Başlatma, Örüntü Tanıma, cilt. 45 (3), s. 1061-1075, 2012

İndir, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a040b45.pdf


0

Rnu2uu2


L2L1L.5
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.