Verilerimde kümelerin varlığını tanımak / değerlendirmek için düzenli olarak -SNE ( kümeleme tekniklerinin yanı sıra - sonunda daha fazla ) kullanıyorum. Maalesef, üretilen azaltılmış boyut veri kümesine bakıp sonra anlamlı olup olmadığını değerlendirmenin yanı sıra doğru şaşkınlığı seçmenin standart bir yolu yoktur. Bazı genel gerçekler vardır, örn. Kümeler arasındaki mesafeler çoğunlukla anlamsızdır, küçük şaşkınlık değerleri küçük pıhtı benzeri yapıları teşvik eder, ama hepsi bu.t
Bir çok pürüzlü üstünlüğü başparmak her rekonstrüksiyon ile ilişkili hata değerinin ne kontrol etmektir. θ θt-SNE, orijinal alandaki veriler arasındaki mesafelerin dağılımı ile azaltılmış boyut alanındaki veriler arasındaki mesafelerin dağılımı arasındaki Kullback-Leibler sapmalarının toplamını en aza indirmeye çalışmaktadır (aslında hedef dağılımlar, bir noktanın komşusu olarak başka bir nokta seçmesi ihtimali, ancak bunlar iki nokta arasındaki mesafeyle doğru orantılıdır). KL-diverjansının daha küçük değerlerinin daha iyi sonuçlar verdiği söylenebilir. Bu fikir pratikte çok işe yaramaz, ancak teorik olarak şaşırtıcı derecede değerlerin bazı aralıklarının yanı sıra açıkça yetersiz olan algoritmanın bazı çalışmalarını dışlamaya yardımcı olur. Bu sezginin neden her derde deva olmaktan uzak olduğunu ve bunun nasıl faydalı olabileceğini açıklıyorum: Şaşkınlık parametresi, mesafeleri / olasılıkları hesaplamak için kullanılan Gaussian varyansı ile monoton olarak artar. Bu nedenle, bir bütün olarak şaşkınlık parametresini artırdıkça, mutlak terimler ve müteakip KL-diverjans değerleri ile daha küçük mesafeler elde edersiniz. Bununla birlikte, aynı şaşkınlıkla 20 çalışmanız varsa ve onlara bakmak istemiyorsanız (istemiyorsanız), orijinal mesafeleri daha doğru bir şekilde koruduğunu umarak her zaman en küçük değişkene sahip olanı seçebilirsiniz. Aynı şey Bununla birlikte, aynı şaşkınlıkla 20 çalışmanız varsa ve onlara bakmak istemiyorsanız (istemiyorsanız), orijinal mesafeleri daha doğru bir şekilde koruduğunu umarak her zaman en küçük değişkene sahip olanı seçebilirsiniz. Aynı şey Bununla birlikte, aynı şaşkınlıkla 20 çalışmanız varsa ve onlara bakmak istemiyorsanız (istemiyorsanız), orijinal mesafeleri daha doğru bir şekilde koruduğunu umarak her zaman en küçük değişkene sahip olanı seçebilirsiniz. Aynı şeyθ , Barnes-Hut yakınlaştırılması için yaklaşım parametresi varsayarak karışıklık değişen sabit bir ve daha sonra biraz bilgilendirici olmalıdır oluşan masrafları kontrol. Günün sonunda, daha düşük maliyetler daha sadık rekonstrüksiyonlar ile ilişkilidir. Yine de her şey kaybolmaz ...θ
Özel kullanım durumunuz için, iyi bir şaşkınlık değeri seçme prosedürünü hafifçe otomatikleştirmek için bir püf noktası şudur: İndirgenmiş boyutluluk veri kümesinde küçük bir kümeleme prosedürü çalıştırın (bir veya DBSCAN) ve bu kümelenmenin kalitesini değerlendirin tahmin etmeye çalıştığınız şeye karşı bir tür endeks ( Cohen'in , Rand endeksi , Fowlkes-Mallows , vb.) kullanarak Buradaki fikir, eldeki göreviniz için verilerin doğru temsilinin (şaşkınlığa bağlı -SNE sonuçları), mülk ile hizalamaları açısından en bilgilendirici temsili (belirtilen metriklerden biri şeklinde) vermesi gerektiğidir. tahmin etmeye çalışırsınız. Bu yüzdenk t tkktt-SNE her şeyden önce kullanıldı, eğer ortaya çıkan temsil araştırdığımız özellikler için bilgilendirici değilse, düşük rekonstrüksiyon hatasına, görsel çekiciliğe vs. rağmen iyi değil.
Açıklayayım ki anlattığım şey sezgisel yöntemler . Mesajımın başında belirtildiği gibi, sonuçları manuel olarak incelemek, ortaya çıkan boyutsal küçültme / kümelemenin kalitesini değerlendirmenin vazgeçilmez bir yoludur.