Sınıflandırma için T-SNE kullanarak hiperparametrelerin seçimi


13

Çalıştığım belirli bir problemde (bir yarışma) follwoing ayarına sahibim: 21 özellik ([0,1] üzerinde sayısal) ve bir ikili çıktı. Yaklaşık 100 K satırım var. Ayar çok gürültülü görünüyor.

Ben ve diğer katılımcılar bir süreliğine özellik üretmeyi uyguluyoruz ve t-dağılmış stokastik komşu yerleştirme bu ortamda oldukça güçlü çıktı.

"T-SNE Etkili Nasıl Kullanılır" başlıklı yazıyı tökezledim ama yine de sınıflandırma ayarımda hiperparametreleri en iyi şekilde nasıl seçeceğime karar veremiyorum.

Temel kurallar var mı (özellik sayısı, yerleştirme boyutu -> şaşkınlık seçimi)?

Çeşitli ayarları yinelemek çok uzun sürdüğü için şu anda geçici ayarları uyguluyorum. Yorumlarınız için teşekkürler.


Bu harika bir soru! Umarım birisi cevabımı yeterince yetersiz bulur, böylece başka bir cevap alırsınız (ve ben de yeni bir şey öğrenirim).
usεr11852

Yanıtlar:


17

Verilerimde kümelerin varlığını tanımak / değerlendirmek için düzenli olarak -SNE ( kümeleme tekniklerinin yanı sıra - sonunda daha fazla ) kullanıyorum. Maalesef, üretilen azaltılmış boyut veri kümesine bakıp sonra anlamlı olup olmadığını değerlendirmenin yanı sıra doğru şaşkınlığı seçmenin standart bir yolu yoktur. Bazı genel gerçekler vardır, örn. Kümeler arasındaki mesafeler çoğunlukla anlamsızdır, küçük şaşkınlık değerleri küçük pıhtı benzeri yapıları teşvik eder, ama hepsi bu.t

Bir çok pürüzlü üstünlüğü başparmak her rekonstrüksiyon ile ilişkili hata değerinin ne kontrol etmektir. θ θt-SNE, orijinal alandaki veriler arasındaki mesafelerin dağılımı ile azaltılmış boyut alanındaki veriler arasındaki mesafelerin dağılımı arasındaki Kullback-Leibler sapmalarının toplamını en aza indirmeye çalışmaktadır (aslında hedef dağılımlar, bir noktanın komşusu olarak başka bir nokta seçmesi ihtimali, ancak bunlar iki nokta arasındaki mesafeyle doğru orantılıdır). KL-diverjansının daha küçük değerlerinin daha iyi sonuçlar verdiği söylenebilir. Bu fikir pratikte çok işe yaramaz, ancak teorik olarak şaşırtıcı derecede değerlerin bazı aralıklarının yanı sıra açıkça yetersiz olan algoritmanın bazı çalışmalarını dışlamaya yardımcı olur. Bu sezginin neden her derde deva olmaktan uzak olduğunu ve bunun nasıl faydalı olabileceğini açıklıyorum: Şaşkınlık parametresi, mesafeleri / olasılıkları hesaplamak için kullanılan Gaussian varyansı ile monoton olarak artar. Bu nedenle, bir bütün olarak şaşkınlık parametresini artırdıkça, mutlak terimler ve müteakip KL-diverjans değerleri ile daha küçük mesafeler elde edersiniz. Bununla birlikte, aynı şaşkınlıkla 20 çalışmanız varsa ve onlara bakmak istemiyorsanız (istemiyorsanız), orijinal mesafeleri daha doğru bir şekilde koruduğunu umarak her zaman en küçük değişkene sahip olanı seçebilirsiniz. Aynı şey Bununla birlikte, aynı şaşkınlıkla 20 çalışmanız varsa ve onlara bakmak istemiyorsanız (istemiyorsanız), orijinal mesafeleri daha doğru bir şekilde koruduğunu umarak her zaman en küçük değişkene sahip olanı seçebilirsiniz. Aynı şey Bununla birlikte, aynı şaşkınlıkla 20 çalışmanız varsa ve onlara bakmak istemiyorsanız (istemiyorsanız), orijinal mesafeleri daha doğru bir şekilde koruduğunu umarak her zaman en küçük değişkene sahip olanı seçebilirsiniz. Aynı şeyθ , Barnes-Hut yakınlaştırılması için yaklaşım parametresi varsayarak karışıklık değişen sabit bir ve daha sonra biraz bilgilendirici olmalıdır oluşan masrafları kontrol. Günün sonunda, daha düşük maliyetler daha sadık rekonstrüksiyonlar ile ilişkilidir. Yine de her şey kaybolmaz ...θ

Özel kullanım durumunuz için, iyi bir şaşkınlık değeri seçme prosedürünü hafifçe otomatikleştirmek için bir püf noktası şudur: İndirgenmiş boyutluluk veri kümesinde küçük bir kümeleme prosedürü çalıştırın (bir veya DBSCAN) ve bu kümelenmenin kalitesini değerlendirin tahmin etmeye çalıştığınız şeye karşı bir tür endeks ( Cohen'in , Rand endeksi , Fowlkes-Mallows , vb.) kullanarak Buradaki fikir, eldeki göreviniz için verilerin doğru temsilinin (şaşkınlığa bağlı -SNE sonuçları), mülk ile hizalamaları açısından en bilgilendirici temsili (belirtilen metriklerden biri şeklinde) vermesi gerektiğidir. tahmin etmeye çalışırsınız. Bu yüzdenk t tkktt-SNE her şeyden önce kullanıldı, eğer ortaya çıkan temsil araştırdığımız özellikler için bilgilendirici değilse, düşük rekonstrüksiyon hatasına, görsel çekiciliğe vs. rağmen iyi değil.

Açıklayayım ki anlattığım şey sezgisel yöntemler . Mesajımın başında belirtildiği gibi, sonuçları manuel olarak incelemek, ortaya çıkan boyutsal küçültme / kümelemenin kalitesini değerlendirmenin vazgeçilmez bir yoludur.


Bunun için teşekkür ederim. Kümelenmenin sınıflandırmaya ne kadar uyduğu konusunda endeks fikri ilginç geliyor.
Ric

4

Şaşırtıcılığı genellikle veri kümesi boyutunun% 5'ine ayarladık. Bu nedenle, 100K satırlı bir veri kümesi için, yüksek performanslı bir bilgisayarınız yoksa 5000 veya en az 1000'in şaşkınlığıyla başlarım. Veri setlerimiz akış sitometri analizinden alınmıştır, genellikle her biri 10 ila 20 sayısal değer içeren 50k ila 500k veri noktalarına sahiptir.


4

Cao ve Wang'ın "t-SNE Şaşkınlığının Otomatik Seçimi" ne bakmanız ilginç olabilir :

t-Dağıtılmış Stokastik Komşu Gömme (t-SNE), veri görselleştirme için en yaygın kullanılan boyutsallık azaltma yöntemlerinden biridir, ancak manuel seçim gerektiren şaşırtıcı bir hiperparametreye sahiptir. Uygulamada, t-SNE şaşkınlığının uygun şekilde ayarlanması, kullanıcıların yöntemin iç çalışmasını anlamasını ve uygulamalı deneyime sahip olmasını gerektirir. T-SNE şaşkınlığı için, t-SNE'nin kendisinin ötesinde ihmal edilebilir ekstra hesaplama gerektiren bir model seçim hedefi öneriyoruz. Yaklaşımımızın bulduğu şaşkınlık ortamlarının, bir dizi veri kümesinde insan uzmanlardan gelen tercihlerle tutarlı olduğunu ampirik olarak doğrularız. Yaklaşımımızın Bayes bilgi ölçütlerine (BIC) ve minimum açıklama uzunluğuna (MDL) benzerlikleri de analiz edilmektedir.


2
Sonuçlar neydi ..?
Tim

1
S(Perplex.)=2KL(P||Q)+log(n)Perlex.n (Ama Tim'in yorumlarında +1, bir makalenin özeti tam bir cevaptan uzak, lütfen oluşturmaya çalışın açıklayıcı / kapsayıcı bir cevap.)
usεr11852
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.