Boyutları azaltmak için t-SNE için parametreler nasıl belirlenir?


11

Kelime düğünlerinde çok yeniyim. Öğrenmenin ardından belgelerin nasıl göründüğünü görselleştirmek istiyorum. T-SNE'nin bunu yapmak için bir yaklaşım olduğunu okudum. Gömme boyutu olarak 250 boyutta 100K dokümanım var. Ayrıca birkaç paket mevcuttur.

Bununla birlikte, t-SNE için, daha fazla öğrenmeye devam etmem gereken kaç yineleme veya alfa değeri veya esneklik değeri bilmiyorum.

Bu hiper parametreler mi yoksa bazı özellikler tarafından belirlenebilir mi?

Yanıtlar:


12

T-SNE'nin Etkili Kullanılması makalesini şiddetle tavsiye ederim . Tsne montaj sürecinin harika animasyonlu çizimleri var ve bana tsne'nin ne yaptığını sezgisel bir şekilde anlayan ilk kaynaktı.

Yüksek düzeyde, şaşkınlık önemli olan parametredir. 5, 30 ve 50'deki şaşkınlığı denemek ve sonuçlara bakmak iyi bir fikirdir.

Ancak cidden, t-SNE'nin Nasıl Kullanılacağı konusunu okuyun. TSNE kullanımınızı daha etkili hale getirecektir.

Paketler için kullanmak Rtsne R veya sklearn.manifold.TSNE python


Daha büyük veri kümeleri ve hesaplamalarınızda GPU kullanmak için. NVidia'nın Rapids kütüphanesine göz atın. [Rapids.AI] (rapids.ai)
Aakash Gupta

2

SSS'yi t-SNE web sitesinden anlatacağım . Şaşkınlık için bir ilk:

T-SNE'deki şaşkınlığı nasıl ayarlamalıyım?

T-SNE'nin performansı, farklı şaşkınlık ayarları altında oldukça sağlamdır. En uygun değer verilerinizin yoğunluğuna bağlıdır. Gevşek olarak, daha büyük / daha yoğun bir veri kümesinin daha büyük bir şaşkınlık gerektirdiği söylenebilir. Şaşkınlık için tipik değerler 5 ile 50 arasındadır.

Diğer tüm paremetreler için bunu okumayı düşünürüm:

T-SNE'nin oluşturduğu görselleştirmelerin kalitesini nasıl değerlendirebilirim?

Tercihen, onlara bak! T-SNE'nin mesafeleri değil olasılıkları koruduğuna dikkat edin, bu nedenle yüksek D ve düşük D'deki Öklid mesafeleri arasındaki bazı hataların ölçülmesi işe yaramaz. Ancak, aynı verileri ve şaşkınlığı kullanırsanız, t-SNE'nin bildirdiği Kullback-Leibler sapmalarını karşılaştırabilirsiniz. T-SNE'yi on kez çalıştırmak ve en düşük KL diverjansına sahip çözümü seçmek mükemmeldir.

Başka bir deyişle, taslağa bakın, eğer görselleştirme iyi ise parametreleri değiştirmeyin. Ayrıca her sabit şaşkınlık için en düşük KL ıraksamasına sahip çalışmayı da seçebilirsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.