T-SNE görselleştirmesinde daha yakın noktaların daha benzer olduğu düşünülebilir mi?


14

Hinton'un makalesinden, T-SNE'nin yerel benzerlikleri korumak için iyi bir iş yaptığını ve küresel yapıyı (kümeleme) korumak için iyi bir iş yaptığını anlıyorum.

Ancak bir 2D t-sne görselleştirmede daha yakın görünen noktaların "daha benzer" veri noktaları olarak kabul edilip edilemeyeceği net değil. 25 özellikli veri kullanıyorum.

Örnek olarak, aşağıdaki görüntüyü gözlemleyerek, mavi veri noktalarının yeşil olanlara, özellikle de en büyük yeşil nokta kümesine daha benzer olduğunu varsayabilir miyim? Veya farklı bir şekilde sormak gerekirse, mavi noktaların en yakın kümedeki yeşil noktaya, diğer kümedeki kırmızı noktalardan daha benzer olduğunu varsaymak doğru olur mu? (kırmızı-ish kümesindeki yeşil noktaları göz ardı ederek)

resim açıklamasını buraya girin

Bilimkurguda sunulanlar gibi diğer örnekleri gözlemlerken, Manifold öğrenmeyi öğrenirsek, bunu varsaymak doğru görünüyor, ancak istatistiksel olarak doğru olup olmadığından emin değilim.

resim açıklamasını buraya girin

DÜZENLE

Orijinal veri kümesinden uzaklıkları manuel olarak hesapladım (ortalama çift öklid mesafesi) ve görselleştirme aslında veri kümesine ilişkin oransal bir uzamsal mesafeyi temsil eder. Bununla birlikte, bunun t-sne'nin orijinal matematiksel formülasyonundan beklenmesi oldukça kabul edilebilir olup olmadığını bilmek istiyorum ve sadece tesadüf değil.


1
Mavi noktalar, komşu yeşil noktalarına en yakın olanlardır, gömme işlemi bu şekilde gerçekleştirilmiştir. Gevşek olarak, benzerlikler (veya mesafe) korunmalıdır. 25 boyuttan sadece 2 boyuta geçmek büyük olasılıkla bilgi kaybına neden olur, ancak 2D gösterim ekranda en yakın göstergedir.
Vladislavs Dovgalecs

Yanıtlar:


5

T-SNE'yi, Lokal olarak doğrusal gömmenin akıllı bir olasılık uyarlaması olarak sunardım. Her iki durumda da, noktaları yüksek boyutlu bir alandan küçük bir alana yansıtmaya çalışıyoruz. Bu projeksiyon, yerel mesafelerin korunmasını optimize ederek (doğrudan LLE ile, olasılıksal bir dağılım üreterek ve KL-diverjansını t-SNE ile optimize ederek) yapılır. O zaman sorunuz küresel mesafeleri koruyor mu? Bu, verilerinizin "şekline" bağlı olacaktır (dağıtım düzgünse mesafeler bir şekilde korunmalıdır).

t-SNE aslında İsviçre rulosunda iyi çalışmaz ("S" 3D görüntünüz) ve 2B sonuçta orta sarı noktaların genellikle kırmızı olanlara mavi olanlardan daha yakın olduğunu görebilirsiniz ( 3D görüntüde mükemmel bir şekilde ortalanmıştır).

T-SNE'nin yaptıklarına bir diğer iyi örnek, el yazısı rakamların kümelenmesidir. Bu bağlantıdaki örneklere bakın: https://lvdmaaten.github.io/tsne/


2
Demek istediğim, sadece alt boşluktaki mesafeyi benzerlik kriteri olarak kullanamazsınız. t-SNE, kümeler gibi küresel yapıyı koruyacak ancak mesafeleri koruyamaz. Bu, yüksek boyutlu verilerin şekline ve kullandığınız şaşkınlığa bağlı olacaktır.
Robin

1
Tamam anladım. Açıkladığınız için teşekkürler. Evet, daha düşük alanlardaki mesafelerin doğru olmayacağına katılıyorum. Şimdi, t-sne görselleştirme için pratik olduğundan, alt boyutlu grafikteki mesafeleri kavramsal olarak kullanabilir miyim? Örneğin planımda, 2d uzayda üç grubun bariz bir şekilde ayrılması göz önüne alındığında, mavi noktaların yeşil olanlara kırmızı olanlardan daha yakın veya daha benzer olduğunu söyleyebilirim. Yoksa bunu söylemek zor olur mu?
Mart'ta Javierfdr

1
Söylemesi oldukça zor. Düşük boyutlu uzayda noktalar, menşe merkezli bir gauss dağılımı ile başlatılır. Daha sonra KL-diverjansını optimize ederek tekrarlanırlar. Dolayısıyla, durumunuzda mavi noktaların yeşil kümeye daha benzer olduğunu söyleyebilirim, ancak şimdi kırmızı kümeye ne kadar yakın olduklarını değerlendirmenin bir yolu var. t-SNE.
Robin

1
Birlikte ele alındığında, t-SNE, (1) büyük çift mesafeler yoluyla farklı veri noktalarının modellenmesine ve (2) küçük çift mesafeler aracılığıyla benzer veri noktalarının modellenmesine önem vermektedir. Özellikle, t-SNE düşük boyutlu haritada optimizasyonda erken ayrılan benzer iki noktayı (kümelerini) geri çekebilen uzun menzilli kuvvetler sunar.
Robin

1
Çok güzel bir açıklama. Çabalarınız için çok teşekkür ederim. Farklı yorumların tam bir cevap verdiğinizi düşünüyorum.
Mart'ta Javierfdr
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.