Hinton'un makalesinden, T-SNE'nin yerel benzerlikleri korumak için iyi bir iş yaptığını ve küresel yapıyı (kümeleme) korumak için iyi bir iş yaptığını anlıyorum.
Ancak bir 2D t-sne görselleştirmede daha yakın görünen noktaların "daha benzer" veri noktaları olarak kabul edilip edilemeyeceği net değil. 25 özellikli veri kullanıyorum.
Örnek olarak, aşağıdaki görüntüyü gözlemleyerek, mavi veri noktalarının yeşil olanlara, özellikle de en büyük yeşil nokta kümesine daha benzer olduğunu varsayabilir miyim? Veya farklı bir şekilde sormak gerekirse, mavi noktaların en yakın kümedeki yeşil noktaya, diğer kümedeki kırmızı noktalardan daha benzer olduğunu varsaymak doğru olur mu? (kırmızı-ish kümesindeki yeşil noktaları göz ardı ederek)
Bilimkurguda sunulanlar gibi diğer örnekleri gözlemlerken, Manifold öğrenmeyi öğrenirsek, bunu varsaymak doğru görünüyor, ancak istatistiksel olarak doğru olup olmadığından emin değilim.
DÜZENLE
Orijinal veri kümesinden uzaklıkları manuel olarak hesapladım (ortalama çift öklid mesafesi) ve görselleştirme aslında veri kümesine ilişkin oransal bir uzamsal mesafeyi temsil eder. Bununla birlikte, bunun t-sne'nin orijinal matematiksel formülasyonundan beklenmesi oldukça kabul edilebilir olup olmadığını bilmek istiyorum ve sadece tesadüf değil.