Tüm özelliklerde aynı değerlere sahip 200 veri noktası var .
T-SNE boyut küçülmesinden sonra, artık böyle eşit görünmüyor:
Neden görselleştirmede aynı noktada değiller ve hatta iki farklı kümeye dağılmış görünüyorlar?
Tüm özelliklerde aynı değerlere sahip 200 veri noktası var .
T-SNE boyut küçülmesinden sonra, artık böyle eşit görünmüyor:
Neden görselleştirmede aynı noktada değiller ve hatta iki farklı kümeye dağılmış görünüyorlar?
Yanıtlar:
T-SNE'deki aynı değerlerin farklı noktalara dağıtılabileceğinden eminsiniz, T-SNE'nin karşılaştığı algoritmaya bir göz atarsanız bunun olmasının nedeni açıktır.
Algoritma veri kümesine uygulandıktan sonra gerçekte aynı olmaması gereken noktalarla ilgili ilk endişenizi gidermek. Sizi kendiniz doğrulamak için bir egzersizle bırakacağım, basit bir dizi düşünün ve ve buna karşı gerçek algoritmayı çalıştırın ve kendiniz bakın, sonuçta ortaya çıkan noktalar aynı değildir.
import numpy as np
from sklearn.manifold import TSNE
m = TSNE(n_components=2, random_state=0)
m.fit_transform(np.array([[0,1],[0,1]]))
Ayrıca random_state
değiştirmenin, modelin çıktı koordinatlarını gerçekten değiştirdiğini de gözlemlersiniz . Gerçek koordinatlar ve çıktıları arasında gerçek bir korelasyon yoktur. TSNE'nin ilk adımından bu yana koşullu olasılığı hesaplar.
Şimdi algoritmayı kullanarak bunun gerçekleşmesinin nedenini rasyonelleştirmeye çalışalım, sadece matematik kullanarak, herhangi bir sezgisiz. Bunu not et ve her ikisi de bu durumda vektörlerdir. . Şimdi, eğer, değerin 1 olduğunu görebiliriz. KL sapması uygulandıktan sonra yukarıda belirtilen değerleri elde ederiz. Şimdi buna biraz sezgi uygulayalım. gayri resmi olarak, koşullu olasılıktır. seçerdi komşu olarak. Bu, sonucu iki nedenden dolayı haklı çıkarır. Birincisi, başka bir komşu olmadığı için, koordinatlar listesindeki tek diğer vektörü seçmelidir. Buna ek olarak, noktalar aynıdır ve gördüğümüz gibi, diğer komşu olarak seçilme şansları yüksek olmalıdır .
Şimdi mutlak koordinasyonların herhangi bir önemi var. Gerçekten bilmiyorlar. Rasgelelik, noktaları gitmelerini istediğiniz yere yeniden dağıtabilir. Bununla birlikte, daha ilginç olan, noktalar arasındaki mesafelerin oranları ve bunlar görecelidir ve oldukça ilginç olan daha yüksek boyutlara yansıttığımızda bile görecelidir.
Yani, gerçek şu ki, iki kümeye bakmak yerine, aralarındaki mesafelere bakın, çünkü bu, koordinasyonların kendilerinden daha fazla bilgi taşır.
Umarım bu sorunuzu yanıtladı :)