T-SNE ne zaman yanıltıcıdır?

Yazarlardan birinden alıntı:

t-Dağıtılmış Stokastik Komşu Gömme (t-SNE), boyutsallığın azaltılması için yüksek boyutlu veri kümelerinin görselleştirilmesi için özellikle uygun bir ( ödüllü ) tekniktir.

Bu yüzden kulağa çok hoş geliyor, ama Yazar konuşuyor.

Yazardan bir başka alıntı (yeniden: yukarıda belirtilen rekabet):

Bu yarışmadan ne aldın?
Tahmin edicileri veriler üzerinde çalışmaya başlamadan önce daima verilerinizi görselleştirin! Çoğu zaman, yaptığım gibi görselleştirmeler, ne tür tahmin modellerinin deneneceğini belirlemede size yardımcı olabilecek veri dağıtımına ilişkin içgörü sağlar.

Bilgi ¹ kaybedilmeli - bu bir boyutsal küçültme tekniğidir. Bununla birlikte, görselleştirirken kullanmak iyi bir teknik olduğundan, kaybedilen bilgiler vurgulanan bilgiden daha az değerlidir (/ 2 veya 3 boyuta indirgeme yoluyla görünür hale getirilebilir / kavranabilir).

Yani sorum şu:

TSNE iş için yanlış araç ne zaman?
Ne tür veri setleri işlev görmemesine neden oluyor?
Nasıl bir soruya cevap verebilir gibi görünüyor, ama aslında cevaplayamıyor?
Yukarıdaki ikinci alıntıda veri kümenizi her zaman görselleştirmeniz önerilir, bu görselleştirme her zaman tSNE ile yapılmalı mı?

Bu sorunun sohbette en iyi şekilde cevaplanabileceğini umuyorum , yani cevaplama: tSNE iş için doğru araç ne zaman?

(Sınıflara ayrılır - bir ayrımcılık modeli) Ben kolay veri sınıflandırılamaz nasıl olacağını anlatmaya tSNE güvenmek uyarılarda olmuştur örneğini o, aşağıda iki görüntüler için, bir üretken model olmak, oldu yanıltıcı ² kötüydü İlk / solda görselleştirilmiş veriler için (doğruluk% 53.6), ikinci / sağ için eşdeğerinden (doğruluk% 67.2).

ilk ikinci

¹ _{Bu konuda yanılmış olabilirim. Daha sonra bir kanıt / deney örneğinde oturup deneyebilirim.}

² _{Üretken bir modelin ayrımcı bir modelle aynı olmadığını, ancak verdiğim örnek olduğunu not edin.}

data-visualization dimensionality-reduction tsne

— Lyndon White
kaynak

"Bilginin kaybedilmesi gerektiği" ifadesiyle ilgili olarak: ve kümeleri arasındaki bir varsayımsal eşleşme , eğer kardinaliteleri kabul ederse, ve. Ve örneğin, ve ( buraya bakın ). Yani, prensip olarak de olduğu kadar bilgi toplayabiliriz .

A

$A$

B

$B$

| A | = | B |

$|A| = |B|$

| N | = | N^{n} | = ℵ_{0}

$|\mathbb{N}| = |\mathbb{N}^n| = \aleph_0$

| R | = | R | = | R^{n} | = ℵ_{1}

$|\mathbb{R}| = |\mathbb{R}| = |\mathbb{R}^n| = \aleph_1$

R^{2}

$\mathbb{R}^2$

R

$\mathbb{R}$

— Lucas

@Lucas: Ah, elbette. (bunu nasıl anlamadım)

— Lyndon White

Hangi üretken modeli deniyorsun?

— WeiChing Lin,

@ Wei-ChingLin Ne tür üretici modelin kullanıldığından emin değilim. Muhtemelen bir tür Derin İnanç Ağı, Deep Boltzmann Manchine veya Autoencoder. Sorunun kalbi ile gerçekten alakalı değil

— Lyndon White

İlgili: distill.pub/2016/misread-tsne

— Lyndon White

Yanıtlar:

T-Sne, alanın küçük ölçekli yapısını (yani neye özellikle yakın olanı) koruyan ve veri ayrılabilirliğini görselleştirmede çok iyi yapan bir azaltma tekniğidir. Bu, T-Sne'nin, veri ayrılabilirliğinin derecesini anlamada kullanılan erken görselleştirme için özellikle yararlı olduğu anlamına gelir. Diğer teknikler (örneğin PCA), boyutlar ortadan kalktıkça birbirlerinin üzerine yansıtılan daha düşük boyutlu gösterimlerdeki verileri bırakır; bu, daha yüksek boyutlu uzayda ayrılabilirlik hakkında net bir açıklama yapmayı çok zorlaştırır.

Örneğin, çok sayıda çakışan verilere sahip bir T-Sne grafiği elde ederseniz, sınıflandırıcınızın ne yaptığınız önemli değil, yüksek performans gösterme olasılığı yüksektir. Tersine, T-Sne grafiğinde net bir şekilde ayrılmış veriler görürseniz, o zaman alttaki, yüksek boyutlu veriler iyi bir sınıflandırıcı oluşturmak için yeterli değişkenlik içerir.

— John Yetter
kaynak

Bu, T-SNE'nin ne olduğuna dair çok iyi bir açıklama, teşekkürler. Ancak gerçek soruların cevaplarını göremiyorum (Açılış postasındaki noktalara bakınız.)

— Lyndon White

Bu, soruya hiç cevap vermiyor.

— amip diyor Reinstate Monica

Kutunun dışında, tSNE'nin asıl şaşkınlık olan birkaç hiperparametresi var. Sezgisel olarak, şaşkınlığın tSNE için benzerlik nosyonunu tanımladığını ve tüm veri noktaları için evrensel bir şaşkınlığın kullanıldığını unutmayın. Her kümenin çılgınca farklı şaşkınlığa sahip olduğu etiketli bir veri kümesi oluşturmayı deneyebilirsiniz. Bu, çok çeşitli farklı varyasyonlara sahip bir gauss karışımıyla gerçekleştirilebilir. Bunun ayrıca, quartiling verilerine ve sadece en yakın komşuları kullanmaya dayanan tSNE'nin Barnes-Hut uygulamasında da sorunlara yol açacağını tahmin ediyorum. TSNE'de kümeleri birbirinden geçirmeye çalışan ilk bir dinlenme periyodu vardır. Bu süre zarfında herhangi bir ceza ya da itiraz yoktur. Yani, örneğin, verileriniz keçeleşmiş bir erişte kümesine bakarsa (her erişte belirli bir kümeyi temsil eder), ilk geçişi kalibre etmekte zorlanacağım ve tSNE'nin işe yarayacağından şüpheliyim. Bir anlamda, eğer verileriniz birlikte dokunuyorsa ve başlangıçta düşük boyutlu bir alanda kalıyorsa, tSNE'nin işe yaramayacağına işaret ettiğini düşünüyorum.

Genel olarak tSNE, SNE'de yüksek boyutlara kıyasla daha düşük boyutlu boşluklarda nasıl boşluk bırakılacağına dair çarpıcı bir sorunu çözen "t" kısmı nedeniyle iyidir . Ortalama olarak, yüksek noktalardaki veri noktalarının aralığının düşük boyutlardan tamamen farklı davrandığı ortaya çıktı. Özellikle, tSNE, daha düşük boyutlardaki mesafeleri ölçmek için Gauss'ların kullanılmasını şiddetle tavsiye etmekte, bunun yerine , daha geniş kuyruklara sahip olan ve daha düşük boyutlu gösterimde daha fazla yayılmaya izin veren bir boyutlu dağılımı (yani Cauchy Dağılımı) tercih etmektedir. Dolayısıyla, tSNE'deki "t" aynı zamanda bir hiperparametre de olabilir, bunun yerine farklı dağıtımları seçebilirsiniz (yüksek bir hesaplama maliyetine rağmen). $t$

TSNE'yi denetimsiz bir kümeleme yöntemi olarak düşünmelisiniz ve bu nedenle iş için tek araç olduğunu düşünmek için sıfır neden vardır. Genel olarak doğru kalibre edildiğinde harika bir araç olabileceğini düşünüyorum. Bununla birlikte, büyük veri kümelerinde oldukça yavaştır ve verilerin ne kadar seyrek olduğuna bağlı olarak bazı optimize edilmiş araçları, hatta PCA kullanarak daha iyi olabilirsiniz . $k$

— Alex R.
kaynak