Ölçeklenebilir boyut küçültme


9

Sabit özelliklerin sayısı göz önüne alındığında, Barnes-Hut t-SNE'nin karmaşıklığıO(nlogn), rastgele projeksiyonlar ve PCA, çok büyük veri setleri için onları "uygun fiyatlı" yapan karmaşıklığına sahiptir .O(n)

Öte yandan, güvenerek yöntemleri boyutlu ölçekleme bir olması karmaşıklığı.O(n2)

Karmaşıklığı daha düşük olan başka boyut küçültme teknikleri ( tabii ki ilk sütunlarına bakmak gibi önemsiz olanlar dışında mı?kO(nlogn)

Yanıtlar:


5

İlginç bir seçenek, sinirsel boyutsal küçülmeyi araştırmak olabilir. Boyutsal küçültme için en yaygın kullanılan ağ türü olan otomatik kodlayıcı,O(in), nerede iegzersiz tekrarlarını temsil eder (egzersiz verilerinden bağımsız bir hiper parametredir). Bu nedenle, eğitim karmaşıklığıO(n).

Hinton ve Salakhutdinov'un 2006 seminer çalışmalarına bir göz atabilirsiniz [1]. O zamandan beri işler çok gelişti. Şimdi bu duruma büyük ölçüde Variational Autoencoders [2] ulaşmıştır, ancak temel fikir (çıktı katmanındaki girişi arada bir darboğaz katmanıyla yeniden yapılandıran bir ağ) aynıdır. PCA ve RP'nin aksine, otomatik kodlayıcıların doğrusal olmayan boyutsallık azalması yaptığını unutmayın. Ayrıca, t-SNE'nin aksine, otomatik kodlayıcılar görünmeyen örnekleri tüm modeli yeniden eğitmeye gerek kalmadan dönüştürebilir.

Pratik açıdan, bu bir göz alarak recomend mesaja acayip kütüphanesinde Keras ile autoencoders farklı nasıl uygulanacağına ilişkin ayrıntılı bilgi verir.

[1] Hinton, GE ve Salakhutdinov, RR (2006). Sinir ağları ile verilerin boyutsallığının azaltılması. bilim, 313 (5786), 504-507.

[2] Kingma, DP ve Welling, M. (2013). Otomatik kodlama varyasyon bölmeleri. arXiv ön baskı arXiv: 1312.6114.


1
teknik olarak , bu özel yaklaşımı kullanarak modeli t-SNE ile yeni numuneler için yeniden eğitmek zorunda değilsiniz : lvdmaaten.github.io/publications/papers/AISTATS_2009.pdf
bibliyolitik 21:17

Elbette. Yazar ayrıca, potansiyel bir yaklaşım olarak harita konum formu girdi veri örneklerini tahmin etmek için çok değişkenli bir regresör eğitimini önerdi. Makalede, yazarın t-SNE kaybını doğrudan en aza indirmek için bir sinir ağı eğittiği belirtilmektedir. Bununla birlikte, her iki durumda da veri noktalarını ortaya çıkan alana eşlemek için açık bir model veya işlev tanımlamanız gerekir, bu nedenle gömmeyi öğrenmek için yeterince güçlü (yeterli katmanlar / nöronlar) olmalıdır, ancak fazla oturmayı önlemek için çok fazla olmamalıdır ... Standart t-SNE'nin bazı kullanılabilirliklerini feda ediyor.
Daniel López

Orada anlaşmazlık yok, sadece cevabınızda yaptığınız gibi oto-kodlayıcıları ve t-SNE'yi karşılaştırmanın biraz yanlış olduğunu düşünüyorum, t-
SNE'nin

Şimdi tekrar okuduğum halde, bir soru: aslında sinir ağlarının O(n), aslında yakınsama garanti edilmediğini görmek? Big-O notasyonu en kötü sınırdır, değil mi?
bibliyolitik

Bir ağ eğitimi alırken t-SNE kaybının hesaplanmasından bu yana cevaba eklemek istemedim O(m2) zaman nerede mmini seri boyutudur.
Daniel López

0

Daha önce bahsedilen oto-kodlayıcıların yanı sıra, Johnson-Lindenstrauss'un lemmasını rastgele projeksiyonlar veya rastgele altuzay yöntemleri ile kullanmayı deneyebiliriz . Rastgele tahminlerO(kdN), ile N boyut örneklerinin sayısı d ve k hedef boyut, cf [1].

Biraz googling, özellikle seyrek veri kümeleri için size çok yakın sonuçlar verecektir.

[1] Boyutsal küçültmede rastgele projeksiyon: görüntü ve metin verilerine uygulamalar .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.