Yüksek boyutlu veriler: Bilinmesi gereken faydalı teknikler nelerdir?


14

Çeşitli boyutsallık küfürleri nedeniyle , yaygın öngörücü tekniklerin çoğunun doğruluğu ve hızı yüksek boyutlu verilerde bozulmaktadır. Yüksek boyutlu verilerle etkili bir şekilde başa çıkmaya yardımcı olan en kullanışlı teknikler / püf noktaları / buluşsal yöntemler nelerdir? Örneğin,

  • Bazı istatistiksel / modelleme yöntemleri yüksek boyutlu veri kümelerinde iyi performans gösteriyor mu?
  • Belirli (alternatif mesafe kavramlarını tanımlayan) veya (nokta ürününün alternatif kavramlarını tanımlayan ) çekirdekleri kullanarak yüksek boyutlu veriler üzerindeki öngörücü modellerimizin performansını artırabilir miyiz ?
  • Yüksek boyutlu veriler için en faydalı boyutsallık azaltma teknikleri nelerdir?

Yanıtlar:


10

This is very geniş Ben kapsayacak şekilde imkansız olduğunu düşünüyorum, hangi soru kapsamlı tek cevap. Bu nedenle, ilgili cevaplara ve / veya kaynaklara bazı işaretçiler sağlamanın daha faydalı olacağını düşünüyorum. Aşağıdaki bilgileri ve düşüncelerimi sunarak tam olarak yapacağım şey bu.

Her şeyden önce, Microsoft Research'ten Burges (2009) tarafından boyutsallığın azaltılması konusunda mükemmel ve kapsamlı öğreticiden bahsetmeliyim . Monograf boyunca verilerin yüksek boyutlu yönlerine sık sık değiniyor . Bu çalışma, atıfta boyut indirgeme olarak boyut indirgenmesi , hediye olarak teorik besleme sorunu , bir anlaşılacağı sınıflandırmayı oluşan, boyut indirgeme yöntemleri yansıtmalı yöntem ve manifold modelleme yöntemleri yanı sıra, bir sağlar, genel her kategoride birden fazla yöntem.

İncelenen " projektif takip" yöntemleri, bağımsız bileşen analizi (ICA) , ana bileşen analizi (PCA) ve bunun çekirdek PCA ve olasılık PCA , kanonik korelasyon analizi (CCA) ve çekirdek CCA varyasyonu, doğrusal diskriminant analizi (LDA gibi varyasyonlarını içerir. ) , çekirdek boyut küçültme (KDR) ve diğerleri. İncelenen manifold yöntemleri arasında çok boyutlu ölçeklendirme (MDS) ve onun dönüm noktası MDS varyasyonu, Isomap , Yerel Doğrusal Gömme yer alırve Laplacian eigenmaps ve spektral kümeleme gibi grafik yöntemler . Orijinal yayının sizin için çevrimiçi (yukarıdaki bağlantı) veya çevrimdışı (Referanslar) erişememesi durumunda, incelenen yöntemlerin çoğunu burada listeliyorum .

Yukarıda belirtilen çalışmaya uyguladığım "kapsamlı" terimi için bir uyarı var . Gerçekten de oldukça kapsamlı olsa da, boyutsal küçültmeye yönelik bazı yaklaşımlar, özellikle gözlemlenemeyen (gizli) değişkenlere odaklanan monografta tartışılmadığından bu görecelidir . Bununla birlikte, bunlardan bazıları, başka bir kaynağa referanslarla - boyutsallığın azaltılması üzerine bir kitaptan - bahsedilmektedir.

Şimdi, konuyla ilgili veya ilgili cevaplarıma başvurarak söz konusu konunun daha dar yönlerini kısaca ele alacağım. İle ilgili olarak en yakın komşuları (NN) tipi yaklaşımlar yüksek boyutlu verilere, cevapları bakın burada (özellikle listemde kağıdı 4. kontrol etmek önerilir). Boyutsallığın lanetinin etkilerinden biri, yüksek boyutlu verilerin sıklıkla seyrek olmasıdır . Bu gerçeği göz önüne alındığında, benim alakalı cevaplar inanıyoruz burada ve burada üzerinde gerileme ve PCA için seyrek ve yüksek boyutlu veri yararlı olabilir.

Referanslar

Burges, CJC (2010). Boyut küçültme: Rehberli tur. Makine Öğreniminde Temeller ve Trendler®, 2 (4), 275-365. DOI: 10,1561 / 2200000002


0

Aleksander çok kapsamlı bir cevap verdi, ancak çok geniş kapsamlı davalar var:

Boyutsal azaltma için PCA kullanılır, ancak bu sadece doğrusal bir dönüşüm yapar ve doğrusal olmayan boyutsal azaltma için Manifold öğrenimi aradığınız şeydir.

Daha düşük boyutlu bir veriyi daha yüksek boyutlara yansıtmak, çekirdekler kullanılarak yapılabilir. Bunu genellikle, sınıflandırıcı geçerli boyutta doğrusal bir ayırma düzlemi bulamadığında, ancak sınıfları daha yüksek bir boyutta ayıran doğrusal bir köprü bulabildiğinde yapılır. Çekirdekler SVM'lerde yaygın olarak kullanılmaktadır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.