Gauss süreç modelleri genellikle yüksek boyutlu veri kümeleriyle gayet iyi (mikrodizi verileri vb. İle kullandım). Anahtar, hiper parametreler için iyi değerler seçmektir (bu, modelin karmaşıklığını düzenli bir şekilde yaptığı gibi etkili bir şekilde kontrol eder).
Seyrek yöntemler ve sözde giriş yöntemleri, çok sayıda özellik yerine çok sayıda örneği olan (bilgisayarım için> yaklaşık 4000) veri kümeleri için daha fazladır. Kovaryans matrisinin Cholesky ayrışmasını gerçekleştirmek için yeterince güçlü bir bilgisayarınız varsa (n'ye göre n, n, örnek sayısıdır), muhtemelen bu yöntemlere ihtiyacınız yoktur.
MATLAB kullanıcısıysanız, GPML araç kutusunu ve Rasmussen ve Williams'ın kitabını başlamak için iyi yerler olarak şiddetle tavsiye ederim .
Ancak, özellik seçimi ile ilgileniyorsanız, GP'lerden kaçınırım. GP'lerle özellik seçimine standart yaklaşım Otomatik Alaka Tespiti çekirdeği kullanmak (örneğin GPML'de covSEard) ve daha sonra marjinal olasılığı en üst düzeye çıkarmak için çekirdek parametrelerini ayarlayarak özellik seçimine ulaşmaktır. Maalesef bu, marjinal olasılığa fazla uyması ve basit bir küresel radyal temel fonksiyonuna (GPML'de covSEiso) kovaryansa sahip bir modelden (muhtemelen çok daha kötü) bir modelle sonuçlanması muhtemeldir.
Şu anki araştırma odağım şu anda model seçimine aşırı uyuma dayanıyor ve bunun ayrıntılarda, çekirdek modellerinde hiper paranetrelerin çapraz doğrulamaya dayalı optimizasyonu için olduğu kadar GP'lerde kanıt maksimizasyonu için de bir sorun olduğunu gördüm. bu makaleye ve buna bakın .
Doğrusal olmayan modeller için özellik seçimi çok zordur. Çoğunlukla doğrusal bir modele bağlı kalarak ve seyreklik veya rastgele orman yöntemleri elde etmek için L1 düzenleyici tip yaklaşımları (Kement / LARS / Elastik ağ vb.) Kullanarak daha iyi performans elde edersiniz.