Yüksek boyutlu veri setleri için Gauss Süreci regresyonu


10

Sadece yüksek boyutlu veri kümelerine Gauss süreç regresyonu (GPR) uygulayan herhangi bir deneyim olup olmadığını görmek istedim. İdeal özellik seçimi parametre seçim sürecinin bir parçası olduğu yüksek boyutlu veri kümeleri için ne işe yarayacağını görmek için çeşitli seyrek GPR yöntemleri (örneğin seyrek sözde girişler GPR) içine bakıyorum.

Kağıtlar / kod / veya denemek için çeşitli yöntemler hakkında herhangi bir öneri kesinlikle takdir edilmektedir.

Teşekkürler.


2
Belirtildiği gibi, bu soru oldukça belirsizdir. Kendine yeten, somut ve iyi motive olan sorular burada en çok dikkat ve en iyi cevapları alma eğilimindedir. (Örneğin, çözmeye çalıştığınız belirli bir sorununuz varsa, okuyucuların ne yapmaya çalıştığınızı anlayabilecekleri kadar ayrıntı sağlamayı düşünün.)
kardinal

Yanıtlar:


13

Gauss süreç modelleri genellikle yüksek boyutlu veri kümeleriyle gayet iyi (mikrodizi verileri vb. İle kullandım). Anahtar, hiper parametreler için iyi değerler seçmektir (bu, modelin karmaşıklığını düzenli bir şekilde yaptığı gibi etkili bir şekilde kontrol eder).

Seyrek yöntemler ve sözde giriş yöntemleri, çok sayıda özellik yerine çok sayıda örneği olan (bilgisayarım için> yaklaşık 4000) veri kümeleri için daha fazladır. Kovaryans matrisinin Cholesky ayrışmasını gerçekleştirmek için yeterince güçlü bir bilgisayarınız varsa (n'ye göre n, n, örnek sayısıdır), muhtemelen bu yöntemlere ihtiyacınız yoktur.

MATLAB kullanıcısıysanız, GPML araç kutusunu ve Rasmussen ve Williams'ın kitabını başlamak için iyi yerler olarak şiddetle tavsiye ederim .

Ancak, özellik seçimi ile ilgileniyorsanız, GP'lerden kaçınırım. GP'lerle özellik seçimine standart yaklaşım Otomatik Alaka Tespiti çekirdeği kullanmak (örneğin GPML'de covSEard) ve daha sonra marjinal olasılığı en üst düzeye çıkarmak için çekirdek parametrelerini ayarlayarak özellik seçimine ulaşmaktır. Maalesef bu, marjinal olasılığa fazla uyması ve basit bir küresel radyal temel fonksiyonuna (GPML'de covSEiso) kovaryansa sahip bir modelden (muhtemelen çok daha kötü) bir modelle sonuçlanması muhtemeldir.

Şu anki araştırma odağım şu anda model seçimine aşırı uyuma dayanıyor ve bunun ayrıntılarda, çekirdek modellerinde hiper paranetrelerin çapraz doğrulamaya dayalı optimizasyonu için olduğu kadar GP'lerde kanıt maksimizasyonu için de bir sorun olduğunu gördüm. bu makaleye ve buna bakın .

Doğrusal olmayan modeller için özellik seçimi çok zordur. Çoğunlukla doğrusal bir modele bağlı kalarak ve seyreklik veya rastgele orman yöntemleri elde etmek için L1 düzenleyici tip yaklaşımları (Kement / LARS / Elastik ağ vb.) Kullanarak daha iyi performans elde edersiniz.


Teşekkürler Dikran. Düzenli doğrusal modeller için R'de glmnet'e bakmayı denedim. Ne yazık ki, tahminlerimin hepsi aynı oluyor (bence eğitim setimin anlamı). Doğrusal modeller verilerimdeki sinyali çekmekte zorlanıyor gibi görünüyor. Bu yüzden birçok özellik / potansiyel özellik etkileşimi ile başa çıkabilen doğrusal olmayan modeller arıyordum. Eminim ki bu çok soruyor. Bu cephede herhangi bir öneriniz var mı? P >> N problemim yok. 150 özellik kullanma, 1000 örnek.
tomas

Hey Dikran. Bu yorumda üzgünüm sorduğum oldukça belirsiz bir soruydu. Kurullara daha spesifik bir soru koydum. Yardımın için tekrar teşekkürler. stats.stackexchange.com/questions/30411/…
tomas

sorun değil, çoğu zaman soruların ne olduğunu bulmak onlara cevap vermekten daha zordur! Diğer sorulara bakacağım.
Dikran Marsupial

Bu cevap için teşekkürler. Çok boyutlu olmayan (n ~ 10k d ~ 1k) yüksek boyutlu özellikler söz konusu olduğunda, hesaplamayı hızlandırmak için ARD kullanmak mümkün müdür? GPML araç kutusu kullanıyorum. İlgili özelliklere odaklanmak için kovaryans matrisini otomatik olarak "koruyabilir miyiz?"
Emile

1
" r.csail.mit.edu/papers/v8/cawley07a.html " bağlantısı çalışmıyor ... Bu mu? jmlr.org/papers/v8/cawley07a.html . Belki de sadece bağlantılar yerine tam alıntılar eklemek yararlı olacaktır :-)
Meraklı

4

Yüksek boyutlu verileri işlemek için özel olarak tasarlanmış kovaryans fonksiyonlarını kullanmayı deneyebilirsiniz. Örneğin , Katkı Kovaryans işlevi hakkındaki makaleye bakın . Oldukça büyük girdi boyutuna sahip bazı gerçek verilerle sayısal deneylerimde diğer son teknoloji kovaryans fonksiyonlarından daha iyi çalıştılar (yaklaşık30).

Ancak, giriş boyutu gerçekten çok büyükse ( 100 veya 200) herhangi bir çekirdek yönteminin başarısız olacağı ve Gauss süreçlerinin gerilemesi için bir dışlama olmadığı görülmektedir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.