Gauss Sürecindeki ortalama işlev neden ilginç değil?


28

GP'leri okumaya yeni başladım ve normal Gauss dağılımına benzer bir şekilde ortalama bir fonksiyon ve kovaryans fonksiyonu veya çekirdeği ile karakterize edildim. Bir konuşuyordum ve konuşmacı ortalama fonksiyonun genellikle oldukça ilginç olduğunu ve tüm çıkarım çabalarının doğru kovaryans fonksiyonunu tahmin etmeye harcandığını söyledi.

Birisi bana neden böyle olması gerektiğini açıklayabilir mi?

Yanıtlar:


33

Konuşmacının ne yaptığını biliyorum galiba. Şahsen ben onunla tamamen aynı fikirde değilim ve pek fazla insan var. Fakat adil olmak gerekirse, yapacak birçok kişi var :) Her şeyden önce, kovaryans fonksiyonunu (çekirdeği) belirtmenin fonksiyonlar üzerinde önceden bir dağılım belirtmeyi ima ettiğini unutmayın. Sadece çekirdeği değiştirerek, Gaussian Sürecinin gerçekleşmeleri, Squared Exponential çekirdeği tarafından üretilen çok yumuşak, sınırsızca farklılaşan işlevlerden büyük ölçüde değişiyor.

görüntü tanımını buraya girin

"dikenli" için, bir üstel çekirdek tekabül türevlenemeyen fonksiyonları (Matern çekirdeği ile )ν=1/2

görüntü tanımını buraya girin

Bunu görmenin bir başka yolu , basit bir sıfır ortalama fonksiyonunun en basit haliyle , prediktif ortalamayı (Gaussian İşlemi tahminlerinin ortalamasını, GP'yi antrenman noktalarına koşullandırmak suretiyle elde edilen) test noktasına yazmaktır :x

y=kT(K+σ2I)1y

burada test noktası arasındaki covariances vektörüdür ve eğitim noktaları , eğitim noktalarının kovaryans matrisidir gürültü terimi, (sadece resim eğer gürültüsüz tahminlerle ilgiliyse, yani Gaussian Process enterpolasyonu) ve , eğitim setindeki gözlemlerin vektörü ise. Gördüğünüz gibi, önceki GP ortalaması sıfır olsa bile, öngörü ortalama hiç sıfır değildir ve çekirdeğe ve eğitim noktası sayısına bağlı olarak, son derece öğrenebilecek çok esnek bir model olabilir karmaşık desenlerx x 1 ,, x n Kσσ=0 y =( y 1 ,, y n )kxx1,,xnKσσ=0y=(y1,,yn)

Daha genel olarak, GP'nin genelleme özelliklerini tanımlayan çekirdek. Bazı çekirdekler, evrensel yaklaşım özelliğine sahiptir , yani, prensip olarak, kompakt bir alt kümedeki herhangi bir sürekli işlevi, yeterli eğitim noktaları verilen önceden belirlenmiş herhangi bir maksimum toleransla yaklaşık olarak belirleyebilecek kapasitededirler.

Öyleyse, neden ortalama fonksiyona hiç dikkat etmelisiniz? Her şeyden önce, basit bir ortalama işlevi (doğrusal veya ortogonal bir polinom olanı) modeli çok daha yorumlanabilir hale getirir ve bu avantaj GP için esnek (bu nedenle karmaşık) olarak küçümsenmemelidir. İkincisi, bir şekilde sıfır anlamına gelir (ya da neye değerse, sabit ortalama için de) GP, antrenman verilerinden çok uzak tahminlerde emilir. (Periyodik çekirdekleri hariç) bir çok sabit çekirdekleri şekildedir içink(xix)0dist(xi,x). 0'a yakınlaşma, özellikle de Squared Exponential çekirdeği ile ve özellikle eğitim setine uyması için kısa bir korelasyon uzunluğu gerektiğinde şaşırtıcı şekilde hızlı bir şekilde gerçekleşebilir. Bu nedenle, sıfır ortalama işlevine sahip bir GP , eğitim setinden uzaklaşır kaçmaz değerini her zaman tahmin eder.y0

Şimdi, uygulamanızda bu anlamlı olabilir: Sonuçta, modeli eğitmek için kullanılan veri noktalarından uzakta tahminlerde bulunmak için veri odaklı bir model kullanmak genellikle kötü bir fikirdir. Bunun neden kötü bir fikir olabileceğine dair birçok ilginç ve eğlenceli örnek için buraya bakın . Bu bakımdan, eğitim setinden her zaman 0'a yaklaşan sıfır ortalama GP, bir modelden (örneğin, yüksek dereceli çok değişkenli ortogonal polinom model gibi) daha emniyetlidir; Eğitim verilerinden uzak duruyorsunuz.

Bununla birlikte, diğer durumlarda, modelinizin sabit bir yakınsamaya dönüşmeyen belirli bir asimpotik davranışa sahip olmasını isteyebilirsiniz. Belki fiziksel değerlendirme size, yeterince büyük olduğunu, modelinizin doğrusal olması gerektiğini söyler . Bu durumda, doğrusal bir ortalama işlevi istiyorsunuz. Genel olarak, modelin global özellikleri uygulamanız için ilgi çekici olduğunda, ortalama işlev seçimine dikkat etmeniz gerekir. Modelinizin yalnızca yerel (eğitim noktalarına yakın) davranışlarıyla ilgileniyorsanız, sıfır ya da sabit bir ortalama GP fazlasıyla yeterli olabilir.x


Delta, iyi bir ortalama fonksiyonun ne olacağını biliyor musun?
Denizdeki yaşlı bir adam.

1
@Anoldmaninthesea uygulamaya çok bağlıdır. Açıkladığım gibi, yorumlanabilir bir modele ihtiyacınız yoksa veya eğitim
setinizden

1
Delta, benim durumumda, gözlemlenen verilerden çok uzak olabilecek bazı tahminler yapmaya çalışmam gerekiyor ... Bu soruyu burada sordum. İstatistik.stackexchange.com/
Eski bir adam deniz.

6

Konferansı veren kişi adına konuşamayız; belki konuşmacı bu ifadeyi yaptığında aklında farklı bir fikir vardı. Bununla birlikte, bir pratisyen hekimden posterior kestirim yapmaya çalıştığınız durumda, sabit bir ortalama fonksiyon tam olarak hesaplanabilen kapalı formlu bir çözüme sahiptir. Bununla birlikte, daha genel bir ortalama fonksiyon durumunda, yaklaşık yöntemlere, örneğin simülasyona başvurmalısınız.

Ek olarak, kovaryans fonksiyonu, ortalama fonksiyondan sapmaların ne kadar hızlı (ve nerede) meydana geldiğini kontrol eder, bu nedenle genellikle daha esnek / katı bir kovaryans fonksiyonunun, tekrar verilen, daha süslü bir ortalama fonksiyona yaklaşmak için "yeterince iyi" olması durumu söz konusudur. sabit bir ortalama fonksiyonunun uygunluk özelliklerine erişim.


Bu açıklama için teşekkürler. Evet, sorumu soramadım ve bunun ilkeli bir nedeni olup olmadığını merak ediyordum.
Luca,

6

Size muhtemelen konuşmacı tarafından kast edilmeyen bir açıklama yapacağım. Bazı uygulamalarda araçlar her zaman sıkıcıdır. Örneğin, otoregressive model . Uzun dönem ortalaması açıkça . İlginç mi?yt=c+γyt1+etE[yt]μ=c1γ

Bu senin amacına bağlı. Depolamak değerleme sonra konum ise, o zaman artırmak gerektiğini söyler veya azaltmak : değeri verilir, çünkü deposunun değerini artırmak için burada olduğu indirim faktörü. Yani, ortalama açıkça ilginç.cγ

V=μr
r

Likiditeyle ilgileniyorsanız, yani önümüzdeki birkaç ay içinde harcamaları karşılayacak kadar paranız varsa, o zaman ortalamanın neredeyse önemi yoktur. Gelecek ayın nakit tahminine : Yani bu ayın satışları şimdi bir faktör.

y1=c+γy0
y0

6

xbenμ(xben)

x


0

Basitçe söylemek gerekirse, ortalama işlev, gözlemlerden 'uzak' girdileri için kovaryans işlevine hakimdir.
Bu, önceki bilgilerinizi sisteminizin makro dinamiklerini içine sokmanın bir yoludur.


1
Cevabını anlamıyorum. Aydınlatabilir misin?
Michael R. Chernick,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.