Gaussian proses modellerine neden parametrik olmayan denir?


26

Kafam biraz karıştı. Gauss süreçlerine neden parametrik olmayan modeller deniyor?

İşlevsel değerlerin veya bunların bir alt kümesinin, ortalama 0 olan bir Gauss değerine ve çekirdek işlevi olarak verilen kovaryans işlevine sahip olduğunu varsayıyorlar. Bu çekirdek fonksiyonlarının kendileri bazı parametrelere sahiptir (yani, hiperparametreler).

Peki neden parametrik olmayan modeller denir?


1
"Gauss süreci" nin birkaç tanımını biliyorum, bu yüzden sorunuzun gerçekten ne sorduğu belli değil. Ancak bunu nasıl netleştireceğinizi düşündüğünüzde, kendinize şunu sorun: Aklınızdaki Gauss sürecini tam olarak nasıl değiştirirsiniz? Sınırlı sayıda gerçek parametre ile doğal bir şekilde yapamıyorsanız, parametrik olmayan olarak düşünülmelidir.
whuber

@whuber. AFAIK, gauss süreçlerinin ana parametreleri ortalama ve kovaryans fonksiyonlarıdır. Ancak veri noktaları eklemeye devam ettikçe artmaya devam ediyorlar. Böylece artmaya devam ediyor. Gaussian süreçlerin parametrik olmayan olarak adlandırılmasının nedeni bu mu?
user34790

@whuber Eğer milyonlarca eğitim veri noktasına sahipsem, GP f ~ N (m, k) milyon boyutlu çok değişkenli gauss dağılımı olacaktır. Bu çok büyük değil mi? Yeni eğitim verileri geldikçe büyüdükçe daha da büyüyor. Hesaplama sorununa yol açmaz mı?
user34790

1
"Parametrik" ve "parametrik olmayan" ifadeleri, belirli işlemler için geçerli olmayan terimlerdir: verilere uygun olabilecek tüm işlemler ailesi için geçerlidir . Hangi aileyi düşündüğümü hala bilmesem de, kulağa her koşulda parametre sayısı sınırlı olsa da, aile üyeleri arasında görünebilecek parametrelerin sayısında bir sınır yok gibi görünüyor : ergo, problem parametrik değildir.
whuber

Yanıtlar:


20

Ben her zaman yorumlarında vs. "parametrik olmayan" veya "semiparametrik" tek vasıta, whuber akılda bazı resmi tanımını (model seçmek gibi belki bir şey olduğunu muhtemel görünmektedir ne olduğu açık değildir söyleyerek bu Önsöz bazı aileden { MMθ nerede Θ ) boyutlu sonsuzdur ama, çok gayri olacağım. Bazıları parametrik olmayan bir yöntemin, kullandığınız etkili parametre sayısının verilerle arttığı bir yöntem olduğunu iddia edebilir. Videolectures.net'te Peter Orbanz'ın “parametrik olmayan” ı nasıl tanımlayacağımızla ilgili dört ya da beş farklı değerlendirme yaptığı bir video olduğunu düşünüyorum.{Mθ:θΘ}Θ

Ben şeylerden sıralar basitlik için ben tipik bir şekilde, regresyon için Gauss süreçleri kullanarak bahsediyoruz olduğunu varsayıyoruz, aklında ne var biliyorum beri: Elimizde veri eğitim var ve biz koşullu ortalamanın E ( Y | X = x ) : = f ( x ) koşulunun modellenmesini(Yi,Xi),i=1,...,nE(Y|X=x):=f(x) . Bu geç ve belki de varsaymak şekilde kalın ε i normal IID ve dağıtılmış, ε i ~ , N ( 0 , σ 2 ) . X i tek boyutlu olacak, ama her şey daha yüksek boyutlara taşınacak.

Yi=f(Xi)+ϵi
ϵiϵiN(0,σ2)Xben

Eğer süreklilik içinde değerler alabilirse, o zaman f ( ) (sayılamayan) sonsuz boyutun bir parametresi olarak düşünülebilir. Dolayısıyla, sonsuz boyutun bir parametresini tahmin ediyor olmamız anlamında, sorunumuz parametrik olmayan bir problemdir. Bayesian yaklaşımının burada ve burada yüzen bazı parametrelere sahip olduğu doğrudur. Ama aslında, parametrik olmayan denir, çünkü sonsuz boyutta bir şey tahmin ediyoruz. Önceden kullandığımız GP her sürekli fonksiyonun her mahallesine kütle tahsis eder, böylece herhangi bir sürekli fonksiyonu keyfi olarak iyi tahmin edebilirler.Xif()

Biz görmeyi beklediklerini bazı yapı vardır varsaymak zorundayız kesinlikle umutsuz olmamak için sorun için sırayla - kovaryans işlevinde şeyler olağan frequentist tahmin ediciler içinde yumuşatma parametreleri benzer bir rol oynuyor sergi. Bayesliler bunu, Gaussian bir süreç şeklinde sürekli fonksiyonların alanını önceden kullanarak başarırlar. Bayesian açısından, yaklaşık inanç Kodladığınız f varsayılarak f örneğin-ve-bu kovaryans işlevi olan bir GP çekilir. Öncelikle , çok karmaşık olduğu için f'nin tahminlerini etkili bir şekilde cezalandırıyor .ffff

Hesaplamalı sorunlar için düzenle

Bunların çoğu (tümü?) Rasmussen ve Williams'ın Gauss Süreci kitabında.

Hesaplamalı sorunlar, pratisyen hekimler için zor. Biz niavely devam edin ihtiyacımız olacak sadece kovaryans matrisi tutmak için boyutu, bellek ve (çıkıyor) O ( N 3 ) onu çevirin işlemleri. İşleri daha uygulanabilir hale getirmek için yapabileceğimiz birkaç şey var. Seçeneklerden biri, gerçekten ihtiyacımız olan adamın v olduğunu , çözümün ( K + σ 2 I ) v = Y olduğu ve K'nın kovaryans matrisi olduğu. Konjugat gradyanlar gibi bir yöntem tam olarak, bu çözer O ( N 3 )O(N2)O(N3)v(K+σ2I)v=YKO(N3)Biz, yaklaşık çözeltisi ile kendimizi karşılaması durumunda hesaplamalar, ama sonra konjugat gradyan algoritması sona olabilir adımları ve yapmak O ( k , N 2 ) hesaplamalar. Ayrıca tüm K matrisini bir kerede depolamamız gerekmez .kO(kN2)K

Biz hareket ettik Yani için O ( k N 2 ) , ama bu yine de quadratically ölçekler N mutlu olmayabilir bu yüzden. Bir sonraki en iyi şey, verilerin bir alt kümesi ile yerine çalışma boyutu demek ki m ters çevrilmesi ve bir saklama burada m x m, matris çok kötü değildir. Tabii ki, sadece kalan verileri atmak istemiyoruz. Regresör alt kümesi bizim veri regresyonu olarak GP posterior ortalamasını elde ki notlar yaklaşım , Y ile N kovaryans fonksiyonu tarafından belirlenen veri-bağımlı baz fonksiyonları; bu yüzden hepsini atıyoruzO(N3)O(kN2)Nmm×mYNBunlardan m uzaktayız ve O ( m 2 N ) hesaplamalarıyaparız.mO(m2N)

Birkaç başka potansiyel seçenek var. Biz için düşük seviye yaklaşım olustursaydiniz , ve ayar K = S S , T burada Q, olduğu , n x Q ve seviye arasında q ; K + σ 2 I ters çevrilir , bu durumda bunun yerine Q T Q + σ 2 I ters çevrilerek yapılabilir . Başka bir seçenek de, kovaryans fonksiyonunun seyrek olması ve eşlenik gradyan metotlarının kullanılmasıdır - kovaryans matrisi çok seyrekse, bu durum hesaplamaları büyük ölçüde hızlandırabilir.KK=QQTQn×qqK+σ2IQTQ+σ2I


8

Genel olarak, Bayesian parametriklerindeki "parametrik olmayan", sonsuz sayıda (potansiyel) parametreli modelleri ifade eder. Videolectures.net'teki ( bu gibi ) konuyla ilgili bu konuda çok güzel dersler ve konferanslar var .

Spesifik olarak, Gauss Süreci (GP) parametrik olmayan olarak kabul edilir, çünkü bir GP bir işlevi temsil eder (yani sonsuz boyutlu bir vektör). Veri noktalarının sayısı arttıkça ((x, f (x)) çiftleri), 'parametre' modelinin sayısını (işlevin şeklini kısıtlayarak) yapın. Parametre sayısının, verilerin büyüklüğüne göre sabit kaldığı parametrik modelin aksine, parametrik olmayan modellerde, parametre sayısı, veri noktalarının sayısı ile birlikte artmaktadır.


Bu tam olarak varsaydığım şeydi. Yani benim varsayımım doğru sanırım. Fakat benim sorum şu: milyon puanım varsa (gözlemlenen veriler). O zaman benim f de milyonlarca boyutta olacak. Öyleyse hesaplamalı sorunlarım olmaz mıydı. Ayrıca benim kovaryans matrisim de 1 milyon milyon x 1 milyon büyüklüğünde olacak. Peki bu durumda ne yapmalıyım?
user34790

@ user34790 evet, işlemle ilgili sorunlarınız olur. Hesaplamalı zorluklar, pratisyen hekimler için oldukça önemli. Rasmussen ve Williams'ın pratisyen hekimler hakkında bir bölümü var ve bu konuya adanmış bir bölüm var. Bazı minimum ayrıntılar için güncellenmiş gönderiye bakın.
adam

1

The parameters that you referred to as hyperparameters are not physically motivated parameters and hence the name. They are used to solely parameterize the kernel function. To give an example, in a Gaussian kernel:

K(xi,xj)=h2exp((xixj)2λ2)

the h and λ are the hyperparameters but they do not relate to quantities such as temperature, pollution concentration, etc., which you might encounter in a true parametric model.

This issue was addressed in this lecture as well, it might help to get better understanding.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.