Maksimum Ortalama Tutarsızlık (mesafe dağılımı)


15

Farklı dağılımı takip eden iki veri setim (kaynak ve hedef veriler) var. Kaynak ve hedef veriler arasındaki marjinal dağılımı hesaplamak için MMD - bu parametrik olmayan bir mesafe dağılımı - kullanıyorum.

kaynak veri, Xs

hedef veriler, Xt

adaptasyon Matrix A

* Yansıtılan veriler, Zs = A '* Xs ve Zt = A' Xt

* MMD => Mesafe (P (Xs), P (Xt)) = | ortalama (A'Xs) - ortalama (A ' Xt) |

Bunun anlamı: Orijinal boşluktaki kaynak ve hedef veriler arasındaki dağılımın, gömülü alandaki yansıtılan kaynak ve hedef veriler arasındaki mesafeye eşit olmasıdır.

MMD kavramı hakkında bir sorum var.

MMD formülünde, neden gizli boşluktaki hesaplama mesafesiyle, dağılımın orijinal boşluktaki mesafesini ölçebiliriz?

Teşekkürler


Henüz bir soru sormadınız: Bize sadece kafanızın karıştığını söylediniz!
whuber

Yanıtlar:


44

MMD hakkında biraz daha genel bilgi vermek faydalı olabilir.

Genel olarak MMD, dağılımlar arasındaki mesafelerin , özelliklerin ortalama yerleştirmeleri arasındaki mesafeler olarak temsil edilmesi fikri ile tanımlanır . Olduğunu biz dağılımları söylüyorlar ve kümesi üzerinde . MMD, özellik eşlemesi ile tanımlanır ; burada , çoğaltma çekirdeği Hilbert alanı olarak adlandırılır. Genel olarak, MMD PQX φ:XHH

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

Bir örnek olarak ve . Bu durumda: böylece bu MMD iki dağıtımın ortalamaları arasındaki mesafedir. Bu şekilde eşleşen dağılımlar, varyanslarında veya başka şekillerde farklılık gösterse de araçlarıyla eşleşir.X=H=Rdφ(x)=x

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,

Durumunuz biraz farklı: ve , , burada bir matrisidir. Bu yüzden Bu MMD, ortalamanın iki farklı projeksiyonu arasındaki farktır. Eğer ya da eşlem aksi takdirde ters çevrilebilir değildir,X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
p<dA öncekinden daha fazla: bir öncekinin yaptığı bazı dağılımları ayırt etmez.

Ayrıca daha güçlü mesafeler de oluşturabilirsiniz. Örneğin, ve , MMD ve sadece farklı yollarla değil, farklı varyanslarla da dağılımları ayırt edebilir.X=Rφ(x)=(x,x2)(EXEY)2+(EX2EY2)2

Ve bundan çok daha güçlü olabilirsiniz: genel üreme çekirdeği Hilbert uzayına eşlenirse, MMD'yi hesaplamak için çekirdek hile uygulayabilirsiniz ve Gauss çekirdeği de dahil olmak üzere birçok çekirdek MMD'ye yol açar ve sadece dağılımlar aynı ise sıfırdır.φ

Özellikle, , ; örneklerle doğrudan tahmin edebilirsiniz.k(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y)H2EXPφ(X),EYQφ(Y)H=EX,XPk(X,X)+EY,YQk(Y,Y)2EXP,YQk(X,Y)


Güncelleme: Burada addaki "maksimum" değeri geliyor.

özellik eşlemesi , çoğaltılmış bir Hilbert uzayına eşlenir. Bunlar işlev alanlarıdır ve bir anahtar özelliği ( reproducing özelliği olarak adlandırılır) karşılar : herhangi bir .φ:XHf,φ(x)H=f(x)fH

En basit örnekte, ile , her görüntülemek işlevi bazı karşılık gelen ile, . Sonra çoğaltma özelliği mantıklı olmalıdır.X=H=Rdφ(x)=xfHwRdf(x)=wxf,φ(x)H=w,xRd

Gauss çekirdeği gibi daha karmaşık ortamlarda çok daha karmaşık bir işlevdir, ancak çoğaltma özelliği hala geçerlidir.f

Şimdi, alternatif bir karakterizasyonunu verebiliriz: İkinci satır, Hilbert uzaylarındaki normlar hakkında genel bir gerçektir:

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
supf:f1f,gH=g , ile elde edilir . Dördüncü, Bochner entegrasyonu olarak bilinen teknik bir koşula bağlıdır, ancak örneğin sınırlı çekirdekler veya sınırlı destekli dağıtımlar için geçerlidir. Sonunda reproducing özelliğini kullanıyoruz.f=g/g

Bu son satır neden "maksimum ortalama tutarsızlık" olarak adlandırılır - bu iki dağılım arasındaki ortalama farkın birim topundaki maksimum, aşırı test fonksiyonları .fH


Açıklamanız için teşekkürler, bu benim için daha açık hale geliyor; Yine de bu kavramı alamadım, Başlangıçta, dediniz ki: "MMD, dağılımlar arasındaki mesafeleri, özelliklerin ortalama süslemeleri arasındaki mesafeler olarak temsil etme fikri ile tanımlanır." Bu fikir neden gerçekleşiyor?
Mahsa

"MMD, dağılımlar arasındaki mesafeleri, özelliklerin ortalama yerleştirmeleri arasındaki mesafeler olarak temsil etme fikri ile tanımlanır." Bu fikir neden gerçekleşiyor? RKHS alanı ile ilgili mi?
Mahsa

1
Bu sadece bir tanım: dağılımları ortalamalarını karşılaştırarak karşılaştırabilirsiniz. Ya da dağılımlarını, araçlarının bazı dönüşümlerini karşılaştırarak karşılaştırabilirsiniz; veya araçlarını ve varyanslarını karşılaştırarak; veya RKHS'deki bir harita da dahil olmak üzere diğer herhangi bir özellik haritasının ortalamasını karşılaştırarak.
Dougal

Yanıtınız için teşekkürler; RKHS özellik haritası hakkında daha fazlasını okuyacağım; Merak ediyorum, neden MMD tanımlanmış mesafe RKHS özellik haritasında? Yani, MMD mesafe tanımlamasında RKHS'nin faydası nedir?
Mahsa

Buradaki açıklama, "Maksimum Ortalama Tutarsızlık" yerine "Ortalama Tutarsızlık" üzerine odaklanmıştır. Herkes "Maksimizasyon" bölümünü ayrıntılı olarak açıklayabilir mi?
Jiang Xiang

5

MMD'yi şöyle yorumladım. Anları benzerse iki dağılım benzerdir. Bir çekirdek uygulayarak, değişkeni tüm momentlerin (birinci, ikinci, üçüncü vb.) Hesaplanacağı şekilde dönüştürebilirim. Gizli alanda, momentler arasındaki farkı hesaplayabilir ve ortalayabilirim. Bu, veri kümeleri arasındaki benzerlik / farklılığın bir ölçüsünü verir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.