MMD hakkında biraz daha genel bilgi vermek faydalı olabilir.
Genel olarak MMD, dağılımlar arasındaki mesafelerin , özelliklerin ortalama yerleştirmeleri arasındaki mesafeler olarak temsil edilmesi fikri ile tanımlanır . Olduğunu biz dağılımları söylüyorlar ve kümesi üzerinde . MMD, özellik eşlemesi ile tanımlanır ; burada , çoğaltma çekirdeği Hilbert alanı olarak adlandırılır. Genel olarak, MMD
PQX φ:X→HHMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
Bir örnek olarak ve . Bu durumda:
böylece bu MMD iki dağıtımın ortalamaları arasındaki mesafedir. Bu şekilde eşleşen dağılımlar, varyanslarında veya başka şekillerde farklılık gösterse de araçlarıyla eşleşir.X=H=Rdφ(x)=xMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
Durumunuz biraz farklı: ve , , burada bir matrisidir. Bu yüzden
Bu MMD, ortalamanın iki farklı projeksiyonu arasındaki farktır. Eğer ya da eşlem aksi takdirde ters çevrilebilir değildir,X=RdH=Rpφ(x)=A′xAd×pMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp.
p<dA′ öncekinden daha fazla: bir öncekinin yaptığı bazı dağılımları ayırt etmez.
Ayrıca daha güçlü mesafeler de oluşturabilirsiniz. Örneğin, ve , MMD ve sadece farklı yollarla değil, farklı varyanslarla da dağılımları ayırt edebilir.X=Rφ(x)=(x,x2)(EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
Ve bundan çok daha güçlü olabilirsiniz: genel üreme çekirdeği Hilbert uzayına eşlenirse, MMD'yi hesaplamak için çekirdek hile uygulayabilirsiniz ve Gauss çekirdeği de dahil olmak üzere birçok çekirdek MMD'ye yol açar ve sadece dağılımlar aynı ise sıfırdır.φ
Özellikle, ,
; örneklerle doğrudan tahmin edebilirsiniz.k(x,y)=⟨φ(x),φ(y)⟩HMMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
Güncelleme: Burada addaki "maksimum" değeri geliyor.
özellik eşlemesi , çoğaltılmış bir Hilbert uzayına eşlenir. Bunlar işlev alanlarıdır ve bir anahtar özelliği ( reproducing özelliği olarak adlandırılır) karşılar : herhangi bir .φ:X→H⟨f,φ(x)⟩H=f(x)f∈H
En basit örnekte, ile , her görüntülemek işlevi bazı karşılık gelen ile, . Sonra çoğaltma özelliği mantıklı olmalıdır.X=H=Rdφ(x)=xf∈Hw∈Rdf(x)=w′x⟨f,φ(x)⟩H=⟨w,x⟩Rd
Gauss çekirdeği gibi daha karmaşık ortamlarda çok daha karmaşık bir işlevdir, ancak çoğaltma özelliği hala geçerlidir.f
Şimdi, alternatif bir karakterizasyonunu verebiliriz:
İkinci satır, Hilbert uzaylarındaki normlar hakkında genel bir gerçektir:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)].
supf:∥f∥≤1⟨f,g⟩H=∥g∥ , ile elde edilir . Dördüncü, Bochner entegrasyonu olarak bilinen teknik bir koşula bağlıdır, ancak örneğin sınırlı çekirdekler veya sınırlı destekli dağıtımlar için geçerlidir. Sonunda reproducing özelliğini kullanıyoruz.f=g/∥g∥
Bu son satır neden "maksimum ortalama tutarsızlık" olarak adlandırılır - bu iki dağılım arasındaki ortalama farkın birim topundaki maksimum, aşırı test fonksiyonları .fH