Sonlu Gauss karışımı ile Gaussian arasındaki mesafe nedir?


12

Bilinen ağırlıkları, ortalamaları ve standart sapmaları olan son derece fazla Gauss'lu bir karışımım olduğunu varsayalım. Araçlar eşit değildir. Tabii ki karışımın ortalama ve standart sapması hesaplanabilir, çünkü momentler bileşenlerin momentlerinin ağırlıklı ortalamalarıdır. Karışım normal bir dağılım değil, normalden ne kadar uzak?

Aynı ortalama ve varyans ile Gaussian'a karşı 2 standart sapma ile ayrılmış Gaussianların karışımı

Yukarıdaki görüntü, standart sapma (bileşenlerin) ve aynı ortalama ve varyansa sahip tek bir Gaussian ile ayrılmış bileşen araçları olan bir Gauss karışımı için olasılık yoğunluklarını göstermektedir .2

Aynı ortalama ve varyans ile Gaussian'a karşı 1 standart sapma ile ayrılmış Gaussianların karışımı

Burada araçlar standart sapma ile ayrılır ve karışımı Gaussian'dan gözle ayırmak daha zordur.1


Motivasyon: Bazı tembel insanlarla ölçtükleri bazı normal dağılımlar hakkında hemfikir değilim, çünkü bu normale yakın. Ben de tembelim. Ben de dağılımları ölçmek istemiyorum. Varsayımlarının tutarsız olduğunu söyleyebilmek istiyorum, çünkü Gauss'luların farklı araçlarla sınırlı bir karışımının doğru olmayan bir Gaussian olduğunu söylüyorlar. Sadece kuyruğun asimptotik şeklinin yanlış olduğunu söylemek istemiyorum, çünkü bunlar sadece ortalamanın birkaç standart sapması içinde makul olarak doğru olması gereken yaklaşımlardır. Bileşenler normal dağılımlarla iyi bir şekilde yakınsa, karışımın olmadığını ve bunu ölçmek istediğimi söylemek isterim.


Kullanılacak normallikten doğru mesafeyi bilmiyorum: CDF'ler arasındaki farkların üstünlüğü, mesafesi, yer değiştiricinin mesafesi, KL sapması, vb. Bunlardan herhangi biri açısından sınırlar almaktan memnuniyet duyarım, veya diğer önlemler. Gauss'a olan uzaklığı, karışımla aynı ortalama ve standart sapma ile veya herhangi bir Gaussian ile minimum mesafeyi bilmek mutlu olurum. Eğer yardımcı olursa, karışımın Gausslu olduğu durumuyla kısıtlayabilirsiniz, böylece daha küçük ağırlık 4'ten daha büyük olur .L121/4


2
Bir karışım nrmal'e çok yakınsa, normal bir yaklaşım kullanmak tembellik değildir, basitleştirmedir ve iyi olabilir. Ancak örneğinizde, merkezdeki bir nromalden daha düz, ortada daha yayılmış ve kuyruğa en yakın normal ile karşılaştırıldığında daha kısa bir karışım gösterirsiniz. Sanırım iki cdf arasındaki bir çeşit entegre farka bakmak istersiniz. KS ölçüsü değil çünkü maksimu tutarsızlığı çok büyük olmayabilir, ancak bir bölge üzerindeki ortalama tutarsızlık nispeten büyük olabilir.
Michael R. Chernick

Gauss'luların karışımı için normal bir yaklaşım üzerinde istatistiksel olarak anlamlı kanıtlar olduğunu varsayabilir miyiz? Sadece farkın istatistiksel olarak anlamlı olduğu biliniyorsa, farkın pratik öneme sahip olup olmadığı konusunda endişelenmemiz gerekir. Michaels'ın Anderson-Darling istatistiği gibi bir şey önerisi başlamak için makul bir yer olurdu.
Dikran Marsupial

@Dikran Marsupial: Popülasyon farklı yollara sahip olduğu bilinen alt gruplara ayrılır. Bileşen araçları yüksek doğrulukla bilinir. Bileşen araçları ve bileşen standart sapmaları arasındaki farklar arasındaki oran değişir, ancak bazı ilgilenilen durumlarda ve arasında olabilir , maalesef toplam dağılımın bimodal olmasına neden olmak için yeterli değildir. 1/22
Douglas Zare

3
Gerçekten bir model seçim sorusu soruyorsunuz gibi görünüyor: modele bazı veriler verildiğinde, bir karışıma kıyasla normal dağılımı ne zaman tercih etmelisiniz (veya daha genel olarak, karışım bileşenlerinin sayısını nasıl seçmelisiniz)? Böyle bir soruyu yeniden çerçevelemek, bu sitede birkaç yüz ilgili soruya erişmenizi sağlayacaktır :-).
whuber

@whuber: normale olan mesafe daha sonra karışımı tek Gauss'tan ayırmayı amaçlayan bir testin (ortalama) gücü olarak ifade edilebilir.
Xi'an

Yanıtlar:


9

KL ıraksaması doğal olacaktır çünkü karışımınızın ayrıştığı doğal bir baz dağıtımınız olan tek Gauss'unuz vardır. Öte yandan, probleminizin özel bir durum olduğu iki Gauss karışımı arasındaki KL sapması (veya simetrik 'mesafe' formu) genel olarak zorlayıcı görünmektedir. Hershey ve Olson (2007) , muhtemelen daha kolay sınırlar sunabilecek varyasyonel yöntemler de dahil olmak üzere mevcut yaklaşımların makul bir özetine benzemektedir.

Ancak, gerçekten bir karışım olduğunda bir şeyin Gauss olduğunu varsaymanın olumsuz etkileri hakkında bir tartışma yapmak istiyorsanız, o zaman gerçekten ilgilendiğiniz sonuçlar hakkında iyi bir fikre sahip olmak en iyisidir - sadece 'yanlış olmaktan daha spesifik bir şey '(bu @ Michael-Chernick'in noktası). Örneğin, bir testin veya aralığın veya bunun gibi sonuçların sonuçları. Karışımın iki belirgin etkisi, neredeyse garantili olan aşırı dağılım ve maksimizatörleri karıştıracak çok modludur.


1

Yanlış dağıtım spesifikasyonunun sonuçlarını göz önünde bulundurmama izin verin. KL Divergence gibi genel bir mesafe ölçüsü kullanmak yerine, eldeki sonuçlara göre özelleştirilmiş "fark" ölçüsünü değerlendirebilirsiniz.

Örneğin, dağılım risk hesaplaması için kullanılacaksa, örneğin arıza olasılığının yeterince düşük olduğunu belirlemek için, o zaman uygun olan tek şey aşırı kuyruktaki olasılık hesaplamalarıdır. Bu, milyarlarca dolarlık programlarla ilgili kararlarla ilgili olabilir ve ölüm kalım meselelerini içerebilir.

Normal varsayımın en yanlış olduğu yer neresi? Birçok durumda, aşırı kuyruklarda, bu önemli risk hesaplamaları için önemli olan tek yer. Örneğin, gerçek dağılımınız aynı ortalamaya, ancak farklı standart sapmalara sahip Normallerin bir karışımı ise, karışım dağılımının kuyrukları, aynı ortalamaya ve standart sapmaya sahip Normal dağılımın kuyruklarından daha şişmandır. Bu, aşırı kuyruktaki olasılıklar için büyüklük farkının (riskin hafife alınması) kolayca sonuçlanabilir.

UP(XMixture>U)P(XNormal>U)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.