Kolmogorov'un dağılımlar arasındaki uzaklığı için motivasyon


45

İki olasılık dağılımının ne kadar benzer olduğunu ölçmenin birçok yolu vardır. Popüler olan yöntemler arasında (farklı çevrelerde):

  1. Kolmogorov mesafesi: dağıtım fonksiyonları arasındaki sup-mesafe;

  2. Kantorovich-Rubinstein mesafe: beklentileri arasındaki maksimum fark Lipschitz sabit fonksiyonların iki dağılımları wrt 1 de olduğu ortaya çıkıyor, L1 dağılım fonksiyonları arasındaki mesafe;

  3. Sınırlı Lipschitz mesafesi: KR mesafesi gibi ancak fonksiyonların da en fazla değere sahip olması gerekir 1.

Bunların farklı avantajları ve dezavantajları vardır. Yalnızca 3. anlamda yakınsaklık aslında tam olarak dağılımdaki yakınlaşmaya karşılık gelir; 1. veya 2. anlamında yakınsama genel olarak biraz daha güçlüdür. (Özel olarak, Xn=1n olasılıkla1, daha sonraXnyakınsak için0Kolmogorov mesafe dağıtım değil. Ancak, eğer limit dağılımı sürekli ise, bu patoloji oluşmaz.)

Temel olasılık veya ölçü teorisi perspektifinden bakıldığında, 1. çok doğaldır çünkü bazı kümelerde olma ihtimallerini karşılaştırır. Öte yandan, daha karmaşık bir olasılık perspektifi, olasılıklardan çok beklentilere odaklanma eğilimindedir. Ayrıca, işlevsel analiz perspektifinden bakıldığında, bazı işlev alanlarına sahip dualiteye dayalı 2. veya 3. gibi mesafeler çok çekicidir, çünkü böyle şeylerle çalışmak için geniş bir matematiksel araç seti vardır.

Bununla birlikte, benim izlenim (yanlış olduğumda beni düzelt!) İstatistiklerde, Kolmogorov mesafesinin dağılımların benzerliğini ölçmenin genellikle tercih edilen bir yolu olduğu yönündedir. Bir nedeni tahmin edebilirim: eğer dağıtımlardan biri sonlu destekle ayrıksa - özellikle, bazı gerçek dünya verilerinin dağılımı ise - o zaman Kolmogorov'un model dağıtımına olan mesafesini hesaplamak kolaydır. (KR mesafesini hesaplamak biraz zor olurdu ve BL mesafesi pratik açıdan muhtemelen imkansız olurdu.)

Öyleyse benim sorum (nihayet), Kolmogorov mesafesini (veya başka bir mesafeyi) istatistiksel amaçlarla desteklemek için pratik veya teorik olarak başka sebepler var mı?


1
Soruyu beğendim, sorudaki olası cevapların çoğu zaten olabilir ... İstediğiniz cevap / gelişme türü hakkında bir fikriniz var mı?
robin girard

1
Çok spesifik değil. İstatistikleri oldukça görmezden geliyorum ve sormamın nedenlerinden biri, istatistikçilerin farklı ölçütler arasında seçim yapmak için hangi kriterleri kullanacaklarını öğrenmek. Zaten 1'in önemli bir pratik avantajını açıkladığımdan beri (gerçekten hesaplayabilirsiniz) Özellikle teorik motivasyonlarla ilgileniyorum. Söylesene, uygulamalarda doğrudan kullanılan Kolmogorov mesafesi tahminleriyle sağlanan bilgiler var mı?
Mark Meckes

Önceki yorumumu daha az ya da çok belirgin olarak bitirmeyi unuttum: ve öyleyse nasıl?
Mark Meckes

Sadece yukarıdaki uzun yorumumu tekrar okudum ve ortaya çıkardığım son sorunun teorik kadar pratik bir düşünce olduğunu anladım. Her durumda, öğrenmek istediğim konulardan biri de bu.
Mark Meckes

Kapsamlı olmak istemediğinizi biliyorum ama Anderson sevgilim istatistiklerini ekleyebilirsiniz (bakınız en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Bu bana bir kâğıt fromo hatırlatmak Jager ve Wellner (bkz yapılan projecteuclid.org/... (Tukey özellikle yüksek eleştirilere dahil ve) extands / genelleştirir Anderson sevgilim istatistik) ...
robin Girard'ı

Yanıtlar:


12

İşaret,

KS'nin kullanımının farkında olduğumun temel nedeni, tek değişkenli ampirik süreçlerde doğal olarak Glivenko-Cantelli teoremlerinden kaynaklanmış olmasıdır. Tavsiye edebileceğim referanslardan biri AWvan der Vaart "Asimptotik İstatistikler", ch. 19. Daha gelişmiş bir monografi, Wellner ve van der Vaart'ın "Zayıf Yakınsama ve Ampirik Süreçler" dir.

İki hızlı not eklerdim:

  1. Tek değişkenli dağılımlarda yaygın olarak kullanılan bir başka uzaklık ölçüsü, bir L ^ mesafesi olan Cramer-von Mises mesafesidir;
  2. genel olarak vektör uzaylarında farklı mesafeler kullanılır; birçok makalede ilgi alanı ciladır. Çok iyi bir giriş Billingsley'in "Olasılık Önlemlerinin Yakınsaklığı" dır.

Daha spesifik olamadığım için özür dilerim. Umarım bu yardımcı olur.


2
Notlarınızda iki hızlı not. 1. C-vM mesafesi tam olarak Kolmogorov (L ^ sonsuzluk) ve (tek değişkenli) KR (L ^ 1) mesafelerinin kuzenidir ve bu nedenle bunlar arasında enterpolasyon yapar. 2. KR ve BL mesafelerinden bahsetmediğim bir avantaj, daha doğal boyuttaki alanlara daha doğal olarak yayılmalarıdır.
Mark Meckes

1 ile ilgili olarak, bu doğru. İlke olarak, yukarıdaki mesafelerin tümü R ^ n'ye geçebilir, ancak herhangi bir mesafeye bağlı olarak parametrik olmayan popüler testleri bilmiyorum . Var olup olmadığını bilmek ilginç olurdu.
gappy

8

Hesaplamalı sorunlar, bir şekilde veya diğer olarak duyduğum en güçlü argümandır. Kolmogorov mesafesinin en büyük avantajı, hemen hemen her CDF için analitik olarak hesaplamanın çok kolay olmasıdır. Diğer çoğu uzaklık metrikleri, bazen Gauss durumundakiler dışında, kapalı formlu bir ifadeye sahip değildir.

Bir numunenin Kolmogorov mesafesi aynı zamanda Wiener süreciyle ilgili olan CDF'ye verilen (diğerlerinin çoğunun sandığını sanmıyorum) verilen bir örnekleme dağılımına sahiptir. Bu, bir örneği bir dağılımla veya iki örneği birbiriyle karşılaştırmak için Kolmogorov-Smirnoff testinin temelini oluşturur.

Daha işlevsel bir analiz notunda, sup normu (bahsettiğiniz gibi) temelde homojen bir yakınsama tanımladığı için güzeldir. Bu size nokta yakınsama gösteren norm yakınsamaya neden olur ve böylece fonksiyon dizilerinizi nasıl tanımladığınız konusunda akıllıysanız, bir RKHS içinde çalışabilir ve aynı zamanda sağlayan tüm güzel araçları kullanabilirsiniz.


8

Özet olarak cevabım şudur: açık bir ifadeye sahipseniz veya mesafenizin ne kadarını ölçtüğünü (bunun hangi ağırlıkta "farklılıklar" gösterdiğini) anlayabilirseniz, bunun için neyin daha iyi olduğunu söyleyebilirsiniz. Böyle bir testi analiz etmenin ve karşılaştırmanın diğer bir tamamlayıcı yolu da minimax teorisidir.

Sonunda, bazı testler bazı alternatifler için, bazıları ise bazıları için iyi olacaktır. Belirli bir dizi alternatif için, testinizin en kötü durumda en uygun özelliğe sahip olup olmadığını göstermek bazen mümkündür: bu minimax teorisidir.


Bazı detaylar

Bu nedenle, iki farklı testin özelliklerini, minimax (eğer varsa alternatif) varsa, yani (Donoho ve Jin kelimesini kullanarak), "optimal tespit boudaları" http: // ile karşılaştırarak, kendilerine minimax olan alternatif seti ile ilgili olarak anlatabilirsiniz. projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .

Mesafeye göre mesafe bırakalım:

  1. KS mesafesi, ampirik cdf ve cdf arasındaki farkın üstünlüğünü hesaplayarak elde edilir. Supremum olarak yerel alternatiflere (cdf'de yerel değişim) karşı oldukça duyarlı olacak, ancak küresel değişime (en azından cdf arasındaki L2 mesafesini kullanmak daha az yerel olacaktır (açık kapı mı açıyorum?)). Ancak, en önemli şey, cdf kullanan olmasıdır. Bu bir asimetriye işaret eder: dağıtım kuyruğundaki değişikliklere daha fazla önem veriyorsunuz.

  2. Wassertein metrik (Kantorovitch Rubinstein ile ne kastediyorsunuz?) Http://en.wikipedia.org/wiki/Wasserstein_metric her yerde bulunur ve bu nedenle karşılaştırmak zordur.


Cevabı tamamladığım yorumu hatırlamak ve genişletmek için:

Kapsamlı olmak istemediğinizi biliyorum ama Anderson sevgilim istatistiklerini ekleyebilirsiniz (bkz. Http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Bu bana, Jager ve Wellner’den bir makaleyi hatırlattı (bkz. Http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) Tukey'nin daha yüksek eleştirisi). Daha yüksek eleştirinin zaten çok çeşitli alternatifler için minimax olduğu gösterildi ve aynısı Jager ve Wellner tarafından uzatıldı. Kolmogorov testi için minimax özelliğinin gösterildiğini sanmıyorum. Her neyse, testinizin hangi tür alternatif için olduğunu anlamak minimax, gücünün nerede olduğunu bilmenize yardımcı olur, bu yüzden yukarıdaki makaleyi okumalısınız.


1
Evet, Kantorovitch-Rubinstein mesafesi dediğim şeye L ^ 1 Wasserstein mesafesi veya W1 de denir. Diğer birçok isimde de geçerli.
Mark Meckes

3
Sadece bunu okuyan Wasserstein mesafelerine aşina olmayan ve net cevap vermeyenleri açıklığa kavuşturmak için: L ^ 2 Wasserstein mesafesi (W2), Cramer-von Mises mesafesi ile aynı değildir .
Mark Meckes

4

FF

FF^

supx|Fn(x)F^(x)|.
F^F^=F

3

Kolmogorov-Smirnov testini kullanmak için ek nedenler veremem. Ancak, kullanmamak için size önemli bir neden verebilirim. Dağıtım kuyruğuna uymuyor. Bu bakımdan, üstün bir dağıtım uydurma testi Anderson-Darling'dir. En iyi ikinci olarak, Chi Square testi oldukça iyi. Her ikisi de bu konuda KS testinden çok daha üstün kabul edilir.


2

Fonksiyonel analiz ve ölçü teorisi açısından tipi mesafeler, fonksiyon uzayları üzerinde ölçülebilir kümeler tanımlamamaktadır (metrik bilyalı kaplamalarda sayılabilir sonsuz boyutlu boşluklar sayılabilir katı katkı maddesi). Bu, 2 ve 3 numaralı seçeneklerin mesafelerinin her türlü ölçülebilir yorumunu kesin olarak diskalifiye eder.Lp

Elbette, Kolomogorov, gönderdiğimiz her şeyden daha parlak olmak, özellikle de kendim de dahil olmak üzere, bunu öngördü. Akıllı bit, KS testindeki mesafe olmasına rağmen , tek tip normun ölçülebilir kümeleri tanımlamak için kullanılmamasıdır. Aksine, kümeler gözlenen değerlerde değerlendirilen dağılımlar arasındaki farklar üzerine stokastik bir filtrasyonun parçasıdır; durma zamanı problemine eşdeğerdir.L0

Kısacası, seçim 1'in üniform norm mesafesi tercih edilir, çünkü ima ettiği test, kendi başına hesaplanabilir izlenebilir olasılıklar üreten durma süresi problemine eşdeğerdir. Seçenek 2 ve 3'ün ölçülebilir işlev altkümelerini tanımlayamadığı yerler.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.