Neden Kolmogorov-Smirnov testini 2 veya daha fazla boyuta genelleştiremiyoruz?


10

Soru her şeyi söylüyor. Her ikisini de KS'yi ikiye eşit veya daha büyük bir boyuta genelleştiremediğini ve Sayısal Tarifler'deki gibi ünlü uygulamaların yanlış olduğunu okudum . Neden böyle olduğunu açıklar mısınız?


Makalenin alıntı (cevabımda) bölümüne dayanarak bazı etiketler (iki değişkenli, ampirik ve cdf) ekledim.
Glen_b

pedrofigueira - Cevabımda önemli değişiklikler yaptım (orijinalim yanlıştı; bunun için üzgünüm). Muhtemelen daha fazla düzenleme yapacağım çünkü birkaç çok değişkenli KS testine referanslarla geri dönmeyi planlıyorum.
Glen_b

@Glen_b tüm zaman ve çabalarınız için çok teşekkür ederim!
pedrofigueira

Yanıtlar:


13

Söz konusu paragrafın ilgili kısmını alıntılamanın meşru olduğuna inanıyorum:

3. KS testi iki veya daha fazla boyutta uygulanamaz. Gökbilimcilerin genellikle bir çizgi boyunca değil, bir düzlemde veya daha yüksek boyutlarda dağıtılmış noktaları olan veri kümeleri vardır. Astronomik literatürdeki birkaç makale iki boyutlu KS testi sunma iddiasındadır ve biri ünlü cilt Sayısal Tarifler'de çoğaltılmıştır. Bununla birlikte, EDF tabanlı hiçbir test (KS, AD ve ilgili testleri içerir) iki veya daha yüksek boyutlarda uygulanamaz, çünkü noktaları iyi tanımlanmış EDF'ler arasındaki mesafelerin hesaplanabilmesi için benzersiz bir yol yoktur. Bazı sıralama prosedürüne dayalı bir istatistik oluşturulabilir ve daha sonra iki veri kümesi (veya bir veri kümesi ve bir eğri) arasındaki supremum mesafeleri hesaplanabilir. Ancak ortaya çıkan istatistiğin kritik değerleri dağıtımdan bağımsız değildir.

Belirtildiği gibi, bu çok güçlü görünüyor.

1) İki değişkenli dağıtım işlevi, F(x1,x2)=P(X1x1,X2x2) bir harita R2 için [0,1]. Yani, işlev 0 ile 1 arasında tek değişkenli gerçek değerler alır . Bu değerler - olasılıklar - kesinlikle "sipariş edilir" - ve bu (işlevin değeri) ECDF tabanlı testler için karşılaştırmalar yapmamız gereken şeydir. . Benzer şekilde, ecdf,F^ iki değişkenli durumda mükemmel bir şekilde tanımlanmıştır.

Metnin önerdiği gibi, tek değişkenli bir değişkenin bazı fonksiyonlarına dönüştürmeye çalışmanın bir gereklilik olduğunu düşünmüyorum. Siz sadece hesaplayınF ve F^ gereken her kombinasyonda ve farkı hesaplayın.

2) Ancak, dağıtımdan bağımsız olup olmadığı sorusunda bir anlamı vardır:

a) Açıkçası böyle bir test istatistiği, iki değişkenli bağımsız üniformaların bir testi olarak inşa edildiğinde, marjların dönüşümlerindeki değişikliklerle değiştirilmeyecektir, U=(U1,U2), daha sonra bağımsız bir test olarak eşit derecede iyi çalışır (X1,X2) nerede Ui=Fi(Xi). Bu anlamda dağıtımdan yoksun ('marjsız' diyebiliriz).

b) bununla birlikte, daha genel anlamda KS istatistiğinin naif bir versiyonunun (daha önce tarif ettiğim gibi) daha genel olarak dağıtımdan özgür olmadığı temel bir nokta vardır; basitçe dönüşemeyizU keyfi olarak X=g(U).

Cevabımın önceki bir versiyonunda dedim ki:

Zorluk yok, sorun yok

Bu yanlış. Daha önce de belirtildiği gibi, iki değişkenli bağımsız üniformaların marjlarında bir değişiklik olmadığı takdirde gerçekten de sorunlar var. Bununla birlikte, bu zorluklar, Kolmogorov-Smirnov istatistiklerinin bu sorundan muzdarip olmayan iki değişkenli / çok değişkenli versiyonlarını veren birkaç makalede çeşitli şekillerde ele alınmıştır.

Geri dönüp bu referanslardan bazılarını ve zamanın izin verdiği anda nasıl çalıştıklarını tartışabilirim.


Bu cevap açıkça doğrudur, ancak dikkat: KS testinin kullanılabileceği, kullanılması gerektiği anlamına gelmez. Genellikle çok daha iyi testler (daha güçlü) vardır.
kjetil b halvorsen

Kesinlikle - hangi alternatiflerin ilgisine bağlı olduğuna rağmen.
Glen_b-Monica'yı

1
Bu cevabı tam olarak anlamıyorum. Birçok astronomik veri kümesinin (ve diğer birçok küçük boyutlu veri kümesinin) özünde anlamlı koordinat sistemleri ile gelmediğini düşünüyorum. Bu nedenle, puanların "önceden sipariş edildiği" iddiası bu gibi durumlarda geçersiz olacaktır. KS istatistiğinin yerleri tanımlamak için kullanılan koordinatlardan bağımsız olduğunu gösterebiliyorsanız kurtarılabilir . Bunun iki veya daha fazla boyutta doğru olduğunu düşünmüyorum, ama yanılmış olabilirim.
whuber

1
@whuber Hatayla ilgili çok nazik tepkilerin ışığında önemli değişiklikler yaptım. Uzun vadede daha yararlı olacak bir cevap verme umuduyla referanslar ve daha fazla ayrıntı eklediğim için muhtemelen daha fazla değişiklik yapacağım.
Glen_b

(+1) Bu yanıtı genişlettiğiniz ve daha nüanslı yaptığınız için çok teşekkür ederiz Glen. Her ne kadar OP'nin şüpheli kalite referansını bulsam da (başlangıçta hipotez testlerinin ne anlama geldiğini yanlış yorumlar), sonunda "önyükleme kurtarmaya gelebilir ve belirli çok boyutlu istatistik ve çalışma altındaki belirli veri kümesi için önem düzeylerinin olabileceğini itiraf eder. sayısal olarak hesaplanır. " Bu, en azından ruhsal olarak, cevabınızın nasıl şekillendiği ile uyumlu görünüyor.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.