Çok boyutlu dağılımların aynı olup olmadığını test edin


15

Diyelim ki n-boyutlu sürekli değerli vektörlerin iki veya daha fazla örnek popülasyonuna sahibim. Bu numunelerin aynı dağıtımdan olup olmadığını test etmek için parametrik olmayan bir yol var mı? Eğer öyleyse, bunun için R veya python'da bir fonksiyon var mı?


2
Kolmogorov-Smirnov testi, iki dağılımın aynı olup olmadığını test etmek için parametrik olmayan tipik bir araçtır. Buna aşina değilim, ama wikipedia Justel, A., Peña, D. ve Zamar, R'ye atıfta bulunuyor. (1997) Çok değişkenli bir Kolmogorov-Smirnov uyum iyiliği testi, İstatistik ve Olasılık Mektupları, 35 (3), 251-259 . bu testin çok değişkenli bir uzantısı için.
Makro

1
Bunu iki boyutta ele alan bir CV sorusu vardır: stats.stackexchange.com/questions/25946/… . İki boyutta bile, bunu yapmanın standart bir yolu yoktur.
Flounderer

Yanıtlar:


8

Kolmogorov-Smirnov testinin çok değişkenli olmadığını fark ettiğimde, çok değişkenli iki örnek testi üzerinde çok fazla araştırma yaptım. Bu yüzden Chi testine baktım, Hotelling'in T ^ 2, Anderson-Darling, Cramer-von Mises kriteri, Shapiro-Wilk, vb. Dikkatli olmalısınız çünkü bu testlerin bazıları aynı vektörlerle karşılaştırılıyor. uzunluğu. Diğerleri sadece iki örnek dağılımını karşılaştırmak için değil, normalite varsayımını reddetmek için kullanılır.

Önde gelen çözüm, iki numunenin kümülatif dağıtım işlevlerini, şüpheli olabileceğiniz gibi, birkaç hesaplama içeren bir numunenin tek bir çalışması için dakikalar sırasına göre, hesaplama açısından yoğun olan tüm olası siparişlerle karşılaştırıyor gibi görünüyor:

https://cran.r-project.org/web/packages/Peacock.test/Peacock.test.pdf

Xiao'nun belgelerinde belirtildiği gibi, Fasano ve Franceschini testi Peacock testinin bir varyantıdır:

http://adsabs.harvard.edu/abs/1987MNRAS.225..155F

Fasano ve Franceschini testi özellikle daha az hesaplama açısından daha yoğun olma amaçlıydı, ancak R'deki çalışmalarının bir uygulamasını bulamadım.

Tavus kuşu ile Fasano ve Franceschini testinin hesaplamalı yönlerini keşfetmek isteyenler için, iki boyutlu Kolmogorov – Smirnov testi için Hesaplamalı olarak verimli algoritmalar


Çok değişkenli kümülatif dağılım nedir?
Aksakal

2
@Aksakal , kadar genellemeler ile değişir ve çok değişkenli ampirik kümülatif dağılım işlevi benzer şekilde tahmin edilir . p F ( x , y ) = n i = 1 I ( X i < x , Y i < y ) / nF(x,y)=P(X<x,Y<y)pF(x,y)=i=1nI(Xi<x,Yi<y)/n
AdamO

2
Güzel ve özlü AdamO. Tavus kuşu testi, Fasano ve Franceschini'nin yaptığı gibi budama yapmama konusunda aptalca görünüyor. Birinin R için bir gün kodlamaya karar vermesini umalım. Belki de kategorik bir değişken tarafından daha fazla ayrıştırılmış kayıtlarınız olduğunda ve ayrışmalarınızın aslında farklı dağıtımlardan çekilip çizilmediğini görmek istiyorsanız özellikle hız için yararlıdır.
L Fischman


1

Evet, iki çok değişkenli numune aynı eklem dağılımından geliyorsa parametrik olmayan test yöntemleri vardır. L Fischman'ın bahsettiği ayrıntıları hariç tutacağım . Sorduğunuz temel sorun 'İki Örnekli Problem' olarak adlandırılabilir ve şu anda Makine Öğrenim Araştırmaları Dergisi ve İstatistik Yıllıkları ve diğerleri gibi dergilerde iyi bir araştırma devam etmektedir . Bu sorun hakkında çok az bilgimle, aşağıdaki gibi yön verebilirim

  • Çok değişkenli numune setlerini test etmenin yeni bir yolu Maksimum Ortalama Tutarsızlık (MMD); ilgili literatür: Arthur Gretton 2012 , Bharath 2010 ve diğerleri. İlgili diğer yöntemler bu araştırma makalelerinde bulunabilir. İlgileniyorsanız, bu sorundaki en son teknolojinin büyük bir resmini elde etmek için lütfen bu makalelere atıfta bulunan makaleleri inceleyin. Ve EVET, bunun için R uygulamaları var.

İlginiz, çeşitli nokta setlerini (örnek setler) referans noktası setiyle karşılaştırmaksa, referans nokta setine ne kadar yakın olduklarını görmek için f-diverjansını kullanabilirsiniz .

  • Bunun popüler bir özel durumu Kullback-Leibler Divergence . Bu birçok makine öğrenimi rejiminde kullanılır. Bu yine iki np yolunda yapılabilir; parzen pencere (çekirdek) yaklaşımı ve K-En Yakın Komşu PDF tahmin edicileri aracılığıyla.

Yaklaşmanın başka yolları da olabilir, bu cevap hiçbir şekilde sorunuzun kapsamlı bir tedavisi değildir;)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.