Birkaç boyutta tekdüzelik nasıl test edilir?


13

Eşitliği test etmek yaygın bir şeydir, ancak çok boyutlu bir nokta bulutu için bunu yapmanın yöntemlerinin ne olduğunu merak ediyorum.


İlginç soru. Bağımsız girişleri mi düşünüyorsunuz?

1
@Prostrastinator Şu an bu noktayı düşünüyorum. Bağımsızlık olmadan tekdüzelik olup olmadığını anlamaya çalışmak. Herhangi bir ipucu açığız.
gui11aume

4
Evet, bağımsızlık olmadan tekdüzeliğe sahip olmak mümkündür. Örneğin, birim örnek üniform bir ızgara üreterek -cube £ değerinin -cubes kapsayan R , n ve bir muntazam dağılımına göre aslına mahsup ε küp. Birim küpün içine düşen ϵ- küplerinin merkezlerini koruyun . İsterseniz, rastgele alt örnekleyin. Tüm puanların eşit seçilme şansı vardır: dağılım eşittir. Sonuç da tekdüze görünüyor, ama hiçbir iki nokta mesafe içinde olabilir çünkü £ değerinin birbirinden açıkçası noktaları bağımsız değildirler. nϵRnϵϵϵ
whuber

Yanıtlar:


14

ρnρnρnartar - çoğu uygulamada null K fonksiyonu için simülasyon yoluyla bir güven bandı kurulur ve gezileri tespit etmek için gözlenen K fonksiyonu fazla çizilir. Bazı düşünce ve deneyimlerle, geziler belirli mesafelerde kümelenme eğilimleri açısından yorumlanabilir.

Şekil 1

L(ρ)ρ

R3

Rkestk3estn=2n=3stats::dist


Brownian köprüsü ve bağlandığınız cevapta gösterdiğiniz araziler arasındaki ilişkiyi hiç anladınız mı?
gui11aume

13

Sorunun düşündüğümden daha zor olduğu ortaya çıktı. Yine de ödevimi yaptım ve etrafa baktıktan sonra, Ripley'in işlevlerine ek olarak çeşitli boyutlarda tekdüzelik test etmek için iki yöntem buldum.

Her unfiki testi de uygulayan bir R paketi yaptım . Sen indirebilirsiniz github de https://github.com/gui11aume/unf . Büyük bir kısmı C'dir, bu nedenle makinenizde derlemeniz gerekecektir R CMD INSTALL unf. Uygulamanın dayandığı makaleler pakette pdf formatındadır.

χ2

library(unf)
set.seed(123)
# Put 20 points uniformally in the 5D hypercube.
x <- matrix(runif(100), ncol=20)
liang(x) # Outputs the p-value of the test.
[1] 0.9470392

İkinci yaklaşım daha az konvansiyoneldir ve minimum yayılan ağaçlar kullanır . İlk çalışma, iki çok değişkenli numunenin aynı dağıtımdan gelip gelmediğini test etmek için 1979'da Friedman ve Rafsky tarafından (pakette referans olarak) gerçekleştirildi. Aşağıdaki görüntü prensibi göstermektedir.

tekdüzelik

İki değişkenli örnekten alınan noktalar, orijinal örneklerine (sol panel) bağlı olarak kırmızı veya mavi olarak çizilir. İki boyutta toplanan örneğin minimum yayılma ağacı hesaplanır (orta panel). Bu, minimum kenar uzunluğu toplamına sahip ağaçtır. Ağaç, tüm noktaların aynı etiketlere sahip olduğu alt ağaçlarda ayrıştırılır (sağ panel).

Aşağıdaki şekilde, sağdaki panelde de görebileceğiniz gibi, işlemin sonunda ağaç sayısını azaltan mavi noktaların toplandığı bir durum gösteriyorum. Friedman ve Rafsky, bir test yapılmasına izin veren süreçte elde edilen ağaç sayısının asimptotik dağılımını hesapladılar.

tekdüzelik olmayan

Çok değişkenli bir numunenin homojenliği için genel bir test oluşturma fikri 1984 yılında Smith ve Jain tarafından geliştirildi ve C'de Ben Pfaff (pakette referans) tarafından uygulandı. İkinci numune, ilk örneğin yaklaşık dışbükey gövdesinde eşit olarak üretilir ve Friedman ve Rafsky'nin testi iki örnek havuzunda gerçekleştirilir.

Yöntemin avantajı, sadece hiperküp üzerinde değil, her dışbükey çok değişkenli şekil üzerinde homojenliği test etmesidir. Güçlü dezavantaj, testin rastgele bir bileşene sahip olmasıdır, çünkü ikinci numune rastgele üretilir. Elbette, tekrarlanabilir bir cevap almak için testi tekrarlayabilir ve sonuçları ortalayabilir, ancak bu kullanışlı değildir.

Önceki R oturumu devam ederken, işte böyle devam ediyor.

pfaff(x) # Outputs the p-value of the test.
pfaff(x) # Most likely another p-value.

Kodu github'dan kopyalamak / çatallamaktan çekinmeyin.


1
Harika bir bakış, teşekkür ederim! Gelecek nesiller için de bu makaleyi yararlı bir "pratik" özet olarak buldum (hiçbir şekilde yazarlara bağlı değil).
İç

3

(U,Z)UUniform(0,1)Z=U0<p<1W1pWUniform(0,1)U

nnχ2


1
2n

@whuber, minimum hücre sayısının ne olması gerektiğine karar verdiğimizi sanmıyorum ve birkaç boyut mutlaka burada büyük anlamına gelmiyor. Sadece 3 ya da
4'le

5
Kapsamını ve potansiyel uygulanabilirliğini belirlediğinizde, cevabınız tüm okuyucular için daha yararlı hale gelir. (İyi bir istatistiksel danışmanlık ruhu ile alternatif bir strateji,
OP'ye

"O zaman bir \ Chi ^ 2 tekdüzelik testi yapın." - Lütfen bunu genişletebilir misiniz? Wikipedia'da en.wikipedia.org/wiki/Pearson%27s_chi-squared_test'te sadece Chi2 uyum iyiliği, homojenlik ve bağımsızlık testi vardır.
Yaroslav Nikitenko
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.