Wilcoxon test asimptotik nispi etkinliği neden normal dağıtılmış veriler için Student t-testine kıyasla?


13

Wilcoxon imzalı sıralama testinin asimptotik nispi verimliliğinin (ARE) , veriler normal olarak dağıtılmış bir popülasyondan alınmışsa, Student t testine kıyasla olduğu iyi bilinmektedir . Bu, hem temel tek örneklem testi hem de iki bağımsız örnek için varyant (Wilcoxon-Mann-Whitney U) için geçerlidir. Ayrıca normal veriler için ANOVA F testine kıyasla bir Kruskal-Wallis testinin ARE'sidir.3π0.955

Bu dikkate değer (benim için, " en beklenmedik görünümlerinden biriπ ") ve oldukça basit bir sonucun anlayışlı, dikkat çekici veya basit bir kanıtı var mı?


Görünümünü göz önüne alındığında Normal cdf içinde, görünümü gerçekten olmamalıdır OLAN tüm şaşırtıcı olduğunu. Bir cevabı tehlikeye atacağım ama iyi bir cevap almak biraz zaman alacak. πππ
Glen_b

1
@Glen_b Gerçekten - Daha önce "neden istatistiklerde bu kadar çok görünüyor" tartışması gördüm (gerçi CV'de olup olmadığını hatırlamıyorum) ve "normal dağılım nedeniyle" çok fazla ürün biliyorum , ancak ilk gördüğünüzde hala hoş bir sürpriz. Karşılaştırma için, iki örnekli t-testine karşı Mann-Whitney ARE'si üstel verilerde 3, çift üstelde 1.5 ve üniformda 1'dir - çok daha yuvarlak! 3 / ππ3/π
Silverfish

1
@Silverfish van der Vaart "Asimptotik İstatistikler" sayfa 197 bağladım. Tek örnek için işaret testlerinde t testine göre ARE . 2/π
Khashaa

1
@Silverfish ... ve lojistikte . içeren iyi bilinen ARE'lerden birkaçı (bir veya iki örnek durumda) ve basit sayıların basit sayıları vardır. π(π/3)2π
Glen_b

1
Tek örnekli işaretli sıralama testi için gibi görünüyor . Tek örnekli işaret testi için . Böylece konumumuzu netleştirdik. Bence bu iyi bir işaret. 2 / π3/π2/π
Khashaa

Yanıtlar:


10

Tek örnekli testi, imzalı test ve imzalı rütbe testi için ARE'nin kısa taslağıt

@ Glen_b'in cevabının uzun versiyonunun ARE'nin sezgisel açıklaması ile birlikte iki örnekli işaretli sıralama testi için ayrıntılı analiz içermesini bekliyorum. Bu yüzden türetmenin çoğunu atlayacağım. (bir örnek durumda, eksik ayrıntıları Lehmann TSH'de bulabilirsiniz).

Test Sorunu : , sıfırdan simetrik olan konum modelinden rastgele bir örnek olsun . T-testine göre hipotezi için imzalı testin ARE, imzalı rank testini hesaplayacağız . f ( x - θ ) H 0 : θ = 0X1,,Xnf(xθ)H0:θ=0

Testlerin nispi verimliliğini değerlendirmek için, sadece yerel alternatifler göz önünde bulundurulur, çünkü tutarlı testlerin sabit alternatife karşı 1'e eğilimi vardır. Aşikar olmayan asimptotik güç vermek artış çoğu zaman form olduğu yerel alternatifler sabit, olarak adlandırılır, Pitman sürüklenme bir literatürde. sθn=h/nh

Önümüzdeki görevimiz

  • null altındaki her test istatistiğinin limit dağılımını bul
  • alternatif altında her bir test istatistiğinin limit dağılımını bulmak
  • her testin yerel asimtotik gücünü hesaplar

Test istatistiği ve asimtotik

  1. t-testi ( varlığı göz önüne alındığında ) t n = σdeğerinin altında t n =
    tn=nX¯σ^dN(0,1)under the null
    tn=nX¯σ^dN(h/σ,1)under the alternative θ=h/n
    • bu yüzden asimptotik güç fonksiyonu testtn>zα
      1Φ(zαh1σ)
  2. imzalı test ve yerel asimptotik gücü Sn=1ni=1n1{Xi>0}
    n(Sn12)dN(0,14)under the null 
    n(Sn12)dN(hf(0),14)under the alternative 
    1Φ(zα2hf(0))
  3. işaretli sıra testi ve yerel asimptotik güce sahiptir
    Wn=n2/3i=1nRi1{Xi>0}dN(0,13)under the null 
    WndN(2hf2,13)under the alternative 
    1Φ(zα12hf2)

Bu nedenle, ise standart normal yoğunluğudur ,

ARE(Sn)=(2f(0)σ)2
ARE(Wn)=(12f2σ)2
fARE(Sn)=2/πARE(Wn)=3/π

Eğer [-1,1], ilgili üniform ,fARE(Sn)=1/3ARE(Wn)=1/3

Alternatif altında dağıtımın türetilmesine ilişkin açıklama

Alternatif olarak sınırlayıcı dağılımı türetmenin birçok yolu vardır. Genel bir yaklaşım Le Cam'ın üçüncü lemmasını kullanmaktır. Basitleştirilmiş sürümü belirtiyor

olasılık oranının günlüğü olsun . Bazı istatistik , null altında, ardındanΔnWn

(Wn,Δn)dN[(μσ2/2),(σW2ττσ2/2)]
WndN(μ+τ,σW2)under the alternative

İkinci dereceden ortalama farklılaşabilir yoğunluklar için, lokal asimtotik normallik ve bitişiklik otomatik olarak karşılanır, bu da Le Cam lemmasını ifade eder. Bu null altında sadece hesaplamamız gerekir . itaat LAN olduğu skor fonksiyonu, bilgi matrisidir. Ardından, örneğin, imzalıcov(Wn,Δn)Δn

Δnhni=1nl(Xi)12h2I0
lI0Sn
cov(n(Sn1/2),Δn)=hcov(1{Xi>0},ff(Xi))=h0f=hf(0)

+1 Bu kadar ayrıntıya girmeyecektim (gerçekten, cevabınızı çok güzel bir şekilde kapsayan cevabınızla, muhtemelen şimdi sahip olduğum şeye bir şey eklemeyeceğim), bu yüzden daha fazla ayrıntı koymak isterseniz, don ' hesabımı geri tutma. Henüz birkaç günüm olurdu (ve hâlâ
sizinkinden daha azıyla

Bu özellikle Le Cam'ın lemmasına (+1) eklemek için güzel bir cevaptır. Bana öyle geliyor ki, 1, 2 ve 3'te asimtotiklerin kurulması ile ARE'leri yazdığınız "bu nedenle" bit arasında oldukça büyük bir sıçrama var. Sanırım bunu yazıyor olsaydım, bu noktada asimptotik verimliliği tanımlardım (ya da belki daha önce, bu yüzden 1, 2 ve 3 noktalarının ortaya çıkışı, her durumda sadece yerel asimtotik güçler değil, AE'ler olurdu) gelecekteki okuyucuların izlemesi çok daha kolay olurdu.
Silverfish

Belki de belirtmeye değer mi? Tek taraflı ve iki taraflı vakalar farklı görünümlü asimtotik güçlere sahiptir (ancak aynı ARE'lere yol açsalar da). H1
Silverfish

Cevabımı düzenleyebilir veya OP'ye ekleyebilirsiniz.
Khashaa

1
@Khashaa Teşekkürler. Önümde doğru şeyleri bulduğumda yazınızı düzenleyeceğim. Son denklemdeki ifadesinin anlamını açıklar mısınız?
Silverfish

6

Bunun neden (başkaları tarafından iyi açıklanmıştır) göründüğünü açıklamakla ilgisi yoktur, ancak sezgisel olarak yardımcı olabilir. Wilcoxon testi saflarında bir testidir, oysa parametrik test ham veriler üzerinde hesaplanır. Wilcoxon testinin testine göre etkinliği , iki test için kullanılan puanlar arasındaki korelasyonun karesidir. As için kare korelasyon yakınlaşıyor . Bunu R kullanarak ampirik olarak kolayca görebilirsiniz:πtYtnπ3

n <- 1000000; x <- qnorm((1:n)/(n+1)); cor(1:n, x)^2; 3/pi
[1] 0.9549402
[1] 0.9549297
n <- 100000000; x <- qnorm((1:n)/(n+1)); cor(1:n, x)^2; 3/pi
[1] 0.9549298
[1] 0.9549297

Bu gerçekten çok faydalı bir yorum. Kavramsal olarak yapılması biraz daha yakın mı n <- 1e6; x <- rnorm(n); cor(x, rank(x))^2(açıkçası aynı sonucu veriyor )?
Silverfish


Bu cevap hakkında anlamadığım bir şey , düşük değerleri için korelasyonun daha yüksek olmasıdır (Bence proksimal neden, küçük için kuyrukları çok iyi görmüyoruz ). Saf bir şekilde, Wilcoxon'un nispi verimliliğinin küçük için daha yüksek olduğunu ima ediyor, bu da beni şaşırtıyor ... ?? (Bazı simülasyonlar yapabilirim, ancak (a) kolay bir cevap varsa ... ve (b) bir yerde kavramsal bir noktayı kaçırıyor muyum?)nnn
Ben Bolker

Hatırladığım kadarıyla, Wilcoxon imzalı rütbe testinin ve WMW'nin küçük örnek verimliliği, normal dağılımdaki vardiya alternatiflerindeki asimptotik değerden biraz daha düşüktür.
Glen_b

5

Kısa versiyon: Vardiya alternatifi altında Wilcoxon-Mann-Whitney ile temel neden asimptotik nispi etkinliği (WMW / t) bulmanın burada , null değerindeki ortak yoğunluktur ve ortak varyanstır.12σ2[f2(x)dx]2fσ

Yani normalde, etkin bir şekilde ölçekli bir versiyonudur ; integralinin bir terimi olacaktır; kare olduğunda 'nin kaynağı budur .f2f1ππ

Aynı terim - aynı integrale sahip - ARE'de imzalı rütbe testi için yer alır, bu yüzden aynı değeri alır.

T'ye göre işaret testi için ARE ... ve yine bir vardır.4σ2f(0)2f(0)2π

Yani aslında yorumlarda söylediğim gibi; Wilcoxon-Mann-Whitney için iki örnekli t testine karşı ARE'de, Wilcoxon imzalı rank testi ile tek örnekli t ve işaret testi için tek örnekli t testine karşı (her durumda normal) tam anlamıyla normal yoğunlukta göründüğü için.π

Referans:

JL Hodges ve EL Lehmann (1956),
"t-Testinin Parametrik Olmayan Bazı Rakiplerinin Verimliliği",
Ann. Matematik. Devletçi. , 27 : 2, 324-335.


Payda görünmesi için sezginin açıklamasını seviyorum ; WMW / Wilcoxon integrallerinde Renyi entropisinin ortaya çıkması tesadüf mü? π
Silverfish

@Silverfish dx'in ortaya çıkması kesinlikle tesadüf değildir. Ancak, bunun nedeni Rényi entropisine bağlı olması ya da en azından doğrudan bir bağlantı görmemem. Yine de gerçekten bilmediğim şeylere giriyoruz. f2dx
Glen_b -Monica

@Silverfish için sadece bir Renyi entropisi . Aksi takdirde, milyonlarca farklı yolla ortaya çıkabilen sade eski bir meydan. α=2
abalter
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.