Verileri üstel dağılımlara uyan iki örneğin ortalaması nasıl karşılaştırılır?


10

İki veri örneğim, bir temel örnek ve bir tedavi örneğim var.

Hipotez, tedavi örneğinin başlangıç ​​örneğinden daha yüksek bir ortalamaya sahip olmasıdır.

Her iki örnek de üstel şekildedir. Veriler oldukça büyük olduğundan, testi çalıştıracağım zamanda her örnek için ortalama ve öğe sayısına sahibim.

Bu hipotezi nasıl test edebilirim? Süper kolay olduğunu tahmin ediyorum ve F-Test'i kullanmak için birkaç referansla karşılaştım, ancak parametrelerin nasıl eşleştiğinden emin değilim.


2
Verilere neden sahip değilsiniz? Örnekler gerçekten büyükse parametrik olmayan testler harika çalışmalıdır, ancak özet istatistiklerden bir test yapmaya çalıştığınız anlaşılıyor. Bu doğru mu?
Mimshot

Aynı hasta grubundan alınan taban çizgisi ve tedavi değerleri mi yoksa iki grup bağımsız mı?
Michael M

1
@Mimshot, veri akışı, ancak doğru istatistiklerden bir test yapmaya çalıştığım doğru. Normal veriler için bir Z testi ile oldukça iyi çalışır
Jonathan Dobbie

1
Bu koşullar altında, yaklaşık bir z-testi belki de yapabileceğinizin en iyisidir. Bununla birlikte, istatistiksel olarak anlamlı değil, gerçek tedavi etkisinin ne kadar büyük olduğuna daha fazla önem veririm. Unutmayın, yeterince büyük örneklerle, herhangi bir küçük gerçek etki küçük bir p değerine yol açacaktır.
Michael M

1
@january - ancak, örnek boyutları yeterince büyükse, CLT tarafından normal dağılıma çok yakın olacaktır. Sıfır hipotezi altında, varyanslar (araçlarla olduğu gibi) aynı olacaktır, bu nedenle, yeterince büyük bir örneklem büyüklüğü ile, bir t testi iyi çalışmalıdır; tüm verilerle yapabileceğiniz kadar iyi olmayacaktır, ancak yine de iyi olacaktır. , örneğin, oldukça iyi olurdu. n1=n2=100
jbowman

Yanıtlar:


14

Ortalama parametrelerin, olasılık parametrelerinin bir olasılık oranı testi (LR testi) ile eşit olmadığı alternatifine göre eşitliğini test edebilirsiniz. (Ancak, ortalama parametreler farklıysa ve dağılım üstel ise, bu bir konum kaydırma değil, bir ölçek kaydırmadır.)

Tek kuyruklu bir test için (ancak iki kuyruklu durumda sadece asimptotik olarak), LR testinin aşağıdakilere eşdeğer olduğuna inanıyorum (bunun aslında tek kuyruklu için LR testi ile aynı olduğunu göstermek için) birinin LR istatistiğin ) ' da monotonik olduğunu göstermesi gerekir :x¯/y¯

Diyelim ki 1 / μ x exp ( - x i / μ x )i birinci Gözlemi pdf ve ikinci numunedeki j. Gözlemi pdf 1 / μ y exp ( - y j / μ y ) (gözlemler ve parametreler için bariz alanların üzerinde). (Açıkça söylemek gerekirse, burada oran biçiminde değil ortalama formda çalışıyoruz; bu hesaplamaların sonucunu etkilemez.)1/μxexp(xi/μx)j1/μyexp(yj/μy)

dağılımı gama için özel bir durum olduğundan, Γ ( 1 , μXi , toplamı dağılımı X 'in, S x dağıtılır y ( n x , μ X ) ; Benzer toplamı olduğu , Y s, S -Y olan Γ ( n- y , μ y ) .Γ(1,μx)XSxΓ(nx,μx)YSyΓ(ny,μy)

Gama dağılımları ve ki-kare dağılımları arasındaki ilişki nedeniyle, χ 2 2 n x dağıtıldığı ortaya çıkmaktadır . İki ki-karenin serbestlik derecelerine oranı F'dir. Bu nedenle, μ y oranı2/μxSxχ2nx2.μyμxSx/nxSy/nyF2nx,2ny

araç eşitliği hipotezi altında, ˉ x / ˉ yF 2 n x , 2 n y ve iki taraflı alternatifin altında, değerler sıfır dağılımından bir değerden daha küçük veya daha büyük olabilir , bu yüzden iki kuyruklu bir teste ihtiyacınız var.x¯/y¯F2nx,2ny


Cebirde basit bir hata yapmadığımızı kontrol etmek için simülasyon:

Burada aynı ortalama ile üstel bir dağılımdan için 30 ve Y için 20 büyüklüğünde 1000 numune simüle ettim ve yukarıdaki ortalamalar oranı istatistiğini hesapladım.XY

Aşağıda, sonuçta elde edilen dağılımın bir histogramının yanı sıra null altında hesapladığımız dağılımını gösteren bir eğri bulunmaktadır :F

null altında oran istatistiğinin simüle edilmiş örnek dağılımı


Örnek, iki kuyruklu p-değerlerinin hesaplanması tartışması ile :

Hesaplamayı göstermek için, üstel dağılımlardan iki küçük örnek. X-örneğinin ortalama 10 olan bir popülasyondan 14 gözlemi vardır, Y-örneğinin ortalama 15 olan bir popülasyondan 17 gözlemi vardır:

x: 12.173  3.148 33.873  0.160  3.054 11.579 13.491  7.048 48.836 
   16.478  3.323  3.520  7.113  5.358

y:  7.635  1.508 29.987 13.636  8.709 13.132 12.141  5.280 23.447 
   18.687 13.055 47.747  0.334  7.745 26.287 34.390  9.596

Numune araçları sırasıyla 12.082 ve 16.077'dir. Ortalama oranı 0.7515

Soldaki alan basittir, çünkü alt kuyruktadır (R'de kireç):

 > pf(r,28,34) 
 [1] 0.2210767

Diğer kuyruk için olasılığa ihtiyacımız var. Eğer dağılım tersine simetrik olsaydı, bunu yapmak kolay olurdu.

F-testi (benzer şekilde iki kuyruklu) varyans oranı ile ortak bir kural, tek kuyruklu p değerini iki katına çıkarmaktır ( burada olduğu gibi etkili bir şekilde ; R'de yapılması gereken bu, örneğin, R ); bu durumda 0.44'lük bir p değeri verir.

α/2α


Sanırım bu sadece benim kalınlığım, ama 0.7515 nereden geliyor?
Jonathan Dobbie

r = ortalama (x) / ortalama (y) = 0.7515 - yani, "Ortalamaların oranı"
Glen_b -Restate Monica

Tamam, harika. 0.67 aldım, ancak bu muhtemelen sadece bir veri giriş hatasından kaynaklanıyor.
Jonathan Dobbie

1
Nüfus ortalamaları ve sonuçta ortaya çıkan örnek anlamlarını daha açık
hale getirdim

(+1) Ama teğet olmasına rağmen, son paragrafı anlamıyorum. Tek kuyruklu p değerini en büyük bulmaya eşdeğer olmayan şekilde iki katına çıkarmakαα2

3

nxlognxxi+nylognyyj(nx+ny)lognx+nyxi+yj
burada
nxlog(nxny+1r)+nylog(nynx+r)+nxlognynx+ny+nylognxnx+ny
r=x¯y¯r=1

rELRrobsPr(R>rELR)Pr ( R > r E L R ) = 0.2142 0.4352 0.4315rELR=1.3272Pr(R>rELR)=0.21420.43520.4315 ).

resim açıklamasını buraya girin

Ancak tek kuyruklu p değerini iki katına çıkarmak, iki kuyruklu bir p değeri elde etmenin belki de en yaygın yoludur: örnek araç oranının değerini bulmakla eşdeğerdir Pr ( R > r E T P ) Pr ( R < r o b s ) Pr ( R > r E T P ) μ x > μ y μ x < μ y μ x > μ y μ x < μ yrETP kuyruk olasılığının olduğu , ve ardından . Bu şekilde açıklandığı gibi, kuyruk olasılıklarının bir test istatistiğinin ekstrüzyonunu tanımlamasına izin vermek için atın önüne koyulmuş gibi görünebilir, ancak iki tek kuyruklu testin (her biri LRT) birden fazla karşılaştırma ile geçerli olduğu gerekçelendirilebilir. düzeltme - ve insanlar genellikle veyaPr(R>rETP)Pr(R<robs)Pr(R>rETP)μx>μyμx<μyμx>μy veya . Aynı zamanda daha az karışıklık ve oldukça küçük örnek boyutları için bile, iki kuyruklu LRT'ye uygun olarak aynı cevabı verir.μx<μy

resim açıklamasını buraya girin

R kodu aşağıdaki gibidir:

x <- c(12.173, 3.148, 33.873, 0.160, 3.054, 11.579, 13.491, 7.048, 48.836,
       16.478, 3.323, 3.520, 7.113, 5.358)

y <- c(7.635, 1.508, 29.987, 13.636, 8.709, 13.132, 12.141, 5.280, 23.447, 
       18.687, 13.055, 47.747, 0.334,7.745, 26.287, 34.390, 9.596)

# observed ratio of sample means
r.obs <- mean(x)/mean(y)

# sample sizes
n.x <- length(x)
n.y <- length(y)

# define log likelihood ratio function
calc.llr <- function(r,n.x,n.y){
  n.x * log(n.x/n.y + 1/r) + n.y*log(n.y/n.x + r) + n.x*log(n.y/(n.x+n.y)) + n.y*log(n.x/(n.x+n.y))
}

# observed log likelihood ratio
calc.llr(r.obs,n.x, n.y) -> llr.obs

# p-value in lower tail
pf(r.obs,2*n.x,2*n.y) -> p.lo

# find the other ratio of sample means giving an LLR equal to that observed
uniroot(function(x) calc.llr(x,n.x,n.y)-llr.obs, lower=1.2, upper=1.4, tol=1e-6)$root -> r.hi

#p.value in upper tail
p.hi <- 1-pf(r.hi,2*n.x,2*n.y)

# overall p.value
p.value <- p.lo + p.hi

#approximate p.value
1-pchisq(2*llr.obs, 1)
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.