Normal dağılmış rastgele değişkenlerin oranlarında önemli fark olup olmadığını test edin


10

İlgili değişkenler oranlarını analiz ve nasıl iki normal dağılım değişkenlerin oranı, ya da bir tersini parameterize? .

Her biri kabaca normal olduğunu kabul edebileceğimiz dört farklı sürekli rasgele dağılımdan birkaç örneğim olduğunu varsayalım. Benim durumumda, bunlar hem şifrelemeli hem de şifrelemesiz iki farklı dosya sisteminin (örneğin, ext4 ve XFS) bazı performans metriklerine karşılık gelir. Metrik, örneğin saniyede oluşturulan dosya sayısı veya bazı dosya işlemleri için ortalama gecikme olabilir. Bu dağıtımlardan alınan tüm numunelerin her zaman kesinlikle olumlu olacağını varsayabiliriz. Bu dağıtımları diyelimPerffstype,encryption nerede fstype{xfs,ext4} ve encryption{crypto,nocrypto}.

Şimdi hipotezim, şifrelemenin dosya sistemlerinden birini diğerinden daha büyük bir faktörle yavaşlatması. Hipotez için basit bir test var mıE[Perfxfs,crypto]E[Perfxfs,nocrypto]<E[Perfext4,crypto]E[Perfext4,nocrypto]?


Bazı sorular bu sorunun ortasından silinmiş gibi görünüyor. Sence onu geri yükleyebilir misin?
whuber

Sanırım "Böylece," yanlışlıkla orada bırakıldı, en azından buna eklemek istediklerimi düşünemiyorum. Muhtemelen nihayet ikinci paragrafa taşındığım bir şeydi.
Sami Liedes

Bir günlük bağlantı işlevi ile normal dağılım için genelleştirilmiş doğrusal bir model sığdırabilirsiniz .
onestop

1
"Dosya sayısı" ve "ortalama gecikme" normal olarak dağıtılamaz (başlangıç ​​için ikisi de negatif olamaz). Her ikisinin de biraz doğru eğriltme olasılığı vardır. Dosya sayısı ayrı bir sayıdır.
Glen_b -Monica

Yanıtlar:


12

StasK'ın iyi cevabına bir alternatif de permütasyon testi kullanmaktır. İlk adım bir test istatistiği tanımlamaktırT, belki:

T=Perf^ext4,cryptoPerf^ext4,nocryptoPerf^xfs,cryptoPerf^xfs,nocrypto

nerede Perf^ext4,crypto belki de gözlemlerinin örnek ortalamasıdır. Perfext4,crypto(Bu, oran beklentisinin alternatif olasılığı yerine beklentilerin oranı olarak hipotez tanımınıza uymaktadır - hangi alternatif gerçekten istediğinizi olabilir.) İkinci adım, etiketlere rastgele izin vermektir. ext4, xfs verilerde birçok kez söyleyin, i=1,,10000ve hesapla Tiher permütasyon için. Son adım orijinalinizi karşılaştırmaktırT gözlemlenen ile Ti; permütasyon tahmini p-değeri,TiT.

Permütasyon testi sizi asimptotiklere güvenmekten kurtarır, ancak elbette örnek büyüklüğünüze (ve elbette verilere de) bağlı olarak, zaman zaman da kullandığım delta yöntemi gayet iyi çalışabilir.


Bu da iyi bir öneri!
StasK

İki ortalanmış normal değişken oranının bir Cauchy değişkeni olduğuna dikkat edin.
Xi'an

1
@ Xi'an: Burada bağımsız olduklarını varsayabilir miyiz? Bildiğiniz gibi, bu sonucun elde edilmesi (ve yararlı olma şansının olması) için bu gerekli olacaktır.
kardinal

@cardinal: evet, gerçekten bağımsız olmaları gerekecek!
Xi'an

1
Çok snob bir teknik nokta olarak - test istatistiğiniz çok önemli olduğunda / bilinmeyen parametreleri içermediğinde / varyans kararlılığında olduğunda permütasyon biraz daha iyi çalışır ... en azından sıfırın altında. Oranlarla ark sin dönüşümü yapabilirsiniz. Kesinlikle pozitif sürekli miktarlarla, muhtemelen günlüklerle başlardım. Ama bu gerçekten pastaya krema yapıyor.
StasK

4

Delta yöntemini kullanarak oranın (asimtotik) standart hatasını hesaplayabilirsiniz . İki rastgele değişkeniniz varsaX ve Y öyle ki

n(X¯μXY¯μY)N((00),(σXXσXYσXYσYY))
dağıtımda (bağımsız verileriniz varsa bu olurdu, ancak testlerinizi farklı makinelerde çalıştırdığınızda daha genel bir kümelenmiş veri durumunda da olur), o zaman oran için r=Y¯/X¯ nüfus analogu ile ro=μY/μX, sahibiz
n(rr0)N(0,μY2μX4σXX2μYμX3σXY+1μX2σYY)
Eğer X ve Y bağımsızdır, sizin durumunuzda varsayabileceğiniz gibi, bu ifade bırakarak biraz basitleştirir σXY, böylece varyasyonların kare katsayılarının özetlendiğini görüyoruz :
CV2[r]=CV2[X¯]+CV2[Y¯]
Numune boyutlarının farklı olması ek bir avantaja sahiptir. Ayrıca, RHS ve LHS'niz bağımsızsa,z-için en iyi istatistik H0: oranların farkını alıp bu CV'lerden elde edilen ilgili standart hataya bölerek hiçbir fark yoktur.

Umarım oradan alabilir ve son formülü elde etmek için zarf hesaplamalarının geri kalanını gerçekleştirebilirsiniz.

Sonucun asimptotik olduğunu ve oranın r önyargılı bir tahmin edicidir r0küçük örneklerde. ÖnyargıO(1/n)ve sıralı örnekleme değişkenliği ile karşılaştırıldığında asimptotik olarak kaybolur O(1/n).


Mükemmel ve aydınlatıcı cevap için teşekkürler! Sanırım çalışmalarım için jbowban'ın permütasyon testini seçeceğim çünkü bunu ve sınırlarını daha iyi anladığımı düşünüyorum, ancak delta yöntemi kesinlikle çalışmam ve çözmem gereken bir şeye benziyor.
Sami Liedes


Xavier, sanırım @ usεr11852 iyi bir cevap verdi. Buna ekleme zahmetine girmeyeceğim.
StasK

@StasK - Cevabınızda belirttiğiniz koşullar hangi koşullar altında geçerlidir? Oran istatistiğinin yakınsaması önceki varsayım ve Delta yöntemi ile garanti ediliyor mu?
Xavier Bourret Sicotte

Asimptotik ... hiçbir şey garanti edilmez ve hata sınırlarının elde edilmesi imkansızdır. Tüm delta yöntemi (veya herhangi bir diğer zayıf yakınsama sonucu), örnek boyutunu artırdıkça, asimptotik dağılımdan gerçek sonlu örnek dağılımı arasındaki farkın daha küçük olacağıdır. Bu, örnek boyutunu 1000'den 10000'e yükselttiğinizde, cdfs arasındaki dikey farkın 0,2'den 0,1'e düşeceği ve ikincisinin hala pratik amaçlar için kabul edilemeyeceği anlamına gelebilir. Veya bu farkın 0.01 ila 0.001 arasında olduğu anlamına gelebilir.
StasK

0

Normal değişkenlerin oranı Cauchy'e dağıtılır. Bunu bilerek, sadece Bayes Faktör Testi yapabilirsiniz.

Bu oldukça kendiliğinden bir fikirdi. Şimdi veri oluşturma mekanizmasından emin değilim. Hiyerarşik bir veri yapısı üstlenebilmemiz için aynı PC'ye farklı dosya sistemleri yükler ve ardından iki durum için kıyaslama yapar mısınız?

Ayrıca oranlara bakmak gerçekten de mantıklı değil.

Ve sonra beklenen değerlerin oranını yazdınız, oysa oranların beklenen değerini düşündüm. Sanırım devam etmeden önce veri üretimi hakkında daha fazla bilgiye ihtiyacım var.


1
Normallerin oranı sadece (a) bağımsız ve (b) aynı varyansa sahipse Cauchy'dir.
kardinal

Xi'an sanırım aynı düşünceye sahipti ...
joint_p

1
Böyle bir bağımsızlık yapısının var olduğu (en azından benim için) sıfır ortalamaya sahip olacağı açık değildir. Belki de cevabınızı genişletebilirseniz, önerdiğiniz yaklaşımı daha net hale getirmeye yardımcı olacaktır. :)
kardinal

1
@cardinal - Ben sıfır ortalama ile bağımsız normaller oranı olduğunu düşündüm sıfır medyan ve cauchy ile normal standart sapmaların oranına eşit parametre. Sıfır olmayan ortalamaları varsa, o zaman cauchy değildir.
probabilityislogic

@prob: (+1) Haklısın! Yakaladığınız için teşekkürler. İlk yorumumda "standart" ve "sıfır ortalama" düşürdüm (ikinci benim ikinci içine yapmak başardı).
kardinal

0

Permütasyon yapamayacağınız durumlarda, örneğin örneklem büyüklüğü milyonlarca olasılık yarattığında, başka bir çözüm Monte Carlo yeniden örnekleme olacaktır.

Sıfır hipotezi, hız arasındaki farkın ext4 ve xfs, için nocrypto ve crypto. Bu nedenle, ortalama oranext4xfs tümünden nocrypto örnekleri farklı değil crypto.

H0:Tobserved=xnocryptonnocryptoxcryptoncrypto=0

nerede x=ext4xfs

ve n=samplesize

Eğer H0 değerleri için rasgele seçim sonuçları doğrudur nocrypto veya crypto ayrıca sonuçlanır Tobserved=0. Bir hesaplamak istiyorum:

Tresampling=x1random+xnrandomnnocryptox1random+xnrandomncrypto

ve örneğin 10.000 tur yeniden örnekleme gerçekleştirin. Ortaya çıkan dağıtım Tresampling değerleri, H0. Arasındaki farknocrypto ve crypto hesaplanırsa oran önemlidir Tobserved değeri, ör.,% 95 aralığının dışında (p<0.05) ... Tresampling değerler.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.