'Üstel' diyemeyeceğim, özellikle çok eğri. Günlüğü belirgin bir şekilde sola eğridir ve moment eğriliği sadece 2'dir.
1) Üstel verilerle t-testinin kullanılması ve 500'e yakın n kullanılması iyidir :
a) Test istatistiğinin payı iyi olmalıdır: Veriler ortak skala ile bağımsız üstel ise (ve bundan daha ağır kuyruklu değilse), ortalamaları gözlem sayısına eşit şekil parametresi ile gama dağıtılır. Dağılımı, yaklaşık 40 ya da daha fazla bir şekil parametresi için çok normal görünüyor (kuyruğa ne kadar doğruya ihtiyacınız olduğuna bağlı olarak).
Bu matematiksel kanıt yeteneğine sahiptir, ancak matematik bilim değildir. Elbette simülasyon yoluyla ampirik olarak kontrol edebilirsiniz, ancak üstellik konusunda yanılıyorsanız daha büyük örneklere ihtiyacınız olabilir. Üstel verilerin örnek toplamlarının (ve dolayısıyla örnek araçlarının) dağılımı n = 40 olduğunda şöyle görünür:
Çok hafif eğri. Bu çarpıklık, numune boyutunun kare kökü olarak azalır. Yani n = 160'da, çarpıklığın yarısı. N = 640'da çarpıklık olarak dörtte birdir:
Bunun etkili bir şekilde simetrik olduğu, ortalamanın üzerinde döndürülerek ve üstte çizilerek görülebilir:
Orijinal olan mavi, kırmızı çevrilir. Gördüğünüz gibi, neredeyse tesadüf.
-
n = 40
n = 500
-
c) Bununla birlikte, asıl önemli olan, bütün istatistiğin null altındaki dağılımıdır. Payın normu, t-istatistiğin bir t-dağılımına sahip olması için yeterli değildir. Ancak, üstel veri durumunda, bu da çok fazla sorun değil:
n = 40n = 500n = 500
Bununla birlikte, aslında üstel veriler için standart sapmanın ancak ortalamalar farklı olduğunda farklı olacağını unutmayın. Üstel varsayım söz konusuysa, o zaman sıfırın altında, sadece alternatif altında gerçekleştikleri için farklı nüfus varyansları hakkında endişelenmenize gerek yoktur. Bu nedenle, eşit varyans t testi hala iyi olmalıdır (bu durumda histogramda gördüğünüz yukarıdaki iyi yaklaşım biraz daha iyi olabilir).
2) Günlükleri almak yine de mantıklı olmanıza izin verebilir
günlükλ1≠ günlükλ2λ1≠ λ2
[Eğer bu testi günlüklerde yaparsanız, bu durumda eşit varyans testi yapılmasını önerme eğilimindeyim.]
Yani - sadece yukarıdaki cümleye benzer şekilde, belki de bir veya iki cümlenin bağlantıyı haklı çıkarmasıyla - katılım metriğinin kaydı değil, katılım metriğinin kendisi hakkında sonuçlarınızı yazabilmelisiniz.
3) Yapabileceğiniz başka birçok şey var!
a) üstel verilere uygun bir test yapabilirsiniz. Olasılık oranına dayalı bir test elde etmek kolaydır. Olduğu gibi, üstel veriler için, kuyruklu bir durumda bu durum için küçük bir örnek F testi (araç oranına dayalı) alırsınız; iki kuyruklu LRT genellikle küçük numune boyutları için her kuyrukta eşit oranda olmaz. (Bu, t-testinden daha iyi bir güce sahip olmalıdır, ancak t-testinin gücü oldukça makul olmalıdır ve örnek boyutlarınızda fazla bir fark olmamasını beklerdim.)
b) permütasyon testi yapabilirsiniz - hatta isterseniz t testine dayandırın. Değişen tek şey p-değerinin hesaplanmasıdır. Veya önyükleme tabanlı bir test gibi başka bir yeniden örnekleme testi yapabilirsiniz. Bu, iyi bir güce sahip olmalıdır, ancak kısmen, sahip olduğunuz dağılıma göre hangi test istatistiklerini seçtiğinize bağlı olacaktır.
c) sıra tabanlı parametrik olmayan bir test yapabilirsiniz (Wilcoxon-Mann-Whitney gibi). Eğer dağılımlar farklıysa, sadece bir ölçek faktörüne göre farklılık gösterdiğini varsayarsanız (üstel dahil olmak üzere çeşitli eğrili dağılımlar için uygundur), ölçek parametrelerinin oranı için bir güven aralığı bile elde edebilirsiniz.
[Bu amaçla, günlük ölçeği üzerinde çalışmanızı öneririm (günlüklerdeki konum kayması, ölçek kaymasının günlüğüdür). P-değerini değiştirmez, ancak ölçek kayması için bir aralık elde etmek üzere nokta tahminini ve CI sınırlarını üstlenmenize izin verir.]
Üstel durumdaysanız, ancak t testini kullanmak kadar iyi değilse, bu da oldukça iyi bir güce sahip olmalıdır.
Konum kaydırma alternatifi için (örneğin null altında hem varyans hem de çarpıklık heterojenliği ile) çok daha geniş bir durum kümesini dikkate alan bir referans şudur:
Fagerland, MW ve L. Sandvik (2009),
"Eşit olmayan varyanslara sahip çarpık dağılımlar için beş adet iki örnekli lokasyon testinin gerçekleştirilmesi,"
Contemporary Clinical Trials , 30 , 490-496
Genellikle Welch U-testini tavsiye eder (Welch tarafından değerlendirilen birkaç testten biri ve sadece test ettikleri). Tam olarak aynı Welch istatistiğini kullanmıyorsanız, öneriler biraz değişebilir (muhtemelen çok fazla olmasa da). [Dağıtımlarınız üstel ise, günlükleri almadığınız sürece bir ölçek alternatifiyle ilgileneceğinizi unutmayın ... bu durumda eşit olmayan varyanslarınız olmayacaktır.]