Oranlar bağlamında çoklu karşılaştırma probleminden kaçınmak için permütasyon testlerini kullanabilir miyim?


9

Belirli bir ikili sonucu tahmin etmek için 5 farklı yöntemin etkinliğini değerlendiriyorum (bunlara 'Başarı' ve 'Hata' deyin). Veriler şöyle görünür:

Method    Sample_Size    Success    Percent_Success
1         28             4          0.14  
2         19             4          0.21  
3         24             7          0.29  
4         21             13         0.61  
5         22             9          0.40 

Yöntemlerin göreceli üstünlüğünü değerlendirmek için bu 5 yöntem arasında bir test yapmak istiyorum. Başka bir deyişle, yöntemleri yöntem 1> yöntem 2> ... yöntem 5 olarak performans sırasına göre sipariş etmek istiyorum. Birden çok karşılaştırma sorununu önlemek için, aşağıdaki satırlarda bir permütasyon testi yapmayı planlıyorum:

Adım 1: Tüm verileri toplam 37 boyutta toplam örnek büyüklüğü 114 olacak şekilde toplayın.

Adım 2: Verileri 28, 19, 24, 21 ve 22 karşılık gelen örnek boyutlarıyla rastgele 5 gruba ayırın.

Adım 3: Adım 2'den gözlenen Percent_Success sırası verilerimin sıralamasıyla tutarlıysa bir sayacı artırın.

Adım 4: Adım 2 ve 3'ü birçok kez tekrarlayın (diyelim 10000).

İstenen p değeri = Nihai Sayaç Değeri / 10000.

Sorular:

  1. Yukarıdaki prosedür tamam mı?

  2. R'de yukarıdaki testi yapmamı sağlayacak bir şey var mı?

  3. İyileştirme veya alternatif yöntemler için herhangi bir öneri yardımcı olacaktır.


@whuber Belki de bunu nasıl yaptığınızı paylaşmak için R kodunuz var mı?
B_Miner

Yanıtlar:


6

Önerilen prosedür sorunuza cevap vermiyor. Yalnızca, sıfır hipotezi altında, gözlemlediğiniz sıralamanın gerçekleşeceği sıklığı tahmin eder. Ama bu sıfırın altında, iyi bir yaklaşımla, tüm siparişler eşit derecede olasıdır, bu nedenle hesaplamanız 1/5'e yakın bir değer üretecektir! = yaklaşık% 0.83. Bu bize hiçbir şey söylemiyor.

Daha açık bir gözlem: verilerinize dayalı sipariş 4> 5> 3> 2> 1'dir. Göreceli üstünlüklerine ilişkin tahminleriniz 0,61 - 0,40 =% 21, 0,40 - 0,21 =% 11 vb.

Şimdi, sorunuzun oranındaki farklılıklardan herhangi birinin, hiçbir farkın sıfır hipotezinde şansa bağlı olabilme derecesi ile ilgili olduğunu varsayalım . Bu on soruyu bir permütasyon testi ile değerlendirebilirsiniz. Bununla birlikte, her bir yinelemede, toplam siparişin küresel bir göstergesini değil, nispi farkın on göstergesini izlemeniz gerekir.(52)=10

Verileriniz için 100.000 yinelemeli bir simülasyon sonuçları verir

543210.024390.00030.132330.2996120.097630.003740.2922230.202530.0088440.08702

Yöntem 4 ile yöntem 1, 2 ve 3 arasındaki oran farklılıklarının şansa bağlı olması muhtemel değildir (tahmini olasılıklar sırasıyla% 0.03,% 0.37,% 0.88) ve diğer farklar olabilir. Yöntem 1 ve 5 arasında bir fark olduğuna dair bazı kanıtlar (p =% 2.44) vardır. Böylece, 4> 3, 4> 2 ve 4> 1 ilişkilerindeki oranlardaki farklılıkların hepsinin olumlu olduğuna güvenebilirsiniz. ve büyük olasılıkla 5> 1'deki fark da öyle.


1
Bu benimkinden çok daha iyi bir cevap! Korkarım soruyu düzgün bir şekilde okuyamadım (özellikle 3. Adım). Cevabımı silmeyi düşündüm, ancak Bayesci bir yaklaşımın daha büyük yorumlanabilirliğiyle duruyorum, gerçekten ilgi çekici bir sıralama.
onestop

Sadece doğru anladığımdan emin olmak için - Yöntem 4 ve 5 arasındaki göreceli farkı izleyen gösterge, 0.21'den büyük bir fark gördüğümüzde güncellenecektir.
sxv

@sxv Evet, doğru. (Aslında, daha büyük veya eşit kullandım. Bağlar olur. Bence önemli sonuçlar arasında eşitlik yapmak doğru bir şeydir, çünkü bu büyük veya daha büyük farklılıkların tesadüfen meydana gelme olasılığını değerlendiriyoruz .)
whuber

1

Önerilen Monte-Carlo permütasyon test prosedürünüz, sıfır olasılık hipotezinin test edilmesi için, başarı olasılığının tüm yöntemler için aynı olduğu konusunda bir p değeri üretecektir. Ancak , karşılık gelen kesin permütasyon testi mükemmel şekilde mümkün olduğunda burada Monte Carlo permütasyon testi yapmak için çok az neden vardır . Bu Fisher kesin testi (bazı insanlar bu adı 2x2 tablolar için ayırır, bu durumda koşullu kesin testtir). Verilerinizi Stata ve -tabi'ye yazdım, kesin olarak p = .0067 verdim (karşılaştırma için Pearson ki-kare testi p = .0059 verir). Eminim R'de R gurusunun yakında ekleyeceği eşdeğer bir işlev vardır.

Eğer gerçekten sıralamaya bakmak istiyorsanız, her yöntemin gerçekten en iyi, ikinci en iyi, üçüncü en iyi olma olasılığı olarak basit bir yorum verebileceğinden, en iyi Bayesci bir yaklaşım kullanabilirsiniz. Bu elbette olasılıklarınıza öncelik vermenizi gerektirme bedeli. Rütbelerin maksimum olabilirlik tahmini basitçe gözlenen sıralamadır, ancak farkında olduğum kadarıyla, sıkça yapılan bir çerçevedeki sıralamadaki belirsizliği ölçmek zordur.

Birden fazla karşılaştırmadan bahsetmediğimin farkındayım, ama bunun nasıl geldiğini görmüyorum.


2
Fisher'ın kesin testi ve Pearson ki-kareleri, en az 1'in diğerlerinden daha iyi olduğu alternatifine karşı eşit derecede etkili olduğu yönündeki sıfır hipotezini test eder. P değerleri bana null değerinin reddedildiğini söyler. Peki, hangi yöntemlerin diğerlerinden daha iyi olduğunu öğrenmek istersem, 10 çift karşılaştırması yapmak zorunda kalmayacak mıyım?
sxv
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.