Bugünlerde bilgisayarların gücü göz önüne alındığında, Fisher'ın kesin testinden ziyade ki-kare testi yapmak için bir neden var mı?


86

Yazılımın Fisher'in kesin test hesaplamasını bugünlerde bu kadar kolay bir şekilde yapabileceği göz önüne alındığında , teorik veya pratik olarak ki-kare testinin Fisher'in kesin testine tercih edildiği herhangi bir durum var mı?

Fisher'ın kesin testinin avantajları:

  • 2x2 daha büyük ihtimal tablolara ölçekleme (yani herhangi bir R X C tablo)
  • kesin bir p değeri verir
  • geçerli olması için minimum bir hücre sayısının olması gerekmemek

10
Çünkü bu eski güzel klasiklerden. Yakında zarif bağbozumu olacak. Ondan sonra, insanlar bilgisayarlara karşı çıktığında ikinci gençliğini yaşayacak.
ttnphns

7
Fisher'in kesin test istatistiklerini büyük bir masada hesaplamayı hiç denediniz mi? (Çok uzun sürüyor ...)
whuber

22
Zaten aldığınız iyi yorum ve cevaplara ek olarak, bence daha iyi bir soru "Bilgisayarların gücü göz önüne alındığında, neden her zaman simülasyon / permütasyon testleri yapmıyorsunuz?"
Peter Flom

1
@whuber C ++ 'da (çok sayıda) tablo olmadan (özel) bir uygulama yaptım. Saniyede 8 basamağa kadar rakamlar için binlerce P değeri çalıştırır.
Michel de Ruiter

1
@Michel, tablodaki toplam hücre sayısını kastettim. Hesaplama 2 x 2 tablolar için kolaydır, fakat tablolar büyüdükçe hesaplamalar zahmete girer.
whuber

Yanıtlar:


61

Soruyu tersine çevirebilirsiniz. Sıradan Pearson testi, Fisher'ın kesin testinden neredeyse her zaman daha doğru olduğundan ve hesaplanması çok daha hızlı olduğu için, neden biri Fisher testini kullanıyor?χ2

Beklenen hücre frekanslarının, doğru değerleri vermesi için Pearson's için 5'i aşması gerektiği bir yanlışlık olduğuna dikkat edin . Test istatistiğine çok basit bir düzeltmesi uygulanırsa , beklenen hücre frekansları 1,0'ı aşarsa test doğrudur .χ2PN1N


R yardımından, 2009 :

Campbell, I. Ki-kare ve Fisher-Irwin iki-iki tablonun küçük örnek önerileriyle testleri. Tıpta İstatistikler 2007; 26 : 3661-3675. ( soyut )

  • ... Armitage kitabının son baskısı, beklenmedik durum düzeltmelerinin beklenmedik durum tablosu ki-kare testleri için asla kullanılmamasını önerir;

  • E. Pearson ki-kare testinin Pearson modifikasyonu, orijinalinden (N-1) / N faktörü ile farklı;

  • Cochran, “5'ten daha az beklenen frekans” daki 5 sayısının keyfi olduğunu;

  • yayınlanan çalışmaların bulguları, karşılaştırmalı denemeler için aşağıdaki gibi özetlenebilir :

    1. Yate'nin ki-kare testi tip I hata oranlarını nominal değerden düşük, genellikle nominal değerin yarısından azdır;

    2. Fisher-Irwin testi , nominal az hata oranları tip vardır;

    3. K Pearson'un ki-kare testinin versiyonu , Yate'nin ki-kare testine ve Fisher-Irwin testine göre nominal değere daha yakın tip I hata oranlarına sahiptir, ancak bazı durumlarda tip I hatalarını nominal değerden oldukça büyüktür;

    4. 'N-1' ki-kare testi, K. Pearson'un 'N' versiyonu gibi davranır, ancak nominal değerlerden daha yüksek eğilim azalır;

    5. İki taraflı Irwin kuralı kullanan Fisher-Irwin testine tek taraflı olasılığını katlama yöntemi daha az konservatif olan;

    6. Tek taraflı olasılığın iki katına çıkarılmasıyla orta P Fisher-Irwin testi, Fisher-Irwin testinin standart sürümlerinden daha iyi performans gösterir ve Irwin kuralının orta P yöntemi, gerçek tip I hataları nominal değerlere yakın tutmaya devam ederken daha iyi performans gösterir. ";

  • Beklenen frekansların 1'i aşması şartıyla 'N-1' testi için güçlü destek;

  • Fisher'in marjinal toplamların öncüllerine dayanan Fisher testindeki eksiklik faydalı bilgi içermez;

  • faydalı bilgilerin çok küçük örneklem büyüklüğünde gösterilmesi;

  • Yate'nin N / 2 sürekliliği ayarı çok fazla düzeltme ve uygunsuz;

  • randomize testlerde randomizasyon testlerinin kullanımı ile ilgili ters argümanlar vardır;

  • en kötü durumların hesaplanması;

  • Genel öneri : Beklenen tüm frekanslar en az 1 olduğunda 'N-1' ki-kare testini kullanın, aksi halde iki taraflı testler için Irwin'in kuralını kullanarak, muhtemel veya daha az kuyruktan tablo alarak, Fisher-Irwin testini kullanın, gözlendiği gibi; editöre Antonio Andres'in mektubuna ve yazarın 27: 1791-1796'daki cevabına bakınız; 2008.


Crans GG, Shuster JJ. Fisher'ın kesin testi ne kadar tutucu? İki örnekli karşılaştırmalı binom denemesinin nicel bir değerlendirmesi. Tıpta İstatistikler 2008; 27 : 3598-3611. ( soyut )

  • ... Fisher testinin muhafazakârlığını gerçekten ölçen ilk makale;

  • "FET'in test büyüklüğü, 50'den önceki hemen hemen tüm örneklem büyüklükleri için 0.035'ten küçüktü ve 100'den büyük örnek büyüklükleri için bile 0.05'e yaklaşmadı.";

  • “kesin” yöntemlerin muhafazakarlığı;

  • Cevaplanmayan bir eleştiri için Med 28 : 173-179, 2009’daki Stat’e bakınız.


Lydersen S, Fagerland MW, Laake P. tabloda birleşme için önerilen testler . Tıpta İstatistikler 2009; 28 : 1159-1175. ( soyut )2×2

  • ... Fisher'ın kesin testi, orta düzeltmesi uygulanmadıkça asla kullanılmamalıdır ;P

  • koşulsuz testlerin değeri;

  • editöre mektup 30: 890-891; 2011


1
(N-1) / N düzeltmesinin nasıl uygulanacağını önerebilir misiniz? Bu düzeltmeyi içeren çevrimiçi hesap makineleri var mı? Bu düzeltmeyi kendiniz yapmak için ki-kare testinin sonuçlarını manuel olarak ayarlamanın kolay bir yolu var mı?
DW

Yukarıda listelediğim referanslardan biri en iyi bahistir.
Frank Harrell

1
Neden "Fisher'ın kesin testinden hemen hemen her zaman daha doğrudur" diyorsunuz? Sohbeti söyleyebilirim çünkü bir "kesin" test değil. χ2 χ2
Stéphane Laurent

2
Bir şeyi "kesin" olarak etiketlemek bunu yapmaz. @Suncoolsu tarafından kaçırmış olmanız gereken harika açıklamayı görün (ayrıca tüm açıklamaları kaçırdınız). Pearson testi, Pearson'un düşündüğünden daha doğru. Örneğin citeulike.org/user/harrelfe/article/13265687 ve citeulike.org/user/harrelfe/article/13263676 adresine bakın . Fisher'ın "kesin" testi yalnızca gerçek tip I hatasının iddia edilenden daha büyük olmadığı anlamında kesindir. Ancak iddia edilenden daha küçük olduğu ortaya çıktı, bu nedenle II tipi hata daha yüksek, daha az güç anlamına geliyor.
Frank Harrell

Kesinlik anlamını biliyorum. Kesin olmayan testlerde hoşuma gitmeyen nokta, I tipi hatanın nominal seviyeden yüksek olma olasılığıdır. Ama haklısın, cevabını ve diğerini yanlış okudum (ikisi de harika)
Stéphane Laurent

47

Bu harika bir soru.

Fisher'ın kesin testi, Fisher'ın deneysel tasarımın akıllıca kullanılmasının en iyi örneklerinden biri , veriler üzerinde koşullandırma (temelde gözlenen satır ve marjinal toplamlar içeren tablolarda) ve olasılık dağılımlarını bulmadaki zekası (en iyi örnek olmasa da) , daha iyi bir örnek için buraya bakınız ). Bilgisayarların "kesin" p-değerlerini hesaplamak için kullanılması kesinlikle doğru cevapların alınmasına yardımcı olmuştur.

Bununla birlikte, Fisher'in uygulamadaki kesin testinin varsayımlarını haklı çıkarmak zordur. Çünkü “kesin” olarak adlandırılan “çay tadımı deneyiminde” veya 2x2 beklenmedik durum tablolarında satır toplamı ve sütun toplamı, yani marjinal toplamlar tasarım ile sabitlenir. Bu varsayım uygulamada nadiren haklı çıkarıyor. Güzel referanslar için buraya bakınız .

"Kesin" adı, bu test tarafından verilen p-değerlerinin kesin olduğuna inanılmasını sağlar;

  1. Marjinaller tasarımla sabitlenmediyse (pratikte hemen hemen her seferinde gerçekleşir), p değerleri muhafazakar olacaktır.
  2. Test belirli bir olasılık dağılımını (özellikle, Hiper geometrik dağılım) kullandığından, belirli kesikler için "kesin sıfır olasılıkları", yani p değerini hesaplamak mümkün değildir.

Pratik vakaların çoğunda, bir olasılık oranı testi veya Ki-kare testi kullanmak, Fisher'in kesin testinden çok farklı cevaplar vermemelidir (p-değeri). Evet, marjinaller sabitlendiğinde, Fisher'ın kesin testi daha iyi bir seçimdir, ancak bu nadiren olur. Bu nedenle, tutarlılık kontrolleri için Ki-kare olasılık oranı testi kullanılması her zaman önerilir.

Fisher'ın kesin testi, Çok Değişkenli Hiperjeometrik olasılıkların hesaplanmasında temel olarak eşdeğer olan herhangi bir tabloya genelleştirildiğinde, benzer fikirler geçerlidir. Bu nedenle “kesin” p değerlerine ek olarak her zaman Ki-kare ve olasılık oranı dağılımına dayalı p-değerleri hesaplamaya çalışılmalıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.