Fisher'ın tam testinde: Bayan süt ilk bardak sayısını bilmeseydi hangi test uygun olurdu?


18

RA Fisher'ın çay tadımı yapan ünlü bayanda, bayana kaç süt / çay ilk fincanının olduğu (8 bardağın her biri için 4 tane) hakkında bilgi verilir. Bu, Fisher'ın kesin testinin sabit marjinal toplam varsayımına saygı gösterir.

Bu testi arkadaşımla yapmayı hayal ediyordum, ama düşünce beni vurdu. Eğer bayan önce süt ve çay ilk bardakları arasındaki farkı gerçekten söyleyebiliyorsa, süt ilk / çay ilk bardaklarının marjinal toplamlarını ve hangilerinin hangileri olduğunu anlayabilmelidir.

Öyleyse soru şu: RA Fisher bayana toplam süt ilk ve çay ilk bardak sayısını bildirmemiş olsaydı hangi test kullanılabilirdi?


4
Bazıları, ikinci kenar boşluğu tasarımla sabit olmasa bile, kadının ayrımcılık yeteneği hakkında çok az bilgi taşıdığını (yani yaklaşık olarak yardımcı olduğunu) ve şartlandırılması gerektiğini savunurlar. Kesin koşulsuz test (ilk olarak Barnard tarafından önerilen) daha karmaşıktır çünkü bir rahatsızlık parametresinin tüm olası değerleri üzerinde maksimum p değerini hesaplamanız gerekir.
Scortchi - Monica'yı eski durumuna döndürün


@Scortchi Daha ne söylenebilir ki? Ben hiçbir şey eklemek olmaz (ne de çok net ve özlü bir şekilde söylemeyi başaramazdım). İki yorumunuz arasında güzel bir cevabınız olduğunu düşünüyorum.
Glen_b-Monica'yı

1
Yates, F.'de (1984) "2 × 2 Acil Durum Tabloları için Önem Testleri", Kraliyet İstatistik Topluluğu Dergisi'ne bakmaya değecek bazı tartışmalar var . Seri A (Genel) , Cilt. 147, No. 3, sayfa 426-463.
Glen_b

1
121212

Yanıtlar:


16

Bazıları, ikinci kenar boşluğu tasarımla sabit olmasa bile, kadının ayrımcılık yeteneği hakkında çok az bilgi taşıdığını (yani yaklaşık olarak yardımcı olduğunu) ve şartlandırılması gerektiğini savunurlar. Tam koşulsuz test (ilk önce Barnard tarafından önerilen ) daha karmaşıktır, çünkü bir rahatsızlık parametresinin tüm olası değerleri üzerinde maksimum p değerini hesaplamanız gerekir, yani boş hipotez altındaki ortak Bernoulli olasılığı. Daha yakın zamanlarda, rahatsızlık parametresi için bir güven aralığı boyunca p-değerinin maksimuma çıkarılması önerilmiştir: bakınız Berger (1996), "Güven Aralığı p Değerlerinden Daha Güçlü Testler", Amerikan İstatistikçisi , 50 , 4; doğru boyutta kesin testler bu fikir kullanılarak yapılabilir.

Fisher'ın Kesin Testi de Edgington'un anlamında bir randomizasyon testi olarak ortaya çıkar: deneysel tedavilerin rastgele bir ataması, test istatistiklerinin bu atamaların permütasyonlarına göre sıfır hipotezini test etmek için kullanılmasına izin verir. Bu yaklaşımda, hanımın tespitleri sabit kabul edilir (ve ilk önce süt ve çay ilk fincanlarının marjinal toplamları elbette permütasyon ile korunur).


Can Barnard::barnardw.test()burada kullanılacak? Uygulamada hesaplama karmaşıklığında ne gibi bir fark beklenebilir?
krlmlr

Bu pakete aşina değilim, ancak referanslara bağladığınız yardım sayfası tam olarak bahsettiğim testten. Ayrıca bakınız Exact. Hesaplama karmaşıklığına gelince, bilmiyorum - kullanılan maksimizasyon algoritmasına bağlı olacaktır.
Scortchi - Monica'yı eski durumuna döndürün

2

Bugün RA Fisher'ın "Deney Tasarımı" bölümünün ilk bölümlerini okudum ve paragraflardan biri sorumun temel kusurunu fark etmemi sağladı.

Yani, bayan gerçekten süt birinci ve çay-ilk bardak arasındaki farkı anlatmak bile , ben yapabilirsiniz asla o "deney herhangi sonlu miktarda" bu yeteneğe sahiptir kanıtlıyor. Bu nedenle, bir deneyci olarak, bir yeteneği (boş hipotez) olmadığı varsayımıyla başlamam ve bunu reddetmeye çalışmalıyım. Ve orijinal deney tasarımı (balıkçı tam testi) bunu yapmak için yeterli, verimli ve haklı bir prosedürdür.

RA Fisher'ın "Deney Tasarımı" bölümünden alıntı:

Bir deney, öznenin iki farklı nesne türü arasında duyusal bir ayrımcılığa sahip olmadığı hipotezini çürütürse, bu nedenle, bu tür bir ayrımcılık yapabileceğini, karşıt hipotezi kanıtlayabilmesi gerektiği iddia edilebilir. Ancak bu son hipotez, ne kadar makul ya da doğru olursa olsun, deney tarafından test edilecek bir sıfır hipotezi olarak uygun değildir, çünkü tam değildir. Konunun kararlarında asla yanlış olmayacağı iddia edilirse, yine kesin bir hipoteze sahibiz ve bu hipotezin tek bir başarısızlıkla çürütülebileceğini, ancak hiçbir zaman sınırlı miktarda deneyle kanıtlanamayacağını görmek kolaydır. .


1

Barnard testi, sıfır hipotezi altında rahatsızlık parametresi bilinmediğinde kullanılır.

Bununla birlikte, bayan tadım testinde rahatsızlık parametresinin sıfır hipotezi altında 0,5'e ayarlanabileceğini iddia edebilirsiniz (bilgisiz bayan bir bardağı doğru tahmin etme olasılığının% 50'si vardır).

Daha sonra, sıfır hipotezi altında doğru tahmin sayısı bir binom dağılımı haline gelir: her fincan için% 50 olasılıkla 8 fincan tahmin etmek.


Diğer durumlarda, sıfır hipotezi için bu önemsiz% 50 olasılıkınız olmayabilir. Sabit marjlar olmadan bu olasılığın ne olması gerektiğini bilemeyebilirsiniz. Bu durumda Barnard'ın testine ihtiyacınız var.


Barnard'ın çay tadımı bayan testini yapsanız bile, en yüksek p değerine sahip rahatsızlık parametresi 0.5 olduğundan ve önemsiz binom testiyle sonuçlanacağından (sonuç tüm doğru tahminler ise) yine de% 50 olacaktır. aslında biri dört süt ilk fincan için ve diğeri dört çay ilk fincan için olmak üzere iki binom testinin birleşimidir).

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

Aşağıda, daha karmaşık bir sonuç için nasıl gidileceği (tüm tahminler doğru değilse, örneğin 2'ye karşı 4), o zaman neyin ve aşırı olmayanın sayılması biraz daha zorlaşır

(Barnard'ın testini kullandığının yanı sıra, 4-2 sonucu olması durumunda, p = 0.686'nın yanlış olduğunu iddia edebileceğiniz bir rahatsızlık parametresi doğru olduğunda, '% önce çay' cevabını verme olasılığının% 50'si için p değeri 0.08203125 olacaktır. Bölgeyi tanımlamak o kadar kolay olmasa da, farklı bir bölge düşündüğünüzde, bunun yerine Wald istatistiklerine dayanan bölge daha da küçülür )

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.