İki kuyruklu testleri açıklama

Öğrencilerime (ilköğretim istatistik dersinde) iki kuyruklu bir testin ne olduğunu ve P değerinin nasıl hesaplandığını açıklamanın çeşitli yollarını arıyorum.

İki ve tek kuyruklu testi öğrencilerinize nasıl açıklarsınız?

hypothesis-testing p-value teaching

— Tal Galili
kaynak

Bu harika bir soru ve p-değerini ve iki kuyruklu ve tek kuyruklu testi açıklamanın herkesin sürümünü dört gözle bekliyorum. Diğer ortopedik cerrah istatistiklerini öğretiyorum ve bu nedenle, çoğu 10-30 yıldır gelişmiş bir matematik yapmadığı için mümkün olduğunca temel tutmaya çalıştım.

P-değerlerinin ve kuyruklarının hesaplanmasını açıklama yolum

Adil bir paraya sahip olduğumuza inanırsak, bunun ortalama flipslerin% 50'sinin kuyruklarına ( ) dönüşmesi gerektiğini bildiğimizi açıklayarak başlıyorum . Şimdi, bu adil madeni para ile 10 döndürmeden sadece 2 kuyruk alma olasılığını merak ediyorsanız, bu grafiği çubuk grafikte yaptığım gibi hesaplayabilirsiniz. Grafikten, 10 flipsten 8'ini adil bir madeni parayla elde etme olasılığının yaklaşık . $=H_0$ $\approx 4.4\%$

Madalyonun adilliğini sorgulayacağımız için 9 veya 10 kuyrukumuz varsa, bu olasılıkları, testin kuyruğunu eklemeliyiz. Değerleri ekleyerek biz olasılık şimdi biraz fazla olduğunu olsun ya da daha az 2 kuyrukları alma. $\approx 5.5\%$

Şimdi sadece 2 kafa, yani 8 kafa (diğer kuyruk) alırsak, muhtemelen madalyonun adaletini sorgulamaya istekli oluruz. Bu, iki kuyruklu bir test için olasılıkla sonuçlandığı anlamına gelir . $5.4...\%+5.4...\% \approx 10.9\%$

Tıpta biz genellikle başarısızlıkları araştırmakla ilgilendiğimiz için, amacımız iyi yapmak ve faydalı bir tedavi sunmak olsa bile, olasılığın karşı tarafını eklememiz gerekir.

Benim saygısız sikke grafiği

Konudan biraz farklı yansımalar

Bu basit örnek aynı zamanda p-değerini hesaplamak için sıfır hipotezine ne kadar bağımlı olduğumuzu gösterir. Ayrıca binom eğrisi ile çan eğrisi arasındaki benzerliği belirtmek isterim. 200 döndürmeye geçtiğinizde, tam olarak 100 döndürme olasılığının neden uygun olmadığına dair doğal bir yol elde edersiniz. Belirlenen ilgi aralıkları, olasılık yoğunluğu / kütle fonksiyonu fonksiyonlarına ve kümülatif muadillerine doğal bir geçiştir.

Sınıfımda onlara Khan academy istatistik videolarını öneriyorum ve bazı açıklamaları bazı kavramlar için de kullanıyorum. Madeni paraları çevirmenin rasgeleliğine baktığımız paraları da çeviriyorlar - göstermeye çalıştığım şey, rasgeleliğin genellikle bu Radiolab bölümünden ilham aldığımızdan daha rastgele olmasıdır .

Kod

Genellikle bir grafik / slayt, grafik oluşturmak için kullanılan R kodu var:

library(graphics)

binom_plot_function <- function(x_max, my_title = FALSE, my_prob = .5, edges = 0, 
                                col=c("green", "gold", "red")){
  barplot(
    dbinom(0:x_max, x_max, my_prob)*100, 
    col=c(rep(col[1], edges), rep(col[2], x_max-2*edges+1), rep(col[3], edges)),
    #names=0:x_max,
    ylab="Probability %",
    xlab="Number of tails", names.arg=0:x_max)
  if (my_title != FALSE ){
    title(main=my_title)
  }
}

binom_plot_function(10, paste("Flipping coins", 10, "times"), edges=0, col=c("#449944", "gold", "#994444"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", "gold"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", rgb(200/255, 100/255, 100/255)))

— Max Gordon
kaynak

Harika cevap Max - ve sorumun önemsizliğini tanıdığın için teşekkür ederim :)

— Tal Galili

+1 güzel cevap, çok kapsamlı. Affet beni, ama ben iki şeyi nitpick edeceğim. 1) p-değeri, verilerin sıfırın altında sizinki kadar aşırı veya daha aşırı olma olasılığı olarak anlaşılır, bu nedenle cevabınız doğrudur. Ancak, bozuk paralarınız gibi ayrık veriler kullanırken, bu durum uygun olmayan bir şekilde korunur. "Orta p-değeri" olarak adlandırılan şeyi kullanmak en iyisidir, yani verilerinizin sizinkine göre aşırı 1/2 + verilerin daha aşırı olma olasılığı. Bu konular hakkında kolay bir tartışma Agresti (2007) 2.6.3'te bulunabilir. (devam)

— gung - Monica'yı eski durumuna getir

2) Rasgeleliğin düşündüğümüzden daha rasgele olduğunu söylüyorsunuz. Bununla ne demek istediğinizi tahmin edebilirim (bağladığınız Radiolab bölümünü dinleme şansım olmadı, ama yapacağım). Tuhaf bir şekilde, öğrencilere her zaman rasgeleliğin sandığınızdan daha az rasgele olduğunu söyledim. Burada çizgilerin algılanmasından bahsediyorum (örneğin kumarda). İnsanlar, rastgele olayların, rastgele olayların gerçekte olduğundan çok daha fazla değişmesi gerektiğine ve sonuç olarak çizgileri gördüklerine inanırlar. Bkz. Falk (1997) Rasgelelik anlamlandırma Psych Rev 104,2. Yine, yanlış değilsin - sadece düşünce için yiyecek.

— gung - Monica'yı eski durumuna getir

Girdiğiniz için @ gung teşekkür ederiz. Aslında ortadaki değeri duymadım - yine de mantıklı. Temel istatistikleri öğretirken anlatacağım bir şey olup olmadığından emin değilim, çünkü vermeye çalıştığım uygulamalı hissi kaybetme hissi verebilir. Rasgelelik ile ilgili olarak aynı şeyi kastediyoruz - gerçekten rasgele bir sayı gördüğümüzde, bunun bir örüntüsü olduğunu düşünmek için kandırdık. Sanırım Freakonomics podcast tahmin bir folly duydum ...

— Max Gordon

... insan aklı yıllar boyunca bir avcıyı tespit edememenin, muhtemelen hiçbir şey olduğunu düşünmekten daha pahalı olduğunu öğrendi. Bu benzetmeyi seviyorum ve meslektaşlarıma istatistik kullanmanın birincil nedenlerinden birinin hepimizin doğduğu bu kusurda bize yardımcı olmak olduğunu anlatmaya çalışıyorum.

— Max Gordon

Erkeklerin ortalama boyunun "5 ft 7 inç" olduğu hipotezini test etmek istediğinizi varsayalım. Rastgele bir erkek örneği seçiyorsunuz, yüksekliklerini ölçüyorsunuz ve örnek ortalamasını hesaplıyorsunuz. O zaman hipoteziniz:

$H_0: \mu = 5\ \text{ft} \ 7 \ \text{inches}$

$H_A: \mu \ne 5\ \text{ft} \ 7 \ \text{inches}$

Yukarıdaki durumda, örnek ortalaması çok düşük veya çok yüksekse null değerinizi reddettiğiniz için iki kuyruklu bir test yaparsınız.

Bu durumda, p değeri, sıfırın aslında doğru olduğunu varsayarak , en azından aslında elde ettiğimiz kadar aşırı olan bir örnek ortalama gerçekleştirme olasılığını temsil eder . Bu nedenle, örneğin "5 ft 8 inç" olduğu anlamına gelirse, p değeri, "5 ft 8 inç" ten daha yüksek veya "5 ft 6 inç" ten daha düşük yükseklikleri gözlemleme olasılığını temsil eder. doğru.

Öte yandan, alternatifiniz şöyle çerçevelendiyse:

$H_A: \mu > 5\ \text{ft} \ 7 \ \text{inches}$

Yukarıdaki durumda, sağ tarafta tek kuyruklu bir test yaparsınız. Bunun nedeni, null değeri yalnızca örnek ortalaması çok yüksek olduğunda alternatif lehine reddetmeyi tercih etmenizdir.

P-değerinin yorumlanması, gerçekte elde ettiğimizden daha büyük bir örnek ortalama gerçekleştirme olasılığı hakkında konuştuğumuz hafif nüans ile aynı kalır. Bu nedenle, örnek ortalamanın "5 ft 8 inç" olduğunu gözlemlerseniz, p değeri, null değerinin doğru olması koşuluyla "5 ft 8 inç" ten daha yüksek yüksekliklere bakma olasılığını temsil edecektir.

— Varty
kaynak

H_{A}

$H_A$

H_{0} : μ \leq 5 ft 7 inches

$H_0:\, \mu\le 5\ \text{ft}\ 7\ \text{inches}$

H_{0} : μ = 5 ft 7 inches

$H_0:\, \mu = 5\ \text{ft}\ 7\ \text{inches}$

@chl katılıyorum. Bununla birlikte, sadece istatistiksel fikirlere tanıtılan bir kişi için, tek kuyruklu bir test için null değerinin yeniden yazılması, p değerinin yorumlanmasıyla ilgili şeylerin nasıl ve neden değiştiğine odaklandığında dikkat dağıtıcı olabilir.

— varty

Yeterince adil. Yine de, öğretme amacıyla bile bahsetmeye değer.

— chl