İstatistiksel testlerde p değerleri ve t değerlerinin anlamı nedir?


246

Bir istatistik kursu aldıktan ve diğer öğrencilere yardım etmeye çalıştıktan sonra, çok fazla kafa yordamı uyandırmaya ilham veren bir konuyu istatistiksel hipotez testlerinin sonuçlarını yorumlamakta olduğunu fark ettim. Öğrencilerin, belirli bir test için gereken hesaplamaları nasıl yapabileceklerini kolayca öğrendikleri, ancak sonuçları yorumlamada takıldıkları anlaşılmaktadır. Birçok bilgisayarlı araç test sonuçlarını "p değerleri" veya "t değerleri" cinsinden rapor eder.

Aşağıdaki puanları üniversite öğrencilerine istatistikteki ilk derslerini alarak nasıl açıklarsınız:

  • Test edilen hipotezle ilgili olarak "p-değeri" ne anlama geliyor? Yüksek bir p-değeri veya düşük bir p-değeri aranması gereken durumlar var mı?

  • Bir p değeri ile t değeri arasındaki ilişki nedir?


11
Bunun adil bir kısmı, temel olarak bir p değerini doğru şekilde tanımlayan p değerleri hakkındaki wikipedia makalesinin ilk cümlesi tarafından kapsanmaktadır . Bu anlaşılırsa, çok netleştirilir.
Glen_b

1
Kitabı alın: Gözyaşları Olmayan İstatistikler. Akıl sağlığınızı koruyabilir!

7
@ user48700 Gözyaşı Olmayan İstatistiklerin bunu nasıl açıkladığını özetler misiniz ?
Matt Krause

5
Biri zaman içinde p-değeri ile ilgili soruların bir grafiğini çizmeli ve bahse girerim kolejlerde ya da Coursera veri bilimi derslerinde akademik takvimlerle mevsimselliği ve korelasyonu göreceğiz
Aksakal

Cevaplarda ve yorumlardaki diğer güzel ve ilgili kitap önerilerine ek olarak, uygun şekilde "Yine de p-değeri nedir?" Olarak adlandırılan başka bir kitap önermek istiyorum. .
Aleksandr Blekh

Yanıtlar:


150

değerini anlamap

Üniversitenizdeki erkek öğrencilerin ortalama yüksekliğinin ft inç olduğu hipotezini test etmek istediğinizi varsayalım . Rasgele seçilen öğrencinin yüksekliğini toplarsınız ve örnek ortalamasını hesaplarsınız ( ft inç olduğu söylenir ). Uygun bir formül / istatistiksel rutin kullanarak , hipoteziniz için değerini hesaplarsınız ve bunun olduğunu söylersiniz .7 100 5 9 p 0,065710059p0.06

uygun şekilde yorumlayabilmek için birkaç şeyi aklımızda tutmalıyız:p=0.06

  1. Klasik hipotez testi altındaki ilk adım, söz konusu hipotezin doğru olduğu varsayımıdır. (Bağlamımızda, gerçek ortalama yüksekliğin ft inç olduğunu varsayıyoruz .)757

  2. Aşağıdaki hesaplamayı yaptığınızı düşünün: Hipotezimizin gerçekte doğru olduğunu varsayarak örnek ortalamasının ft inçten büyük olma olasılığını hesaplayın (bkz. Nokta 1).959

Başka bir deyişle, bilmek istediğimiz:

P(Samplemean5ft9inches|Truevalue=5ft7inches).

2. adımdaki hesaplama, değeri olarak adlandırılır . Bu nedenle, bir değeri, denememizi birçok kez tekrarlarsak (her seferinde öğrenciyi rastgele seçip örnek ortalamasını hesaplarsak) kez bir örnek görmeyi bekleyebileceğimiz anlamına gelir. ortalama ft inç veya daha büyük .p 0.06 100 6 100 5 9pp0.06100610059

Yukarıdaki anlayış göz önüne alındığında, hipotezimizin doğru olduğu varsayımımızı hala sürdürmeli miyiz? Eh, bir iki şeyden birini meydana gelmiş olduğunu gösterir:p=0.06

  • (A) Ya hipotezimiz doğrudur ve son derece düşük bir olay meydana gelmiştir (örneğin, öğrencinin tamamı öğrenci sporcudur).100

veya

  • (B) Varsayımımız yanlıştır ve elde ettiğimiz örnek sıra dışı değildir.

(A) ve (B) arasında seçim yapmanın geleneksel yolu, için keyfi bir kesim seçmektir . ise (A) ve ise (B) 'yi seçiyoruz .p > 0.05 p < 0.05pp>0.05p<0.05


3
Acele etmeyin! Bir hafta kadar “En İyi Cevap” seçmeyi düşünmeyeceğim.
Sharpie

1
Şimdi geri dönüp tüm cevabı okuma şansım oldu - öğrenci boyu örneği için büyük bir + 1. Çok net ve iyi düzenlenmiş.
Sharpie,

3
İyi iş çıkardın ... ama (C) 'yi eklemeliyiz (model / istatistiksel rutinde somutlaştırılmış) modelimiz yanlıştır.
Andrew Robinson

6
Bir t değeri (veya başka bir test istatistiği) çoğunlukla bir ara adımdır. Temelde, bazı varsayımlar altında, iyi bilinen bir dağılıma sahip olduğu kanıtlanmış bir istatistik. Test istatistiklerinin null altında dağılımını bildiğimiz için, p-değeri elde etmek için standart tabloları (bugün çoğunlukla yazılım) kullanabiliriz.
Gala,

1
P-değeri, ki-kare testi yapıldıktan sonra ki-kare tablodan kaynaklanmıyor mu? Yukarıda hesaplanan olasılığın neden p-değerin kendisini gösterdiğini merak ediyorum ?!
Londralı adam,

123

Bir Öğretmen ve Düşünceli Bir Öğrenci Arasındaki Diyalog

Alçakgönüllülükle, bu konu için şimdiye kadar yeterli boya kalemi kullanılmadığı kanısına varıldı. Kısa bir resimli özetini sonunda görünür.


Öğrenci : p değeri ne anlama geliyor? Bir çok insan , “ bir istatistikten daha büyük ya da eşit bir örnek görme şansımızın boş hipotez doğruysa, “bu sonucun gözlemlenmesi olasılığı” veya “benim örneklemimin istatistiği” olduğu durumlarda hemfikir olduğumuzu kabul ediyor gibi görünüyor. [simüle edilmiş] bir dağılıma “ ve hatta “ en azından sıfır hipotezinin doğru olduğu varsayılarak hesaplanan büyüklükte bir test istatistiklerini gözlemleme olasılığı ”düştü .

Öğretmen : Düzgün bir şekilde anlaşıldığı gibi, tüm bu ifadeler birçok durumda doğrudur.

Öğrenci : Birçoğunun ne kadar alakalı olduğunu anlamıyorum. Bize boş bir hipotez ve alternatif bir hipotez mi? Bu "eşit veya daha büyük" veya "en azından büyük" veya en popüler "daha aşırı" fikirlerine nasıl katılıyorlar?H AH0HA

Öğretmen : Genel olarak karmaşık görünebileceği için somut bir örnek keşfetmemize yardımcı olur mu?

Öğrenci : Tabii. Ama mümkünse, bunu gerçekçi ama basit bir tane yapın.

Öğretmen : Bu hipotez testi teorisi, tarihsel olarak gözlemsel hataları analiz etmek için astronomların ihtiyacı ile başlamıştır, peki oradan başlamaya ne dersiniz? Bir gün, bir bilim adamının, cihazındaki ölçüm hatasını azaltma çabalarını tanımladığı bazı eski belgelerden geçiyordum. Bilinen bir pozisyonda bir yıldızın birçok ölçümünü almış ve yer değiştirmelerini bu pozisyonun önüne veya arkasına kaydetmiştir. Bu yer değiştirmeleri görselleştirmek için - biraz düzeldiğinde - buna benzeyen bir histogram çizdi.

Şekil 1: Yer değiştirmelerin histogramı

Öğrenci : Histogramların nasıl çalıştığını hatırlıyorum: Dikey eksen, ölçümlerin göreli frekanslarının yükseklikten ziyade alanla temsil edildiğini hatırlatmak için "Yoğunluk" olarak etiketlendi .

Öğretmen : Bu doğru. "Olağandışı" veya "aşırı" bir değer oldukça küçük bir alana sahip bir bölgede bulunur. İşte bir mum boya. Alanı sadece onda biri olan bir bölgede renklenebileceğinizi düşünüyor musunuz?

Öğrenci : Tabii; bu kolay. [Şekildeki renkler.]

Şekil 2: Öğrencinin ilk rengi.

Öğretmen : Çok iyi! Bu alanın% 10'u bana benziyor. Bununla birlikte, histogramdaki tek önemli alanların dikey çizgiler arasındaki alanların olduğunu unutmayın: bunlar , yer değiştirmenin yatay eksen üzerindeki bu çizgiler arasında bulunma ihtimalini veya olasılığını temsil eder . Bu, tabana kadar aşağıya doğru renklendirmeniz gerektiği ve bunun alanın yarısı üzerinde olacağı anlamına geliyor, değil mi?

Öğrenci : Oh, anlıyorum. Tekrar denememe izin ver. Eğrinin gerçekten düşük olduğu yerlerde renklendirmek isteyeceğim, değil mi? İki ucunda en düşük değer. Sadece bir alanda boyamak zorunda mıyım yoksa birkaç parçaya bölmek uygun olur mu?

Öğretmen : Birkaç bölüm kullanmak akıllıca bir fikirdir. Nerede olurlar?

Öğrenci (işaret): Burada ve burada. Bu mum boya çok keskin olmadığı için, kullandığım çizgileri göstermek için bir kalem kullandım.

Şekil 3: Öğrencinin ikinci rengi

Öğretmen : Çok Güzel! Size hikayenin geri kalanını anlatayım. Bilim adamı cihazında bazı iyileştirmeler yaptı ve sonra ek ölçümler aldı. Birincisinin yer değiştirmesinin sadece olduğunu, bunun iyi bir işaret olduğunu düşündüğünü, ancak dikkatli bir bilim adamı olarak, çek olarak daha fazla ölçüm almaya devam ettiğini yazdı . Ne yazık ki, bu diğer ölçümler kayboluyor - el yazması bu noktada kopuyor - ve elimizdeki tek sayı, .0,10.10.1

Öğrenci : Bu çok kötü. Fakat bu, figürünüzdeki geniş yer değiştirmelerden daha iyi değil mi?

Öğretmen : Cevaplamanı istediğim soru bu. İlk olarak, olarak ne ?H0

Öğrenci : Eh, şüpheci, cihazda yapılan iyileştirmelerin herhangi bir etkisi olup olmadığını merak ederdi. İspat yükümlülüğü bilim insanına aittir: şüphecinin yanlış olduğunu göstermek isterdi. Bu, boş hipotezin bilim insanı için bir tür kötü olduğunu düşünmeme neden oluyor: tüm yeni ölçümlerin - bildiğimiz değeri de dahil olmak üzere - ilk histogram tarafından tanımlandığı gibi davranması gerektiğini söylüyor. Ya da belki bundan daha da kötüsü: daha da yayılmış olabilirler.0.1

Öğretmen : Hadi, iyi gidiyorsun.

Öğrenci : Demek ki alternatif, yeni ölçümlerin daha az yayılması, değil mi?

Öğretmen : Çok iyi! Bana daha az yayılı bir histogramın neye benzeyeceğini gösteren bir resim çizebilir misin? İşte ilk histogramın başka bir kopyası; Bunun üzerine referans olarak çizebilirsiniz.

Öğrenci (çizim): Yeni histogramı belirlemek için bir kalem kullanıyorum ve altındaki alanı renklendiriyorum. Bunu, yatay eksende eğrinin çoğunun sıfıra yakın olmasını ve alanın çoğunun (yatay) sıfır değerine yakın olmasını sağladım: daha az yayılmanın veya daha kesin olmanın anlamı budur.

Şekil 4: Öğrencinin yeni histogramı

Öğretmen : Bu iyi bir başlangıç. Ancak, şansı gösteren bir histogramın toplam alanın olması gerektiğini unutmayın . Bu nedenle ilk histogramın toplam alanı . Yeni histogramınızın içinde ne kadar alan var?111

Öğrenci : Sanırım yarısından az. Görüyorum ki bu bir problem, ama nasıl düzelteceğimi bilmiyorum. Ne yapmalıyım?

Öğretmen : İşin püf noktası, yeni histogramı eskisinden daha yükseğe çıkarmak, böylece toplam alanı . Burada, size göstermek için bilgisayar tarafından oluşturulan bir sürümünü göstereceğim.1

Şekil 5: Öğretmenin yeni histogramı

Öğrenci : Anladım: dikey olarak uzattınız, böylece şekli gerçekten değişmedi ama şimdi kırmızı alan ve gri alan (kırmızı altındaki kısım dahil) aynı miktarlarda.

Öğretmen : Doğru. Boş hipotezin (mavi renkte, yayılmış) ve alternatif hipotezin (kırmızı renkte, daha az yayılmış) bir kısmının resmine bakıyorsunuz .

Öğrenci : Alternatifin "kısmı" ile neyi kastediyorsunuz? Sadece değil mi alternatif hipotez?

Öğretmen : İstatistikçiler ve dilbilgisi karışmış gibi görünmüyor. :-) Cidden, onların bir "hipotez" ile kastettikleri, genellikle çok büyük bir olasılıklar kümesidir. Burada, alternatif (daha önce de belirtildiği gibi), ölçümlerin öncekinden daha az yayılmış olmasıdır. Ama ne kadar az ? Pek çok olasılık var. İşte, sana bir tane daha göstereyim. Sarı çizgilerle çizdim. Önceki ikisinin arasında.

Şekil 6: Alternatifin iki elementiyle birlikte boş değer

Öğrenci : Görüyorum: farklı miktarlarda yayılmaya sahip olabilirsiniz, ancak yayılmanın gerçekte ne kadar olacağını önceden bilmiyorsunuz. Ama neden bu resimde komik gölgelendirmeyi yaptın?

Öğretmen : Histogramların nerede ve nasıl değiştiğini vurgulamak istedim. Alternatif histogramların sıfırdan düşük , alternatiflerin daha yüksek olduğu yerlerde kırmızı renkte gölgeledim .

Öğrenci : Bu neden önemli?

Öğretmen : Her iki kuyruktaki ilk histogramı nasıl renklendirdiğini hatırlıyor musun? [Kağıtlara bakmak.] Ah, işte burada. Bu resmi aynı şekilde boyayalım.

Şekil 7: Boş ve alternatif, renkli.

Öğrenci : Hatırlıyorum: Bunlar aşırı değerlerdir. Boşluk yoğunluğunun mümkün olduğu kadar küçük olduğu ve bu alanın% 10'unda renkli olan yerleri buldum.

Öğretmen : Bana bu aşırı bölgelerdeki alternatiflerden bahset.

Öğrenci : Görmesi zor, çünkü pastel boya kapladı, ancak renklendirdiğim alanlarda alternatif olma şansı neredeyse yok gibi görünüyor. Histogramları değer ekseninin tam karşısındadır ve altlarında hiçbir alan için yer yoktur.

Öğretmen : Bu düşünceye devam edelim. Eğer varsayımsal olarak, bir ölçümün kayması olduğunu söyleseydim ve sizden bu üç histogramdan hangisinin gelebileceğini seçmenizi istedi, hangisi olurdu?2

Öğrenci : İlki - mavi olan. En yayılmış ve tek kişi o var oluşma şansı var gibi gözüküyor.2

Öğretmen : Peki ya el yazması içindeki değer ?0.1

Öğrenci : Hmmm ... bu farklı bir hikaye. Her üç histogram da yerden oldukça üzerinde .0.1

Öğretmen : Tamam, yeterince adil. Fakat sanırım, değerin ile arasında olduğu gibi yakın bir yerde olduğunu söyledim . Bu, bu grafiklerden bazı olasılıkları okumanıza yardımcı oluyor mu?0 0,20.100.2

Öğrenci : Elbette, çünkü alanları kullanabilirim. Sadece her eğrinin altındaki alanları ile arasında tahmin etmeliyim . Ama bu oldukça zor görünüyor.0.200.2

Öğretmen : O kadar ileri gitmene gerek yok. Hangi alanın en büyük olduğunu söyleyebilir misiniz?

Öğrenci : Tabii ki, en yüksek eğrinin altındaki. Her üç alan da aynı tabana sahiptir, yani eğri ne kadar uzun olursa, tabanın altında o kadar fazla alan vardır. Bu, en uzun histogramın (kırmızı çizgi ile çizdiğim), bir yer değiştirme için en muhtemel olduğu anlamına gelir . Ben de bu nereye gittiğinizi görüyorum, fakat biraz endişeliyim: Ben bakmak gerekmez tüm histogramları tüm alternatifleri, sadece bir ya da iki burada gösterilmeyen? Bunu nasıl yapabilirim?0.1

Öğretmen : Kalıpları seçme konusunda iyisin, öyleyse söyle bana: ölçüm cihazları gittikçe kesinleştikçe histogramına ne olur?

Öğrenci : Daha da daralır - oh, o da daha uzun olmak zorundadır, bu yüzden toplam alanı aynı kalır. Bu histogramları karşılaştırmayı oldukça zorlaştırıyor. Alternatif olanlardır tüm null sağ daha yüksek aşikardır. Ancak diğer değerlerde bazen alternatifler daha yüksek, bazen daha düşüktür! Örneğin, [yakın bir değere işaret tam burada,] benim sarı histogram en yüksek olduğu kırmızı histogram en düşük olduğu ve orijinal boş histogramı aralarında olduğunu. Fakat sağ tarafta boş değer en yüksek değerdir.3 / 403/4

Öğretmen : Genel olarak, histogramları karşılaştırmak karmaşık bir iştir. Bunu yapmamıza yardımcı olmak için, bilgisayardan başka bir komplo yapmasını istedim: alternatif histogram yüksekliklerinin (veya "yoğunlukların") her birini boş histogram yüksekliğine bölerek "olasılık oranları" olarak bilinen değerler yarattı. Bunun bir sonucu olarak, daha büyük bir değer den daha az bir değer ise, alternatif, daha büyük bir olasılıktır alternatif az olduğu anlamına gelir. Yine bir alternatif daha çizdi: diğer ikisinden daha fazla yayıldı, ancak orijinal cihazdan daha az yayıldı.111

Şekil 8: Olabilirlik oranları

Öğretmen (devam ediyor): Alternatiflerin null'dan daha muhtemel olduğunu bana gösterebilir misiniz?

Öğrenci (renklendirme): Burada ortada olduğu açık. Ve bunlar artık histogram değil, sanırım alanlardan ziyade yüksekliklere bakmalıyız, bu yüzden yatay eksende bir dizi değeri işaretliyorum. Fakat ortasından ne kadarının renkleneceğini nasıl bilebilirim? Boyamayı nerede durdurabilirim?

Şekil 9: Kesinleşmiş olabilirlik oranı grafikleri

Öğretmen : Kesin bir kural yok. Her şey, sonuçlarımızı nasıl kullanmayı planladığımıza ve şüphecilerin ne kadar şiddetli olduğuna bağlıdır. Ancak arkanıza yaslanın ve başardıklarınızı düşünün: artık büyük olasılık oranlarına sahip sonuçların alternatif için kanıt olduğunu ve küçük olasılık oranlarına sahip sonuçların alternatife karşı kanıt olduğunu biliyorsunuz . Sizden yapmamı isteyeceğim şey, mümkün olduğu ölçüde, sıfır hipotezi altında oluşma olasılığının az olduğu ve alternatifler altında göreceli olarak daha büyük olma şansının olduğu bir alanda renklendirmektir. Renkli hale getirdiğiniz ilk şemaya geri dönersek, sohbetimizin başlangıcında geri döndüğünüzde, sıfırın iki kuyruğunda renklendirdiniz çünkü onlar "aşırı" idi. Hala iyi bir iş çıkarırlar mı?

Öğrenci : Sanmıyorum. Boş hipotez altında oldukça aşırı ve nadir olmalarına rağmen, alternatiflerin hiçbiri için neredeyse imkansızdır. Benim yeni ölçüm olsaydı, demek rağmen, ben şüpheci tarafını ve herhangi bir iyileşme meydana geldiğini inkar düşünüyorum, her halükarda alışılmadık bir sonuçtu. Bu rengi değiştirmek istiyorum. Burada - başka bir mum boya alayım.3.03.03.0

Şekil 10: Geliştirilmiş işaretleme

Öğretmen : Bu neyi temsil ediyor?

Öğrenci : Sizden, orijinal histogramın altındaki alanın sadece% 10'unu çizmemi istemiştik - boş değeri tanımlayanı. Bu yüzden şimdi alternatiflerin ortaya çıkma ihtimalinin daha fazla olduğu alanın% 10'unu çizdim. Bu alanda yeni bir ölçüm yapıldığında, bize alternatife inanmamız gerektiğini söylüyor.

Öğretmen : Şüpheci buna nasıl tepki vermeli?

Öğrenci : Bir şüpheci asla yanıldığını kabul etmek zorunda değildir, değil mi? Fakat bence inancı biraz sarsılmalı. Bir ölçüm rağmen böylece Sonuçta, biz onu düzenlenmiş olabilir Sadece çekti alanı içinde olması, sadece boş true olduğunda orada olmanın% 10 şansı var. Alternatif doğru olduğunda, orada bulunma şansı daha büyük. Sana bu şansın ne kadar büyük olduğunu söyleyemem çünkü bu, bilim adamının aygıtı ne kadar geliştirdiğine bağlı. Sadece daha büyük olduğunu biliyorum. Yani kanıt şüpheci karşı olacaktır.

Öğretmen : Tamam. Öğrendiklerinizi tamamen netleştirebilmemiz için anlayışınızı özetler misiniz?

Öğrenci : Alternatif hipotezleri boş hipotezlerle karşılaştırmak için histogramlarını karşılaştırmamız gerektiğini öğrendim. Alternatiflerin yoğunluğunu sıfırın yoğunluğuna böldük: buna “olasılık oranı” diyorsunuz. İyi bir test yapmak için,% 10 gibi küçük bir rakam seçmeliyim ya da bir şüpheci sallamak için ne gerekiyorsa. O zaman olabilirlik oranının mümkün olduğu kadar yüksek olduğu değerleri bulmalı ve% 10 (veya ne olursa olsun) renkli olana kadar onları renklendirmeliyim.

Öğretmen : Peki bu boyamayı nasıl kullanırsın?

Öğrenci : Bana daha önce hatırlattığın gibi, renklendirme dikey çizgiler arasında olmalı. Renklendirmenin altında yer alan değerler (yatay eksende) sıfır hipotezine karşı kanıtlardır. Diğer değerler - peki, bütün histogramlara daha ayrıntılı bir bakış açmadan ne anlama geldiklerini söylemek zor.

Öğretmen : Yazıda değerine geri dönersek, ne sonuçlandırırsın?0.1

Öğrenci : Bu, en son renklendirdiğim alanın içinde, bu yüzden bilim adamının muhtemelen haklı olduğunu ve cihazın gerçekten geliştirildiğini düşünüyorum.

Öğretmen : Son bir şey. Sonucunuz, testin kriteri veya% "boyutu" olarak% 10 almaya dayanıyordu. Birçok insan bunun yerine% 5'i kullanmayı sever. Bazıları% 1'i tercih ediyor. Onlara ne söyleyebilirsin?

Öğrenci : Bu testleri bir kerede yapamam! Belki bir şekilde yapabilirim. Testin boyutu ne olursa olsun , bu anlamda "en aşırı" değer olan renklendirmeye başlamalı ve oradan iki yönde de dışarı doğru çalışmalıyım. Ben hemen önünde durmaktadır olsaydı aslında gözlenen açıyı hesaplar - Ben ikisinin arasında bir alanda renkli düşünüyorum ve , demek . % 5 ve% 1 insanlar hemen çok fazla renklendirdiğimi söyleyebiliyorlardı: sadece% 5 ya da% 1 renklendirmek isteselerdi yapabilirlerdi, ama kadar uzağa0.1 0.05 0.1 0.08 0.100.10.050.10.080.1. Benim yaptığım sonuca varmayacaklardı: Değişimin gerçekten gerçekleştiğine dair yeterli kanıt olmadığını söylerlerdi.

Öğretmen : Az önce bana, başlangıçta bu alıntıların gerçekte ne anlama geldiğini söyledin . Bu örnekten, daha büyük bir değere sahip olma veya hatta boş yoğunluğun küçük olduğu bir değere sahip olma anlamında "daha aşırı" veya "büyük veya eşit" veya "en azından büyük" olma niyetinde olmadıkları açık olmalıdır . Bu şeyleri tanımladığınız büyük olasılık oranları anlamında gerçekten kastediyorlar . Bu arada, hesapladığınız civarında sayıya "p-değeri" denir. Sadece tarif ettiğiniz şekilde tam olarak anlaşılabilir: göreceli histogram yüksekliklerinin analizi ile ilgili olabilir - olasılık oranları.0.08

Öğrenci : Teşekkürler. Bunları henüz tam olarak anladığımdan emin değilim, ama bana düşünmek için çok şey verdiniz.

Öğretmen : Daha ileri gitmek istersen, Neyman-Pearson Lemma'ya bir göz at . Muhtemelen şimdi anlamaya hazırsın.


özet

İletişim kutusundaki gibi tek bir istatistiği temel alan pek çok test buna " " veya " " . Bunlar boş histogramın neye benzediğini göstermenin yollarını gösteriyor, ancak bunlar sadece ipucu. Burada gösterildiği gibi, öğrenci tarafından özetlenen yapı, p değeri ile nasıl ilişkili olduğunu göstermektedir. P değeri, gözleminin boş hipotezin reddine yol açmasına neden olacak en küçük test boyutudur .t t = 0,1ztt=0.1

Şekil 11: Alan olarak p değeri.

Ayrıntı göstermek için yakınlaştırılan bu şekilde, sıfır hipotezi düz mavi olarak çizilir ve iki tipik alternatif kesikli çizgilerle çizilir. Bu alternatiflerin sıfırdan daha büyük olma eğilimi gösterdiği bölge gölgelendirilir. Gölgeleme, alternatiflerin göreceli ihtimallerinin en yüksek olduğu yerlerde başlar ( ). Gözlem ulaştığında gölgeleme durur . P değeri, gölgeli bölgenin boş histogramın altındaki alanıdır: boşluğun doğru olduğunu varsayma şansı, olasılık oranları hangi seçeneğin gerçek olduğuna bakılmaksızın büyük olasılıkla yüksek olan bir sonucu gözlemleme şansıdır. Özellikle, bu yapı tamamen alternatif hipoteze dayanmaktadır. Muhtemel alternatifler belirtilmeden gerçekleştirilemez.t = 0,10t=0.1


4
Bu mükemmel bu soruya önce cevapların hiçbiri genelliği içinde, yaygın duydu "veya daha ekstrem" bir yönü, ele alınmasını, başka bir yanıt benim yorum ile vurmuştur p -değeri. ( "Çay testi" cevabı iyi bir spesifik örnek içermesine rağmen .) Özellikle, "daha aşırı" nın "daha büyük" veya "sıfırdan" tam tersi anlamına gelebileceğini vurgulamak için kasıtlı olarak yapıldığına hayranım.
Silverfish

4
Öğretmenler ve ders kitaplarının gerçekten "aşırı ya da aşırı" ifadesini kullanmalarını diliyorum. Duyduğum iki varyant " karşı daha elverişli " veya " daha ikna edici " olarak tanımlanabilir. Bu örnekte, sıfıra yakın değerler, teleskopun daha güvenilir hale gelmesi konusunda gerçekten daha ikna edici olacaktır, ancak bazı dilsel akrobasiğe (olasılıkla savunarak, ancak potansiyel olarak kafa karıştırıcıdır) bunları "daha aşırı" olarak tanımlaması gerekir. H 1H1H1
Silverfish

3
Her zamanki gibi benzersiz anlayışlı, bu inanılmaz yararlı cevapları yazmaya zaman ayırdığınız için teşekkür ederiz. Ders kitaplarının neden bu açıklık ve sezgi düzeylerinin yakınında herhangi bir yere sunacak şekilde yazılmadığını gerçekten merak ediyorum.
Jeremy Radcliff

Sanırım bu örneğin yararlı olabileceği ihtimalinin tanımına bir bağlantı yararlı olabilir
baxx

1
Alaycı bir yorumda @baxx kullanmak tehlikelidir çünkü bize kibar ve zarif bir şekilde yapmamıza izin verecek kadar alan yok. Bu nedenle, bir yorumun size açıkça söylenmediği sürece, alaycı olmak olduğunu varsaymak genellikle iyi bir fikir değildir. Sadece yorumların size yardımcı olduğunu düşünün. Sağladığım aramada ilk hit olanı izlerseniz, sorularınızın cevaplanacağını düşünüyorum.
whuber

44

Bu konuya dokunmadan önce, öğrencilerin yüzdeler, ondalık sayılar, oranlar ve kesirler arasında hareket etmekten daima mutlu olduklarından emin olurum. Bundan tamamen memnun olmazlarsa, çok çabuk karışabilirler.

Fisher'ın klasik çay deneyi ile ilk kez hipotez testini (ve dolayısıyla p-değerlerini ve test istatistiklerini) açıklamayı seviyorum. Bunun için birkaç nedenim var:

(i) Bir deney yoluyla çalışmak ve ilerledikçe terimleri tanımlamak, sadece bu terimlerin hepsini tanımlamanın daha mantıklı olduğunu düşünüyorum. (ii) Hipotez testinin kilit noktalarının üstesinden gelmek için olasılık dağılımlarına, eğri altındaki alanlara vb. açıkça güvenmeniz gerekmez. (iii) Oldukça mantıklı bir şekilde "gözlenenden daha aşırı ya da aşırı" bu saçma fikrini açıklar (iv) Öğrencileri, okudukları şeyin tarihini, kökenlerini ve geçmiş hikayesini daha gerçekçi hale getirmeyi anlamaktan hoşlanır buluyorum bazı soyut teorilerden daha çok. (v) Öğrencilerin hangi disiplinden veya hangi konudan geldiği önemli değildir, çay örneğiyle ilgili olabilirler (NB Bazı uluslararası öğrenciler bu tuhaf İngiliz sütlü çay kurumu ile ilgili zorluk çekiyorlar.)

[Not: Aslında bu fikri Dennis Lindley'in Bayesian yöntemlerinin neden klasik yöntemlerden daha üstün olduğunu gösterdiği “Deneysel Verilerin Analizi: Çay ve Şarabın Takdir Edilmesi” başlıklı harika makalesinden aldım.

Hikaye, Muriel Bristol’un 1920’lerde Rothamsted Deney İstasyonunda bir fincan çay içmek için Fisher’ı ziyaret etmesi. Fisher sütü en son koyduğunda, sütün önce mi (yoksa en son) dökülüp dökülmediğini ve ilkini tercih edip etmediğini söyleyebileceğinden şikayet etti. Bunu test etmek için Muriel'in bir çift çay bardağı ile sunulduğu klasik çay deneyini tasarladı ve hangisinin önce süt verdiğini tanımlaması gerekir. Bu, altı çift çay bardağı ile tekrarlanır. Seçimleri Sağ (R) veya Yanlış (K) ve sonuçları: RRRRRW.

Muriel'in aslında sadece tahmin ettiğini ve hiçbir şekilde ayrımcılık yapamadığını varsayalım. Buna Boş Hipotezi denir . Fisher'a göre, deneyin amacı bu boş hipotezi geçersiz kılmak. Eğer Muriel tahmin ediyorsa çay bardağını her dönüşünde 0,5 olasılıkla doğru bir şekilde tanımlayacaktır ve bağımsız olduklarından, gözlemlenen sonuç 0.5 = 0.016 (veya 1/64) olur. Fisher daha sonra ya savunuyor:6

(a) boş hipotez (Muriel tahmin ediyor) doğrudur ve küçük bir olasılık olayı meydana gelmiştir;

(b) sıfır hipotezi yanlıştır ve Muriel'in ayırımcı yetkileri vardır.

P-değeri (veya olasılık değeri), boş hipotezi verilen verilen bu sonucu (RRRRRW) gözlemleme olasılığı doğrudur - yukarıda (a) 'da belirtilen küçük olasılıktır. Bu durumda 0,016. Küçük olasılıklı olaylar sadece nadiren (tanım gereği) gerçekleştiğinden, durum (b) durumdan (a) meydana gelen durumdan daha tercih edilebilir bir açıklama olabilir. Boş hipotezi reddettiğimizde, aslında alternatif hipotez dediğimiz ters hipotezi kabul ediyoruz. Bu örnekte, Muriel ayırımcı güçlere sahip alternatif hipotezdir.

Önemli bir husus, "küçük" bir olasılık olarak neyi sınıflandırıyoruz? Bir etkinliğin olası olmadığını söylemeye istekli olduğumuz kesim noktası nedir? Standart kriter% 5'tir (0,05) ve buna anlamlılık düzeyi denir. P değeri anlamlılık seviyesinden küçük olduğunda, boş hipotezi yanlış olarak reddediyoruz ve alternatif hipotezimizi kabul ediyoruz. P-değeri anlamlılık seviyesinden küçük olduğunda, yani null hipotezi verildiğinde gözlediklerimizin olasılığı kesme noktanızdan küçük olduğunda, sonucun “önemli” olduğu yaygın bir şekilde kullanılır. % 5 kullanımının tamamen öznel olduğu açıktır (% 1 ve% 10'luk diğer ortak anlamlılık seviyelerinde olduğu gibi).

Fisher bunun işe yaramadığını fark etti; Bir yanlış çift ile mümkün olan her sonuç eşit güçte ayrımcı güçlere işaret ediyordu. Bu nedenle, yukarıdaki durum (a) ile ilgili olasılık, şimdi % 5 anlamlılık düzeyinde anlamlı olmayan 6 (0.5) ^ 6 = 0.094 (veya 6/64) 'dır . Bu sorunun üstesinden gelmek için Fisher, 6’daki 1 hata ayrımcı güçlerin kanıtı olarak kabul edilirse, o zaman hiçbir hata olmadığını, yani p-değerini hesaplarken gözlenenin ayırıcı güçleri daha güçlü bir şekilde belirten sonuçların ortaya çıktığını savundu. Bu da, muhakemede aşağıdaki değişikliğe yol açtı:

(a) boş hipotez (Muriel tahmin ediyor) doğrudur ve olayların gözlemlenenden daha fazla veya daha fazla olması olasılığı küçüktür veya

(b) sıfır hipotezi yanlıştır ve Muriel'in ayırımcı yetkileri vardır.

Çay deneyimize geri dönersek, bu kurulum altındaki p değerinin% 5 eşiğinde hala önemli olmayan 7 (0.5) ^ 6 = 0.109 olduğunu bulduk.

Daha sonra öğrencilerin bir madeni paranın adil olup olmadığını anlamak için bozuk para atma gibi başka örneklerle çalışmalarını sağlarım. Bu, boş / alternatif hipotez, p-değerleri ve anlamlılık düzeyleri kavramlarını eve götürür. Daha sonra sürekli bir değişken vakasına geçiyoruz ve bir test-istatistik kavramını ortaya koyuyoruz. Zaten normal dağılımı, standart normal dağılımı ve derinlemesine z-dönüşümünü zaten ele aldığımız için, sadece birkaç kavramı bir araya getirme meselesidir.

Test istatistiklerini, p değerlerini ve bir karar vermeyi (önemli / anlamlı değil) almamın yanı sıra, öğrencilerin eksik boşlukları doldurmak için yayınlanan kağıtlarla çalışmasını sağlarım.


2
Biraz eski bir ipliği canlandırdığımı biliyorum, ama işte gidiyor ... Cevabınızı gerçekten çok beğenmiştim, ama içindeki t-değeri kısmını özlüyorum :( Bu konuda konuşmak için verilen örneklerinizi kullanabilir misiniz? T-test kısmı hakkında kimse cevap
vermedi

@sosi Muhtemelen çünkü p değerleri t değerlerinden çok daha geneldir. Ford Fiesta’nın otomobilleri ve ardından frenleri hakkında bir soru sormak gibi.
varsayımlar

2
Cevap çok ilginç (+1), fakat sonunda birkaç şey birbirine karıştı. Bir için ne anlama geliyor 1. -değeri "% 5 seviyesinde anlamlı" olunur? Ya değeri% 5'in altında ya da değil. Böyle belirsiz bir cümle kullanmanın, anlamın tanımlanmamasına "önem verilmesini" bırakma noktasını görmüyorum. 2. Bir değerinin anlamlı olup olmadığına "karar vermenin" anlamı nedir? Karar teorisini bu şekilde karışıma dahil etmek haklı görünmüyor (özellikle Fisher bilimlerde Neyman-Pearson test çerçevesinin uygulanmasının güçlü bir rakibi olduğundan). p pppp
Olivier

27

Hiçbir sözel açıklama ya da hesaplama gerçekten p-değerlerinin ne olduğunu bir anlam ifade etmeme yardımcı olmadı, ama simülasyon içeren bir kursa girdiğimde bu benim için gerçekten odaklandı. Bu bana aslında boş hipotez tarafından oluşturulan verileri görme ve / etc araçlarını çizme yeteneği verdi . simüle edilmiş örneklerin ardından, örneğimin istatistiğinin bu dağılımın neresinde düştüğüne bakın.

Bunun en önemli avantajı öğrencilerin bir dakika boyunca matematik ve test istatistik dağılımlarını unutabilmelerini ve eldeki kavramlara odaklanabilmelerini sağladığını düşünüyorum. Tamamen farklı bir öğrenci grubu için sorunlara yol açacak olan şeyleri nasıl simule edeceğimi öğrenmem gerekiyordu . Ama benim için işe yaradı ve istatistikleri çok başarılı olan başkalarına istatistikleri açıklamaya yardımcı olmak için sayısız zaman kullandım (örneğin, "Verileriniz böyle görünüyor; Poisson dağılımının üst üste göründüğü gibi. Bu istediğinizden emin misiniz? Poisson regresyonu yapmak için mi? ").

Bu, sorduğunuz sorulara tam olarak cevap vermiyor, ama benim için, en azından, onları önemsizleştirdi.


10
Bunu açıklamak için simülasyon kullanımı konusunda gönülden katılıyorum. Fakat sonuçtaki örneğe dair sadece küçük bir not: İnsanların (sadece öğrencilerin değil) marjinal olarak poisson dağılmasıyla koşullu poisson dağılması arasındaki herhangi bir özel dağıtım varsayımını, örneğin poisson'u ayırt etmeyi zor bulduğunu biliyorum . Yalnızca ikincisi bir regresyon modeli için önemli olduğundan, poisson olmayan bir bağımlı değişken değer demetinin mutlaka endişe kaynağı olması gerekmez.
conjugateprior

1
Bunu bilmediğimi itiraf etmeliyim. Üyeliğinizin son birkaç günü boyunca bu site hakkındaki yorumlarınızı gerçekten takdir ettim.
Matt Parker

@MattParker, anlayışı geliştirmek için simülasyon kullanımına odaklanan herhangi bir öğrenme kaynağını biliyor musunuz? Yoksa bu sadece bazı python / R betiklerini bir araya getirip bir sürü test yürütmek mi?
baxx

1
@baxx [Daniel Kunin'in Seeing Theory web sitesi] (students.brown.edu/seeing-theory/) bunun için bazı ilginç araçlara sahiptir, ancak halen yapım aşamasındadır. Aksi takdirde, evet, büyük ölçüde R'nin simülasyon için kullanılan araçlarını denedim - bazı metotların nasıl çalıştığını kendi kendime kanıtlamak için kullandım ya da bir tahminci rastgele bir değişkenle değiştirilirse ne olacağını görmek için kullandım. Üzgünüm, Keşke bunun için daha iyi kaynaklar bilseydim!
Matt Parker

@MattParker harika teşekkürler. Evet - İçinde biraz tavuk ve yumurta var, deneyleri yapmak için (varsayalım mı?) En azından bunları yazmak için gerekenleri almalısınız. Endişelenmenize gerek yok ..... Sadece bağlantı
kurduğunuz

16

P-değerinin güzel bir tanımı "en azından sıfır hipotezinin doğru olduğu varsayımıyla hesaplananın test istatistiklerini gözlemleme olasılığı" dır.

Bununla ilgili sorun, “test istatistiği” ve “sıfır hipotezi” anlayışını gerektirmesidir. Ancak, karşıya geçmek kolaydır. Eğer boş hipotez doğruysa, genellikle "A popülasyonunun parametresi B popülasyonunun parametresiyle eşittir" gibi bir şey, ve siz bu parametreleri tahmin etmek için istatistikleri hesaplarsınız, diyorlar ki bu bir test istatistiğini görme olasılığı nedir? farklı"?

Örneğin, madeni para adil ise, 100 atıştan 60'ının başını görme ihtimalim nedir? Bu, boşa hipotezini, "yazı tura adalettir" veya "p =, 5" dir; burada p, kafaların olasılığıdır.

Bu durumda test istatistiği, kafa sayısı olacaktır.

Şimdi, “t-değeri” olarak adlandırdığınız şeyin, “t dağılımından” bir değer değil, genel bir "test istatistiği" olduğunu varsayalım . Aynı şey değiller ve "t-değeri" terimi (zorunlu olarak) yaygın olarak kullanılmıyor ve kafa karıştırıcı olabilir.

"T-değeri" dediğiniz şey muhtemelen "test istatistiği" olarak adlandırdığım şeydir. Bir p-değeri hesaplamak için (unutmayın, bu sadece bir olasılıktır) bir dağıtıma ve bu dağıtıma bağlamak için bir olasılık döndürecek bir değere ihtiyacınız vardır. Bunu yaptığınızda, geri döndürme olasılığınız p-değerinizdir. Bunların ilişkili olduğunu görebilirsiniz, çünkü aynı dağılımda, farklı test istatistikleri farklı p değerleri döndürecek. Daha aşırı test istatistikleri, düşük hipotezin yanlış olduğuna dair daha fazla gösterge vererek daha düşük p değerleri döndürür.

Burada tek taraflı ve iki taraflı p değerleri konusunu görmezden geldim.


11

900 siyah mermer ve 100 beyaz içeren bir çantanız olduğunu hayal edin, yani mermerin% 10'u beyazdır. Şimdi 1 mermeri çıkardığına, ona baktığını ve rengini kaydettiğini, bir tane daha çıkardığını, rengini kaydettiğini vs. düşünün ve bunu 100 kez yapın. Bu işlemin sonunda, ideal olarak, 10, yani 100'ün% 10'u olacağını umduğumuz beyaz mermerler için bir sayıya sahip olacaksınız, ancak gerçekte 8 veya 13 olabilir ya da sadece rastlantısallıktan ötürü. Bu 100 mermer para çekme deneyini defalarca tekrarlarsanız ve deney başına çekilen beyaz mermer sayısının histogramını çizerseniz, yaklaşık 10 merkezli bir Çan Eğrisi elde edersiniz.

Bu,% 10 hipotezinizi temsil eder:% 10'u beyaz olan 1000 mermer içeren herhangi bir torba ile, eğer rastgele 100 tane mermer çıkarırsanız, seçimde 10 adet beyaz mermer görürsünüz, 4'ünü alırsınız veya alırsınız. P-değeri bununla ilgili "4 al ya da öylesine ver". Diyelim ki, daha önce yaratılan Çan Eğrisi'ne bakarak, zamanın% 5'inden daha azının 5 ya da daha az sayıda beyaz mermer alacağınızı ve zamanın <% 5'inin 15 veya daha fazla beyaz mermer için yani%> 90'ını oluşturacağını belirleyebilirsiniz. 100 mermer seçiminiz dahil 6 ila 14 beyaz mermerden oluşacaktır.

Şimdi, birinin bilinmeyen sayıda beyaz misket taşıdığı 1000 misketten oluşan bir torbayı alçalttığını varsayarak, bu soruları cevaplayacak araçlara sahibiz.

i) 100'den az beyaz mermer var mı?

ii) 100'den fazla beyaz mermer var mı?

iii) Torbada 100 beyaz mermer var mı?

Torbadan 100 misket çıkarın ve bu numunenin kaç tanesinin beyaz olduğunu sayın.

a) Örnekte 6 ila 14 beyaz varsa, çantada 100 beyaz mermer olduğu hipotezini reddedemezsiniz ve 6 ila 14 için karşılık gelen p değerleri> 0,05 olacaktır.

b) Örnekte 5 veya daha az sayıda beyaz varsa, torbada 100 beyaz mermer olduğu hipotezini reddedebilirsiniz ve karşılık gelen 5 veya daha az p değeri <0,05 olacaktır. Çantanın <% 10 beyaz mermer içermesini beklersiniz.

c) Örnekte 15 veya daha fazla beyaz varsa, torbada 100 beyaz mermer olduğu hipotezini reddedebilirsiniz ve karşılık gelen 15 veya daha fazla p değeri <0,05 olacaktır. Çantanın>% 10'dan fazla beyaz mermer içermesini beklersiniz.

Baltimark adlı kullanıcının yorumuna yanıt olarak

Yukarıdaki örnek verildiğinde, yaklaşık olarak: -

4,8 ya da daha az beyaz oyuncu kazanma şansı% 4,8

% 1.85, 4 veya daha az şans

% 0.55, 3 veya daha az şans

% 0.1 2 veya daha az şans

6.25% 15 veya daha fazla şans

3.25% 16 veya daha fazla şans

% 1.5, 17 veya daha fazla şans

% 0.65, 18 veya daha fazla şans

% 0.25 oranında 19 veya daha fazla şans

% 0.1 20 ya da daha fazla şans

% 0,05 21 ya da daha fazla şans

Bu sayılar, R'deki basit bir Monte Carlo rutini ve örnekleme dağılımının sonuçta ortaya çıkan miktarları tarafından oluşturulan ampirik bir dağılımdan hesaplandı.

Orijinal soruyu cevaplamak için 5 beyaz top çizdiğinizi varsayalım, yaklaşık olarak% 4.8'lik bir ihtimal var, eğer 1000 mermer çanta gerçekten% 10 beyaz top içeriyorsa, 100'lük bir numunede sadece 5 beyaz çıkarmanız mümkün. Bu, p <0.05 değerine eşittir. Şimdi arasında seçim yapmalısın

i) Çantada gerçekten% 10 beyaz toplar var ve ben bu kadar az çizmek için "şanssız" oldum

veya

ii) O kadar az beyaz top çektim ki,% 10 beyaz top olamayacak (% 10 beyaz top hipotezi)


Her şeyden önce, bu sadece büyük bir örnek ve gerçekten p-değeri ve test-istatistik kavramını açıklamıyor. İkincisi, sadece 5'ten az veya 15'ten fazla beyaz mermer aldığınızda boş hipotezi reddettiğinizi iddia ediyorsunuz. Bu olasılıkları hesapladığınız dağıtımınız nedir? Buna normal bir dist ile yaklaşılabilir. 10 standart sapma ile 10, ortalanmış. Reddetme kriterleriniz yeterince katı değil.
Baltimark

Bunun sadece bir örnek olduğu konusunda hemfikir olurdum ve doğru olduğunu açıklamak için havadan 5 ve 15 numaralarını aldım. Zamanım olduğunda ikinci bir cevap göndereceğim, ki umarım daha eksiksiz olur.
babelproofreader

10

P-değerinin size söylemediği şey, sıfır hipotezinin doğru olma ihtimalinin muhtemel olmasıdır. Konvansiyonel (Fisher) anlamlılık testi çerçevesine göre, önce boş hipotezi doğrulayan varsayımın doğru olduğunu varsayan verilere bakma olasılığını hesaplıyoruz, bu p değeridir. Verilerin sıfır hipotezi altında gözlemlenmesinin yeterince düşük olması durumunda, sıfır hipotezinin muhtemelen yanlış olduğunu varsaymak sezgisel olarak makul görünmektedir. Bu tamamen mantıklı. İstatistikçiler geleneksel olarak bir eşik kullanırlar ve "boş hipotezi% 95 anlamlılık düzeyinde reddederler", eğer (1 - p)> 0,95; ancak bu, pratikte makul olduğu kanıtlanmış bir kongredir - bu, sıfır hipotezinin yanlış olma ihtimalinin% 5'ten daha az olduğu anlamına gelmez (ve bu nedenle alternatif hipotezin doğru olma ihtimalinin% 95'i) anlamına gelmez.

P-değerini alternatif hipotezin doğru olma olasılığı üzerine eşleştiren bir f () fonksiyonunun görüntülenmesi. Bu işlevin kesinlikle azaldığını (boş hipotez altındaki gözlemler ne kadar muhtemel olursa, alternatif hipotezin gerçekleşme olasılığı o kadar düşüktür) ve 0 ile 1 arasında değerler verdiğini (bir tahminde bulunduğu gibi) belirtmek makul olacaktır. olasılık). Ancak, f () hakkında bildiğimiz tek şey budur, p ile alternatif hipotezin gerçek olma olasılığı arasında bir ilişki olsa da, kalibre edilmez. Bu, p-değerini, sıfırın ve alternatif hipotezlerin uygunluğuyla ilgili nicel açıklamalar yapmak için kullanamayacağımız anlamına gelir.

Uyarı: Bir hipotezin doğru olma olasılığından söz etmek, sık rastlanan çerçevede değil, rastgele bir değişken olmadığı için - ya doğru ya da öyle değil. Öyleyse, bir hipotezin gerçeğinin olasılığından bahsettiğim yerde, dolaylı olarak bir Bayesian yorumuna geçtim. Bayesian ve frekansçıyı karıştırmak yanlıştır, ancak gerçekte istediğimiz şeyin hipotezlerin göreceli olasılık / olasılık olasılığının nicel bir göstergesi olduğu için bunu yapmak için her zaman bir istek vardır. Fakat p-değerinin sağladığı şey bu değil.


7

İstatistiklerde bir şeyin kesinlikle kesin olduğunu söyleyemezsiniz, bu yüzden istatistikçiler bir hipotezin doğru olup olmadığını ölçmek için başka bir yaklaşım kullanırlar. Veriler tarafından desteklenmeyen tüm diğer hipotezleri reddetmeye çalışırlar.

Bunu yapmak için, istatistiksel testler boş bir hipoteze ve alternatif bir hipoteze sahiptir. İstatistiksel bir testten bildirilen p değeri, sıfır hipotezinin doğru olduğu göz önüne alındığında sonucun olasılığıdır. Bu yüzden küçük p değerleri istiyoruz. Ne kadar küçük olursa, boş hipotezi doğru olsaydı, sonuç o kadar düşük olur. P-değeri yeterince küçükse (yani, boş hipotez doğruysa sonucun ortaya çıkması pek olası değildir), o zaman boş hipotezi reddedilir.

Bu şekilde, boş hipotezler formüle edilebilir ve daha sonra reddedilebilir. Eğer boş hipotez reddedilirse, alternatif hipotezi en iyi açıklama olarak kabul edersiniz. Unutmayın ki, alternatif hipotez hiçbir zaman kesin değildir, çünkü sıfır hipotezi tesadüfen sonuç verebilirdi.


Pr(Tt|H0)Pr(T=t|H0)

5

Eski konuyu canlandırmak biraz zor, ama buradan atladım , bu yüzden bağlantıdaki soruya bir cevap olarak yazıyorum.

P değeri somut bir terimdir, yanlış anlamaya yer yoktur. Ancak, bir şekilde, p-değeri tanımının konuşma dilindeki çevirilerinin birçok farklı yanlış yorumlamaya yol açması gizemlidir. Sorunun kökü "en azından boş hipoteze ters" veya "en azından örnek verilerinizdeki en aşırı" gibi ifadelerin kullanımında olduğunu düşünüyorum.

Örneğin, Wikipedia diyor

... p değeri, boş hipotez gerçekten doğru olduğunda, gözlemlenen örnek sonuçlarını (veya daha aşırı bir sonucu) elde etme olasılığıdır.

p

"Aşırı sonucu" dolaylı konuşma gibi bir şeye bırakmanın daha iyi olacağını düşünüyorum . Yani benim almam

P-değeri, sıfır hipotezinin doğru olduğu bir "hayali dünyada" gördüğünüzü görme olasılığıdır.

xμ0=20N(20,1)

x
#[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647
#[7] 18.94962 17.99331 19.22598 18.68633

T-stat değerini olarak hesaplarsınız.t0=nX¯μ0s

sqrt(10) * (mean(x) - 20) / sd(x)  
#-2.974405

|t0|t0t(9)

pvalue=Pr(|t0|2.97)=0.01559054
2*(1 - pt(2.974405, 9))
#[1] 0.01559054

P değeri küçük olduğu için, örneğin xvarsayımsal dünyada çizilmiş olması pek olası değildir . Bu nedenle, varsayılan dünyanın aslında gerçek dünya olması ihtimalinin çok düşük olduğu sonucuna vardık.


2
+1, ancak “ne gördüğünüzü görme olasılığı” yazdığınızda ve “daha ​​aşırı” kısmını atladığınızda, bu cümle kesinlikle yanlış (ve belki de daha az kafa karıştırıcı olsa bile yanıltıcı) yanıltıcı olur. Gördüğünüzü görme olasılığı değildir (bu genellikle sıfırdır). Gördüğün şeyi "ya da daha aşırı" olarak görme olasılığıdır. Bu birçok kişi için kafa karıştırıcı bir bit olsa da, yine de çok önemlidir (ve kişi bu "daha aşırı" ifadelerin ardında gizlenen öznellik derecesi hakkında durmadan tartışabilir).
amip

@ amoeba Yeterli bir örnek verildiğinde, "gözlemlenen numune sonuçlarını elde etmek için (veya daha aşırı bir sonuç)" olarak vekalet edebileceğini düşündüm. Belki, daha iyi ifadelere ihtiyaç vardır.
Khashaa

1
@ Amoeba ile aynı gözlemi yapacaktım; "ya da daha aşırı" kısım, öğrenci yükseklikleri ve çay partisi cevaplarında örnek olarak iyi ele alınmıştır, ancak bu konudaki hiçbir cevabın , özellikle farklı alternatif hipotezleri kapsayan net bir genel açıklamasının üzerinde durduğunu sanmıyorum . "Ya da daha aşırı" bölümün birçok öğrenci için kavramsal bir bağlantı noktası olduğunu öne süren bu cevabı kabul ediyorum.
Silverfish

@ Gümüş balık: ve sadece öğrenci değil. Kaç Bayesçiye karşı-kaçık rantistin bu "daha aşırı" bitin öznellik / nesnellik konusunu tartışdığını okudum!
amip

1
@Silver Ben eleştirinize katılıyorum ve bunu ele almaya çalışırken bir cevap gönderdim. "Veya daha aşırı" konunun özüdür.
whuber

4

Kavramları aşağıdaki sırayla açıklayacağınız bir diziyi takip etmeyi faydalı buluyorum: (1) Normal bir eğri varsayarak z puanının üstünde ve altındaki z skoru ve oranları. (2) Örnekleme dağılımı kavramı ve belirli bir örnek için z skoru, popülasyon standart sapması bilindiğinde (ve bir örnek z testi) bilindiğinde (3) Bir örneklem t testi ve gerçekleşme olasılığı Nüfus standart sapması bilinmediğinde örnek ortalama (belirli bir endüstriyel istatistikçinin gizli kimliği ve Guinness'in İstatistik İçin Neden İyi Olduğu ile ilgili hikayelerle dolu). (4) İki örneklemli t testi ve ortalama farklılıkların örnekleme dağılımı. Giriş yapan öğrencilerin t-testini anlama kolaylığı, bu konunun hazırlanmasında ortaya konan temel çalışmaları ile çok ilgilidir.

/ * dehşete kapılmış öğrencilerin eğitmeni kapalı *


4

Ayrıca öğretimde faydalı olacak simülasyonlar buldum.

nN(μ,1)σ2=1H0:μ=μ0

ttstat:=n(X¯μ0)N(0,1)H0pΦ(tstat)pnorm(tstat)

N(μ0,1)μ0=2nullMeans

# p value
set.seed(1)
reps <- 1000
n <- 100      
mu <- 1.85 # true value
mu_0 <- 2 # null value
xaxis <- seq(-3, 3, length = 100)

X <- rnorm(n,mu)

nullMeans <- counter <- rep(NA,reps)

yvals <- jitter(rep(0,reps),2)

for (i in 1:reps)
{  
  tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions

  par(mfrow=c(1,3))
  plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l")
  points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon")

  X_null <- rnorm(n,mu_0) # generate data under H_0
  nullMeans[i] <- mean(X_null)

  plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt='n',ylim=c(-1,1),xlim=c(1.5,2.5))
  abline(v=mu_0,lty=2)
  points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon")

  # counts 1 if sample generated under H_0 is more extreme:
  counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0
  barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed")

  if(i<10) locator(1)
}
mean(counter)
pnorm(tstat)

0

Test edilen hipotezle ilgili olarak "p-değeri" ne anlama geliyor?

Ekolojik bir anlamda (gerçek nedir?), Hiçbir anlamı yoktur . Herhangi bir hipotez testi, test edilmemiş varsayımlara dayanmaktadır . Bu normalde testin kendisinin bir parçasıdır, fakat aynı zamanda kullandığınız modelin bir parçasıdır (örneğin bir regresyon modelinde). Bunları sadece varsaydığımız için, p değerinin eşiğimizin altında olmasının sebebinin boş değerin yanlış olup olmadığını bilemeyiz. Bir olan ilgisiz sonuç nedeniyle düşük bir p-değerinin biz null adlı reddetmek gerektiğini koşulsuz anlamak için. Örneğin, modeldeki bir şeyler yanlış olabilir.

Epistemolojik bir anlamda (biz ne öğrenebilir?), Bu demektir şey . Test edilmemiş tesislerin gerçek olduğuna bağlı olarak bilgi edinirsiniz. (En azından şu ana kadar) gerçekliğin her bir yapısını ispatlayamadığımızdan, tüm bilgimiz mutlaka şartlı olacaktır. Asla "gerçeğe" ulaşamayacağız.


-1

Mermer veya madeni para veya yükseklik ölçümü içeren örneklerin matematiği uygulamak için iyi olabileceğini düşünüyorum, ancak bina sezgisi için iyi değiller. Üniversite öğrencileri toplumu sorgulamayı sever, değil mi? Politik bir örnek kullanmaya ne dersiniz?

Siyasi bir adayın, bazı politikaların ekonomiye yardımcı olacağını vaat eden bir kampanya yürüttüğünü söyleyin. Seçildi, politika yürürlüğe girdi ve 2 yıl sonra ekonomi patlıyor. Yeniden seçime hazır ve politikasının herkesin refahının nedeni olduğunu iddia ediyor. Onu tekrar seçmeli misin?

Düşünceli vatandaş, “ekonominin iyi iş yaptığı doğru, ama bunu gerçekten politikanıza bağlayabilir miyiz?” Demeli. Buna gerçekten cevap vermek için, "ekonominin son 2 yılda onsuz iyi bir şekilde iyi sonuç verebileceği mi?" Sorusunu düşünmeliyiz. Cevabınız evet ise (örneğin ekonomi, ilgisiz yeni teknolojik gelişmeler nedeniyle canlanıyor) politikacının verileri açıklamasını reddediyoruz.

Yani, bir hipotezi incelemek için (politika ekonomiye yardımcı oldu), bu hipotezin boş olduğu bir dünya modeli oluşturmalıyız (politika asla yürürlüğe girmedi). Daha sonra bu model altında bir öngörüde bulunuyoruz . Bu verileri bu alternatif dünyada p-değeri gözlemleme olasılığı olarak adlandırıyoruz . Eğer p değeri çok yüksekse, hipotezden ikna olmadık - politika fark yaratmadı. Eğer p değeri düşükse hipoteze güveniriz - politika esastır.


1
“Bu veriyi bu alternatif dünyada p-değerini gözlemleme olasılığını diyoruz” ve aynı zamanda çizilen sonucun gücünü (özellikle boş bırakmayı reddetme) olarak tanımlamıyorum.
Silverfish

@ Silverfish Ayrıntılı bilgi verebilir misiniz? Muhtemelen p-değerini, bu gözlemi VEYA daha aşırı bir gözlem yapma olasılığı olarak adlandırmak daha doğru olacaktır. Ama daha derin bir eleştiriye sahipsin.
19

1
Asıl soru, bir p-değerinin ne olduğunu sormak olduğundan, bu tanımın açıkça anlaşılmasının önemli olduğunu düşündüm. Sadece "daha aşırı" demek, "daha aşırı" nın ne anlama gelebileceğini açıklamadan başlı başına çok yararlı değildir - bu konudaki çoğu cevabın bir zayıflığı olduğunu düşünüyorum. Sadece whuber'in cevabı ve "çay testi" bir "aşırı" nın neden önemli olduğunu gerçekten açıklıyor gibi görünüyor .
Silverfish

Ayrıca, sonuçlarınızın çok güçlü bir şekilde ifade edildiğini de hissettim. Eğer boş değeri reddedersek, buna karşı önemli kanıtlarımız vardır, ancak bunun yanlış olduğunu bilmiyoruz. Boş değeri reddetmediğimizde, bu kesinlikle boş değerin doğru olduğu anlamına gelmez. Daha genel bir yorum olarak, tanımladığınız testin, oldukça soyut bir ifadeyle, nasıl bir test yapılacağını öğrenen bir öğrenciye açık olması muhtemel olmadığına inanıyorum. Açıkça tanımlanmış bir test istatistiğinin olmayışı, t- istatistikçiliğin de nasıl yorumlanacağını soran asıl soruya uymuyor.
Silverfish

Bu cevabın bir özelliği, çok sevdiğim, boş bir modelin gerçekte doğru olduğuna inanmasak bile, p-değerlerinin boş bir model kullanılarak hesaplandığının açık bir açıklamasıdır. Test istatistiklerinin bir model altında hesaplandığı gerçeğinin, birçok öğrencinin mücadele ettiği kilit bir nokta olduğunu düşünüyorum.
Silverfish

-1

p

pX

0c1,FX|H0(inf{x:FX|H0(x)c})=c
FX|H0XH0

X

  1. p[0,1]
  2. [0,1]p

p


P

@whuber Giriş için teşekkürler. Tanımı düzenledim ve şimdi daha mantıklı olmalı!
nalzok

1
X[0,1].

(θ,θ+1)θR,θ=0,X=(X1,,Xn).X(X)=X1.[0,1]H0:n=1X1=2:2

-4

P değeri çoğu analistin ortaya koyduğu kadar gizemli değildir. Bir t testi için güven aralığını hesaplamak zorunda değil, sadece boş hipotezin reddedilebileceği güven düzeyini belirlemek için bir yoldur.

İLLÜSTRASYON. Bir test yapıyorsun. P-değeri Q değişkeni için 0,1886, R değişkeni için 0,0023 olarak gelir. (Bunlar% olarak ifade edilmiştir).

Boş hipoyu reddetmek için% 95 güven düzeyinde test yapıyorsanız;

Q için: 100-18.66 =% 81,34

R için: 100-0.23 =% 99.77.

% 95 güven seviyesinde, Q reddetmek için% 81,34 güven verir. Bu% 95'in altına düşüyor ve kabul edilemez. NULL kabul et.

R, boş değeri reddetmek için% 99,77 güven verir. Açıkça istenen% 95'in üzerinde. Böylece boşu reddediyoruz.

Ben sadece p-değerinin, sıfır hipoyu reddettiğimiz güven düzeyine kadar ölçmenin 'ters yolu' üzerinden okunmasını gösterdim.


6
QR

@cardinal önemli bir noktaya işaret ediyor. Boş değeri kabul etmeyeceksin.
Patrick Coulombe

-8

****** Hipotez testindeki p değeri testin hassasiyetini ölçer. P değeri ne kadar küçük olursa, hassasiyet o kadar fazla olur. anlamlılık düzeyi 0,05 olarak ayarlandıysa, 0,0001 p değeri test sonuçlarının doğru olma ihtimalinin yüksek olduğunu gösterir ******


6
-1 Bu açıkça yanlıştır. İlk önce yüksek oyu verilen cevapları okumak isteyebilirsiniz.
Momo
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.