P değerini yanlış mı anlıyorsunuz?


17

Bu yüzden bir P-değerini nasıl doğru yorumlayacağımız hakkında çok şey okudum ve okuduğumdan, p-değeri, sıfır hipotezinin doğru veya yanlış olma olasılığı hakkında HİÇBİR şey söylüyor. Ancak, aşağıdaki ifadeyi okurken:

P - değeri, tip I hatası yapma veya doğru olduğunda sıfır hipotezini reddetme olasılığını temsil eder. P değeri ne kadar küçük olursa, sıfır hipotezini yanlış reddetme olasılığınız o kadar küçük olur.

EDIT: Ve sonra 5 dakika sonra okudum:

P değerlerinin yanlış yorumlanması çok yaygındır. En yaygın hata, bir P değerini gerçek bir sıfır hipotezini (Tip I hatası) reddederek hata yapma olasılığı olarak yorumlamaktır.

Bu beni şaşırttı. Hangisi doğru? Ve lütfen p-değerini nasıl doğru yorumlayacağınızı ve bunun tip I hatası yapma olasılığı ile nasıl doğru bir şekilde ilişkili olduğunu açıklayabilir misiniz?


1
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is trueP - değeri apriori tip I hatası yapma olasılığını, yani doğru olduğu varsayımı altında sıfır hipotezini reddetme olasılığını temsil eder.
ttnphns

4
@Paul: null değerinin doğru olması durumunda null koşulunu reddetme olasılığı, tip I hatasının olasılığıdır, bu bir p-değeri ile aynı değildir. Tip I hatasının olasılığı (sürekli rasgele değişkenler için) seçilen önem seviyesine eşittir, ayrıca aşağıdaki cevabım da bakınız.

Evet, şimdi görüyorum, kesinlikle haklısın.
Paul

4
@fcoppens Tip I hatasının olasılığı, yalnızca sıfır hipotezinin doğru olması koşuluyla önceden seçilmiş alfa düzeyine eşittir. Koşulsuz bir durumda, null değerinin doğru veya yanlış olup olmadığını bilmezsiniz ve bu nedenle yalnızca null gerçeği için önceden bir olasılık sağladıysanız, tip I hatası olasılığını belirtebilirsiniz.
Michael Lew - Monica'yı

@Michael Lew: Boştaki bu koşullama aşağıdaki cevabımda belirtildi mi?

Yanıtlar:


25

Yorumlarınız nedeniyle iki ayrı bölüm yapacağım:

p-değerleri

İstatistiksel hipotez testinde alternatif hipotez için 'istatistiksel kanıt' bulabilirsiniz ; Ben de açıklandığı üzere aşağıdaki Ne hipotezini reddetmek için başarısız olur? , matematikte 'çelişkili kanıt' ile benzerdir.

Biz 'istatistiksel kanıt' bulmak istiyorum Yani eğer o zaman biz göstermek tersini farz biz diyoruz ispat çalıştığı şey , H 1 . Bundan sonra bir örnek çizeriz ve örnekten test istatistiği (örn. Bir t testinde t değeri) hesaplarız.H0H1

Daha sonra, nin doğru olduğunu ve numunemizin H 0 altındaki dağılımdan rastgele çekildiğini varsaydığımız için, (rastgele) örneğimizden elde edilen değeri aşan veya ona eşit olan değerleri gözlemleme olasılığını hesaplayabiliriz . Bu olasılığa p değeri denir.H0H0

Bu değer, biz bu seçtiğim Thase anlamlılık düzeyinde daha küçük '' küçük yeterince '' yani ise, o reddetme ve biz düşünün H 1 'istatistiksel olarak kanıtlanmış' dir.H0H1

Bu şekilde birkaç şey önemlidir:

  • olasılıkları doğru olduğu varsayılarak türettikH0
  • H 0 altında varsayılan dağılımdan rastgele bir örnek aldıkH0
  • Biz karar Bulunan kanıt için rastgele örnekten elde edilen test istatistik aşılması düşük bir olasılık sahipse. Bu nedenle, H 0 doğru olduğunda aşılması imkansız değildir ve bu durumlarda tip I hatası yaparız. H1H0

Öyleyse tip I hatası nedir: H 0'dan rastgele alınan örnek, tip 0 hatası, gerçekte doğruyken H 0'ın yanlış olduğu sonucuna götürür .H0H0

Bunun, p-değerinin tip I hata olasılığı olmadığını ima ettiğini unutmayın . Gerçekten de, tip I hatası test tarafından yanlış bir karardır ve karar sadece p-değerini seçilen önem seviyesi ile karşılaştırarak yapılabilir, tek başına bir p-değeri ile karar veremez , ancak karşılaştırdıktan sonra bir kararın verildiği seçilen önem seviyesine göre p değeri ve hiçbir karar alınmadığı sürece tip I hatası tanımlanmamıştır.

Peki p değeri nedir? Potansiyel olarak yanlış ret dolayı biz altında rastgele bir numune alın gerçeğine olan H 0 o numuneyi çizerek biz '' kötü şans '' olduğunu olabilir böylece, ve bu '' kötü şans '' potansiyel olduğunu H 0'ın yanlış reddine . Yani p değeri (bu tam olarak doğru olmasa da) daha çok `` kötü örnek '' çizme olasılığı gibidir. P-değerinin doğru yorumlanması, test istatistiğinin H 0 altında rastgele çekilmiş bir örnekten türetilen test istatistiği değerini aşması veya buna eşit olması ihtimalidir.H0H0H0H0


Yanlış keşif oranı (FDR)

Şöyle Boş hipotez bir 'istatistik kanıt' olarak kabul etti, reddedilir, yukarıdaki her zaman açıklandığı . Bu yüzden yeni bilimsel bilgiler bulduk, bu yüzden buna keşif denir . Ayrıca, bir tip I hatası yaptığımızda yanlış keşifler yapabileceğimiz (yani H 0'ı yanlış reddetme ) yapabileceğimiz açıklanmaktadır. Bu durumda yanlış bir bilimsel gerçek inancına sahibiz. Sadece gerçekten doğru şeyleri keşfetmek istiyoruz ve bu nedenle yanlış keşifleri minimumda tutmaya çalışıyoruz, yani biri I. tip bir hatayı kontrol edecektir. Tip I hata olasılığının seçilen önem seviyesi α olduğunu görmek o kadar zor değildir . Bu nedenle, tip I hatalarını kontrol etmek için, bir αH1H0αα- '' yanlış kanıt '' kabul etme isteğinizi yansıtıyor.

Sezgisel olarak bu araçlar biz örneklerin çok sayıda çizmek ve her numune ile test ettik gerçekleştirirseniz ki, o zaman bir fraksiyon bu testlerin yanlış bir sonuca yol açacaktır. 'Birçok örnek üzerinde ortalama' olduğumuzu belirtmek önemlidir ; bu yüzden aynı test, birçok örnek. α

Aynı numuneyi birçok farklı test yapmak için kullanırsak, birden fazla test hatası alırız ( Family-wise error sınırındaki yanıtım bölümüne bakın : Farklı bağımsız soru çalışmalarında veri setlerinin yeniden kullanılması birden fazla test problemine yol açar mı? ). Bu durumda, enflasyonu , örneğin bir Bonferroni düzeltmesi gibi , ailenin hata oranını (FWER) kontrol etme tekniklerini kullanarak kontrol edebilir .α

FWER'den farklı bir yaklaşım, yanlış keşif oranını (FDR) kontrol etmektir . Bu durumda, tüm keşifler (D) arasındaki yanlış keşiflerin (FD) sayısı kontrol edilir, böylece biri , D reddedilenH0sayısıdır.FDDH0

Bu nedenle tip I hata olasılığı , aynı testi birçok farklı örnek üzerinde yapmakla ilgilidir. Çok sayıda örnek için, tip I hata olasılığı, yanlış bir reddetmeye yol açan örnek sayısına yakınsayacaktır ve çekilen toplam örnek sayısına bölünecektir .

FDR aynı numune üzerinde ve edecek testlerin çok sayıda için birçok testler ile ilgisi var tip I hatası yapıldığı testlerin sayısına yakınsama (yani sahte keşifler sayısı) toplam sayıya ait red sayısını bölünmüş (yani toplam keşif sayısı)H0 .

Yukarıdaki iki paragrafı karşılaştırarak şunu unutmayın:

  1. Bağlam farklıdır; bir test ve birçok numune karşısında birçok test ve bir numune.
  2. Tip I hata olasılığını hesaplamak için payda, FDR'yi hesaplamak için paydadan açıkça farklıdır. Paylar bir şekilde benzerdir, ancak farklı bir bağlama sahiptir.

FDR, aynı örnek üzerinde birçok test gerçekleştirirseniz ve 1000 keşif (yani reddi ) bulursanız, 0,38 FDR ile 0,38 × 1000 yanlış keşif yapacağınızı söyler .H00.38×1000


5
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0Öyle mi? "Eşittir ya da aşar" değil mi? P-değeri, gerçek H0 altında, bu ya da gerçekte gözlemlenenden daha güçlü bir fark ya da ilişki gözlemlediğimiz probudur .
ttnphns

@ttnphns Sürekli bir test istatistiği için fark yoktur çünkü bir noktanın ölçüsü sıfırdır. Ayrık bir test istatistiği için haklısınız (+1). Metni buna göre değiştirdim.

1
P-değerleri ve tip I hata oranları arasında çok yararlı bir ayrım çiziyorsunuz, ancak "kanıtlanmış" kelimesinden daha dikkatli olmanız gerektiğini düşünüyorum. Bence değiştiriciyi "istatistiksel olarak" eklemek yeterince yumuşatmıyor.
Michael Lew - Monica'yı

1
Sadece ikili bir duruma sahipmiş gibi kanıtlarla başa çıktınız: var ve yok. İstatistiksel olmayan kanıtların standart anlayışında, kelime kavramının kademeli bir varlığı vardır ve gücün tek bir boyutunun yakalayabileceğinden daha karmaşıktır. Zorluk, hata oranı düşüncelerinin sıradan kanıt yorumlarıyla uyumsuzluğundan kaynaklanmaktadır. FDR çerçevesinde “kanıt” ın ikili olmayan yorumunu yakalayan herhangi bir hesabı okumak isterim. (Henüz bir tane görmedim.)
Michael Lew - Monica'yı

1
Düzeltme için teşekkürler. Dün gece ilgili değişikliği yaptım ve gönderinizi kredilendirdim.
Antoni Parellada

4

İlk ifade kesinlikle doğru değil.

Önemin yanlış anlaşılması hakkında şık bir makaleden: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )

"[Bu ifade], Tip I'in bir hatanın tanımına benzeyebilir (yani, doğru olmasına rağmen H0'ı reddetme olasılığı), ancak H0'ı gerçekten reddetmişse, bu karar sadece ve eğer Bu nedenle "yanlış karar verdiğiniz" olasılığı p (H0) 'dır ve bu olasılık ... sıfır hipotez önem testi ile elde edilemez. "

Daha basit olarak, H0'ı yanlış reddetme olasılığınızı değerlendirmek için, bu testi kullanarak elde edemeyeceğiniz H0'ın doğru olma olasılığına ihtiyacınız vardır.


Teşekkür ederim! Ben ilk bölümünü okuyorum Yani statisticsdonewrong.com/p-value.html , yazar FDR bu nedenle bir tip I hata olasılığı% 38'dir,% 38 olduğunu sonucuna?
rb612

FDR, Yanlış Keşif oranıdır ve tip I hatadan çok farklıdır, bu nedenle sorunuzun cevabı hayır. FDR'nin birden fazla testle ilgisi vardır, yani aynı örnek üzerinde birden fazla test yaptığınızda, bkz. Stats.stackexchange.com/questions/164181/… . FDR, Familywise Hata Oranına bir alternatiftir, ancak bir açıklamadaki karakter sayısının çok sınırlı olduğunu açıklamak için.

Cevabımı FDR'yi açıklamak için ikinci bir bölüm ekledim.

1
Nasıl H0'ın bir önceliği olmadan doğru olma olasılığını belirlemek mümkün değilse, FDR'yi bir önceliği olmadan belirlemek mümkün değildir. FDR makalelerini nasıl yorumladığınıza dikkat edin, çünkü bunlarda kullanılan öncelikler kendi deney koşullarınızla ilgili olmayabilir.
Michael Lew - Monica'yı

1

Bir p-değerinin doğru yorumu , sıfır hipotezinin doğru olduğu varsayılarak, en azından gözlemlenen değer kadar alternatif hipoteze (en azından "aşırı") sahip olan bir sonucun koşullu olasılığıdır . Yanlış yorumlar genellikle marjinal bir olasılık veya durumun değiştirilmesini içerir:

p-value=P(At least as extreme as observed outcome|H0)P(Type I error).

-1

P değeri, sıfır hipotezinin (veya iddia edilen hipotezin) reddedilip reddedilemeyeceğini belirlememizi sağlar. P-değeri önem seviyesinden (a) düşükse, bu istatistiksel olarak anlamlı bir sonucu temsil eder ve sıfır hipotezi reddedilmelidir. Eğer p-değeri anlamlılık düzeyi α'dan büyükse, sıfır hipotezi reddedilemez. Tabloyu kullanıyorsanız veya test istatistiğinden p değerini bulmak için bu p değeri hesaplayıcısı gibi bir çevrimiçi hesap makinesi kullanıyorsanız p-değerine bakmanın tüm nedeni budur .

Artık tip I ve tip II hatalarından bahsettiğinizi biliyorum. Bunun gerçekten p değeriyle bir ilgisi yok. Bu, kullanılan örneklem büyüklüğü ve veriler için elde edilen değerler gibi orijinal verilerle ilgilidir. Örneğin örnek boyutu çok küçükse, bu tip I hatasına yol açabilir.


2
-1. Sizi bir aşağı oyla sitemize davet ettiğim için üzgünüm, ancak bu cevap açıkça yanlış: p-değerinin sıfır hipotezinin gerçeği olasılığı olduğu durum böyle değil. Bu, p-değerleri ve stats.stackexchange.com/questions/31 gibi hipotez testleri hakkında birçok konuda tartışılmaktadır .
whuber

1
Orijinal cevabı biraz daha kesinleştirmek için biraz değiştirdim.
user1445657
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.