Fisher ve Neyman-Pearson çerçevesi ne zaman kullanılır?


73

Son zamanlarda Fisher'ın hipotez testi yöntemi ile Neyman-Pearson düşünce okulu arasındaki farklar hakkında çok şey okudum.

Sorum şu: bir an için felsefi itirazları görmezden gelmek; Fisher'in istatistiksel modelleme yaklaşımını ne zaman kullanmalıyız ve Neyman-Pearson anlamlılık düzeyi etetre yöntemini ne zaman kullanmalıyız? Herhangi bir pratik problemde hangi bakış açısını destekleyeceğine karar vermenin pratik bir yolu var mı?


Bunu nereden okudun? Lütfen kaynaklarınızı belirtin.
xmjx

8

Yanıtlar:


83

|x¯100|

Fisher , p-değerinin , sıfır hipotezine karşı sürekli bir kanıt ölçüsü olarak yorumlanabileceğini düşündü . Sonuçların “anlamlı” hale geldiği belirli bir sabit değer yoktur. Bunu genel olarak insanlara karşı koymaya çalışmamın yolu, tüm niyet ve amaçlar için, p = 0,049 ve p = 0,051'in boş hipoteze karşı aynı miktarda kanıt oluşturduğuna işaret etmektir (cf. @ Henrik'in buradaki cevabı ). .

Öte yandan, Neyman ve Pearson , p değerini resmi bir karar alma sürecinin parçası olarak kullanabileceğinizi düşündü . Araştırmanızın sonunda, boş hipotezi reddetmeniz veya boş hipotezi reddetmeniz gerekmiyor. Ayrıca, boş hipotez ya doğru olabilir ya da doğru olmayabilir. Böylece, dört teorik olasılık vardır (herhangi bir durumda, sadece iki tane olmasına rağmen): doğru bir karar verebilirsin (doğru - veya yanlış - boş hipotezi reddedemezsin) ya da bir tür yapabilirsin I veya II tipi hata (sırasıyla boş bir boş hipotezi reddederek ya da yanlış bir boş hipotezi reddederek). (P-değerinin burada tartıştığım I tipi hata oranı ile aynı olmadığını unutmayın..) P-değeri, sıfır hipotezinin resmileştirilmesinin reddedilip reddedilmeyeceğine karar verme sürecine izin verir. Neyman-Pearson çerçevesinde, süreç şöyle işe yarayacaktı: tersine yeterli delil olmadığında insanların varsayılan olarak inanacakları gibi boş bir hipotez ve bunun yerine doğru olabileceğine inandığınız alternatif bir hipotez var. Birlikte yaşamak isteyeceğiniz bazı uzun vadeli hata oranları var (bunların% 5 ve% 20 olması gerekmediğine dikkat edin). Bu şeyler göz önüne alındığında, çalışmanızı bu iki hipotez arasında ayrım yaparken, en çok bu hata oranlarını koruyarak, bir güç analizi yaparak ve çalışmanızı buna göre yürüterek tasarlarsınız. (Genellikle, bu yeterli veriye sahip demektir.) Çalışmanız tamamlandıktan sonra, p-değerini karşılaştırın.αp<α

Fisherian ve Neyman-Pearson yaklaşımları aynı değildir . Neyman-Pearson çerçevesinin temel çekişmesi, çalışmanızın sonunda bir karar vermeniz ve çekip gitmeniz gerektiğidir. İddiaya göre, bir araştırmacı bir zamanlar Fisher'a 'önemli olmayan' sonuçlarla yaklaştı, ne yapması gerektiğini sordu ve Fisher “git daha fazla veri bul” dedi.


Şahsen, Neyman-Pearson yaklaşımının zarif mantığını çok çekici buluyorum. Ama her zaman uygun olduğunu sanmıyorum. Benim düşünceme göre, Neyman-Pearson çerçevesi göz önüne alınmadan önce en az iki koşulun karşılanması gerekir:

  1. Bazı nedenlerden dolayı önemsediğiniz bazı spesifik alternatif hipotezler ( etki büyüklüğü ) olmalıdır. (Etki büyüklüğünün ne olduğu, nedeninizin ne olduğu, sağlam temelli mi yoksa tutarlı mı olduğu umurumda değil.
  2. Alternatif hipotez doğruysa, etkinin 'önemli' olacağından şüphelenmek için bazı sebepler olmalıdır. (Uygulamada, bu genellikle bir güç analizi yaptığınız ve yeterli veriye sahip olduğunuz anlamına gelir.)

Bu koşullar karşılanmadığında, p-değeri hala Fisher'ın fikirlerine uygun olarak yorumlanabilir. Üstelik, bu şartların çoğu zaman karşılanmadığı da muhtemel görünüyor. İşte testlerin yapıldığı aklınıza gelen bazı basit örnekler, ancak yukarıdaki şartların yerine getirilmediği:

  • çoklu regresyon modeli için çok yönlü ANOVA (tüm varsayımları sıfır olmayan eğim parametrelerinin F dağılımı için merkeziyetçi olmayan bir parametre oluşturmak için nasıl bir araya geldiğini bulmak mümkündür , ancak uzaktan sezgisel değildir ve kimseden şüpheliyim yapar)
  • W
  • Homojenite varyans testinin değeri (ör. Levene testi ; yukarıdakilerle aynı yorumlar)
  • Varsayımları kontrol etmek için yapılan diğer testler vb.
  • Çalışmada birincil ilgi açıklayıcı değişkeni dışındaki değişkenlerin t-testleri
  • ilk / keşif araştırması (örneğin pilot çalışmalar)

Bu daha eski bir konu olmasına rağmen, cevap çok takdir edilmektedir. +1
Stijn

+1 Harika cevap! Bu kavramları kısa ve öz bir şekilde açıklama kabiliyetinizden etkilendim.
COOLSerdash

1
Bu gerçekten harika bir cevap, @gung
Patrick S.

5
AFAIK Neyman- Pearson mi değil Fisherian p, ve böylece bir "p <a" kriteri kullanın. "Neyman-Pearson" dediğiniz şey aslında "sıfır hipotez anlamlılık testi" (Fisher ve NP'in bir melezi), saf Neyman-Pearson karar teorisi değil.
Frank

"eğer referans değeri gerçek popülasyon parametresiyse." Kesin olmak gerekirse, "olasılık dağılımı null hipotezinde belirtilen ise" dir. Boş hipotez, yalnızca bir ortalama gibi özet istatistikleri belirtmez, tüm olasılık dağılımını belirtir. Genellikle, dağıtım ailesi örtük olarak alınır (örneğin normal dağılım), bu noktada parametreleri belirten dağılım belirtilir.
Birikim

18

Pratiklik, bakanın gözündedir;

  • Fisher'ın önemlilik testi, verilerin ilginç bir “sinyal” önerip önermediğine karar vermenin bir yolu olarak yorumlanabilir. Ya boş hipotezi reddederiz (ki bu bir Tip I hatası olabilir) ya da hiç bir şey söyleme. Örneğin, birçok modern 'omik' uygulamasında, bu yorum uyuyor; Çok fazla sayıda Tip I hata yapmak istemiyoruz, bazılarını özleyebilsek de en heyecan verici sinyalleri çıkarmak istiyoruz.

  • Neyman-Pearson'un hipotezi, karar verdiğimiz iki ayrık alternatifin (örn. Higgs Boson var mı yoksa yok) olduğu zaman anlamlıdır. Tip I hata riskinin yanı sıra, burada Tip II hatasını da yapabiliriz - gerçek bir sinyal olduğunda ancak orada olmadığını söylüyoruz, 'boş' bir karar veriyoruz. NP'nin argümanı, çok fazla tip I hata oranı yapmadan, Tip II hata riskini en aza indirmek istediğimizdir.

Çoğu zaman, her iki sistem de mükemmel görünmeyebilir - örneğin, yalnızca bir nokta tahmini ve karşılık gelen belirsizlik ölçüsü isteyebilirsiniz. Ayrıca, hangi sürümü önemli değil sen sen p-değeri bildirmek ve okuyucuya Test yorumunu bırakın, çünkü kullanın. Ancak yukarıdaki yaklaşımlardan birini seçmek için, Tip II hataların uygulamanızla ilgili olup olmadığını belirleyin.


5

Mesele şu ki, felsefi farklılıkları görmezden gelemezsiniz. İstatistiklerdeki matematiksel bir prosedür, bazı temel hipotezler, varsayımlar, teori ... felsefesi olmadan uyguladığınız bir şey olarak tek başına değildir.

Bununla birlikte, sıkça felsefe yapmakta ısrar etmek konusunda ısrar ediyorsanız, Neyman-Pearson'un gerçekten göz önünde bulundurulması gereken çok özel birkaç sorun olabilir. Hepsi kalite kontrol veya fMRI gibi tekrarlanan testler sınıfına girerdi. Önceden belirli bir alfa ayarlamak ve tüm Tip I, Tip II ve güç çerçevesini göz önüne almak bu ayarda daha önemli hale gelir.


Sık sık istatistiklere bağlı kalmakta ısrar etmiyorum, ancak sadece Fisher veya Neyman-Pearson bakış açısını benimsemenin doğal olabileceği durumlar olup olmadığını merak ediyordum. Felsefi bir ayrım olduğunu biliyorum, ama belki de dikkate alınması gereken pratik bir yön var mı?
Stijn

3
Tamam, hemen hemen söylediklerim ... Neyman-Pearson, her biri için gerçek bir teorik destek olmadan çok ve çok sayıda test yaptığınız durumlarla gerçekten ilgileniyordu. Fisher bakış açısı bu konuyu gerçekten ele almıyor.
John

1

Benim anlayışı şudur: p-değeri bize neye inanmamız gerektiğini (yeterli veri içeren bir teoriyi doğrulamak) iken Neyman-Pearson yaklaşımı bize ne yapacağımızı (sınırlı verilerde bile mümkün olan en iyi kararları almak) anlatmaktır. Bu yüzden bana (küçük) p-değerinin daha katı olduğunu ve Neyman-Pearson yaklaşımının daha pragmatik olduğunu; Muhtemelen p-değerinin bilimsel soruları yanıtlarken daha çok kullanılmasının nedeni Neyman ve Pearson'ın istatistiksel / pratik kararlar vermede daha çok kullanılmasıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.