İstatistiksel testlere en yaygın yaklaşımın iki yaklaşım arasında bir "melez" olduğuna göre belirli bir düşünce okulu vardır: Fisher ve Neyman-Pearson; Bu iki yaklaşım, iddiaya göre, "uyumsuz" ve sonuçta ortaya çıkan "melez" bir "tutarsız kargaşa" dır. Bir kaynakça ve aşağıda bazı alıntılar sunacağım, fakat şimdilik İstatistiksel hipotez testi ile ilgili wikipedia yazısında bunun hakkında çok fazla şey yazılı olduğunu söylemek yeterli . CV'de bu nokta art arda @Michael Lew tarafından yapıldı ( buraya ve buraya bakın ).
Sorum şu: F ve NP yaklaşımlarının neden uyumsuz olduğu iddia ediliyor ve hibrit neden tutarsız olduğu iddia ediliyor? En az altı tane anti-melez makale okuduğumu (aşağıya bakınız), ancak problemi veya argümanı hala anlamadığımı unutmayın. Ayrıca, F veya NP'nin daha iyi bir yaklaşım olup olmadığını tartışmayı önermediğime dikkat edin; ne Bayesçi çerçevelere karşı sıkça konuşmayı öneriyorum. Bunun yerine, soru şudur: Hem F hem de NP'nin geçerli ve anlamlı yaklaşımlar olduğunu kabul etmek, hibritlerinde bu kadar kötü olan ne?
İşte durumu nasıl anladım. Fisher'ın yaklaşımı değerini hesaplamak ve sıfır hipotezine karşı bir kanıt olarak kabul etmektir. küçüldükçe kanıtlar daha ikna edici olur. Araştırmacının, bu kanıtları arka plan bilgisi ile birleştirmesi, yeterince inandırıcı olup olmadığına karar vermesi ve buna göre devam etmesi gerekiyor. (Fisher'ın görüşlerinin yıllar geçtikçe değiştiğini, ancak sonunda neye yaklaştığını düşündüğü şeyin bu olduğuna dikkat edin.) Buna karşın, Neyman-Pearson yaklaşımı zamanın önünde seçip sonra seçmelip α p ≤ α; eğer öyleyse, bunu anlamlı olarak adlandırın ve boş hipotezi reddedin (burada, NP hikayesinin büyük kısmını şu anki tartışma ile ilgisi olmayan ihmal ediyorum). Ayrıca Fisher ve Neyman-Pearson çerçevesi ne zaman kullanılır?
Hibrid yaklaşımı değerini hesaplamak , rapor etmek (tam olarak daha küçük olduğu varsayılarak) ve ayrıca sonuçları eğer (genellikle ) ve önemsiz ise anlamlı olarak adlandırır. Bunun tutarsız olması gerekiyordu. Aynı anda iki geçerli şey yapmak nasıl geçersiz olabilir, beni yener.p ≤ α α = 0.05
Özellikle tutarsız olduğu için, anti-hibridistler, -değerlerini raporlamanın yaygın uygulamasını, her zaman en güçlü eşitsizliğin seçildiği - , veya (veya hatta ) olarak . Argüman, (a) kanıtların gücünün, tam bildirilmediği için tam olarak değerlendirilemediği ve (b) insanların eşitsizlikteki sağdaki sayıyı olarak yorumlama ve onu tip I hatası olarak görme eğiliminde olduğu görülüyor. oranı ve bu yanlış. Burada büyük bir problem göremiyorum. Öncelikle, tam olarak bildirmek kesinlikle daha iyi bir uygulamadır, ancak örneğin veyap < 0.05 p < 0.01 p < 0.001 p ≪ 0.0001 p α p p 0.02 0.03 ∼ 0.0001 0.05 α = 0.05 p ≠ α α , bu nedenle bir log ölçeğinde yuvarlamak o kadar da kötü değildir (ve altına zaten bir anlam ifade etmiyor, bkz. Küçük p değerleri nasıl bildirilmeli? ). İkincisi, eğer fikir birliği altındaki her şeyi anlamlı olarak adlandırmaksa, o zaman hata oranı ve , çünkü gung hipotez testinde p-değerinin yorumlanmasında açıklar . Bu potansiyel olarak kafa karıştırıcı bir sorun olsa da, beni istatistiksel testlerde (karma dışında) diğer konulardan daha fazla kafa karıştırıcı yapmaz. Ayrıca, her okuyucu kendi favori olabilir melez bir kağıt, ve bunun sonucu olarak kendi hata oranını okurken aklında.Yani büyük anlaşma nedir?
Bu anlamıyla çünkü bu soru sormak istiyorum nedenlerinden biri olduğunu acıyor nasıl wikipedia yazının çok görmek İstatistiksel hipotez testi melez lambasting için ayrılmıştır. Halpin ve Stam'ın ardından, belli bir Lindquist'in suçlu olduğunu iddia ediyor (ders kitabında sarı renkte "hataları" olan büyük bir tarama bile var) ve elbette Lindquist'in kendisi hakkındaki wiki makalesi de aynı suçlama ile başlıyor. Ama sonra belki bir şeyleri özlüyorumdur.
Referanslar
Gigerenzer, 1993, Süperego, ego ve istatistiksel muhakemedeki kimliği - "hibrit" terimini tanıttı ve "tutarsız kargaşa" olarak adlandırdı.
- Ayrıca Gigerenzer ve arkadaşlarının daha yeni açıklamalarına bakınız: örn. Mindless istatistik (2004) ve The Null Ritual. Önemlilik Testi Hakkında Her Zaman Bilmek İstediğiniz İstediğiniz Fakat Sormaktan Korkan (2004).
Cohen, 1994, The Earth Is Round ( ) - çoğunlukla farklı konularla ilgili ancak yaklaşık 3 bin alıntı içeren çok popüler bir makale.
Goodman, 1999, Kanıta dayalı tıbbi istatistiklere doğru. 1: P değeri yanlışlığı
Hubbard & Bayarri, 2003, kanıt tedbirler üzerine Karışıklık ( 'hataları karşısında ler) ( klasik istatistiksel test' ler)α - 'melez' karşı savunarak daha anlamlı kağıtları biri
Halpin & Stam, 2006, Endüktif Çıkarım veya Endüktif Davranış: Fisher ve Neyman-Pearson Psikolojik Araştırmalarda İstatistiksel Teste Yaklaşımlar (1940-1960) [kayıt sonrası ücretsiz] - Lindquist'in 1940 ders kitabını "hibrit" yaklaşımını tanıtmakla suçluyor
@Michael Lew, 2006, Farmakolojide kötü istatistiksel uygulamalar (ve diğer temel biyomedikal disiplinler): muhtemelen P'yi bilmiyorsunuz - güzel bir inceleme ve genel bakış
tırnak işareti
Gigerenzer: Psikolojide çıkarımsal istatistik olarak kurumsallaşan şey Balıkçı istatistikleri değil. Bir yandan Fisher'ın bazı fikirlerinin, bazıları ise Neyman ve ES Pearson'un fikirlerinin tutarsız bir kargaşasıdır. Bu karışıma, istatistiksel çıkarımın "melez mantığı" olarak atıfta bulunuyorum.
Goodman: [Neyman-Pearson] hipotez testi yaklaşımı, bilim insanlarına bir Faustian pazarlığı sundu - uzun vadede yanlış sonuçların sayısını sınırlandırmanın görünüşte otomatik bir yolu, ancak yalnızca [bir la Fisher] kanıtını ölçme ve değerlendirme yeteneğini bırakarak tek bir deneyden gerçeği.
Hubbard & Bayarri: Klasik istatistiksel testler, rekabet eden ve sıklıkla çelişkili yaklaşımların isimsiz bir melezidir [...]. Özellikle, Fisher'in kanıtlayıcı değerinin Neyman-Pearson istatistik ortodoksisinin Tip I hata oranı, ile uyumsuzluğunu anlamada yaygın bir başarısızlık vardır . [...] [[]] [[] ile karıştırılmasından kaynaklanan şaşkınlığın temel örneği olarak, eskinin değerinin uyumsuz olduğu yaygın olarak kabul edilmeyen bir gerçeği göz önünde bulundurunα piçine gömüldüğü Neyman-Pearson hipotez testi ile. [...] Örneğin, Gibbons ve Pratt [...] yanlış bir şekilde ifade ettiler: "Bir P-değerinin, kesin veya bir aralık dahilinde, etkin olarak raporlanması, her bireyin, kabul edilebilir maksimum olasılık olarak kendi önem seviyesini seçmesine izin verir. Ben tür bir hata. "
Halpin & Stam: Lindquist'in 1940 metni, Fisher ve Neyman-Pearson yaklaşımlarının hibridizasyonunun orijinal bir kaynağıydı. [...] herhangi bir istatistiksel testin yorumlanmasına uymak yerine, psikologlar Fisher ve Neyman-Pearson tartışmasının getirdiği kavramsal zorluklar konusunda büyük ölçüde farkında değiller.
Lew: Elimizde ne hata oranlarını kontrol eden ne de kanıtların gücünün değerlendirilmesine izin veren melez bir yaklaşım.