Fisher ve Neyman-Pearson yaklaşımları arasındaki “melez”, istatistiksel testlere gerçekten yaklaşıyor mu?


56

İstatistiksel testlere en yaygın yaklaşımın iki yaklaşım arasında bir "melez" olduğuna göre belirli bir düşünce okulu vardır: Fisher ve Neyman-Pearson; Bu iki yaklaşım, iddiaya göre, "uyumsuz" ve sonuçta ortaya çıkan "melez" bir "tutarsız kargaşa" dır. Bir kaynakça ve aşağıda bazı alıntılar sunacağım, fakat şimdilik İstatistiksel hipotez testi ile ilgili wikipedia yazısında bunun hakkında çok fazla şey yazılı olduğunu söylemek yeterli . CV'de bu nokta art arda @Michael Lew tarafından yapıldı ( buraya ve buraya bakın ).

Sorum şu: F ve NP yaklaşımlarının neden uyumsuz olduğu iddia ediliyor ve hibrit neden tutarsız olduğu iddia ediliyor? En az altı tane anti-melez makale okuduğumu (aşağıya bakınız), ancak problemi veya argümanı hala anlamadığımı unutmayın. Ayrıca, F veya NP'nin daha iyi bir yaklaşım olup olmadığını tartışmayı önermediğime dikkat edin; ne Bayesçi çerçevelere karşı sıkça konuşmayı öneriyorum. Bunun yerine, soru şudur: Hem F hem de NP'nin geçerli ve anlamlı yaklaşımlar olduğunu kabul etmek, hibritlerinde bu kadar kötü olan ne?


İşte durumu nasıl anladım. Fisher'ın yaklaşımı değerini hesaplamak ve sıfır hipotezine karşı bir kanıt olarak kabul etmektir. küçüldükçe kanıtlar daha ikna edici olur. Araştırmacının, bu kanıtları arka plan bilgisi ile birleştirmesi, yeterince inandırıcı olup olmadığına karar vermesi ve buna göre devam etmesi gerekiyor. (Fisher'ın görüşlerinin yıllar geçtikçe değiştiğini, ancak sonunda neye yaklaştığını düşündüğü şeyin bu olduğuna dikkat edin.) Buna karşın, Neyman-Pearson yaklaşımı zamanın önünde seçip sonra seçmelip α p αppαpα; eğer öyleyse, bunu anlamlı olarak adlandırın ve boş hipotezi reddedin (burada, NP hikayesinin büyük kısmını şu anki tartışma ile ilgisi olmayan ihmal ediyorum). Ayrıca Fisher ve Neyman-Pearson çerçevesi ne zaman kullanılır?

Hibrid yaklaşımı değerini hesaplamak , rapor etmek (tam olarak daha küçük olduğu varsayılarak) ve ayrıca sonuçları eğer (genellikle ) ve önemsiz ise anlamlı olarak adlandırır. Bunun tutarsız olması gerekiyordu. Aynı anda iki geçerli şey yapmak nasıl geçersiz olabilir, beni yener.p α α = 0.05ppαα=0.05

Özellikle tutarsız olduğu için, anti-hibridistler, -değerlerini raporlamanın yaygın uygulamasını, her zaman en güçlü eşitsizliğin seçildiği - , veya (veya hatta ) olarak . Argüman, (a) kanıtların gücünün, tam bildirilmediği için tam olarak değerlendirilemediği ve (b) insanların eşitsizlikteki sağdaki sayıyı olarak yorumlama ve onu tip I hatası olarak görme eğiliminde olduğu görülüyor. oranı ve bu yanlış. Burada büyük bir problem göremiyorum. Öncelikle, tam olarak bildirmek kesinlikle daha iyi bir uygulamadır, ancak örneğin veyap < 0.05 p < 0.01 p < 0.001 p 0.0001 p α p p 0.02 0.03 0.0001 0.05 α = 0.05 p α αpp<0.05p<0.01p<0.001p0.0001pαpp0.020.03 , bu nedenle bir log ölçeğinde yuvarlamak o kadar da kötü değildir (ve altına zaten bir anlam ifade etmiyor, bkz. Küçük p değerleri nasıl bildirilmeli? ). İkincisi, eğer fikir birliği altındaki her şeyi anlamlı olarak adlandırmaksa, o zaman hata oranı ve , çünkü gung hipotez testinde p-değerinin yorumlanmasında açıklar . Bu potansiyel olarak kafa karıştırıcı bir sorun olsa da, beni istatistiksel testlerde (karma dışında) diğer konulardan daha fazla kafa karıştırıcı yapmaz. Ayrıca, her okuyucu kendi favori olabilir melez bir kağıt, ve bunun sonucu olarak kendi hata oranını okurken aklında.0.00010.05α=0.05pααYani büyük anlaşma nedir?

Bu anlamıyla çünkü bu soru sormak istiyorum nedenlerinden biri olduğunu acıyor nasıl wikipedia yazının çok görmek İstatistiksel hipotez testi melez lambasting için ayrılmıştır. Halpin ve Stam'ın ardından, belli bir Lindquist'in suçlu olduğunu iddia ediyor (ders kitabında sarı renkte "hataları" olan büyük bir tarama bile var) ve elbette Lindquist'in kendisi hakkındaki wiki makalesi de aynı suçlama ile başlıyor. Ama sonra belki bir şeyleri özlüyorumdur.


Referanslar

tırnak işareti

Gigerenzer: Psikolojide çıkarımsal istatistik olarak kurumsallaşan şey Balıkçı istatistikleri değil. Bir yandan Fisher'ın bazı fikirlerinin, bazıları ise Neyman ve ES Pearson'un fikirlerinin tutarsız bir kargaşasıdır. Bu karışıma, istatistiksel çıkarımın "melez mantığı" olarak atıfta bulunuyorum.

Goodman: [Neyman-Pearson] hipotez testi yaklaşımı, bilim insanlarına bir Faustian pazarlığı sundu - uzun vadede yanlış sonuçların sayısını sınırlandırmanın görünüşte otomatik bir yolu, ancak yalnızca [bir la Fisher] kanıtını ölçme ve değerlendirme yeteneğini bırakarak tek bir deneyden gerçeği.

Hubbard & Bayarri: Klasik istatistiksel testler, rekabet eden ve sıklıkla çelişkili yaklaşımların isimsiz bir melezidir [...]. Özellikle, Fisher'in kanıtlayıcı değerinin Neyman-Pearson istatistik ortodoksisinin Tip I hata oranı, ile uyumsuzluğunu anlamada yaygın bir başarısızlık vardır . [...] [[]] [[] ile karıştırılmasından kaynaklanan şaşkınlığın temel örneği olarak, eskinin değerinin uyumsuz olduğu yaygın olarak kabul edilmeyen bir gerçeği göz önünde bulundurunα ppαpiçine gömüldüğü Neyman-Pearson hipotez testi ile. [...] Örneğin, Gibbons ve Pratt [...] yanlış bir şekilde ifade ettiler: "Bir P-değerinin, kesin veya bir aralık dahilinde, etkin olarak raporlanması, her bireyin, kabul edilebilir maksimum olasılık olarak kendi önem seviyesini seçmesine izin verir. Ben tür bir hata. "

Halpin & Stam: Lindquist'in 1940 metni, Fisher ve Neyman-Pearson yaklaşımlarının hibridizasyonunun orijinal bir kaynağıydı. [...] herhangi bir istatistiksel testin yorumlanmasına uymak yerine, psikologlar Fisher ve Neyman-Pearson tartışmasının getirdiği kavramsal zorluklar konusunda büyük ölçüde farkında değiller.

Lew: Elimizde ne hata oranlarını kontrol eden ne de kanıtların gücünün değerlendirilmesine izin veren melez bir yaklaşım.


Bu kuyu için +1 sorusu araştırılmış (uzun olsa bile) Belki de tam olarak kafa karıştırıcı olanı belirlemeye devam edeceğimi düşünüyorum. Fisher için alternatif bir hipotez bulunmadığını bilmek yeterliyken, NP için olasılıklar dünyasının hem boş hem de alternatif olarak tükenmiş olduğunu bilmek yeterli mi? Bana yeterince anlamsız görünüyor ama ne yazık ki her zaman melez şeyi yapıyorum çünkü kaçınamazsınız, yani kökleşmiş hale geldi.
Momo

2
@ Moomo: Size “kafa karıştırıcı olanın ne olduğunu” sorguluyorsunuz - kafa karıştırıcı, anti-hibrid söylemlerin çılgınlığı. "Tutarsız karmakarışık" güçlü sözlerdir, bu yüzden oldukça kötü bir tutarsızlık görmek isterim. Alternatif hipotez hakkında söyledikleriniz bana öyle gelmiyor ( bahçe çeşitlerinde alternatif açıkça , ve tutarsızlığa yer ), Ama eğer amacını özlüyorsam, belki cevap olarak vermek istersin. H 1 : μ 0H0:μ=0H1:μ0
amip diyor Reinstate Monica

2
Lew'i okuduktan sonra (ve daha önce, muhtemelen 2006'da okuduğumu farkettim), oldukça iyi buldum, ama p-değerlerini nasıl kullandığımı temsil ettiğini sanmıyorum. Önemlilik düzeylerim - ender durumlarda, hipotez testlerini hiç kullanmam * - daima öndeyim ve örnek büyüklüğü üzerinde herhangi bir kontrole sahip olduğumda, gücün değerlendirilmesinden sonra, iki hata tipinin maliyetinin bir miktarını vb. aslında Neyman-Pearson. Yine de p-değerleri alıntı yapıyorum, ancak Fisher yaklaşımı çerçevesinde değil .... (
ctd

2
(ctd) ... * (İnsanları genellikle hipotez testlerinden uzağa yönlendiririm - bu yüzden çoğu zaman asıl soruları ölçme etkileriyle ilgilidir ve aralıklar oluşturarak daha iyi cevaplandırılır). Lew'in 'hibrit' prosedürü için yarattığı özel sorun, yapmadığım ve insanları yapmamaya karşı koruma eğiliminde olan bir şey için geçerlidir. Gerçekten de ima ettiği yaklaşımların karışımını yapan insanlar varsa, kağıt iyi görünüyor. P-değerlerin anlamı ve yaklaşımların tarihçesi ile ilgili daha önce tartışıldığı için mükemmel görünüyor.
Glen_b

1
@ Glen_b, Lew'in tarihi genel olarak çok güzel ve açık, ben tamamen katılıyorum. Benim sorunum özellikle karma sorun ile ilgili ("Hangi yaklaşım en çok kullanılıyor?" Bölümü). Kesinlikle orada olan insanlar, orada tanımladığı yapıyor <, .01 veya <.05 p <.001 güçlü raporlama yani; Sinirbilimde her zaman görüyorum. Sınama kullandığınızda durumlardan birini göz önünde bulundurun. Örneğin, alfa = .05 seçin ve NP çerçevesini izleyin. P = .00011 olduğunda, H1 ile ilgili sizin kesin ifadeniz ve ifade seçiminiz, p = .049 alacağınızdan farklı olacaktır mı? Eğer öyleyse, melez! Eğer değilse nasıl geliyor?
amip diyor Reinstate Monica

Yanıtlar:


16

Özenle topladığınız kağıtların, makalelerin, yazıların vb., İki yaklaşımın nerede ve neden farklı olduğuna dair yeterli bilgi ve analiz içerdiğine inanıyorum. Ancak farklı olmak, uyumsuz olmak anlamına gelmez .

"Hibrit" ile ilgili sorun, bir melez olmasıdır ve bir sentez değildir ve bu, kelime oyununu mazeret ederseniz , birçok kişi tarafından bir melez olarak değerlendirilir .
Bir sentez olmamak, iki yaklaşımın farklılıklarını birleştirmeyi denemez, ya birleşik ve dahili olarak tutarlı bir yaklaşım yaratmaz ya da her iki yaklaşımı da çok karmaşıklarla daha etkili bir şekilde başa çıkmak için tamamlayıcı alternatifler olarak bilimsel cephanede tutar. dünya İstatistiklerle analiz etmeye çalışıyoruz (neyse ki, bu son şey, alanın diğer büyük iç savaşı, frekansçı-bayesyen olan ile olan şeydir).

İnanıyorum onunla memnuniyetsizlik gerçekten de yanlış anlamaları yarattı olmasından kaynaklanır uygulayarak istatistiksel araçlar ve istatistiksel sonuçları yorumlama , esas istatistikçiler olmayan bilim adamları tarafından , muhtemelen çok ciddi ve zararlı etkileri olabilir yanlış anlamalar (alanında düşünmeye tıbbı konuya uygun dramatik tonu vermeye yardımcı olur). Bu yanlış uygulamanın, geniş çapta bir gerçek olarak kabul edildiğine inanıyorum ve bu anlamda “anti-hibrid” bakış açısının yaygın olarak kabul edilebileceğine inanılıyor (en azından metodolojik sorunları için olmasa da sonuçları nedeniyle).

p

Melez ortaya çıktı, inanıyorum ki, bu kadar kolay bir cevabın olmadığı ve bir yaklaşımın diğerinden daha iyi olduğu gerçek dünya fenomenleri olduğuna inanıyorum ( bana göre, bu yazıya bakınız . en azından, Balıkçı yaklaşımının daha uygun göründüğü yer). Fakat ikisini "ayrı ve harekete hazır" tutmak yerine, birbirlerine gereksiz yere yamalardı.

Bu "tamamlayıcı alternatif" yaklaşımını özetleyen bir kaynak öneriyorum: Spanos, A. (1999). Olasılık teorisi ve istatistiksel çıkarım: gözlemsel verilerle ekonometrik modelleme. Cambridge Üniversitesi Basını. , ch. 14 , özellikle Bölüm 14.5, iki yaklaşımı resmen ve açıkça sunduktan sonra , yazarın farklılıklarını açıkça gösterebilecek bir konumda olduğu ve tamamlayıcı alternatifler olarak görülebileceklerini iddia ettiği bir konumda olduğu.


6
pα

6
pα

6
CONTD Benim için bu, hibrid yaklaşımın “pastalarını da ye ve ye de” sorunu. Örneğin, güç testi hesaplamaları olmayan bir NP yaklaşımı düşünülemez olmalı, ancak her zaman NP çerçevesinde yapılan bir test olduğunu görüyoruz, ancak güç hesaplarından söz etmiyoruz.
Alecos Papadopoulos

Konu dışı, ama ... Aris Spanos'a atıfta bulunduğundan beri, bu soruya metodolojisi hakkında cevap verebilir misiniz? (Bir keresinde soruyu doğrudan Aris Spanos'a sordum ve cevaplamak için biraz çaba sarf etti. Ne yazık ki, cevabı bildiriyle aynı dildeydi, bu yüzden bana pek yardımcı olmadı.)
Richard Hardy

13

Sorumu benim üstlenmem, melez (yani kabul edilen) yaklaşımda özellikle tutarsız bir şey olmadığıdır. Ancak, hibrit karşıt gazetelerde sunulan tartışmaların geçerliliğini kavrayamadığımdan emin olamadığım için, bu makaleyle birlikte yayınlanan tartışmayı bulmaktan mutlu oldum:

Maalesef, tartışma olarak yayınlanan iki cevap ayrı makaleler olarak biçimlendirilmedi ve bu nedenle uygun şekilde alıntı yapılamıyor. Yine de, ikisinden de alıntı yapmak istiyorum:

Berk: Bölüm 2 ve 3'ün teması, Fisher'in Neyman ve Pearson'un yaptıklarından hoşlanmadığı ve Neyman, Fisher'ın yaptıklarından hoşlanmadığı ve bu nedenle bu iki yaklaşımı birleştiren hiçbir şey yapmamamız gerektiği anlaşılıyor. Burada öncülden kaçış yok, ama akıl yürütme benden kaçıyor.

Carlton:Yazarlar, kargaşanın çoğunun, Balıkçı ve Neyman-Pearsonci düşüncelerinin evliliğinden kaynaklandığına ısrar ediyorlar, böyle bir evliliğin, modern istatistikçiler adına felaket bir hata olduğunu [...] [T] Tip I hataları aynı evrende bir arada var olamaz. Yazarların aynı cümleyle “p değeri” ve “Tip I hatası” nı seçemememiz için önemli bir sebep olup olmadığı açık değildir. [...] [F ve NP] uyumsuzluklarının "gerçeği", makaleyi okuyan binlerce nitelikli istatistikçiye yaptığından emin olduğum için şaşırtıcı haberler olarak geliyor. Yazarlar, istatistikçilerin şimdi bu iki fikri boşa çıkarması gerekçeleri arasında, Fisher ve Neyman’ın birbirlerini (veya diğerlerini) çok fazla sevmediklerini iddia ediyor gibi görünüyorlar. s sınama felsefeleri). Fisher'ın ve Neyman'ın felsefelerini birleştiren ve hem P değerlerinin hem de Tip I hatalarının tartışılmasına izin veren - kesinlikle kesin olarak paralel olmasa da - disiplininin daha büyük zaferlerinden biri olarak şu anki uygulamamızı her zaman gördüm.

Her iki cevap da okumaya değer. Ayrıca, orijinal yazarların beni hiçbir zaman ikna edici gelmediği bir sevindirici var .


1
Birlikte var olmak bir şeydir, bir başkası olarak kabul edilmesi gereken bir başkasıdır. Fakat gerçekten de, bu melez karşıt yaklaşım yaklaşımı "hiç bir şekilde sentez olamaz" ruhu içinde. Ama şimdiki melezi başarılı bir evlilik olarak görmüyorum .
Alecos Papadopoulos

2
@ Canlı, yorumlarınız için teşekkürler, bu ilginç, ancak burada daha fazla tartışma yapmaktan kaçınmak istiyorum. İsterseniz yeni bir cevap göndermenizi tavsiye ederim. Ancak, bunu yapmaya karar verirseniz, ana konuya odaklanmaya çalışın, ki bu: "melez" in sadece Fisher ve NP ile karşılaştırıldığında ne kadar kötü olduğu. Önemlilik testi, "sıfır boş hipotezi" vb. Yaklaşımdan nefret ediyor gibi görünüyorsun, ama bu sorunun ne olduğu değil !
amip diyor Reinstate Monica

1
@ Canlı: Hmmm, bunun neden melezin ayırt edici bir özelliği olduğunu söylediğinizi açıklayabilir misiniz? Boş değer, Fisher'da veya saf NP'de ne olurdu? İki grubunuz olduğunu ve önemli bir fark için test etmek istediğinizi ("nil null") söyleyin. Bu duruma üç yaklaşımla da yaklaşılamaz: saf Fisher, saf NP ve hibrit?
amip diyor Reinstate Monica

2
@ Live, sıfır boşluğuna karşı olan argümanlarınızı anlıyorum, sadece bu sorunun hibrid meselesine dik olduğunu düşünüyorum. Melez karşıtı kağıtları hafızada yenilemeliyim, ama onların melez eleştirilerini hatırladığım kadarıyla sıfır boşuna odaklanmıyor. Bunun yerine, Fisher ve NP'yi birleştirmekle ilgilidir. Yine, buna katılmıyorsanız, lütfen bir cevap göndermeyi düşünün; Şimdilik, bırakalım bunu.
amip diyor Reinstate Monica

2
Kendime bir not: Bu cevaba bu yazının bazı alıntılarından söz etmeliyim: Lehmann 1992, Fisher, Neyman-Pearson Hipotezleri Test Etme Teorileri: Bir Teori mi İki mi?
amip diyor Reinstate Monica

8

Bu mükemmel soruya verilen gerçek bir cevabın tam bir bildiri gerektireceğinden korkuyorum. Bununla birlikte, burada soruda veya mevcut cevaplarda bulunmayan birkaç nokta vardır.

  1. Hata oranı prosedüre aittir ancak kanıtlar deneysel sonuçlara aittir. Böylece, sıralı durma kurallarına sahip çok aşamalı prosedürlerle, sıfır hipotezine karşı çok güçlü kanıtlarla sonuçlanması, ancak anlamlı olmayan bir hipotez testi sonucu elde edilmesi mümkündür. Bu güçlü bir uyumsuzluk olarak düşünülebilir.

  2. Uyumsuzluklarla ilgileniyorsanız, temel felsefelere ilgi duymalısınız. Felsefi zorluk, Olabilirlik İlkesi'ne uygunluk ve Tekrarlanan Örnekleme İlkesine uygunluk arasında bir seçimdir. LP kabaca, istatistiksel bir model verildiğinde, ilgilenilen parametre ile ilgili bir veri setindeki kanıtların tamamen ilgili olabilirlik fonksiyonunda tamamen bulunduğunu söylemektedir. RSP, uzun vadede nominal değerlerine eşit hata oranları veren testleri tercih etmesi gerektiğini söyledi.


3
JO Berger ve RL Wolpert’in “Olabilirlik İlkesi” monografisi (2. basım 1988), bence 2. maddenin sakin, dengeli ve iyi bir açıklamasıdır.
Alecos Papadopoulos,

5
Berger ve Wolpert gerçekten de iyi bir fuar ve yetkilidir. Ancak, daha pratik ve daha az matematik içeren bir kitabı "Olabilirlik" olarak AWF Edwards tarafından tercih ediyorum. Hala baskıda sanırım. books.google.com.au/books/about/Likelihood.html?id=LL08AAAAIAAJ
Michael Lew

2
@MichaelLew, p değerlerinin geçerli bir kullanımının, etki büyüklüğünün bir özeti olduğunu açıkladı. : O, bu yazı kağıdı ile harika bir şey yapmış arxiv.org/abs/1311.0081
Livid

@ Canlı Kağıt ilginçtir, ancak yeni okuyucunun aşağıdakilere dikkat etmesi gerekir: asıl fikir, 'endeks' değerlerinin (muhtemelen: birebir ilişki içinde olduğu) olasılık fonksiyonlarının genellikle yanlış olduğu anlaşılmaktadır. Örnekleme şemasına bağlı olarak aynı olasılığın farklı p değerlerine karşılık geldiği durumlar vardır. Bu konu makalede biraz tartışılmıştır, ancak indeksleme çok sıra dışı bir durumdur (elbette bunu yanlış yapmaz).
conjugateprior

8

İki yaklaşım arasında sıklıkla görülen (ve sözde kabul edilen) bir birlik (veya daha iyisi: "karma") aşağıdaki gibidir:

  1. α
  2. Ho:μ=0H1:μ0
  3. α

    α

    • Ho
    • HoH1
    • 100%(1α)H1

    P değeri yeterince küçük değilse,

    • Ho
    • HoH1

İşte Neyman-Pearson’in özellikleri:

  • Bir şeye karar verdin
  • Ho
  • I. tip hata oranını biliyorsunuz

Balıkçı yönleri:

  • P değerini belirtin. Herhangi bir okuyucunun karar vermesi için kendi seviyesini kullanma imkanı (örneğin çoklu test için kesinlikle düzeltme).
  • Temel olarak, yalnızca boş hipotez gereklidir, çünkü alternatif tam tersidir
  • μ0

AYRİYETEN

Fisher'ın, NP'lerin veya bu melez yaklaşımın (bazıları tarafından neredeyse dini çılgınlıkta öğretildiği gibi) felsefi sorunlarıyla ilgili tartışmanın farkında olmak iyidir;

  • Bilgilendirici olmayan sorular sormak (nicel "ne kadar" sorular yerine ikili evet / hayır gibi sorular, yani güven aralıkları yerine testler kullanmak gibi)
  • Taraflı sonuçlara yol açan veriye dayalı analiz yöntemleri (adım adım regresyon, test varsayımları vb.)
  • Yanlış testler veya yöntemler seçme
  • Yanlış yorumlama sonuçları
  • Rasgele olmayan örnekler için klasik istatistik kullanma

1
(+1) Bu melezin iyi bir açıklamasıdır (ve neden tam olarak melez olduğunu), ancak açıkça değerlendirmesinin ne olduğunu söylemediniz. Tanımladığınız şeyin "tutarsız bir kargaşası" olduğuna katılıyor musunuz? Öyleyse neden? Yoksa bunun makul bir prosedür olduğunu mu düşünüyorsun? Öyleyse, tutarsız olduğunu iddia eden kişilerin bir anlamı var mı, yoksa yanlış mı?
amip diyor Reinstate Monica

1
α

4

Hem F hem de NP'nin geçerli ve anlamlı yaklaşımlar olduğunu kabul etmek, hibritlerinde bu kadar kötü olan ne?

Kısa cevap: Bağımlılıktan bağımsız olarak sıfırın (fark yok, korelasyon yok) kullanılması null hipotezi. Geri kalan her şey, sürecin başarabilecekleri hakkında kendileri için mitleri yaratan insanlar tarafından "kötüye kullanım" dır. Efsaneler, (bazen uygun olan) otorite ve fikir birliği sezgisellerine duydukları güveni, prosedürün sorunlarına uygulanmadığı şekilde uzlaştırmaya çalışan insanlardan kaynaklanmaktadır.

Bildiğim kadarıyla Gerd Gigerenzer "hibrit" terimiyle geldi:

Yazara [kitabı birçok basımdan geçen ve adı önemli olmayan] ayırt edici bir istatistik ders kitabı yazarı, neden Bayes hakkındaki bölümün yanı sıra sonraki tüm basımlardan masum bir cümle çıkardığını sordum. “İstatistikleri, bir alet kutusundan ziyade yalnızca tek bir çekiçle sanki sunmaya ne sağladı? Neden Fisher ile Neyman – Pearson'un teorilerini her iyi istatistikçinin reddedeceği tutarsız bir melezle karıştırdınız? ”

Kredisine göre, yazarın yalnızca bir araç olduğu yanılsamasını ürettiğini inkar etmeye teşebbüs etmediğini söylemeliyim. Ama bunun için kimin suçlanacağını bana haber verdi. Üç suçlu vardı: araştırmacıları, üniversite yönetimi ve yayıncısı. Araştırmacıların çoğu, istatistiksel düşünmeye gerçekten ilgi duymadıklarını, ancak makalelerinin nasıl yayınlanacağını merak ettiklerini belirtti.

Boş ritüel:

  1. “Ortalama fark yok” veya “sıfır korelasyon” gibi istatistiksel bir boş hipotez kurun. Araştırma hipotezinizin veya alternatif herhangi bir temel hipotezin tahminlerini belirtmeyin.

  2. p<0.05p<0.01p<0.001p

  3. Her zaman bu prosedürü uygulayın.

Gigerenzer, G (Kasım 2004). " Akılsız istatistikler ". Sosyo-Ekonomi Dergisi 33 (5): 587–606. doi: 10.1016 / j.socec.2004.09.033.

Düzenleme: Ve her zaman bahsetmemiz gerekir, çünkü "melez" çok kaygan ve kötü tanımlanmıştır, bir n-değeri elde etmek için sıfır değerini kullanmak, farklı örnek boyutlarında verilen efekt boyutlarını karşılaştırmanın bir yolu olarak mükemmeldir. Sorunu ortaya çıkaran "test" yönüdür.

Düzenleme 2: @amoeba Bir p-değeri bir özet istatistik olarak iyi olabilir, bu durumda sıfır boş hipotezi sadece isteğe bağlı bir dönüm noktasıdır: http://arxiv.org/abs/1311.0081 . Ancak, bir sonuç çıkarmaya veya bir karar vermeye çalışmaya başlar başlamaz (yani, boş hipotezi "test edin"), anlam ifade etmeyi bırakır. İki grup karşılaştırmasında, iki grubun ne kadar farklı olduğunu ve bu büyüklük ve türdeki farklılıklar için olası açıklamaları bilmek istiyoruz.

P değeri, bize aradaki farkın büyüklüğünü gösteren bir istatistik olarak kullanılabilir. Bununla birlikte, sıfır farkın "reddetmek / reddetmek" için kullanılması, söyleyebileceğim hiçbir işe yaramaz. Ayrıca, tek bir zaman noktasında canlıların ortalama ölçümlerini karşılaştıran bu çalışma tasarımlarının çoğunun yanlış yönlendirildiğini düşünüyorum. Sistemin bireysel örneklerinin zaman içinde nasıl değiştiğini gözlemlemek, daha sonra gözlemlenen modeli açıklayan bir süreç bulmak zorundayız (herhangi bir grup farklılığı dahil).


2
+1, Cevabınız ve bağlantı için teşekkür ederiz. Belli bir makaleyi okumamış gibiyim, bir göz atacağım. Daha önce de söylediğim gibi, "sıfır boş" un "melez" meselesine dik bir mesele olduğu izlenimindeydim, ama sanırım Gigerenzer'in yazılarını yeniden kontrol etmeliyim. İlerleyen günlerde zaman bulmaya çalışacağız. Bunun dışında: son paragrafınızı açıklar mısınız ("değiştir")? İki etki büyüklüğünü karşılaştırırken boş bir boşluğa sahip olmanın tamam olduğunu, ancak etki büyüklüğünü sıfır ile karşılaştırırken boş bir boşluğa sahip olmanın doğru olmadığını anladım mı?
amip diyor Reinstate Monica

1

Kendimden daha fazla uzmanlığa sahip olanların cevap verdiğini görüyorum, ancak cevabımın ek bir şeyler ekleyebilecek potansiyele sahip olduğunu düşünüyorum, bu yüzden bunu başka bir meselenin bakış açısı olarak sunacağım.

Melez yaklaşım tutarsız mı?   Araştırmacının, başlattıkları kurallara aykırı bir şekilde davranıp davranmayacağına bağlı olduğunu söyleyebilirim: özellikle alfa değerinin ayarlanmasıyla ortaya çıkan evet / hayır kuralı.

tutarsız

Neyman-Pearson ile başlayın. Araştırmacı alfa = 0.05'i ayarlar, deneyi çalıştırır, p = 0.052'yi hesaplar. Araştırmacı bu p değerine bakar ve Fisherian çıkarımını kullanarak (genellikle dolaylı olarak), sonucun hala “bir şeyler” olduğunu iddia edecekleri test hipotezi ile yeterince uyuşmaz olduğunu düşünür. P değeri alfa değerinden büyük olmasına rağmen sonuç bir şekilde "yeterince iyi" dir. Genellikle bu, "neredeyse anlamlı" veya "anlamlılığa yönelme" veya bu satırlar boyunca bazı ifadeler gibi dillerle eşleştirilir.

Bununla birlikte, deneyi çalıştırmadan önce alfa değerinin ayarlanması, Neyman-Pearson endüktif davranış yaklaşımını seçtiği anlamına gelir. P-değerini hesapladıktan sonra bu alfa değerini yok saymayı ve bu nedenle bir şey iddia etmeyi seçmeyi tercih etmek, birinin başladığı tüm yaklaşımı baltalamaktadır. Bir araştırmacı, A Yolu'ndan (Neyman-Pearson) başlar, ancak sonra bulundukları yolu beğenmediklerinde başka bir yola (Fisher) atlarsa, bu tutarsız olduğunu düşünüyorum. Başladıkları (zımni) kurallarla tutarlı değillerdir.

Tutarlı (muhtemelen)

NP ile başlayın. Araştırmacı alfa = 0.05'i ayarlar, deneyi çalıştırır, p = 0.0014'ü hesaplar. Araştırmacı, p <alfa olduğunu gözlemler ve bu nedenle test hipotezini reddeder (genellikle etkisizdir) ve alternatif hipotezi kabul eder (etki gerçektir). Bu noktada, araştırmacı, sonucu gerçek bir etki (NP) olarak ele almaya karar vermenin yanı sıra , deneyin (Fisher) etkinin gerçek olduğuna dair çok güçlü kanıtlar sağladığına karar verir. Başladıkları yaklaşıma nüans kattılar, ancak başlangıçta bir alfa değeri seçerek ortaya koydukları kurallarla çelişmediler.

özet

Eğer biri bir alfa değeri seçerek başlarsa, o zaman Neyman-Pearson yolunu izlemeye ve bu yaklaşımın kurallarını izlemeye karar vermiştir. Bir noktada, haklı olarak Fisherian çıkarımı kullanarak bu kuralları ihlal ediyorlarsa, tutarsız / tutarsız davrandılar.

Sanırım bir adım daha ileri gidebilir ve hibriyi tutarsız bir şekilde kullanmak mümkün olduğu için, bu nedenle yaklaşımın doğal olarak tutarsız olduğunu, ancak bu durumun kendimi daha nitelikli hale getirmediğimi felsefi yönleriyle daha da derinleştirdiğimi söyleyebilirim. hakkında fikir vermek.

Michael Lew'e şapka bahşişi. 2006 tarihli makalesi, bu sorunları diğer kaynaklardan daha iyi anlamama yardımcı oldu.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.