“Bilim adamları istatistiksel öneme sahip olarak yükseliş” ne demek? (Doğada Yorum Yap)


61

Doğa Bilimcilerinde Yorumun başlığı, istatistiksel öneme sahip olarak yükselir :

Valentin Amrhein, Sander Grönland, Blake McShane ve 800'den fazla imzacı, yüksek taleplerin sona ermesine ve muhtemel önemli etkilerin reddedilmesine neden olmaktadır.

ve sonra gibi ifadeler içerir:

Yine, P değerleri, güven aralıkları veya diğer istatistiksel önlemlerin yasaklanmasını savunmuyoruz - yalnızca kategorik olarak ele almamamız gerekiyor. Bu, istatistiksel olarak anlamlı olan veya olmayan ikilemi ve Bayes faktörleri gibi diğer istatistiksel önlemlere dayalı kategorizasyonu içerir.

Aşağıdaki görüntünün, iki çalışmanın aynı fikirde olmadığını söyleyemediğini düşünüyorum, çünkü biri "diğeri çıkarmazken diğeri değil." Ancak makale, anlayabileceğimden çok daha derinlere iniyor.

Sonlara doğru dört noktada bir özeti var gibi görünüyor. Bunları yazmak yerine istatistik okuyan bizler için bunları daha basit bir şekilde özetlemek mümkün mü ?

Uyumluluk aralıkları hakkında konuşurken, dört şeyi aklınızda bulundurun.

  • Birincisi, aralığın varsayımlar göz önüne alındığında verilerle en uyumlu değerleri vermesi nedeniyle, bunun dışındaki değerlerin uyumsuz olduğu anlamına gelmez; sadece daha az uyumlular ...

  • İkincisi, varsayımlar göz önüne alındığında, içindeki tüm değerler verilerle aynı derecede uyumlu değildir.

  • Üçüncüsü, geldiği 0,05 eşiği gibi, aralıkları hesaplamak için kullanılan varsayılan% 95, isteğe bağlı bir kongredir ...

  • Son olarak ve hepsinden önemlisi mütevazi olun: uyumluluk değerlendirmeleri, aralığı hesaplamak için kullanılan istatistiksel varsayımların doğruluğuna dayanır ...


Doğa: Bilim adamları istatistiksel öneme sahipler.


13
Temel olarak, araştırma makalelerini daha yanlış pozitiflerle doldurmak istiyorlar!
David,

12
Gelman'ın blogundaki tartışmaya bakınız: statmodeling.stat.columbia.edu/2019/03/20/… . Açıkçası makale Ioannidis tarafından gündeme yorumlarınızı geçerli bazı noktaları yükseltir, ancak bkz karşı bu makalede (ve ayrıca, ayrı ayrı, bunun "dilekçe" yönüyle karşı), Gelman tarafından aktarılan.
amip diyor Reinstate Monica

3
Bu olsa yeni bir kavram değil. Meta-analiz, 50 yılın en iyi kısmı için bir şeydi ve Cochrane, son 25 yıldır tıbbi / sağlık hizmeti çalışmalarının meta analizlerini (hedefleri ve sonuçları standartlaştırmanın daha kolay olduğu) yapıyor.
Graham

4
Temel olarak sorun, çok boyutlu bir problem olan "belirsizliği" tek bir sayıya indirmeye çalışıyor.
MaxW

4
Bulma insanların belirtti Temelde eğer yerine "X ve Y ilgili olmayan" "Biz hiçbir X ve Y arasında bir ilişki buldu" Bu makale olasılıkla var olamazdı. p>α
Firebug

Yanıtlar:


65

Söyleyebileceğim ilk üç nokta, tek bir argümandaki bir varyasyon.

Bilim adamları genellikle belirsizlik ölçümlerini ( örneğin, 12:00 gibi) şöyle görünen olasılık dağılımları olarak değerlendirir :12±1

düzgün olasılık dağılımı

Ne zaman aslında, onlar gibi görünmek için çok daha muhtemeldir bu : görüntü tanımını buraya girin

Eski bir kimyager olarak, matematiksel kökenli olmayan birçok bilim adamının (öncelikle fiziksel olmayan kimyagerler ve biyologlar) belirsizliklerin (ya da onların dedikleri gibi hatalar) nasıl çalışması gerektiğini anlamadıklarını doğrulayabilirim. Yer altı fiziğinde belki onları kullanmak zorunda kaldıkları bir zamanı hatırlıyorlar, muhtemelen birkaç farklı ölçümle bir bileşik hata hesaplamak zorunda kalıyorlardı, ama onları gerçekten anlamadılar . Ben de bu suçlu olduğunu ve tüm ölçümler kabul vardı içinde gelmesini aralığının. Sadece son zamanlarda (ve akademi dışında) hata ölçümlerinin mutlak bir sınır değil, genellikle belirli bir standart sapmaya işaret ettiğini buldum.±

Böylece makaledeki numaralı noktaları yıkmak için:

  1. CI dışındaki ölçümler hala olma şansına sahiptir, çünkü gerçek (muhtemel gauss) olasılığı orada sıfır değildir (veya uzaklaştığınızda kaybolup kaybolsalar da, bu konuda herhangi bir yerde). sonraki değerler gerçekten bir sd'yi temsil ediyorsa , o zaman hala% 32'sinin dışına düşen bir veri noktası olasılığı vardır.±

  2. Dağılım tek tip değildir (ilk grafikte olduğu gibi düz tepeli), doruğa ulaşır. Ortada bir değer elde etme ihtimaliniz, kenarlarda olduğunuzdan daha fazla. Tek bir kalıptan ziyade bir demet zar atmak gibi.

  3. % 95 isteğe bağlı bir kesimdir ve neredeyse tamamen iki standart sapma ile çakışmaktadır.

  4. Bu nokta genel olarak akademik dürüstlük hakkında yapılan bir yorumdur. Doktora sırasında edindiğim bir fark, bilimin soyut bir güç olmadığı, bilim yapmaya çalışan insanların kümülatif çabaları olduğudur. Bunlar evrenle ilgili yeni şeyler keşfetmeye çalışan insanlar, fakat aynı zamanda çocuklarını beslemeye ve işlerini sürdürmeye çalışıyorlar, ki maalesef modern zamanlarda bir tür yayın veya yok etme oyunu oynuyor demektir. Gerçekte, bilim adamları hem keşifler bağlıdır gerçek ve ilginç ilginç sonuçlar yayınlarda neden yok çünkü.

gibi rastgele eşikler , özellikle istatistiklerini tam olarak anlamayan ve sadece sonuçlarında bir başarılı / başarısız damgasına ihtiyaç duyanlar arasında sürekli olarak kendini gösterir. Bu nedenle, insanlar bazen 'şaka yapmadan' elde edene kadar testi tekrar yapmaktan bahseder . Özellikle, eğer bu marjinal sonuçların sonuçlanabilmesi için doktora / hibe / istihdam sonuç alıyorsa , analizde istenen gösterilinceye kadar etrafta .p<0.05p<0.05p=0.0498

Bu tür uygulamalar bilime bir bütün olarak zarar verebilir, özellikle de yaygın şekilde yapılırsa, hepsi doğaya uygun, anlamsız bir sayı peşinde. Etkili olan bu kısım, bilim adamlarını, verileri ve çalışmaları konusunda dürüst olmaları ve bu dürüstlük onların zararına olsa bile teşvik ediyor.


26
+1, "... yayın yapma veya yok olma oyunda. Gerçekte, bilim adamları hem gerçek hem de ilginç keşiflere bağlılar, çünkü ilginç sonuçlar yayınlarla sonuçlanmıyor." Bu "yayınlama veya yok olma" nın akademi boyunca nasıl bir hata / önyargıya yol açtığı konusundaki konuşmalarından yıllarca geçen ilginç bir makale vardı: En Çok Yayınlanan Araştırma Bulgularının Neden Yanlış Olduğu (Ioannidis, 2005)
J. Taylor

4
“Gerçek (muhtemelen Gaussian) belirsizlikle” aynı fikirdeyim ... - Gaussian başka bir basitleştirmedir. Merkezi Limit Teoremi sayesinde zor sınırlar modelinden biraz daha haklı, ancak gerçek dağılım genellikle hala farklı bir şey.
leftaroundabout

1
@leftaroundabout Gerçek dağılım hala farklı olabilir, ancak değer fiziksel olarak imkansız olmadıkça, olasılık hala matematiksel olarak sıfırdır.
gerrit

3
@leftaroundabout, belirsizliğin muhtemelen Gaussian olduğunu söyleyerek doğasında bir basitleştirme değildir. Diğer destekleyici verilerin yokluğunda CLT tarafından en iyi şekilde öne sürülen, ancak dağıtım üzerindeki belirsizliği ifade ederek, dağıtımın zaten Gaussian olamayacağına dair bir onayı açıklar.
Will

7
@inisfree sen çok, çok yanılıyorsun. Birçok bilimsel disiplin (daha önce de belirttiğim gibi kimya ve biyoloji gibi), temel aritmetiğin yanında neredeyse sıfır matematik kullanır. Dışarıda neredeyse hiç okuma yazma bilmeyen parlak bilim adamları var ve ben de onlarla tanıştım.
Ingolif,

19

Makale ve eklediğiniz figürün çoğu, çok basit bir noktaya değinmektedir:

Bir etki için kanıt eksikliği, var olmadığının kanıtı değildir.

Örneğin,

"Çalışmamızda, siyanür verilen fareler istatistiksel olarak anlamlı derecede yüksek oranda ölmedi" iddiası için "siyanürün fare ölümleri üzerinde etkisi olmadığı" kanıtı değildir.

p>0.05

Fakat yazarların bilim adamlarının rutin olarak yaptıklarını iddia ettikleri yanılgısı.

Örneğin, figürünüzde kırmızı çizgi çok az sayıda farede yapılan bir çalışmadan ortaya çıkabilirken, mavi çizgi aynı çalışmada, ancak birçok farede ortaya çıkabilir.

[60%,70%]65%. Öyleyse, sonuçlarımızın, bu dozun farelerin% 65'ini öldürdüğü varsayımıyla en uyumlu olacağını, ancak sonuçlarımızın da, 60'ın veya 70'in altındaki yüksek yüzdelerle biraz uyumlu olacağını ve sonuçlarımızın daha az uyumlu olacağını yazmalıyız. aralığın dışında bir gerçek var. (Bu sayıları hesaplamak için hangi istatistiksel varsayımları yaptığımızı da tanımlamalıyız.)


4
Battaniye ifadesine "kanıt yokluğunun yokluğun kanıtı olmadığını" katılmıyorum. Güç hesaplamaları, belirli bir örneklem büyüklüğü verilen belirli bir büyüklükteki etkinin anlamlı olduğunu kabul etme olasılığını belirlemenizi sağlar. Büyük efekt boyutları, onları sıfırdan önemli ölçüde farklı görmeleri için daha az veri gerektirirken, küçük efektler daha büyük bir örneklem boyutu gerektirir. Çalışmanız düzgün şekilde çalışıyorsa ve hala önemli etkiler görmüyorsanız, etkinin mevcut olmadığı sonucuna varabilirsiniz. Yeterli veriye sahipseniz, önemsizliğin gerçekten hiçbir etkisi olmadığını gösterebilir.
Nükleer Wang

1
@NuclearWang Doğru, ancak yalnızca güç analizi zamanın öncesinde yapıldıysa ve yalnızca doğru varsayımlarla yapıldıysa ve sonra doğru yorumlamalar yapıldığında (yani, gücünüz yalnızca tahmin ettiğiniz efekt büyüklüğüyle ilgilidir ; "% 80 güç " sıfır etkiyi doğru şekilde saptama ihtimalinin% 80 olduğu anlamına gelmez ). Ek olarak, benim deneyimlerime göre, "etkisiz" demek, "etkisiz" demek, genellikle çalışmanın (uygun şekilde) herhangi bir şekilde desteklenmediği ikincil sonuçlara veya nadir olaylara uygulanır . Son olarak, beta tipik olarak >> alfadır.
Bryan Krause

9
@NuclearWang, kimsenin "delil yokluğunun ASLA delil olmadığının kanıtı olmadığını" savunduğunu sanmıyorum, bence onların otomatik olarak böyle yorumlanmaması gerektiğini ve bunun insanların yaptıklarını gördükleri yanlış olduğunu iddia ettiklerini düşünüyorum.
usul

Neredeyse insanlar eşdeğerlik testleri için eğitilmemişler gibi .
Alexis

19

Deneyeceğim.

  1. Güven aralığı (uyumluluk aralığını yeniden adlandırdıkları), verilerle en uyumlu parametrenin değerlerini gösterir. Ancak bu, aralık dışındaki değerlerin verilerle kesinlikle uyumlu olmadığı anlamına gelmez.
  2. Güven (uyumluluk) aralığının ortasına yakın değerler, aralığın sonuna yakın değerlerden daha fazla veri ile uyumludur.
  3. % 95 sadece bir kongredir. % 90 veya% 99 veya herhangi bir% aralıklarını hesaplayabilirsiniz.
  4. Güven / uyumluluk aralıkları, yalnızca deney uygun bir şekilde yapıldıysa, analiz önceden belirlenmiş bir plana göre yapıldıysa ve veriler analiz yöntemlerinin varsayımına uygunsa faydalı olur. Kötü veriler kötü analiz edilirse, uyumluluk aralığı anlamlı veya yararlı değildir.

10

P>0.05P<0.05


8
(-1) P değerleri, bir hipotezin muhtemelen doğru veya yanlış olduğunu göstermez. Bunun için önceden bir dağıtıma ihtiyacınız var. Örneğin, bu xkcd'ye bakın . Bu karışıklığa yol açan sorunlu elle sallayarak olmasıdır eğer biz hipotezin çok sayıda benzer önceliklere sahip, daha sonra p-değeri olacaktır orantılı doğru veya yanlış olduğu olasılığı getirir. Ancak herhangi bir veriyi görmeden önce, bazı hipotezler diğerlerinden çok daha muhtemel!
Cliff AB

3
Bu etki iskonto edilmemesi gereken bir şey olsa da, başvurulan makalenin önemli bir noktası olmaktan uzaktır.
RM

6

tl; dr - İşlerin ilişkisiz olduğunu ispatlamak temel olarak imkansızdır; İstatistikler, yalnızca işlerin birbiriyle alakalıolduğunu göstermek için kullanılabilir. Bu köklü gerçeğe rağmen, insanlar sık ​​sık ilişki eksikliği anlamında istatistiksel olarak anlamlı bulunmadığını yanlış yorumlarlar.


İyi bir şifreleme yöntemi, bir saldırganın söyleyebileceği kadarıyla korunan mesajla herhangi bir istatistiksel ilişki göstermediği bir şifreli metin oluşturmalıdır. Bir Çünkü eğer saldırgan bir olduğunu - ilişki çeşit belirleyebilir, daha sonra onlar sadece ciphertexts bakarak korumalı mesajlar hakkında bilgi alabilirsiniz kötü bir şey TM .

Bununla birlikte, şifreli metin ve karşılık gelen düz metin% 100 birbirini belirler. Bu yüzden, dünyanın en iyi matematikçileri ne kadar uğraşırlarsa yapsınlar arasında önemli bir ilişki bulamazlarsa da, ilişkinin sadece orada olmadığını, tamamen ve tamamen belirleyici olduğunu açıkça biliyoruz. Bir ilişki bulmanın imkansız olduğunu bilsek bile, bu determinizm var olabilir .

Buna rağmen, hala böyle şeyler yapacak insanları elde ediyoruz:

  1. " İspatlamak " istedikleri bir ilişki seçin .

  2. İddia edilen ilişkiyi tespit etmek için yetersiz olan bir çalışma yap.

  3. İstatistiksel olarak anlamlı bir ilişki olmadığını bildiriniz.

  4. Bunu bir ilişki eksikliği içine çevirin.

Bu , medyanın (yanlış) bir ilişkinin varlığını onaylamadığını bildireceği her türlü " bilimsel araştırmaya " yol açmaktadır .

Bu konuyla ilgili kendi çalışmanızı tasarlamak istiyorsanız, bunu yapmanın bir sürü yolu vardır:

  1. Tembel araştırma:
    En kolay yol, şu ana kadar inanılmaz derecede tembel olmak. Tıpkı soru ile bağlantılı bu rakamdan olduğu gibi:
    .
    Kolayca sadece küçük örneklem büyüklüklerine sahip, çok fazla parazite ve diğer çeşitli tembel şeylere izin vererek. Aslında, çok tembelseniz Herhangi bir veri toplamak , o zaman zaten bitti!'Non-significant' study(high P value)"

  2. Tembel analizi:
    bazı aptal nedenle, bazı insanlar düşünmek Pearson korelasyon katsayısı ve "anlamına herhangi bir korelasyon ". Bu doğru, çok sınırlı bir anlamda. Ancak, gözlemlenmesi gereken birkaç örnek: . Bu, “ doğrusal ” bir ilişki olmayabilir , ancak açıkça daha karmaşık bir ilişki olabilir. Ve " şifreleme " -seviye kompleksi olması gerekmiyor , ama daha ziyade " aslında sadece dalgalı bir çizginin bir kısmı " veya " iki korelasyon var " veya her neyse.0

  3. Tembel cevaplama:
    Yukarıdakilerin ruhu ile burada duracağım. Biliyor musun, tembel ol!

Ancak, cidden, makale onu şöyle özetliyor:

Neyin durması gerektiği konusunda açık olalım: Asla 'fark yok' veya 'ilişki yok' olduğu sonucuna varmamalıyız çünkü P değeri 0,05 gibi bir eşik değerden büyükse, eşit olarak bir güven aralığı sıfır içerdiğinden.


+1 çünkü yazdıklarınız hem gerçek hem de düşündürücüdür. Ancak, benim düşünceme göre, sen yapabilirsiniz iki miktarları belli varsayımlar altında makul ilintisiz olduğunu kanıtlamak. İlk önce, örneğin onlar hakkında belirli bir dağılım düşünerek başlamalısınız, ancak bu fizik yasalarına veya istatistiklere dayanabilir (örneğin, bir kaptaki bir gazın moleküllerinin gauss ya da benzeri olması bekleniyor)
ntg

3
@ntg Evet, bazı şeyleri nasıl söyleyeceğimizi bilmek zor, bu yüzden çok fazla şey bıraktım. Genel gerçek şu ki, belirli bir ilişkinin var olmadığını gösterebilsek de, bazı ilişkilerin var olduğunu ispatlayamayız. Sorta gibi, iki veri serisinin ilişkisiz olduğunu tespit edemiyoruz, ancak basit bir doğrusal işlevle güvenilir bir şekilde ilişkili olmadığını ortaya koyabiliriz.
Nat

1
-1 "tl; dr- İşlerin ilişkisiz olduğunu ispatlamak temelde imkansız": Eşdeğerlik testleri , keyfi bir etki büyüklüğünde bir etkinin bulunmadığına dair kanıt sağlar.
Alexis,

2
@Alexis Bence denklik testini yanlış anlıyorsunuz; denklik testini, örneğin doğrusal bir ilişki gibi belirli bir ilişkinin bulunmadığının kanıtı olarak kullanabilirsiniz, ancak herhangi bir ilişkinin olmadığını kanıtlamaz.
Nat

1
@Alexis İstatistiksel çıkarım , bazı model bağlamında belirli bir etki büyüklüğünden daha büyük bir etkinin bulunmadığına dair kanıt sağlayabilir . Belki de modelin her zaman bilineceğini varsayıyorsunuzdur?
Nat

4

Soruna didaktik bir giriş için, Alex Reinhart çevrimiçi olarak tamamen kullanılabilir ve No Starch Press'de (daha fazla içerik içeren) düzenlenmiş bir kitap yazdı: https://www.statisticsdonewrong.com

Sorunun kökünü karmaşık matematik olmadan açıklar ve simüle edilmiş veri setinden örnekler içeren özel bölümlere sahiptir:

https://www.statisticsdonewrong.com/p-value.html

https://www.statisticsdonewrong.com/regression.html

İkinci linkte, grafiksel bir örnek p-değeri problemini göstermektedir. P değeri genellikle veri kümesi arasındaki istatistiksel farkın tek bir göstergesi olarak kullanılır, ancak açıkça kendi başına yeterli değildir.

Düzenleme daha ayrıntılı bir cevap için:

Birçok durumda, çalışmalar kesin bir veri türünü, fiziksel ölçümleri (belirli bir deney sırasında hızlandırıcıdaki partiküllerin sayısını söyleyin) veya nicel göstergeleri (ilaç testleri sırasında spesifik semptomlar geliştiren hasta sayısı gibi) yeniden üretmeyi amaçlar. Her iki durumda da, insan hatası veya sistem varyasyonları (aynı ilaca farklı tepki gösteren insanlar) gibi ölçüm sürecine birçok faktör müdahale edebilir. Bu nedenle, deneylerin genellikle mümkünse yüzlerce kez yapılması ve ideal olarak binlerce hastanın kohortlarında ilaç testi yapılmasıdır.

Veri seti daha sonra istatistik kullanarak en basit değerlerine indirgenir: ortalamalar, standart sapmalar vb. Modellerin ortalamaları ile karşılaştırılmasındaki problem, ölçülen değerlerin yalnızca gerçek değerlerin göstergeleri olması ve ayrıca bireysel ölçümlerin sayısına ve kesinliğine bağlı olarak istatistiksel olarak değişmesidir. Hangi önlemlerin aynı olabileceği ve hangilerinin kesin olacağı konusunda kesin bir tahmin yapmanın yollarını buluyoruz. Her zamanki eşik değer, iki değerin farklı olduğunu söylerken yanlış olma ihtimalinin yirmiden bir tanesinin daha azına sahip olmamız durumunda, onları “istatistiksel olarak farklı” olarak değerlendiriyoruz ( anlamı ), başka bir şey yapmıyoruz.P<0.05

Bu, Nature’ın makalesinde gösterilen ve aynı iki değerin aynı ortalama değerleri verdiği tuhaf sonuçlara yol açar, ancak araştırmacıların sonuçları, numunenin boyutuna bağlı olarak farklılık gösterir. Bu ve istatistiksel kelime dağarcığı ve alışkanlıklardan kaynaklanan diğer tropikler, bilimlerde giderek daha fazla önem kazanıyor. Sorunun bir diğer yanı ise, insanların istatistik araçlarını kullandıklarını unutamadıkları ve örneklerinin istatistiki gücünün doğru bir şekilde doğrulanması olmadan sonuç çıkardıkları yönündedir.

Diğer bir örnek olarak, son zamanlarda sosyal bilimler ve yaşam bilimleri, ünlü çalışmaların uygun istatistiki gücünü kontrol etmeyen insanlar tarafından çok fazla etki alınması nedeniyle gerçek bir çoğaltma krizinden geçiyor (diğer yandan verileri tahrif ediyor) ama bu başka bir sorundur).


3
Sadece bir link olmasa da, bu cevap bir " sadece link " cevabının belirgin özelliklerine sahiptir . Bu cevabı geliştirmek için, lütfen kilit noktaları cevabın kendisine ekleyin. İdeal olarak, cevabınız bağlantıların içeriği kaybolsa bile cevabınız cevap olarak yararlı olmalıdır.
RM

2
Veritasium, p-değerleri ve taban oranı yanlışlığı hakkında (bağlantınızda belirtilen) bayes tuzağı adı verilen bu videoyu yayınladı .
jjmontes

2
Üzgünüz, cevabı en kısa sürede iyileştirmeye ve geliştirmeye çalışacağım. Benim fikrim meraklı okuyucuya faydalı materyaller sunmaktı.
G.Clavier

1
@ G.Clavier ve kendi kendini tanımlayan istatistikler acemi ve meraklı okuyucu bunu takdir ediyor!
Hata! Beklemedik

1
@uhoh Okuduğuma sevindim. :)
G.Clavier

4

Benim için en önemli kısım şuydu:

... [Biz], yazarları, büyük bir P değeri veya geniş bir aralığa sahip olsalar bile nokta tahminini tartışmaya ve bu aralığın sınırlarını tartışmaya davet ediyoruz.

Başka bir deyişle: Tahminleri tartışmaya daha fazla vurgu yapın (merkez ve güven aralığı) ve "Boş hipotez testi" konusuna daha az vurgu yapın.

Bu pratikte nasıl çalışır? Çok fazla araştırma, etki büyüklüğünü ölçmeye kadar uzanıyor, örneğin "% 95 CI ile 0.97 - 1.33 arasında değişen bir risk oranı 1.20 olarak ölçtük". Bu, bir çalışmanın uygun bir özetidir. En olası etki büyüklüğünü ve ölçüm belirsizliğini hemen görebilirsiniz. Bu özeti kullanarak bu çalışmayı onun gibi diğer çalışmalarla hızlı bir şekilde karşılaştırabilir ve ideal olarak tüm bulguları ağırlıklı ortalamada birleştirebilirsiniz.

Ne yazık ki, bu tür çalışmalar genellikle “Risk oranında istatistiksel olarak anlamlı bir artış bulamadık” şeklinde özetlenmiştir. Bu, yukarıdaki çalışmanın geçerli bir sonucudur. Ancak bu, çalışmanın uygun bir özeti değildir , çünkü bu tür özetleri kullanarak yapılan çalışmaları kolayca karşılaştıramazsınız. Hangi araştırmanın en hassas ölçüme sahip olduğunu bilmiyorsunuz ve bir meta-araştırmanın bulgularının ne olabileceğini sezemiyorsunuz. Ve araştırmalar, “önemli olmayan risk oranının arttığını” iddia ettiğinde hemen fark etmezsiniz, o kadar geniş olan güven aralıklarını içine alarak bir fil gizleyebilirsiniz.


Bu kişinin boş hipotezine bağlıdır. Örneğin, reddetmek, keyfi olarak küçük bir daha büyük bir etkinin bulunmadığına dair kanıt sağlar . H0:|θ|ΔΔ
Alexis

1
Evet, ama neden böyle bir hipotezi tartışmakla uğraşmıyorsunuz? Ölçülen efekt boyutunu belirtebilir ve sonra en iyi / en kötü durum sonuçlarının ne olduğunu tartışabilirsiniz. Bu, örneğin fizikte, örneğin proton ve antiproton arasındaki kütle-yük farkını ölçerken böyle yapılır . Yazarlar boş bir hipotez formüle etmeyi seçmiş olabilir (belki, örneğinizi takip etmek için, mutlak farkın bazı daha büyük olduğunu ) ve test etmeye devam etmişlerdir, ancak böyle bir tartışmada çok az katma değer vardır. θ±δθΔ
Martin JH

3

O "önemli" olduğunu istatistikçiler değil, sadece bilim adamları, yükselen ve "anlam" ve gevşek kullanımına itiraz edilir değerlerinin. Amerikan İstatistiğinin en son sayısı tamamen bu konuya adanmıştır. Wasserman, Schirm ve Lazar'ın başyazıtlarına bakın. P


Bağlantı için teşekkür ederiz! Bir göz açıcı; Bunun hakkında çok fazla düşünce ve tartışma olduğunun farkında değildim.
Hata! Beklemedik

2

Birkaç nedenden ötürü, p-değerlerinin gerçekten bir sorun haline geldiği bir gerçektir .

Ancak, zayıflıklarına rağmen, basitlik ve sezgisel teori gibi önemli avantajları vardır. Genel kabul ederken nedenle, Nature dergisinde Yorum , bunun yerine sizce istatistiksel anlamlılık terkediyor tamamen daha dengeli bir çözüme ihtiyaç vardır. İşte birkaç seçenek:

1. " Yeni keşif talepleri için istatistiksel anlamlılık için varsayılan P değeri eşik değerinin 0.05 ile 0.005 arasında değiştirilmesi". Benim görüşüme göre, Benjamin ve arkadaşları daha yüksek bir kanıt standardı benimsemeye karşı en zorlayıcı argümanları çok iyi ele aldılar.

2. İkinci nesil p değerlerini benimsemek . Bunlar klasik p-değerlerini etkileyen sorunların çoğuna makul bir çözüm gibi görünmektedir . Blume ve arkadaşlarının burada söylediği gibi , ikinci nesil p değerleri "istatistiksel analizlerde titizlik, tekrar üretilebilirlik ve şeffaflığı arttırmaya" yardımcı olabilir.

3. P değerini “gözlenen bir ilişki veya iddianın doğru olduğu kantitatif bir kesinlik ölçütü -“ güven endeksi ”olarak tanımlamak . Bu, analiz hedefinin önem kazanmasından, bu güveni uygun şekilde tahmin etmeye kadar değişmesine yardımcı olabilir.

Önemli olarak, " istatistiksel anlamlılık veya “ güven ” (ne olursa olsun) eşiğine ulaşamayan sonuçlar, önemli araştırma yöntemleriyle ciddi araştırma yöntemlerini ele almaları halinde, önde gelen dergilerde yayınlanmaya hak kazanmaya devam edebilir.”

Ben buna saplantı azaltmaya yardımcı olabileceğini düşünüyorum p-değerleri kötüye arkasında lider dergiler tarafından, p-değerleri .


Cevabınız için teşekkürler, bu yardımcı olur. Blume ve ark. hakkında ikinci nesil p-değerleri , oldukça okunaklı olarak görünüyor.
Hata! Beklemedik

1
@uhoh, cevabımın sorunuza yardımcı olduğu için memnunum.
Krantz

1

Bahsedilmemiş olan bir şey, hatanın veya önemin, gerçek fiziksel ölçümler değil, istatistiksel tahminler olduğudur: Elinizdeki verilere ve onu nasıl işlediğinize bağlı. Mümkün olan her olayı ölçtüyseniz, yalnızca kesin hata değeri ve önem verebilirsiniz. Bu genellikle ondan uzak değil!

Bu nedenle, her bir hata veya önem tahmini, bu durumda, herhangi bir P-değeri, tanım gereği yanlışdır ve temel araştırmayı tanımlamak için güvenilmemelidir - bağımsız fenomenler! - doğru. Aslında, neyin temsil edildiğine, hatanın nasıl tahmin edildiğine ve verileri kontrol etmek için ne yapıldığına dair bilgi olmadan, sonuçlarla ilgili hiçbir şey iletmek için güvenilmemelidir. Örneğin, tahmini hatayı azaltmanın bir yolu aykırı değerlerin kaldırılmasıdır. Bu kaldırma da istatistiksel olarak yapılırsa, aykırı değerlerin hataya dahil edilmesi muhtemel gerçek ölçümler yerine gerçek hatalar olduğunu nasıl bilebilirsin? Azaltılmış hata, sonuçların önemini nasıl artırabilir? Tahminlerin yakınındaki hatalı ölçümler ne durumda? Onlar geliştirmek Hata ve istatistiksel önemi etkileyebilir ancak yanlış sonuçlara yol açabilir!

Bu konuda fiziksel modelleme yapıyorum ve 3-sigma hatasının tamamen fiziki olmadığı modelleri kendim yarattım. Yani, istatistiksel olarak, binde yaklaşık bir olay var (yani ... bundan daha sık, ama ben dalıyorum), tamamen saçma bir değere yol açacak. Alanımdaki 3 aralıklı hatanın büyüklüğü, kabaca her şimdi ve sonra bir metre olduğu ortaya çıkan 1 cm'lik olası en iyi tahminde bulunmaya eşdeğerdir. Ancak, bu gerçekten de benim alanımdaki fiziksel, ampirik verilerden hesaplanan istatistiksel +/- aralığı sağlarken kabul edilen bir sonuçtur. Elbette belirsizlik aralığının darlığına saygı duyulur, ancak çoğu zaman en iyi tahmin tahmininin değeri, nominal hata aralığı daha büyük olsa bile daha faydalı bir sonuçtur.

Yan not olarak, bir keresinde bin aykırı kişiden birinin şahsen sorumluluğu vardı. Ölçmemiz gereken bir olay gerçekleştiğinde bir cihazı kalibre etme sürecindeydim. Ne yazık ki, bu veri noktası tam olarak bu 100 katlı outlierden biri olurdu, yani bir anlamda onlar gerçekleşir ve modelleme hatasına dahil edilirler!


“Yalnızca olası her olayı ölçtüyseniz doğru ölçü sağlayabilirsiniz.” Hmm. Yani doğruluk umutsuz mu? Ve ayrıca alakasız? Lütfen doğruluk ve önyargı arasındaki farkı genişletin. Yanlış tahminler önyargılı mı yoksa tarafsız mı? Tarafsızlarsa, o zaman onlar biraz işe yaramaz mı? "Örneğin, hatayı azaltmanın bir yolu aykırılıkları kaldırmaktır." Hmm. Bu örnek sapmasını azaltacaktır, fakat "hata"? “... çoğu zaman en iyi tahmin tahmininin değeri, nominal hata aralığı daha büyük olsa bile daha faydalı bir sonuçtur”. İyi bir önceliğin kötü bir deneyden daha iyi olduğunu inkar etmiyorum.
Peter Leopold

Yorumunuzu temel alarak metni biraz değiştirdik. Demek istediğim, istatistiki hata ölçümünün, mümkün olan tüm bireysel testleri yapmadığınız sürece, her zaman bir tahmin olduğu idi. Bu, örneğin, belirli sayıda insanı oylama (büyük kalabalıktan veya genel nüfustan örnek olarak değil) sorgulamadıkça, nadiren olur.
Geenimetsuri

1
Ben istatistikçi yerine istatistik kullanan bir uygulayıcıyım. Bence p değerleri ile ilgili temel bir problem, neyi tanıdık olmayan pek çok kişinin kendileri için önemli bir öneme sahip olduğunu düşünmesidir. Bu yüzden, eğimlerin büyük olup olmadığına bakılmaksızın, p değerlerini kullanarak hangi eğimlerin önemli olduğunu belirlemem istendi. Benzer bir problem onları değişkenlerin göreceli etkisini belirlemek için kullanmaktır (ki bu benim için kritiktir, ancak regresyon literatüründe şaşırtıcı derecede az ilgi görmektedir).
user54285
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.