Akademik makalelerde yayınlanan istatistikler


44

Bazı evrimsel / ekolojik akademik makaleleri okudum, bazen istatistiklerin 'gerçek dünyada' ders kitabının dışında nasıl kullanıldığını görmek amacıyla. Normalde kağıtları istatistik olarak müjde olarak alıyorum ve kağıtları istatistiksel olarak öğrenmeme yardımcı olmak için kullanıyorum. Ne de olsa, bir makale yazmak yıllar aldı ve titiz bir meslektaş incelemesinden geçmişse, o zaman kesinlikle istatistikler son derece sağlam olacak mı? Ancak son birkaç gün içinde varsayımımı sorguladım ve akademik makalelerde yayınlanan istatistiksel analizin ne kadar sıklıkla şüpheli olduğunu merak ettim. Özellikle, ekoloji ve evrim gibi alanlardaki alanların daha az zaman öğrenme istatistiği ve alanlarını öğrenmek için daha fazla zaman harcaması beklenebilir.

İnsanlar akademik gazetelerde şüpheli istatistiklerden ne sıklıkta yararlanıyor?



18
Hakemler genellikle istatistik hakkında makale yazanlardan daha fazla şey bilmeyen insanlardır, bu yüzden kötü istatistikleri yayınlamak genellikle kolay olabilir.
Behacad

9
Yayınlanan bir makaleyi almak , sonuncusu değil, bilimsel topluluk tarafından kabul edilmesinin ilk adımıdır. Yayınlanan makalelerin çoğunda bazı alanlarda önemli hatalar olacaktır, istatistik kullanımı istisna değildir.
Dikran Marsupial

3
Evrakların "yazması yıllar alır" varsayımınız bir anlam ifade etmiyor. Veri toplamak uzun zaman alabilir ancak verileri analiz etmek ve yazmak genellikle yıllar değil haftalardır.
David Richerby

2
Günümüzde pek çok psikoloji ve tıp raporunda yer alan istatistiklerin en azından sorgulamanın yanlış olduğu ya da o kadar sık ​​olmadığı bile biliniyor. P-değerlerinin ve NHST'in zayıf insan kullanımı, problemlerin en belirgin örneğidir, bu nota bakınız .
Quartz,

Yanıtlar:


38

Ne de olsa, bir makale yazmak yıllar aldı ve sıkı akran incelemesinden geçmişse, o zaman kesinlikle istatistikler son derece sağlam olacak mı?

Çeşitli alanlarda (siyaset bilimi, ekonomi bilimi, psikoloji, tıp, biyoloji, finans, aktüerya bilimi, muhasebe, optik, astronomi ve diğerleri) istatistiklerini uygulama girişiminde bulunduğum belgeleri okuma deneyimim; İstatistiksel analiz, mükemmel ve iyi yapılmışdan korkunç saçmalıklara kadar spektrumun herhangi bir yerinde olabilir. Bahsettiğim alanların her birinde iyi analizler gördüm ve neredeyse hepsinde oldukça kötü analizler yaptım.

Bazı dergiler genellikle oldukça iyidir ve bazıları daha çok gözleri kapalı bir şekilde dart oynamak gibi olabilir - birçoğunu hedeften çok uzakta değil, duvarda, zeminde ve tavanda birkaç tane olacak. Ve belki de kedi.

Herhangi bir suçluyu isimlendirmeyi planlamıyorum, ancak hatalı istatistik kullanımına dayanan akademik kariyer gördüğümü söyleyeceğim (örneğin, aynı hataların ve yanlış anlamaların kağıttan sonra, on yıldan fazla bir süre boyunca makalede tekrarlandığı yerlerde).

Bu yüzden benim tavsiyem, okuyucunun dikkatli olmasına izin vermek ; Editörlerin ve hakemlerin ne yaptıklarını bildiklerine güvenmeyin. Zaman içinde, hangi yazarların çok şok edici bir şey yapmama konusunda genel olarak güvenilebileceğini ve hangilerinin özellikle ateşli bir şekilde ele alınması gerektiğini iyi bir şekilde anlayabilirsiniz. Bazı dergilerin istatistikleri için genellikle çok yüksek standartlara sahip olduklarını hissedebilirsiniz.

Ancak, tipik olarak iyi bir yazar bile hata yapabilir veya hakemler ve editörler normalde bulabilecekleri hataları tespit edemezler; genellikle iyi bir dergi uluyan yayınlayabilir.

[Bazen, gerçekten kötü makalelerin ödülleri veya ödülleri kazandığını bile görürsünüz ... ki bu da ödülü değerlendiren kişilerin kalitesi için fazla bir şey ifade etmiyor.]

Gördüğüm "kötü" istatistiklerin ne kadarının olduğunu tahmin etmek istemem (çeşitli alanlarda ve soruyu tanımlamanın her aşamasında, araştırmanın tasarımı, veri toplama, veri yönetimi, ... analizler ve sonuçlar), fakat kendimi rahat hissetmeme yetecek kadar küçük değil.

Örnekleri gösterebilirdim, ama bunun için doğru forum olduğunu sanmıyorum. (Orada eğer iyi olurdu oldu muhtemelen oldukça hızlı "politize" son derece olmak ve yakında amacına hizmet etmek başarısız olur, sonra tekrar aslında, bunun için iyi bir forum ama.)

Bazı zamanları PLOS ONE'dan geçerek geçirdim ... ve yine, belirli gazetelere işaret etmeyeceğim. Dikkatimi çeken bazı şeyler: Büyük miktarda kağıdın içinde istatistik var, muhtemelen yarısından fazlası hipotez testlerine sahip görünüyor. Başlıca tehlikeler , her biri üzerinde <0,05 gibi yüksek değerine sahip çok sayıda test gibi görünmektedir (bu, oldukça az sayıda gerçekten küçük efektlerin tesadüfen önemli olduğunu gösterdiği sürece otomatik olarak bir sorun değildir) veya inanılmaz bir şekilde düşük güç sağlama eğiliminde olacak düşük bireysel önem düzeyi. Ayrıca yaklaşık yarım düzine farklı testin yapıldığı birkaç vaka gördüm.αgörünüşe göre aynı soruyu çözmek için uygulandı. Bu beni genel olarak kötü bir fikir olarak vurguluyor. Genel olarak standart birkaç düzine makalede oldukça iyiydi, fakat geçmişte orada kesinlikle korkunç bir kağıt gördüm.

[Belki de dolaylı olarak sadece bir örnekte şımartın. Bu soru , birinin oldukça şüpheli bir şey yapmasını ister. Gördüğüm en kötü şeyden çok uzak.]

Öte yandan, insanların analizlerini kabul ettirmek için her türlü gereksiz çembere atlamak zorunda kaldıkları (daha sık) vakaları da görüyorum; yapılabilecek mükemmel makul şeyler kabul edilmez, çünkü bir gözden geçirene, editör veya denetçiye göre veya sadece belirli bir alanın söylenmemiş kültüründe yapmanın "doğru" bir yolu vardır.


2
Açık erişim dergilerinin sayısında artan verilen " Caveat lector "?
Scortchi

1
@scortchi Sadece İngilizce yazarak konuyu tamamen önlemeye karar verdim. Bu bir gelişme.
Glen_b

10
Belirli suçluları isimlendirmeden bence fakülte.vassar.edu/abbaird/about/publications/pdfs/… bir sözü hak ediyor. Alanlarındaki istatistiklerin kötüye kullanımı hakkında bir kanıt göstermek için, ölü bir somonun fMRI taramasının sonuçlarını analiz etmek için yaygın olarak kullanılan bir istatistiksel protokol kullandılar. Beyin aktivitesini “istatistiksel olarak anlamlı” buldular. statisticsdonewrong.com ayrıca ilginç okumalar yapar.
James_pic

1
@James_pic, istatistik bağlantısı için yorum yapan +1'e katılmak zorunda kaldı; Baz oran yanlışlığının tartışılması özellikle ilginçtir.
Dan Bryant

1
@KennyPeanuts: İkisi de - sadece günümüzde birçok dekanın dolaylı olarak empatik olmadığına işaret ediyor .
Scortchi

16

@ Glen_b'in burada doğru cevap verme konusundaki duruşuna saygı duyuyorum (ve kesinlikle ondan uzaklaşmayı düşünmüyorum), ama evime yakın, özellikle eğlenceli bir örneğe işaret etmekte oldukça direnemiyorum. Bir şeyleri siyasallaştırma ve bu sorunun amacını kötüye kullanma riski altında, Wagenmakers, Wetzels, Boorsboom ve Van Der Maas (2011) 'i öneriyorum . Ben Bilişsel Bilimler beta SE (bununla ilgili bir yazı bu atıf Nasıl bilişsel bilim alıcılarında uzak manasallığa ve beyin fonksiyonlarını açıklar? "Dart kedi vurma" bir başka örneğini dikkate). Wagenmakers ve meslektaşları makalesi doğrudan gerçek bir "uluyan" üzerine yorum yaptı: Psikoloji alanındaki en büyük dergilerden biri olan JPSP'de yayınlandı.) birkaç yıl önce. Ayrıca, daha genel olarak Bayesci analiz lehine ve bu:

Tartışmalı bir iddianın şüpheci izleyicisini ikna etmek için, kişinin kesin olarak doğrulayıcı çalışmalar yapması ve sonuçları liberal olmaktan ziyade muhafazakar istatistiksel testlerle analiz etmesi gerekmektedir.

Muhtemelen, bunun tam olarak koroya vaaz vermekle karşılaşmadığını söylememe gerek yok. FWIW, aynı zamanda bir çürütücü var ( Bayesanlar ve sık görüşmeler arasında her zaman olduğu gibi görünüyor; ( Bem, Utts, & Johnson, 2011 ) , ancak tartışmaları tam olarak kontrol etmediğini hissediyorum .

Bilimsel bir topluluk olarak psikoloji, kısmen bu ve diğer yüksek profilli metodolojik eksikliklerden dolayı, son zamanlarda bir parça replikasyona başladı. Buradaki diğer yorumlar, bir zamanlar sosyal nörobilimde voodoo korelasyonu olarak bilinenlere benzer durumlara işaret etmektedir ( politik olarak yanlış BTW için bu nasıl bir makale olarak yeniden düzenlenmiştir; Vul, Harris, Winkielman ve Pashler, 2009 ). Bu da son derece tartışmalı uygulamalarla ilgili daha fazla tartışma için kontrol edebileceğiniz, onun çürütme çekti .

Kötü davranış gösteren (sözde) istatistikçilerin (daha duyarsızlaştırılmış) pahasına daha fazla eğlence için, şu anda özgeçmişinde (kuşkusuz) siyasal olarak yanlış bir başlık olan CV'de " ortak istatistik günahları nedir? " @MikeLawrence, ilhamını psikoloji ve istatistik konusundaki paralel çalışmasına bağlar. Bu benim kişisel favorilerimden biri ve buradaki cevaplar, sayısız tuzaktan kaçınmanız için çok yararlı.


Kişisel tarafta, son beş ayımın çoğunu burada büyük ölçüde harcıyorum çünkü belirli veri analitik soruları hakkında sağlam istatistikler almak inanılmaz derecede zor. Açıkçası, akran incelemesi, özellikle karmaşık sorular ve epistemik komplikasyonları olan genç bilimlerde yapılan araştırmaların istatistiksel incelemesi açısından genellikle çok titiz değildir. Dolayısıyla, kendi işimde yöntemleri parlatmada kişisel sorumluluk alma gereği duydum.

İken benim tez araştırmaları tanıtan , ben istatistik inceleme için önemli kişisel sorumluluktur nasıl bir his var. Alma materyalimdeki iki istisnai psikolog, korelasyon yorumlarımdaki en temel günahlardan birini yaptığımı söyledi. Kendimi bunun üzerinde düşünmüştüm ve birkaç kez bunun hakkında lisans dersleri vermiştim, ama yine de oraya gittim ve çağrıldım (erken saatlerde, şükürler olsun). Oraya gittim çünkü inceleme ve çoğaltma araştırmaları oraya gitti! Böylece bitirme tezime birkaç bölüm ekledim. Bu, diğer araştırmacıları yarı deneysel uzunlamasına çalışmalardan (bazen enine kesitsel korelasyonlardan bile) ve nedenselliği varsaymak için ve alternatif açıklamaları önceden görmezden gelmeleri için çağırdı.

Bitirme tezim, başka bir istisnai psikometri ve SPSP’nin (JPSP’yi yayınlayan) SPSP’nin başkanı olacak komitesi tarafından revize edilmeden kabul edildi. O zamandan beri , dış inceleme sürecini mükemmel bir şekilde gözden geçiren kişilerle geçirmemize rağmen, birkaç tavşan deliğini kendi yöntemimle delmeyi başardım . Şimdi, SEM, IRT ve parametrik olmayan analizler gibi Likert derecelendirmelerinin prediktif modellemesi için daha uygun yöntemler kullanmaya çalışırken istatistiklerin sonlarına düştüm ( Boyut küçültmeden sonra Regresyon testi bölümüne bakınız).). Yıllarca muhtemelen sadece olduğu gibi yayınlayabileceğim bir kağıda geçirmeyi gönüllü olarak seçiyorum ... Sanırım bilinçli bir şekilde ilerlemeden önce yapacak bir simülasyon çalışmam bile var.

Yine de bunun isteğe bağlı olduğunu vurguluyorum - belki aşırı abartılı ve hatta erken kariyer çalışma kayıtlarında kalitenin miktarını vurgulayan yayın ya da yok etme kültürünün ortasında pahalı bir lüks. Sürekli veriler için parametrik modellerin sıralı verilerin varsayım ihlal eden dağılımlarına yanlış uygulanması, alanımda, istatistiksel açıdan yanlış yorumlama ve yanlış beyan etme gibi oldukça yaygındır (bkz . P-değerlerinin yerleşik görüşlerini alma ). Ondan tamamen kurtulabilirdim (kısa vadede) ... ve bundan daha iyisini yapmak o kadar da zor değil. Sanırım R programlarında son birkaç yıldır inanılmaz gelişmeler var, bunun için teşekkür ederim! İşte zamanın değişeceğini umuyoruz.


Kaynaklar
· Bem, DJ, Utts, J., & Johnson, WO (2011). Psikologlar verilerini analiz etme şeklini değiştirmeli mi? Kişilik ve Sosyal Psikoloji Dergisi, 101 (4), 716-719. Http://deanradin.com/evidence/Bem2011.pdf adresinden alındı .
· Vul, E., Harris, C., Winkielman, P., ve Pashler, H. (2009). FMRI duygu, kişilik ve sosyal biliş çalışmalarında şaşırtıcı derecede yüksek korelasyonlar. Psikolojik Bilime Bakış Açıları, 4 (3), 274-290. Http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf adresinden alındı .
·Wagenmakers, EJ, Wetzels, R., Borsboom, D. ve Van der Maas, H. (2011). Psikologlar neden verilerini analiz etme yöntemlerini değiştirmeliler: psi örneği. Kişilik ve Sosyal Psikoloji Dergisi, 100 , 426-432. Http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf adresinden alındı .



1
@Scortchi: referans için teşekkürler, ve amip: bağlam için teşekkürler. Witzum ve ark. McKay ve ark. soyutlarına dikkat edin, ancak birçok ciddi kusuru işaret ettiler. İyi şeyler. “Gerçek veriler, hipotezleri doğru olsalar bile, bilim insanlarının beklentilerini etkileyebilse de, deneyleri sistematik olarak beklentilerine doğru eğilimli olanlar daha az hayal kırıklığına uğramaktadır (Rosenthal, 1976).” Bu beni yarı deneylere dayanan nedensel çıkarsamaya çağıran adamlardan biri ... gerçekten harika bir psikolog. Bem'in de bazı dürtüleri var.
Nick Stauner

2
+1 Mükemmel gönderi. “ İstatistiksel incelemede kişisel sorumluluğun ne kadar önemli olduğu ” - Alkışlamalıyım. Sonuç olarak, bu, sorumluluğu yalan söylemek zorundadır, çünkü istatistik uygulamak istedikleri bir araştırma alanında iş yapmaya çalışan bir kişi için olabilir.
Glen_b

1
@ NickStauner: McKay ve diğ. özetlerinde Witzum ve ark. "Yaratılış Kitabı'nın İbranice metni, metnin yazıldıktan sonra bin yıllara kadar gerçekleşmeyen olayları kodlar" iddiası. Muhtemelen, Tevrat'ın yazdığı ve listedeki son hahamın doğum tarihi arasındaki en fazla iki bin yıldan fazla olduğu için yeterince abartılı, ancak yeterince adil bir özet. (. Kadarıyla Bence kimse çıkarmış bildiği gibi gerçi, ayrıca Genesis Kitabın son yazarlık için delil olarak Witztum vd kağıt görebiliyordu varsayalım.)
Scortchi - Eski Monica

1
Evet, sanırım Witzum ve ark. Bu iddiada bulunduklarını kabul edecek kadar iyi. Bir keresinde yazarların geniş yazılarına minnettar olabileceğimi farzedebilirim ... Bu, yüz değerinde biraz daha ilginç görünmektedir çünkü en belirgin iddia, örgünün şans eseri olması değil, sözde neye bağlı olduğu değil. onların görüşüne göre. Sizin gibi McKay ve ark. Söyle ki ... en azından McKay ve ark. onları metodolojik zeminde vurmuş, yorumlamaya değecek bir şey bırakmamış.
Nick Stauner

5

Üniversitede birkaç yıl sosyal bilgiler öğrencisinin farklı günlerde (biri 1'i aldı), bir avuç veri noktası olan projeleri için nasıl ortalama çalışmalarını istediklerini sorduğumu hatırlıyorum. (Yani, bir hesap makinesiyle matematiğin nasıl yapılacağı kavramıyla, yazılımı kullanmada problemleri yoktu.)

Ne tür bir ortalama istediklerini sorduğumda bana sadece boş görünüyorlar.

Yine de, hepsinde olduğu gibi raporlarında bazı istatistikler koyma ihtiyacı duyuyorlardı, çünkü sonuçta istatistiklerin ne anlama geldiğini düşünmeden istatistiklerini içeren 101 makale okuduklarını umuyorum.

Onlara 3 yıl boyunca eğitim veren araştırmacının, öğrencilere herhangi bir anlayışı damlatacak istatistiklerin doğruluğunu önemsemediği açıktır.

(O zamanlar bir bilgisayar öğrencisiydim. Bunu bir yorum için biraz uzun olduğu için cevap olarak gönderiyorum.)


IMO, öğrenciler bir başka maymun fıçısı. Daha fazla kanıt olmadan anlayamadıkları için öğretmeni derhal suçlamam ... ama öğretmenin suçlu olduğunu söylediğin kadar açık olsaydı, ben de şaşırmam.
Nick Stauner

@NickStauner, istatistiği yeterince umursamadığım için öğretmeni suçluyorum; Dikkat etselerdi, her sınav kâğıdında, “İstatistiklerle Nasıl Yatırılır” seviyesinde bazı istatistiklerin anlaşılmasını gerektiren en az bir soru olacaktır. Sosyal bilimler öğrencilerinin hesaplamayı nasıl yapmaları gerektiğini bilmeleri umrumda değil, ancak yanlış yönlendirilmemeleri gerektiğini bilmeleri gerekir.
Ian Ringrose,

Bilmeleri gerektiği konusunda hemfikirlerdi , ancak bu soruyu doğru bulabileceklerinin garantisi yok!
Nick Stauner

@NickStauner, Evet, ancak ne ölçtüğünüzü alırsınız, böylece sınava girmediğiniz sürece istatistikler hakkında hiçbir şey anlamayan öğrenciler elde edemezsiniz.
Ian Ringrose,

Yine, öğretmenlere öğrenci çıktıları için daha az kredi verme eğilimindeyim. Pek çok öğrenci (tamam, belki de "bol" değil, ancak bazıları) kendi iyiliği için öğrenecek kadar özen gösterecek ve bazıları malzemenin çoğunu zaten öğrenerek sınıfa gelecektir. Ancak yorumunuzu kesinlikle yorumlarsam, beni affet; Öğrencileri öğrenmek için motivasyona zorlamanın çoğu zaman gerekli bir kötülük olduğuna ve test etmenin ezberli, tekrarlayan çalışma / ders vermekten daha iyi bir yol olduğuna katılıyorum.
Nick Stauner

0

Neyse ki eksik olan bir liste olarak, 1) fizik makalelerinde, ardından 2) istatistik makalelerinde ve 3) tıbbi gazetelerde en sık kullanılan istatistikleri buluyorum. Bunun nedenleri açık ve prototipik modelin her alanda uyguladığı şartların eksiksizliği ile ilgili.

Fizik belgelerinde, denklemler ve uygulamalı istatistikler, dengeli birimlere dikkat etmek ve en sık nedensel ilişkilere sahip olmak ve fiziksel standartlara karşı test etmek zorundadır.

İstatistiklerde, 1) birimler ve nedensellik bazen göz ardı edilir, varsayımlar bazen sezgiseldir ve fiziksel test çok sık görmezden gelinir, ancak eşitlik (veya eşitsizlik), yani mantık, ikincisinin düzeltemeyeceği endüktif bir yol boyunca korunur fiziksel olmayan varsayımlar.

Tıpta, tipik birimler göz ardı edilir, denklemler ve varsayımlar tipik olarak sezgiseldir, tipik olarak denenmemiş ve sıklıkla sahtedir.

Doğal olarak, istatistik mekaniği gibi bir alanın, ekonomi konusunda söyleyebileceğimiz varsayımsal varsayımlara sahip olma olasılığı daha yüksektir ve bu, potansiyel yazarların bu alanlardaki yeteneklerini yansıtmaz. Yapılmakta olanın ne kadarının gerçekten test edilebilir olduğu ve tarihsel olarak her alanda ne kadar test yapıldığı ile ilgilidir.


-7

Boş sıfır hipotezini çürüten herhangi bir makale değersiz istatistikler kullanıyor (gördüğümlerin büyük çoğunluğu). Bu işlem, etki büyüklüğü tarafından henüz sağlanmayan hiçbir bilgi sağlayamaz. Ayrıca, önemli bir sonucun aslında araştırmacı tarafından teorik olan nedenden kaynaklanıp kaynaklanmadığı hakkında hiçbir şey söylemez. Bu, karışıklık kanıtı için verilerin dikkatlice incelenmesini gerektirir. Çoğu zaman, eğer mevcutsa, bu kanıtların en güçlüsü “aykırı” olarak bile atılır.

Evrim / ekolojiye pek aşina değilim, ancak psişik ve tıbbi araştırmalarda, istatistiksel olarak anlaşılması gereken seviyeye "ciddi karıştı" ve "bilimsel ilerlemenin önündeki engel" diyeceğim. İnsanların, teorilerinin öngördüğü bir şeyi, bunun tersini değil (sıfır fark / etki) ispatladığı düşünülmektedir.

Bu konuda yazılmış binlerce makale var. NHST hibrit tartışmasına bakın.

Düzenleme: Boş sıfır hipotez anlamlılık testinin en fazla sıfır bilimsel değere sahip olduğunu kastediyorum. Bu kişi kafasına çiviyi vuruyor:

http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/

Ayrıca: Paul Meehl. 1967. Psikoloji ve Fizikte Kuram Testleri: Metodolojik Bir Paradoks

Düzenleme 3:

Birisi yok düşünme gerektiren Strawman NHST yararlılığı lehine argümanlar varsa "ısınma oranı aynı olduğunu hipotezini reddetmek, ancak ısınma oranı aynı olmadığını ima etmek bunu al YAPMAYIN" rasyonel olduğunu ifadesi, yorumlarınızı memnuniyetle karşılardım.

4'ü Düzenle:

Fisher aşağıdaki alıntı ile ne demek istedi? "Model / teori A verilerle uyuşmuyorsa, A'nın yanlış olduğunu, A'nın doğru olup olmadığına dair hiçbir şey olmadığını " söyleyebilir mi?

“Bilimsel çalışanlara yapılan istatistiksel testlerin ilgisinin, tamamen gözlemlerle uyumsuz olduğu düşünülen hipotezleri reddetmedeki kullanımlarından tamamen emin olduğu kesin.”

...

Bu nedenle, anlamlılık testlerinin genel olarak anlam testlerinin, doğru kullanıldığında, verilerle çelişkili olduğu sürece, hipotezleri reddetme veya geçersiz kılma kabiliyetine sahip olduğu anlaşılırsa, dikkate alındığı açıklığa büyük ölçüde ekleyecektir. ; ama hiçbir zaman onları kesinlikle doğru olarak belirleyemediklerini

İstatistiksel Testlerde Karl Pearson ve RA Fisher: Doğadan 1935 Değişimi

İnsanların kamıştan ziyade sadece mantıklı hipotezleri geçersiz kılmaya çalışacağını mı sanıyor? Yoksa yanlış mıyım?


7
"Bu işlem, etki büyüklüğü tarafından henüz sağlanmayan hiçbir bilgi sağlayamaz." bu yanlıştır, p değeri bu etki büyüklüğünün null hipotezi altında ne kadar sıradışı olacağına ilişkin bazı bilgiler sağlar, bu nedenle etki büyüklüğünün kalibrasyonu için bir öğe sağlar. Beni yanlış anlamayın, Bayes faktörlerinin daha faydalı olduğunu düşünüyorum, ancak p değerinin değersiz bir istatistik olduğunu söylemek abartıdır.
Dikran Marsupial

3
“Ben (ve diğerlerinin) dikkatimi çeken tüm modellerin bahsetmeye değer olduğunu düşünüyorum” diyerek bloglardaki iklim tartışmasında ortaya çıkan sorun tam olarak budur, insan gözü yalnızca gürültü çıkaran verilerdeki kalıpları görmekte çok iyidir. ve tartışmadaki sinyal-gürültü oranının, bir blogu yayınlamadan önce bir fikrin üstesinden gelmemesi için hiçbir engel bulunmaması iyi değil! İstatistiklerin genellikle çok zayıf olduğu bir bilim alanıdır.
Dikran Marsupial

2
Livid, size "saman adam" H0 ile uygun bir NHST yapmanın nerede bir bilimsel konunun tartışılmasında yararlı olacağı konusunda somut bir örnek verdim. NHSTs, oldukları gibi, kusurlu olarak - Bu yanlış görünümünüzü gösteren net bir karşı örnek sağlar yine bilim ve istatistikte faydalı bir işlevi yerine. Şimdi karşı örneklemimin doğru olduğunu gösterebilirseniz, bu sorunu çözme yolunda ilerleyebilir.
Dikran Marsupial

2
Canlı, NHST bilimsel ve istatistiksel olarak gerçekleştirir, sosyal olarak arzu edilmeyen bir işlev görür (optimal olarak olmasa da) ve keyfi bir engel oluşturmaz, engel genellikle H1'e olan karşıtlığı ile tanımlanır ve sonucu onayladığını "taahhüt eder" "H0'yı reddetmek gibi yanlışlar, H1'in doğru olduğu anlamına gelmez. Yani hayır, doğru değil.
Dikran Marsupial

3
Noktayı kaçırıyorsun. Düşük bir engeliniz varsa, başarılı bir şekilde pazarlık ederseniz kimse şaşırtmaz. Ancak düşük bir engeliniz varsa, ama yine de üstesinden gelemiyorsanız, bu size bir şey söyler. Tekrar tekrar söylediğim gibi, boş değeri reddetmek H1'in doğru olduğu anlamına gelmez, bu yüzden H0'ı reddetmek kesinlikle bir duraklama olduğu anlamına gelmez, neden bir duraklama olduğunu söylemez. Ancak H0'ı reddetme zorluğunun üstesinden gelemezseniz, belki de H1'i gerçek olarak iddia etmek için yeterli kanıt bulunmadığını gösterir (bu durumda olan budur).
Dikran Marsupial
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.