Ders kitaplarında olmayan isteğe bağlı durma kuralları


16

Durdurma kuralları, P-değerleri ile kararlarla ilişkili hata oranları arasındaki ilişkiyi etkiler. Simmons ve ark. 2011 sikke vadeli serbestlik araştırmacı dereceleri onlar tekrarlanabilir olduğu tespit edilmiştir psikoloji literatüründe raporların çoğunu sorumlu olarak gördüğünü ortaya davranışların bir koleksiyon açıklamak için.

Bu davranışlardan, isteğe bağlı durdurma kuralları veya bildirilmemiş ara analizler şu anda ilgilendiğim şeydir. Öğrencilerim için hata oranları üzerindeki etkilerini açıklıyorum, ancak öğrencilerimin kullandığı (veya kullanmadığı ders kitaplarında tarif edilmiyorlar) kullanmak!). Üniversitemdeki ana kitapçıda, biyoloji, işletme, mühendislik vb. Gibi çeşitli disiplinlerde giriş seviyesi öğrencilere yönelik on dört istatistik ders kitabı bulunmaktadır. Bu metinlerden sadece birinde “sıralı test” ve hiçbiri bir indeks öğesi bulunmamıştır ' durdurma kuralı '.

İsteğe bağlı durma kuralları konusunu açıklayan bir giriş düzeyi istatistik ders kitabı var mı?

Simmons, JP, Nelson, LD ve Simonsohn, U. (2011). Yanlış Pozitif Psikoloji: Veri Toplama ve Analizinde Açıklanmayan Esneklik, Her Şeyi Önemli Olarak Sunmaya İzin Verir . Psikolojik Bilimler, 22 (11), 1359-1366. DOI: 10,1177 / 0956797611417632


1
Eğer sık ​​sık istatistik çıkarırsanız ve BT veya Bayes yöntemleriyle devam ederseniz sorun ortadan kalkmaz mı? (Ya da veri kümenizin boyutuna bağlı olarak saf makine öğrenimi) Bu çok saçma değil - Fisher ve NP'nin uyumsuz karışımı, "doğru" yapıldığında bile sorunlardan başka bir şey yapmıyor. Gelecekte daha sık olmayacak.
thedude

1
Evet, frekans prensibine uyması gereken yöntemlerin kullanılmaması durumunda sorun ortadan kalkacaktır. Ancak, böyle bir gelecek bu dünyada gelmeyebilir. Bu ne?
Michael Lew

2
@Michael: Neredeyse hiç kuşkusuz (yani IT) "bilgi teorisi" anlamına geliyor.
kardinal


2
@thedude farklı bir teorik çerçeve kullanarak başka problemler ortaya çıkarır . Buradaki problem, hepinize matematiği sadece dünyanın bir tanımından başka bir şey olarak ele almanızdır. Sıklık istatistikleri dünyayı tanımlamak için çok yararlı bir yol, bayesci bir başka. Her ikisi de size gerçeği kanıtlayamaz .
Indolering

Yanıtlar:


2

Önceden bilmediğiniz dağıtımınız ve etki büyüklüğünüz hakkında bir fikriniz olmadan bir durma kuralınız olamaz.

Ayrıca evet, efekt boyutuna odaklanmamız gerekiyor - ve sadece p değerlerini dikkate almak hiç doğru görülmedi ve kesinlikle efekt boyutu yerine p değerleri veya F değerleri gösteren tablolar veya grafikler göstermemeliyiz.

Geleneksel İstatistiksel Hipotez Çıkarma Testi ile ilgili sorunlar var (Cohen'in kısaltmasına layık olduğunu söylüyor ve Fisher ve Pearson, bugün şiddetle karşı çıkan isimlerinde yapılan her şeyi görürlerse mezarlara dönecekti).

N'yi belirlemek için, dağıtımla ilgili birçok varsayım yapmanın yanı sıra, bir hedef önem ve güç eşiği belirlemiş olmanız ve özellikle de oluşturmak istediğiniz etki boyutunu belirlemeniz gerekir. İndolleme bunun başlangıç ​​noktası olması gerektiği gibi doğrudur - hangi minimum etki büyüklüğünün uygun maliyetli olacağı!

"Yeni İstatistikler", ilgili standart sapmalar veya varyans (dağılımı anlamamız gerektiğinden) ve standart sapmaları veya güven aralıklarını (ancak ikincisi zaten bir p değeriyle kilitlemek ve bir yönü mü yoksa her şekilde bahsi mi tahmin edeceğinize dair bir karar). Ancak bilimsel bir öngörü ile belirtilen işaretin minimum bir etkisini belirlemek, bunu ön plana çıkarır - ön-bilimsel varsayılan, deneme yanılma yapmak ve sadece farklılıkları aramaktır. Fakat yine de bu şekilde giderseniz normallik hakkında varsayımlar yaptınız.

Başka bir yaklaşım, kutu grafiklerini parametrik olmayan bir yaklaşım olarak kullanmaktır, ancak bıyık ve aykırı değerlere ilişkin sözleşmeler büyük ölçüde değişir ve o zaman bile kendileri dağıtım varsayımlarından kaynaklanır.

Durdurma problemi gerçekten de N'yi ayarlayan veya ayarlayan bireysel bir araştırmacının problemi değildir, ancak binlerce araştırmacıdan oluşan bir topluluğumuz var, burada 1000 geleneksel 0.05 seviyesi için 1 / alfa'dan çok daha fazla. Cevabın şu anda meta-analizi kolaylaştırmak ve tüm deneylerin birleştirilmiş sonuçlarını sunmak için özet istatistikleri (ortalama, stddev, stderr - veya karşılık gelen "parametrik olmayan versiyonlar - medyan vb. belirli bir alfa seviyesine ulaşmış veya ulaşmamış olabilir.

Sıklıkla ilişkili olan ve deneylerin koruma gücü adına aşırı basit tutulduğu, sonuçları analiz etmek için aşırı karmaşık metodolojilerin önerildiği çoklu test problemi yakından ilişkilidir.

Ne yaptığımızı hala bilmediğimiz için, bununla ilgili henüz bir ders kitabı bölümü olabileceğini sanmıyorum ...

Şimdilik, en iyi yaklaşım muhtemelen soruna en uygun geleneksel istatistikleri kullanmaya devam etmek, özet istatistikleri görüntülemekle birlikte - etki ve standart hata ve N en önemlisidir. Güven aralıklarının kullanımı temel olarak karşılık gelen T-testine eşdeğerdir, ancak yeni sonuçların yayınlanmış olanlarla daha anlamlı bir şekilde karşılaştırılmasına ve tekrarlanabilirliği teşvik eden bir ethos'a ve çoğaltılan deneylerin ve meta-analizlerin yayınlanmasına izin verir.

Bilgi Teorisi veya Bayesci yaklaşımlar açısından, farklı araçlar kullanırlar ve farklı varsayımlar yaparlar, ancak yine de tüm cevaplara sahip değildirler ve sonunda aynı problemlerle veya daha kötüsü ile karşı karşıyadırlar çünkü Bayesian çıkarım kesin bir geri dönüş yapmaktan uzaklaşır varsayılmış ya da yoksundur.

Sonunda Makine Öğrenimi ayrıca önem için dikkate alması gereken sonuçlara sahiptir - genellikle CI'ler veya T-Testi ile, genellikle grafikler ile, dağıtımlar eşleşmediğinde uygun şekilde dengelenmiş sürümleri kullanmak yerine karşılaştırmak yerine umarım eşleşir. Ayrıca, önyükleme ve çapraz doğrulama ile önyargı ve varyans hakkında tartışmaları vardır. Hepsinden kötüsü, dizginsiz çoklu testlere izin vermek için düşünceli bir şekilde arşivlenmiş veri kümelerine uygulanan birçok araç kutusundan birinde bulunan tüm algoritmaları iyice parametrelendirerek sayısız alternatif model üretme ve test etme eğilimine sahiptir. En kötüsü hala karanlık çağlarda, doğruluk ya da daha da kötüsü, F-ölçüsü, şans için doğru yöntemler yerine değerlendirme için.

Bu konularla ilgili onlarca makale okudum, ancak çoğu araştırmacının istatistikleri herhangi bir "standarda göre düzgün bir şekilde ele almadığını ve yorumlamadığını gösteren negatif anket veya meta analiz kağıtları hariç, tamamen ikna edici bir şey bulamadım. ", eski veya yeni. Güç, çoklu test, boyutlandırma ve erken durma, standart hataların yorumlanması ve güven aralıkları ... bunlar sadece sorunlardan bazıları.

Lütfen beni vurun - Yanlış kanıtlanmak istiyorum! Bana göre çok fazla banyo suyu var, ama bebeği henüz bulamadık! Bu aşamada, aşırı görüşlerin veya isim-marka yaklaşımlarının hiçbiri cevap olarak umut verici görünmüyor ve diğer her şeyi atmak isteyenler muhtemelen bebeği kaybetti.


Bu sizi aşağıya çekmek meselesi değil, bu sorunlara bir çözüm bulamayacağımı sanmıyorum. Bizler dünyadaki kalıpları tanıyan insanlarız, yakınsak geçerliliğe uymak zorundayız. Bir tanrıyı kanıtlama yönündeki zayıf girişiminden sonra Descartes yakınsak geçerliliğe büründü. Bazen orada, bazen değil, ama çoğunlukla sadece küçük ölçüde bilişsel hesaplama gücümüzle karşılaşıyoruz.
Indolering

1

İsteğe bağlı "durdurma kurallarının" optimal durdurma konusunda teknik bir terim olduğuna inanmıyorum . Ancak, intro düzeyindeki psikoloji istatistikleri ders kitaplarında konuyla ilgili çok derinlemesine bir tartışma bulacağınızdan şüpheliyim.

Bunun alaycı mantığı, tüm sosyal bilim öğrencilerinin zayıf matematik becerilerine sahip olmasıdır. Daha iyi cevap olan IMHO, basit t-Testlerinin çoğu sosyal bilim deneyi için uygun olmamasıdır. Etki gücüne bakmalı ve bunun gruplar arasındaki farklılıkları çözüp çözmediğini bulmalıdır. Birincisi, ikincisinin mümkün olduğunu gösterebilir, ancak yapabileceği tek şey budur.

Refah harcamaları, devlet düzenlemeleri ve kentleşme ölçülerinin hepsinin dini davranış ölçütleri ile istatistiksel olarak anlamlı ilişkileri vardır. Ancak, sadece p değerini belirtmek, testi ya hep ya hiç nedensel bir ilişkide çerçevelemektedir. Aşağıdakilere bakın:

resim açıklamasını buraya girin

Her iki elde edilen sonuçlar refah harcamaları ve kentleşme istatistiksel olarak anlamlı p-değerleri var ama refah harcamaları çok daha güçlü bir şekilde bağlantılıdır. Yani refah harcama gösterileri dindarlık (diğer tedbirlere böyle güçlü bir ilişki dini olmayan oranda yanı sıra dine konfor kendisi için) kentleşme bile bir p-değeri edineme- < .10düşündüren, şehirleşme genel dini inançlarına etkilemez. Bununla birlikte, refah harcamalarının bile İrlanda veya Filipinler'i açıklamadığını, diğer bazı etkilerin refah harcamalarından nispeten daha güçlü olduğunu gösterdiğini unutmayın .

“Durma kurallarına” güvenmek, özellikle küçük psikoloji örneklemlerinde yanlış pozitiflere yol açabilir. Bir alan olarak psikoloji, bu tür istatistiksel parlaklıklar tarafından gerçekten geri tutulmaktadır. Ancak, tüm inancımızı keyfi bir p değerine yerleştirmek de oldukça aptalca. Deneyi gerçekleştirmeden önce hepimiz örnek büyüklüklerimizi ve hipotez ifadelerimizi bir dergiye göndermiş olsak bile, akademi toplu olarak istatistiksel önem için trolledeceğinden, yine de yanlış pozitiflerle karşılaşırdık .

Yapılması gereken doğru şey veri madenciliğini durdurmak değil, yapılması gereken doğru sonuçların etkileriyle ilgili olarak tanımlamaktır . Teoriler kendi kehanetlerinin doğruluğuyla değil, aynı zamanda tarafından sadece değerlendirilecektir fayda bu tahminlerin. Araştırma metodolojisi ne kadar iyi olursa olsun, soğuk algınlığı semptomlarında% 1 iyileşme sağlayan bir ilaç, bir kapsüle paketleme maliyetine değmez.

Güncelleme Açık olmak gerekirse, sosyal bilimcilerin daha yüksek bir standarda sahip olmaları gerektiğine tamamen katılıyorum: eğitimi iyileştirmeli, sosyal bilimcilere daha iyi araçlar vermeli ve önem seviyelerini 3-sigmaya yükseltmeliyiz. Temsili bir noktayı vurgulamaya çalışıyorum: psikoloji çalışmalarının büyük çoğunluğu değersiz çünkü etki büyüklüğü çok küçük.

Ancak Amazon Turk ile 10 parralel çalışmayı doğru bir şekilde telafi edebilir ve> 3-sigma güven seviyesini çok ucuza koruyabilirim. Ancak etki gücü küçükse, dış geçerliliğe yönelik önemli tehditler vardır. Manipülasyonun etkisi bir haber hikayesinden veya soruların sıralamasından kaynaklanabilir veya ....

Bir deneme için zamanım yok, ancak sosyal bilimlerdeki kalite sorunları berbat istatistiksel yöntemlerin çok ötesine geçiyor.


Burada bazı sosyolojik (genellikle deneysel olmayan çalışmalar) ve klinik çalışmaların bir birleşimi olduğunu anlıyorum. Bununla birlikte, ilk cümleniz mantıklı değildir: durdurma kuralları klinik çalışmalarda büyük bir araştırma alanıdır. Bunun gerekçesi, sırayla test edilen çoklu, ilişkili hipotezlerin önceden belirlenmiş bir analiz planının bir parçası olmasıdır . Ancak OP'nin sorusundaki bağlantı kötü bir matematik meselesi değil, kötü bir bilimdir. Doğru analizi "hissetmek" için birden fazla istatistiksel test yapmak ve önem bulduğunda durmak, nasıl keserseniz seçin kötü bilimdir.
AdamO

@AdamO katılıyorum! Bunu yazdığımda, veri madenciliği yöntemlerini kullanmaya çalışan bir lisans öğrencisiydim ve profesörlerden ve istatistikçilerden aldığım ilk tepkileri doğru yaptığımdan emin olmak için gittiğimde ... saftı. İronik olarak, sosyal bilim laboratuvarları için standart çalışma prosedürü, ilginç bir şey bulana kadar pilot çalışmalar yapmaktır. Aynı şeyi yapıyordum, ama aslında telafi etmeye çalışıyorum: p
Indirme

0

Alıntı yaptığınız makale durma kurallarından bahsetmiyor ve eldeki soruna çok az etkisi var gibi görünüyor. Onların tek, çok küçük bir ilişkisi, bilimsel bir kavram değil, istatistiksel bir kavram olan çoklu testtir .

Klinik çalışma literatüründe, durdurma kurallarının bir çalışmanın "bakacağı" koşullar hakkında açık bilgilerle titizlikle yapıldığını göreceksiniz: takvim yılına veya kişi yılı kaydına, alfa seviyesinin ayarlanmasına ve ayrıca "etkili" ve "zararlı" tedavilerin etkileriyle de sınırlıdır. Gerçekten de, iyi yapılmış bir bilim örneği olarak bu tür çalışmaların titizlikle yürütülmesine bakmalıyız . FDA, öngörülenden başka önemli bir etkinlik bulduktan sonra, bu bulguları doğrulamak için ikinci bir deneme yapılması gerektiğini söyleyecek kadar ileri gidecektir . Bu hala bir sorun olmaya devam ediyor, böylece Thomas Flemming tüm klinik çalışmaların tamamen bağımsız bir ikinci onaylayıcı çalışma ile onaylanmıştır, ayrı varlıklar tarafından yürütülür. Yaşam ve tıbbi bakım düşünülürken yanlış pozitif hata sorunu çok kötü.

Görünüşte zararsız gözetim ile, diğer bilim alanları araştırmalarda kötü ahlakı sürdürmüştür. Aslında, sosyal bilimler insanların aldıkları tedavileri etkilemez, özetlerle ilgilenir ve sadece teori ve gözlem etkileşimi hakkındaki anlayışımızı geliştiren kavramsal modeller yapar. Bununla birlikte, sosyal bilim ya da bilimsel herhangi bir tüketicisi sıklıkla çelişkili bulgularla sunulur: çikolata sizin için iyidir, çikolata sizin için kötüdür (çikolata sizin için iyidir, bu arada, şeker ve yağçikolata sizin için kötüdür), seks sizin için iyidir, evlilik sizi üzüyor / evlilik sizi mutlu ediyor. Bu alan kötü bilim ile ilgili. Hatta politika ve federal destek hakkında güçlü tavsiyelere bağlı olan, tamamen haksız olan ve yine de yayınlanmış olan güçlü nedensel dilden memnun olmadığım analizler üzerinde çalışmaktan suçluyum.

Simmons makalesi, açıklamanın araştırmacıların sosyal bilgilerde yaptıkları "kısayolların" ne türlerini açıkça ortaya koymada nasıl yardımcı olacağını açıklamaktadır . Simmons Tablo 1'de, veri taramasının etik dışı bilim adamı "bulgular için balık tutma" için tipik bir şekilde yanlış pozitif hata oranlarını nasıl önemli ölçüde artırdığına dair bir örnek vermektedir. Tablo 2'deki bulguların özeti, birden fazla analizin nasıl yapıldığının anlaşılmasını büyük ölçüde geliştirmeye yarayacak makalelerin sıklıkla atlanan yönlerini açıklamaktadır.

Özetlemek gerekirse, durdurma kuralları yalnızca önceden belirlenmiş bir hipotezle uygun olacaktır: bunlar etik açıdan sağlamdır ve istatistiksel yöntemler gerektirir. Simmons'ın makalesi, araştırmaların çoğunun bunu bile kabul etmediğini ve etik olarak sağlam olmadığını kabul ediyor, ancak istatistiksel dil neden tam olarak yanlış olduğu için zorlayıcı.


Atıfta bulunulan kağıdın eldeki sorun üzerinde çok az etkisi olduğunu söyleyemiyorum. Tamamen isteğe bağlı durdurma ile ilgili "Örnek boyutunda esnekliğe daha yakından bakış" adlı bir başlık bölümü içerir. Başka bir bak.
Michael Lew

Cevabı özetlemek gerekirse: durdurma kuralları klinik araştırmalar, işe alım ve takip ile ilgilidir, ancak önceden belirlenmiş tek bir hipotezi test etmek, bu FDA cihazları ve terapötik ajanlar için araştırmada kabul edilebilir bir uygulamadır. Simmons'ın makalesi sosyal tıp araştırma ve akademisyenlerinde araştırma etiği, kriterleri ve p-hack'le ilgilidir. İlişkiyi nasıl gördüğünüzü daha net açıklayabilir misiniz? Belki de yazınızı, özellikle AFAIK'in klinik çalışmaların dışında var olmadığı "durdurma kuralları" ile ilgili terimleri tanımlamak ve diğer literatüre referanslar sağlamak için düzenleyebilirsiniz.
AdamO

Ben de "bilimdeki diğer bilim alanları araştırmalarda kötü ahlakı sürdürdü" şeklinde nitelendirmenin adil ya da yararlı olduğunu düşünmüyorum. Orijinal sorumun anlamı, yarı zamanlı istatistik kullanıcılarının, bildirilmemiş ara analizlerden kaynaklanan potansiyel sorunların farkında bile olmasının bir nedeni olmadığıdır. Cehaleti etiksiz olarak adlandırmak haksızlıktır.
Michael Lew

@MichaelLew "Ara analiz" olarak tanımlamakta olduğunuz şey nedir?
AdamO

Adam, "klinik denemelerin dışında durdurma kuralları mevcut değil" demenin doğru olduğunu düşünmüyorum. Klinik çalışmaların dışında sıklıkla belirtilmeyebilirler (orijinal soruma bakın), ancak her deney için vardırlar. Sabit bir numune boyutu denemesinde bile 'numune büyüklüğü elde edilene kadar devam et' durma kuralı vardır.
Michael Lew
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.