Gelen frequentist çıkarım , bir eğer bir şey olacaktı ne sıklıkta belirlemek istiyoruz verilen stokastik süreç defalarca gerçekleştirilmiştir. Bu, p-değerleri, güven aralıkları ve benzerleri teorisinin başlangıç noktasıdır. Bununla birlikte, birçok uygulamalı projede, "verilen" süreç gerçekten verilmemektedir ve istatistikçi en azından bunu belirleyen ve modelleyen bazı çalışmalar yapmak zorundadır. Bu, bu durumda olduğu gibi şaşırtıcı derecede belirsiz bir sorun olabilir.
Veri Üretim Sürecinin Modellenmesi
Verilen bilgilere dayanarak, en iyi adayımız aşağıdaki gibi görünüyor:
- 100V metre 100V okursa, mühendis çalışır durumdaysa 1000V metre ile yeniden ölçüm yapar . Aksi takdirde, 100V'yi işaretler ve devam eder.
Ama bu mühendisimiz için biraz haksızlık değil mi? Sadece bir teknisyen değil, bir mühendis olduğunu varsayarsa, muhtemelen ilk sayaç 100V okuduğunda neden yeniden ölçmesi gerektiğini anlar; bunun nedeni, ölçüm cihazının aralığının üst sınırında doymuş olması ve dolayısıyla artık güvenilir olmamasıdır. Belki de mühendisin gerçekten yapacağı şey
- 100V metre 100'ü okursa, mühendis çalışır durumdaysa 1000V metre ile yeniden ölçüm yapar . Aksi takdirde, sadece 100V'yi işaretler, doymuş ölçümü belirtmek için bir artı işareti ekler ve devam eder.
Bu işlemlerin her ikisi de elimizdeki verilerle tutarlıdır, ancak bunlar farklı süreçlerdir ve farklı güven aralıkları sağlarlar. Süreç 2, istatistikçi olarak tercih edeceğimiz süreçtir. Gerilimler genellikle 100V'un üzerindeyse, Proses 1, ölçümler zaman zaman ciddi şekilde hafife alındığı potansiyel olarak yıkıcı bir arıza moduna sahiptir, çünkü veriler bizim bilgimiz olmadan sansürlenir. Güven aralığı buna göre genişleyecektir. Mühendisden 1000V sayacının çalışmadığı zaman bize söylemesini isteyerek bunu azaltabiliriz, ancak bu gerçekten verilerimizin Süreç 2'ye uygun olmasını sağlamanın başka bir yoludur.
At zaten ahırdan ayrıldıysa ve ölçümlerin ne zaman sansürlenmediğini ve sansürlenmediğini belirleyemezsek, 1000V metrenin çalışmadığı zamanlarda verilerden çıkarım yapmayı deneyebiliriz. Sürece bir çıkarım kuralı ekleyerek, hem 1 hem de 2'den farklı yeni bir Süreç 1.5 oluşturuyoruz. Çıkarım kuralımız bazen işe yarayabilir ve bazen işe yaramaz, bu nedenle Süreç 1.5'ten gelen güven aralığı Süreç 1 ve 2.
Teorik olarak, üç farklı makul temsili stokastik süreçle ilişkili üç farklı güven aralığına sahip tek bir istatistik hakkında yanlış veya şüpheli bir şey yoktur. Uygulamada, az sayıda istatistik tüketicisi üç farklı güven aralığı istemektedir . Deneyi defalarca tekrar ettiyse, gerçekte ne olacağına dayanan birini istiyorlar . Dolayısıyla, tipik olarak, uygulanan istatistikçi proje sırasında edindiği alan bilgisini dikkate alır, eğitimli bir tahmin yapar ve tahmin ettiği süreçle ilişkili güven aralığını sunar. Ya da süreci resmileştirmek için müşteriyle birlikte çalışır, bu yüzden ilerlemeyi tahmin etmeye gerek yoktur.
Yeni Bilgilere Nasıl Yanıt Verilir
İstatistikçinin hikayedeki ısrarına rağmen, sıkça çıkarım, stokastik sürecin üretilmesinin aslında tasarladığımız şey olmadığını ileri süren yeni bilgiler elde ettiğimizde ölçümleri tekrar etmemizi gerektirmez. Ancak, süreç tekrarlanacaksa, tüm tekrarların güven aralığı tarafından üstlenilen model süreci ile tutarlı olmasını sağlamamız gerekir. Bunu, süreci değiştirerek veya modelimizi değiştirerek yapabiliriz.
Süreci değiştirirsek, bu süreçle tutarsız olarak toplanan geçmiş verileri atmamız gerekebilir. Ancak bu bir sorun değil, çünkü düşündüğümüz tüm süreç varyasyonları sadece bazı veriler 100V'un üzerinde olduğunda ve bu durumda hiç gerçekleşmediğinde farklıdır.
Ne yaparsak yapalım, model ve gerçeklik aynı hizaya getirilmelidir. Ancak o zaman teorik olarak garanti edilen frekansçı hata oranı, müşterinin sürecin tekrarlanan performansı üzerinde gerçekte elde ettiği şey olacaktır.
Bayes Alternatifi
Öte yandan, gerçekten umursadığımız tek şey bu örnek için gerçek ortalamanın olası aralığıysa, sıklığı tamamen bir kenara bırakmalı ve bu sorunun cevabını satan insanları araştırmalıyız - Bayesyalılar. Bu rotaya gidersek, karşı-olgusallıklar üzerindeki tüm pazarlıkların önemi kalmaz; önemli olan tek şey önceliğe ve olasılığa işaret ediyor. Bu basitleştirme karşılığında, "denemenin" tekrarlanan performansı altında bir hata oranını garanti etme umudunu yitiriyoruz.
Neden Yaygara?
Bu hikaye, sebepsiz yere aptalca şeyler üzerinde sıkça görülen istatistikçi karışıklıklara benzetmek için inşa edildi. Dürüst olmak gerekirse, bu aptal karşılıkları kimin umurunda? Cevap, elbette, herkesin umurunda olması gerektiğidir. Hayati önem taşıyan bilimsel alanlar şu anda ciddi bir replikasyon krizinden muzdarip , bu da yanlış keşiflerin sıklığının bilimsel literatürde beklenenden çok daha yüksek olduğunu gösteriyor. Bu krizin etkenlerinden biri, her ne kadar olursa olsun , p-hack'in yükselişidir , bu da araştırmacılar bir modelin birçok varyasyonu ile oynadıkları zaman, önem kazanana kadar farklı değişkenleri kontrol ederler.
P-hack, popüler bilimsel medyada ve blogosferde geniş ölçüde kötüleşti, ancak p-hack'le ilgili neyin yanlış olduğunu ve nedenini çok az kişi anlıyor. Popüler istatistiksel görüşün aksine, modelleme işleminden önce, sırasında ve sonrasında verilerinize bakmakla ilgili yanlış bir şey yoktur. Yanlış olan keşif analizlerini ve çalışmanın seyrini nasıl etkilediğini bildirmemek. Sadece tam işleme bakarak, hangi stokastik modelin bu süreci temsil ettiğini ve varsa o model için hangi frekans analizinin uygun olduğunu belirleyebiliriz.
Belirli bir sık analizin uygun olduğunu iddia etmek çok ciddi bir iddiadır. Bu iddiayı yapmak, kendinizi, seçtiğiniz ve farklı durumlarda ne yapacağınızla ilgili bütün bir karşıt-olgusal sistemi içeren seçtiğiniz stokastik sürecin disiplinine bağladığınız anlamına gelir. Sıkça uygulanan garantinin size uygulanabilmesi için bu sisteme uymanız gerekir. Çok az araştırmacı, özellikle de açık uçlu araştırmayı vurgulayan alanlarda sisteme uymakta ve sapmalarını titizlikle raporlamamaktadır; işte bu yüzden elimizde bir çoğaltma krizi var. (Bazı saygın araştırmacılar, bu beklentinin gerçekçi olmadığını, sempati duyduğum bir pozisyon olduğunu iddia ettiler, ancak bu, bu yazının kapsamının ötesine geçiyor.)
Yayınlanmış makaleleri, veriler farklı olsaydı ne yapacaklarına dair bir iddiaya dayanarak eleştiriyor gibi görünebiliriz. Ancak bu, frekansçı akıl yürütmenin (biraz çelişkili) doğasıdır: p-değeri kavramını kabul ederseniz, alternatif veriler altında neler yapılabileceğini modellemenin meşruiyetine saygı göstermelisiniz. (Gelman ve Loken, 2013)
Klinik araştırmalar gibi nispeten basit ve / veya standartlaştırılmış çalışmalarda, çoklu veya sıralı karşılaştırmalar gibi şeyleri ayarlayabilir ve teorik hata oranını koruyabilir; daha karmaşık ve keşifsel çalışmalarda, araştırmacı açık bir şekilde kaydedip sunmakla birlikte, alınan tüm kararların tam olarak farkında olamayabileceğinden, sık görülen bir model uygulanamaz . Bu gibi durumlarda, araştırmacı (1) yapılanlar konusunda dürüst ve açık olmalıdır; (2) p-değerlerini güçlü uyarılarla sunmak veya hiç vermemek; (3) hipotezin önceden makul olması veya bir takip replikasyonu çalışması gibi başka kanıtlar sunmayı düşünün.