Voltmetre hikayesini sık sık ele alan nedir?


15

Voltmetre hikayesini ve varyasyonlarını sık sık ele alan nedir? Bunun arkasındaki fikir, varsayımsal olaylara hitap eden bir istatistiksel analizin, daha sonra bu varsayımsal olayların varsayıldığı gibi yapılamayacağı öğrenilirse gözden geçirilmesi gerektiğidir.

Vikipedi'de hikayenin versiyonu aşağıda verilmiştir.

Bir mühendis rastgele bir elektron tüpü örneği çizer ve voltajlarını ölçer. Ölçümler 75 ila 99 volt arasındadır. Bir istatistikçi, örnek ortalama ve gerçek ortalama için bir güven aralığı hesaplar. Daha sonra istatistikçi, voltmetrenin sadece 100'e kadar okuduğunu keşfeder, bu nedenle nüfus 'sansürlenmiş' görünür. İstatistikçi ortodokssa, bu yeni bir analiz gerektirir. Ancak mühendis, 100 volttan fazla olsaydı kullanacağı 1000 voltluk bir sayaç daha okuduğunu söylüyor. Ancak, ertesi gün mühendis, istatistikçiye, bu ikinci metrenin ölçüm sırasında çalışmadığını bildirir. İstatistikçi, sayaç sabitlenene kadar mühendisin ölçümleri yapamayacağını tespit eder ve ona yeni ölçümlerin gerekli olduğunu bildirir. Mühendis hayretler içinde. "Sonra osiloskopumu soracaksın".

Hikaye açıkça saçma olmak istiyor, ancak eğlenceli olduğu söylenen metodoloji ile hangi özgürlüklerin alındığı açık değil. Eminim bu durumda yoğun bir uygulamalı istatistikçi bunun için endişelenmeyecektir, ama sert bir akademik sıklığa ne dersiniz?

Dogmatik bir frekansçı yaklaşım kullanarak deneyi tekrarlamamız gerekir mi? Mevcut verilerden herhangi bir sonuç çıkarabilir miyiz?

Hikayenin daha genel bir noktasını ele almak için, zaten sahip olduğumuz verilerden yararlanmak istiyorsak, varsayımsal sonuçların gerekli revizyonu sıkça yapılan çerçeveye sığdırmak için yapılabilir mi?


4
Sıklık yaklaşımı da şartlandırmaya izin verir, bu yüzden alıntıda bulunan akıl yürütmenin tamamen yeterli olduğundan emin değilim.
Xi'an

@ Xi'an Numunenin sansürlenmesini veya ikinci voltmetrenin hesaplamalarımızda kırılma olasılığını dahil etsek bile , deney tasarımını gerçekleştirdikten sonra değiştirmemiz gereken sorun var . Bunun sıkça kullanılan yöntemlerle uzlaştırılıp uzlaştırılamayacağını bilmiyorum.
Praxeolitic

6
Belki de Şartlılık İlkesi'ndeki bu girişi kontrol edin . Sıklıkla olmasa da, ben bu hikayenin büyük bir hayranı değilim, çünkü bunların yelpazesini tanımlamaksızın tüm olası varsayımsal olaylarla bütünleşmeyi ima ediyor gibi görünüyor. Bu oldukça karikatürdür.
Xi'an

5
Bu gerçekten düşünceli bir tartışma ve cevaplara değer. Ancak, "istatistikçi ortodoks ise" ve ek çalışma için yetersiz veya açgözlü değilse , orijinal gözlemlerin hiçbirinin sansürlenmediği için, orijinal prosedür seçiminin (muhtemelen kabul edilebilir) kabul edilebilir olduğunu ve bu nedenle değiştir. "Frequentist" istatistiklerin - karar teorisinin - temelini oluşturan teorik temelin bu "olabilirlik ilkesi" için bir faydası yoktur.
whuber

1
Yeterli veri olması koşuluyla ne yapacağımı biliyorum. Bir histogram yapardım. Histograma bakardım. 99'da o noktada tek taraflı kesik bir histogram yapan net bir sınır olsaydı, bunun kesildiğinden şüphelenirdim. Ayrıca kısaltılmadığı bilinen verilere de bakar ve eğri şekillerini incelerim ve buna uyması için bir olasılık modeli alıp alamayacağımı, örneğin bir gama dağılımını alıp alamayacağımı görüyorum. Sonra kesilmiş verilere (varsayımla) geri dönüp geri kalanı da gama dağıtılmış (ya da her neyse) olup olmadığını görmek istiyorum. O zaman "Neden gamma?" Eğer öyleyse, işim bitti.
Carl

Yanıtlar:


5

Gelen frequentist çıkarım , bir eğer bir şey olacaktı ne sıklıkta belirlemek istiyoruz verilen stokastik süreç defalarca gerçekleştirilmiştir. Bu, p-değerleri, güven aralıkları ve benzerleri teorisinin başlangıç ​​noktasıdır. Bununla birlikte, birçok uygulamalı projede, "verilen" süreç gerçekten verilmemektedir ve istatistikçi en azından bunu belirleyen ve modelleyen bazı çalışmalar yapmak zorundadır. Bu, bu durumda olduğu gibi şaşırtıcı derecede belirsiz bir sorun olabilir.

Veri Üretim Sürecinin Modellenmesi

Verilen bilgilere dayanarak, en iyi adayımız aşağıdaki gibi görünüyor:

  1. 100V metre 100V okursa, mühendis çalışır durumdaysa 1000V metre ile yeniden ölçüm yapar . Aksi takdirde, 100V'yi işaretler ve devam eder.

Ama bu mühendisimiz için biraz haksızlık değil mi? Sadece bir teknisyen değil, bir mühendis olduğunu varsayarsa, muhtemelen ilk sayaç 100V okuduğunda neden yeniden ölçmesi gerektiğini anlar; bunun nedeni, ölçüm cihazının aralığının üst sınırında doymuş olması ve dolayısıyla artık güvenilir olmamasıdır. Belki de mühendisin gerçekten yapacağı şey

  1. 100V metre 100'ü okursa, mühendis çalışır durumdaysa 1000V metre ile yeniden ölçüm yapar . Aksi takdirde, sadece 100V'yi işaretler, doymuş ölçümü belirtmek için bir artı işareti ekler ve devam eder.

Bu işlemlerin her ikisi de elimizdeki verilerle tutarlıdır, ancak bunlar farklı süreçlerdir ve farklı güven aralıkları sağlarlar. Süreç 2, istatistikçi olarak tercih edeceğimiz süreçtir. Gerilimler genellikle 100V'un üzerindeyse, Proses 1, ölçümler zaman zaman ciddi şekilde hafife alındığı potansiyel olarak yıkıcı bir arıza moduna sahiptir, çünkü veriler bizim bilgimiz olmadan sansürlenir. Güven aralığı buna göre genişleyecektir. Mühendisden 1000V sayacının çalışmadığı zaman bize söylemesini isteyerek bunu azaltabiliriz, ancak bu gerçekten verilerimizin Süreç 2'ye uygun olmasını sağlamanın başka bir yoludur.

At zaten ahırdan ayrıldıysa ve ölçümlerin ne zaman sansürlenmediğini ve sansürlenmediğini belirleyemezsek, 1000V metrenin çalışmadığı zamanlarda verilerden çıkarım yapmayı deneyebiliriz. Sürece bir çıkarım kuralı ekleyerek, hem 1 hem de 2'den farklı yeni bir Süreç 1.5 oluşturuyoruz. Çıkarım kuralımız bazen işe yarayabilir ve bazen işe yaramaz, bu nedenle Süreç 1.5'ten gelen güven aralığı Süreç 1 ve 2.

Teorik olarak, üç farklı makul temsili stokastik süreçle ilişkili üç farklı güven aralığına sahip tek bir istatistik hakkında yanlış veya şüpheli bir şey yoktur. Uygulamada, az sayıda istatistik tüketicisi üç farklı güven aralığı istemektedir . Deneyi defalarca tekrar ettiyse, gerçekte ne olacağına dayanan birini istiyorlar . Dolayısıyla, tipik olarak, uygulanan istatistikçi proje sırasında edindiği alan bilgisini dikkate alır, eğitimli bir tahmin yapar ve tahmin ettiği süreçle ilişkili güven aralığını sunar. Ya da süreci resmileştirmek için müşteriyle birlikte çalışır, bu yüzden ilerlemeyi tahmin etmeye gerek yoktur.

Yeni Bilgilere Nasıl Yanıt Verilir

İstatistikçinin hikayedeki ısrarına rağmen, sıkça çıkarım, stokastik sürecin üretilmesinin aslında tasarladığımız şey olmadığını ileri süren yeni bilgiler elde ettiğimizde ölçümleri tekrar etmemizi gerektirmez. Ancak, süreç tekrarlanacaksa, tüm tekrarların güven aralığı tarafından üstlenilen model süreci ile tutarlı olmasını sağlamamız gerekir. Bunu, süreci değiştirerek veya modelimizi değiştirerek yapabiliriz.

Süreci değiştirirsek, bu süreçle tutarsız olarak toplanan geçmiş verileri atmamız gerekebilir. Ancak bu bir sorun değil, çünkü düşündüğümüz tüm süreç varyasyonları sadece bazı veriler 100V'un üzerinde olduğunda ve bu durumda hiç gerçekleşmediğinde farklıdır.

Ne yaparsak yapalım, model ve gerçeklik aynı hizaya getirilmelidir. Ancak o zaman teorik olarak garanti edilen frekansçı hata oranı, müşterinin sürecin tekrarlanan performansı üzerinde gerçekte elde ettiği şey olacaktır.

Bayes Alternatifi

Öte yandan, gerçekten umursadığımız tek şey bu örnek için gerçek ortalamanın olası aralığıysa, sıklığı tamamen bir kenara bırakmalı ve bu sorunun cevabını satan insanları araştırmalıyız - Bayesyalılar. Bu rotaya gidersek, karşı-olgusallıklar üzerindeki tüm pazarlıkların önemi kalmaz; önemli olan tek şey önceliğe ve olasılığa işaret ediyor. Bu basitleştirme karşılığında, "denemenin" tekrarlanan performansı altında bir hata oranını garanti etme umudunu yitiriyoruz.

Neden Yaygara?

Bu hikaye, sebepsiz yere aptalca şeyler üzerinde sıkça görülen istatistikçi karışıklıklara benzetmek için inşa edildi. Dürüst olmak gerekirse, bu aptal karşılıkları kimin umurunda? Cevap, elbette, herkesin umurunda olması gerektiğidir. Hayati önem taşıyan bilimsel alanlar şu anda ciddi bir replikasyon krizinden muzdarip , bu da yanlış keşiflerin sıklığının bilimsel literatürde beklenenden çok daha yüksek olduğunu gösteriyor. Bu krizin etkenlerinden biri, her ne kadar olursa olsun , p-hack'in yükselişidir , bu da araştırmacılar bir modelin birçok varyasyonu ile oynadıkları zaman, önem kazanana kadar farklı değişkenleri kontrol ederler.

P-hack, popüler bilimsel medyada ve blogosferde geniş ölçüde kötüleşti, ancak p-hack'le ilgili neyin yanlış olduğunu ve nedenini çok az kişi anlıyor. Popüler istatistiksel görüşün aksine, modelleme işleminden önce, sırasında ve sonrasında verilerinize bakmakla ilgili yanlış bir şey yoktur. Yanlış olan keşif analizlerini ve çalışmanın seyrini nasıl etkilediğini bildirmemek. Sadece tam işleme bakarak, hangi stokastik modelin bu süreci temsil ettiğini ve varsa o model için hangi frekans analizinin uygun olduğunu belirleyebiliriz.

Belirli bir sık ​​analizin uygun olduğunu iddia etmek çok ciddi bir iddiadır. Bu iddiayı yapmak, kendinizi, seçtiğiniz ve farklı durumlarda ne yapacağınızla ilgili bütün bir karşıt-olgusal sistemi içeren seçtiğiniz stokastik sürecin disiplinine bağladığınız anlamına gelir. Sıkça uygulanan garantinin size uygulanabilmesi için bu sisteme uymanız gerekir. Çok az araştırmacı, özellikle de açık uçlu araştırmayı vurgulayan alanlarda sisteme uymakta ve sapmalarını titizlikle raporlamamaktadır; işte bu yüzden elimizde bir çoğaltma krizi var. (Bazı saygın araştırmacılar, bu beklentinin gerçekçi olmadığını, sempati duyduğum bir pozisyon olduğunu iddia ettiler, ancak bu, bu yazının kapsamının ötesine geçiyor.)

Yayınlanmış makaleleri, veriler farklı olsaydı ne yapacaklarına dair bir iddiaya dayanarak eleştiriyor gibi görünebiliriz. Ancak bu, frekansçı akıl yürütmenin (biraz çelişkili) doğasıdır: p-değeri kavramını kabul ederseniz, alternatif veriler altında neler yapılabileceğini modellemenin meşruiyetine saygı göstermelisiniz. (Gelman ve Loken, 2013)

Klinik araştırmalar gibi nispeten basit ve / veya standartlaştırılmış çalışmalarda, çoklu veya sıralı karşılaştırmalar gibi şeyleri ayarlayabilir ve teorik hata oranını koruyabilir; daha karmaşık ve keşifsel çalışmalarda, araştırmacı açık bir şekilde kaydedip sunmakla birlikte, alınan tüm kararların tam olarak farkında olamayabileceğinden, sık görülen bir model uygulanamaz . Bu gibi durumlarda, araştırmacı (1) yapılanlar konusunda dürüst ve açık olmalıdır; (2) p-değerlerini güçlü uyarılarla sunmak veya hiç vermemek; (3) hipotezin önceden makul olması veya bir takip replikasyonu çalışması gibi başka kanıtlar sunmayı düşünün.


Bu iyi bir yanıt gibi görünüyor, ancak yarın bir ara zihinsel olarak sindirmem gerekecek.
Praxeolitic

Sorunun açıklandığı gibi, bir mühendis her zaman sizin seçeneğinizi yaptığını iddia ediyor gibi görünüyor 2
Aksakal

Belki, ama çok açık bir şekilde söylemedi. İnsanlar açıkça tartışmak yerine başkalarının ne düşündüğünü tahmin ettiğinde büyük hatalar yapılabilir.
Paul

Uygulamalı istatistik derslerinde, parametreleri tahmin etmenin ne anlama geldiğinin biçimciliğine çok az önem verilmektedir. Bir bozuk para atmayı ve kafa sıklığını kaydetmeyi planladığımızı varsayalım. İçeri girerken, gerçek dağılımın p = q = 0.5 ile Bernoulli olduğunu varsayıyoruz. 1.000 döndürmeden sonra, gerçeği teori / varsayımla karşılaştırarak kendimize 'bunun adil bir madeni para olması ihtimalini' soruyoruz. Ancak çoğu bilimde, insanlar normalde şeylerin dağıldığını varsayarlar, sonra t-testleri kullanırlar. Ancak, iadeler normal olarak dağıtılmamışsa bunlar anlamsızdır.
eSurfsnake

1

Mantıksal bir yanlışlık var gibi görünüyor. İster 1000 voltluk metre çalışıyor olsun ya da olmasın, mühendis "100'ün üzerinde herhangi bir okuma olsaydı, diğer sayacı kullanırdım" diyor. Fakat 1000 volt ölçeri kullanmadan voltajın> 100 olduğunu nasıl bilebilirdi?

Bu bulmacanın yararlı bir felsefi soru için yeterince formüle olduğunu düşünmüyorum. Pratik olarak, doğru olanın bir histogram yapmak ve kesik görünüp görünmediğini görmek olduğu cevabına katılıyorum.

Ancak, her durumda, sorudaki hiçbir şey önemli olan konularla ilgilenmez, örneğin: (1) okumaların bilinen (veya şüphelenilen) dağılımı nedir ve neden? Normal olarak dağıtıldıklarına inanmak için bir neden var mı? (2) Bu soru cevaplanmazsa, herhangi bir güven aralığı nasıl tahmin edildi?

Aşırıya kaçmak için bir miktar 'voltaj' ölçülüyor. Güç kaynağının 100 volttan fazlasını sağlayamayacağını varsayalım. Bu doğru olsaydı, muhtemelen 100 voltun üzerinde herhangi bir ölçüm olamazdı, bu yüzden sayaç ilgisiz.

Tahminler ve benzerleri gibi, sorudan çok daha fazlasını içeren - öncelikler, kısıtlamalar vb. Bakımından - bir sürü daha vardır. Bu, net ve temiz olan 'Monty Hall' paradoksundan farklıdır.


1
Hikayenin amacı, bu yorumları saçma bir uç noktaya genişleterek varsayımsal olaylara dayanan olasılık yorumlarını eleştirmektir. Bahsettiğiniz konular konunun yanında. Sözde mühendis, gerekirse voltmetreleri değiştirmeyi bilecekti (örneğin, "100" okumasını görür) ve istatistikçinin aksi takdirde kullandığı yaklaşımı kullanmak için nedenleri vardır (örneğin, normal dağılımın iyi olduğunu zaten biliyordur. bu okumalar için model).
Praxeolitic
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.