Seçilen yanlış-pozitif / yanlış-negatif hata oranlarını ve temel maliyet oranını titizlikle nasıl gerekçelendirebilirim?


12

bağlam

Bir grup sosyal bilimci ve istatistikçi ( Benjamin vd., 2017 ) son zamanlarda, "istatistiksel anlamlılık" belirlemek için bir eşik olarak kullanılan tipik yanlış-pozitif oranın ( = .05) daha muhafazakar bir eşiğe ayarlanması gerektiğini önerdi ( = .005). Rakip bir sosyal bilimci ve istatistikçi grubu ( Lakens ve ark., 2018 ), bunun - veya keyfi olarak seçilen herhangi bir eşiğin kullanılmasına karşı çıkarak karşılık vermiştir . Aşağıda Lakens ve ark. (s. 16) sorumun konusunu örneklemeye yardımcı olan:ααα

İdeal olarak, alfa seviyesi, karar teorisini kullanarak bir fayda fonksiyonuyla maliyetleri ve faydaları karşılaştırarak belirlenir. Bu maliyet-fayda analizi (ve dolayısıyla alfa seviyesi), büyük mevcut veri kümeleri analiz edilirken elde edilmesi zor örneklerden veri toplanmasına kıyasla farklılık gösterir. Bilim çeşitlidir ve kullanmaya karar verdikleri alfa düzeyini haklı çıkarmak bilim adamlarına bağlıdır. ... Araştırma, sezgisel tarama ve keyfi battaniye eşikleri tarafından değil, titiz bilim ilkeleri tarafından yönlendirilmelidir.

Soru

Lakens ve ark. Çoğu sosyal bilim bağlamında (yani, optimize etmek için kâr gibi daha somut bir kaliteye sahip belirli vakaların dışında)?

Lakens ve arkadaşlarının yayılmasının ardından, araştırmacıların bu kararı vermelerine yardımcı olmak için çevrimiçi hesap makinelerinin dolaştığını görmeye başladım. Bunları kullanırken araştırmacıların yanlış pozitif ve yanlış negatif hataların bir “maliyet oranını” belirtmeleri gerekir. Bu hesap Ancak, burada da anlaşılacağı gibi bir maliyet oranının belirlenmesinde nicel tahminim-çok çalışma içerebilir:

Bazı hata maliyetlerinin parasal olarak (doğrudan maliyetler) ölçülmesi kolayken, bazılarının dolar tutarı (dolaylı maliyetler) koymak zordur. ... Ölçmek zor olsa da, onlara bir sayı koymak için çaba göstermelisiniz.

Örneğin Lakens ve ark. ulaşılması zor numunelerin alfa gerekçelendirilmesinde dikkate alınabilecek bir faktör olarak incelenmesini öneriyor, bu numuneye ulaşılması ne kadar zor olduğunu ve böylece alfa seçimini buna göre nasıl ayarlayacağını hala tahmin ediyor gibi görünüyor. Başka bir örnek olarak, başkalarının yanlış çıkarım üzerine kurulu araştırmalar yapmaya ne kadar zaman / para ayıracağı konusunda yanlış-pozitif yayınlama maliyetini ölçmek benim için zor gibi görünüyor.

Bu maliyet oranını belirlemek büyük ölçüde öznel en iyi tahminde bulunursa, bu kararların (yine, kâr gibi bir şeyi optimize etmenin dışında) "haklı" olup olamayacağını merak ediyorum. Yani, örnekleme, değiş tokuş, etki vb. İle ilgili varsayımların dışında bir şekilde var olur. Bu şekilde, yanlış pozitif / yanlış negatif hataların maliyet oranını belirlemek, bana göre, Bayesci çıkarımda bir öncekinin seçilmesine benzer bir şey gibi görünüyor - biraz öznel olabilecek, sonuçları etkileyebilecek ve bu nedenle tartışılan - -Bunun makul bir karşılaştırma olduğundan emin olmasam da.

özet

Soruşturmamı somut hale getirmek için:

  1. Yanlış-pozitif / yanlış-negatif oranlar ve maliyet oranları çoğu sosyal bilim bağlamında "titizlikle" gerekçelendirilebilir mi?
  2. Eğer öyleyse, bu analitik seçimleri meşrulaştırmak için izlenebilir genelleştirilebilir ilkeler nelerdir (ve belki de bunlardan bir ya da iki eylemde)
  3. Değilse, maliyet oranlarını seçmedeki potansiyel öznelliğe benzetmem - Bayes önceki seçimine benzer olarak - makul bir değer midir?

Referanslar

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22 Temmuz). İstatistiksel önemi yeniden tanımlayın. Psyarxiv.com/mky9j adresinden erişildi.

Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Uygulamalar, MA, ... Zwaan, RA (2018, 15 Ocak). Alfa'yı haklı çıkar. Psyarxiv.com/9s3y6 adresinden erişildi


4
"Nesnel olarak gerekçelendirilmiş" i nasıl kullandığınızı tanımlayabilir misiniz? Tip I hata olasılıkları araştırmacıların tercihi ... a priori tip II hata olasılıkları gibi. Bir araştırmacı, tercih edilen bir araştırma gündemi, tercih edilen araştırma ortak çalışanı veya fon veren veya tercih edilen araştırma görevlisi eğitim ve mentorluk yaklaşımını "nesnel olarak haklı gösterebilir" derdi?
Alexis

1
Objektif olarak sadece bir tercihten daha fazlasında olduğu gibi haklı. Lakens ve diğerleri, şu anda kısa süreli "JYA" [Alfa'yı Haklılaştır] başlığı altında dolaşıyor ve yukarıdaki alıntılara dayanan argümanlarını okuduğumda, eski bir tercih yapılmayacak. Açık olmak gerekirse: Seçili bir Tip I / II hata oranını objektif olarak haklı çıkarabileceği iddiasını ortaya koymak zorunda değilim. Daha ziyade, araştırmam Lakens ve ark. yapabileceğinizi önermek için ve eğer durum buysa, o zaman bunu nasıl yapacağımı anlamıyorum.
jsakaluk

3
Lakens ve ark.'nın bu alıntısında "nesnel" kelimesini görmüyorum. Kağıtlarında gerçekten kullanıyorlar mı? Öyleyse, daha spesifik bir bağlam sağlamak için belki başka bir teklif ekleyebilirsiniz? Değilse, o zaman "seçilmiş bir alfa nesnel olarak haklı çıkarmak, Lakens ve arkadaşlarının önerdiği gibi" gibi şeyler söyleyebileceğinizden emin değilim.
amip: Reinstate Monica

2
Şimdi "objektiflik" elimden, yazı güncelledim. Argümüzü yanlış tanımlamak niyetim değildi, ama okuyucuların dikkatsizce yazdığımı düşünüp düşünmediğini anlayabiliyorum. Lakens ve diğ. do sorum daha emin zemine şimdi yani, "bilimsel kesinlik ilkeleri ışığında" nin tanımlayıcı kullanın. Yine de bunun ne anlama gelebileceğini merak etmeye devam ediyorum; tahminde bulunma, bir sezgisel yaklaşımdan daha titiz görünebilir mi? Bir fark yaratırsa, özellikle bilimsel bir realistin alfa için "bilimsel olarak titiz" bir gerekçeye nasıl ulaşacağını merak ediyorum.
jsakaluk

2
Yine, bu benim terim değil ve sorumun bir kısmı, bu terimin ne anlama gelebileceğini anlamama yardımcı olabilecek cevaplar almayı amaçlıyor - örnek genelleştirilmiş ilkeler istiyorum - Lakens ve arkadaşlarının söylemediği sınırlamalar dahilinde ortalama (sezgisel değil; keyfi bir eşik değil). Aklınızda "bilimsel olarak titiz gerekçe" nin farklı tanımları varsa, bu farklı alfalar üretebilir ve sezgisel olmayan / aribitri olmayan kısıtlamaları yerine getirirse, bunları okumaktan memnuniyet duyarız. α
jsakaluk

Yanıtlar:


1

(Twitter'da da yayınlandı, ancak burada yeniden yayınlandı) Bir cevap verme girişimim: Bir gerekçenin "tamamen" objektif olabileceğini düşünmüyorum, ancak rasyonel / ampirik gerekçelerle savunulabilecek kriterlere dayandırılabilir. RSS'nin belirli araştırma türleri için p <.005'i haklı göstermenin bir yolu olduğunu düşünüyorum, ancak farklı bir alfa'nın <.005'ten (daha yüksek veya daha düşük) daha uygun olacağı diğer koşulların da olduğunu düşünüyorum. hangi alfa uygulanabilir ve çalışmanın amacı nedir. Örneğin, 5.000 katılımcınız varsa ve ilgilenilen en küçük etki boyutu .10 ise, p <.001 kullanmak ve% 90 güce sahip olmak isteyebilirsiniz (sayıların hepsi oluşur) Buna karşılık, küçük bir deneme yaptığınızı varsayalım araştırma hattı için ilk “kavram kanıtı”. N = 100, p <.10,% 90 gücünüz olabilir,


1

Aynı soruyu son zamanlarda çok düşünüyorum ve psikolojideki diğer pek çok kişinin de olduğunu tahmin ediyorum.

Öncelikle, sorularınızın her biri, nesnel olarak nesnel olarak bir seçim yapılıp yapılmadığına ilişkindir, ancak (burada diğerlerinin de belirttiği gibi) nesnel ve öznel bir seçimi neyin oluşturduğunu tam olarak açıklamamışsınızdır.

Bilimde “nesnel” ve “öznel” etiketlerin ortak kullanımında sarılmış çeşitli değerleri açığa çıkaran Gelman & Hennig 2015 makalesi ile ilgilenebilirsiniz . Formülasyonlarında “objektif” şeffaflık, uzlaşma, tarafsızlık ve gözlemlenebilir gerçekliğe karşılık gelen değerler ile ilgilidir, oysa “öznel” çoklu bakış açıları ve bağlam-bağımlılık değerleri ile ilgilidir.

3. Sorunuzla ilgili olarak, Bayesci görüşe göre, olasılık, dünya hakkındaki belirsizliği ölçmek olarak tanımlanmaktadır. Anladığım kadarıyla, “subjektivist Bayesian” (olasılıklar bireysel inanç durumlarını yansıtıyor) ve “nesnelci Bayesian” düşünce okullarında (olasılıklar konsensüs mantıklılığını yansıtıyor) bir gerilim var. Nesnelist okulda, önceki dağıtımın (ve daha genel olarak modelin) uzlaşmayla uyumlu ve kontrol edilebilen şeffaf bir şekilde gerekçelendirilmesine daha güçlü bir vurgu vardır, ancak model seçimi kesinlikle bağlama bağlıdır (yani , belirli bir sorun için fikir birliği bilgisinin durumuna bağlıdır).

Sıklık anlayışında, olasılıklar sonsuz bağımsız kopyalar verildiğinde bir olayın kaç kez meydana geleceğini yansıtır. Neyman-Pearson çerçevesinde, kesin bir alternatif hipotez ve kesin bir alfa öngörülür, kesin null veya kesin alternatif kabul edilir (nüfus etkisi tam olarak öngörülene eşittir) ve ardından yanlışlıkla yapma sıklığı.

Bu çerçevede, nadiren nüfus etki büyüklüğü hakkında kesin bir nokta tahminine sahibiz, daha doğrusu bir dizi makul değerlere sahibiz. Bu nedenle, belirli bir alfaya bağlı olarak, Tip 2 hata oranı hakkında kesin bir tahminimiz yok, aksine bir dizi makul Tip 2 hata oranı tahminimiz var. Benzer şekilde, Tip 1 hatası veya Tip 2 hatasının maliyetlerinin ve faydalarının gerçekte ne olacağına dair kesin bir anlayışa sahip olmadığımızı genel olarak kabul ediyorum. Yani sık sık hipotezimizin ne olması gerektiği hakkında çok eksik bilgiye sahip olduğumuz bir durumla ve bu hipotezi kabul etmenin veya reddetmenin göreceli maliyetleri ve faydaları hakkında daha az bilgi ile karşı karşıyayız.

sorularınıza:

  1. Yanlış pozitif / yanlış negatif oranlar ve maliyet oranları çoğu sosyal bilim bağlamında nesnel olarak haklı gösterilebilir mi?

Bence, bir gerekçe şeffaf olabilir, fikir birliği ile uyumlu olabilir, tarafsız olabilir ve gerçekliğe karşılık gelebilir (maliyetler ve faydalar hakkında elimizdeki en iyi bilgiyi kullandığımız ölçüde).

Bununla birlikte, böylesi gerekçelerin de öznel olduğunu, belirli bir problem için alfa nasıl ayarlanacağına dair birden fazla geçerli perspektif olabileceğini ve uygun bir alfa oluşturan şeyin anlamlı bir şekilde bağlama bağlı olabileceğini düşünüyorum.

Örneğin, son yıllarda, literatürdeki birçok etkinin Tip M veya Tip S hatalarını yansıttığı açıklığa kavuşmuştur. Aynı zamanda, çoğaltma çalışmasının tamamen sıfır etkisinin sıfır olduğuna dair kanıt sağlayabildiği ölçüde Tip 1 hatalarını da yansıtabilirler.

Bu gözlemle ilgili olarak, kesin bir iddia için p-değeri eşiğinin aynı tutulması veya daha sıkı hale getirilmesi gerektiği konusunda yeni bir fikir birliği vardır (yani hiç kimse alfa'nın .10 veya .20'ye battaniye artışı için tartışmıyor) . Benzer şekilde, p değerlerinin yayın ölçütü olarak kullanılmaması gerektiğine dair bir fikir birliği vardır (örneğin Kayıtlı Rapor formatı).

Bana göre bu bir tür “nesnel” bilgi kaynağını yansıtıyor - yani, okumam için yanlış iddiaların alana pahalıya mal olduğu konusunda artan bir fikir birliği var (bu maliyetlere bir dolar tutarı koyamasak bile). Okuduğum kadarıyla, bir p-değeri eşiğine ulaşamamanın alan için dramatik bir maliyet olduğu konusunda net bir fikir birliği yoktur. Maliyetler varsa, bir p-değeri eşiğine ulaşılamaması, tahminin yayınlanmış bir bildiri haline getirip getirmediğini etkilemezse azaltılabilir.

  1. Eğer öyleyse, bu analitik seçimleri meşrulaştırmak için izlenebilir genelleştirilebilir ilkeler nelerdir (ve belki de bunlardan bir ya da iki eylemde)

Emin değilim, ancak kararların belirli bir bağlamda farklı türdeki analitik seçimlerin maliyetleri ve faydaları hakkında şeffaf (yerel veya küresel) fikir birliği kararları temelinde verilmesi gerektiği konusunda bir tür ilkeye dayanıyorum. bu maliyetlerin ve faydaların ne olabileceği hakkında acımasızca eksik bilgi karşısında.

  1. Değilse, maliyet oranlarını seçmedeki potansiyel öznelliğe benzetmem - Bayes önceki seçimine benzer olarak - makul bir değer midir?

Evet, sık ve Bayes gelenekleri arasında, istatistiksel bir modelin birçok farklı yönünde nesnellik (yani, şeffaflık, fikir birliği, tarafsızlık ve gözlemlenebilir gerçekliğe yazışma) yanı sıra öznelliğe (yani, çoklu bakış açıları ve bağlam-bağımlılık) yer vardır. ve bu modelin nasıl kullanıldığı (önceden seçilen, seçilen olasılık, seçilen karar eşiği vb.).


Bu güzel bir cevap. Çok emin olmadığım bir parça da yazışma iddiası. Bu terimi aynı şekilde anlarsak (gerçeğin yazışma teorisi açısından düşünüyorum), o zaman aslında, Type'ın maliyetleri hakkında kesin bir fikrimiz yoksa yazışma titrek bir zeminde olabilir gibi görünüyor. I / II hataları. Bunun yerine, daha iyi bir tutarlılık iddiası var gibi görünüyor (bu ilk varsayımlar, "mantıklı" sayıların geri kalanı göz önüne alındığında) veya pragmatizm (Tip I / II hata maliyetleri tahminimiz, çalışma planlaması için yararlı bir kurgudur).
jsakaluk

Belki de "gerekçelendirme" ile bir yazışma / gerçekçi bakış açısıyla evlenmek için çok uğraşıyorum ve bu diğer anlayış yollarında, Tip I / II hata oranları "haklı" bir şekilde seçilebilir?
jsakaluk

Beni bu fikirlere yönlendirdiğiniz için teşekkürler. Herhangi bir bağlamda, gelecekteki maliyetlerin ve faydaların ne olacağına dair iyi bilgilere sahip olabileceğimizi söyleyebilirim veya çok zayıf bilgilerimiz olabilir. Çok kaba bir anlamda, yanlış pozitiflerin (p <eşiği, gerçek etki tam olarak sıfırdır), bir anlamlılık eşiğini karşılayamama durumlarından (ancak tahmini zaten yayınlamaktan) sahaya daha zararlı olabileceği konusunda artan bir fikir birliği vardır. Belirli yerel koşullarda, bir önem eşiğini karşılamamakla ilişkili daha ciddi maliyetler olabilir.
sourdough

Teğetsel olarak, "alfa" ve "Tip 2 hatası" kavramları yalnızca analistin iki kesin hipotez belirlediği ve prosedürün sonunda birini veya diğerini kabul etmeyi taahhüt ettiği NP çerçevesinde bulunur. Bununla birlikte, ortak uygulamada, analistler genellikle, null'u belirsiz güçle yapılan anlamlı olmayan bir tahmin temelinde kabul etmemeleri konusunda uyarılırlar, esas olarak sıfırın kabul edilmediği ve “Tip 2 hatası” nın olmadığı bir Fisher tarzı yoruma dönülür.
sourdough

1
"Konsensus" tanımınızın arkasındaki sosyal ağların, sosyal sınıfın ve sosyal etkileşimlerin, bir şekilde hepsinin altında yatan öznel inanç ve değerlerden boşandığı beni heyecanlandırıyor.
Alexis
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.