Aile açısından hata sınırı: Farklı bağımsız soru çalışmalarında veri kümelerinin yeniden kullanılması birden fazla test sorununa yol açar mı?


11

Bir araştırmacı ekibi belirli bir veri seti üzerinde çoklu (hipotez) testleri yaparsa, testler bağımsız olsa bile çoklu testler için bir çeşit düzeltme kullanmaları gerektiğini iddia eden bir literatür vardır. Sorum şu: aynı mantık aynı veri kümesinde hipotezleri test eden birden fazla takım için de geçerli mi? Başka bir deyişle - aileden gelen hata hesaplamaları için engel nedir? Araştırmacılar veri kümelerini yalnızca keşif amacıyla yeniden kullanmakla mı sınırlı?

Yanıtlar:


10

@Fcoppens'in tek bir soruşturma içinde çoklu hipotez düzeltmesinin önemini fark etmesinden "Aynı mantıkla, birkaç test bu testleri yaparsa aynı şey" iddiasına karşı çıkmaya kesinlikle katılmıyorum.

Ne kadar çok çalışmanın yapıldığına ve hipotezlerin ne kadar test edildiğine dair bir soru yoktur, daha fazla Tip I hatası ortaya çıkacaktır. Ama bence burada "aile bilimi hata" oranları ve bunların gerçek bilimsel çalışmalara nasıl uygulandığı konusunda bir karışıklık var.

İlk olarak, önceden test edilmiş hipotezlerin bulunmadığı , post-hoc karşılaştırmalarda çoklu test düzeltmelerinin ortaya çıktığını unutmayın . Önceden tanımlanmış küçük bir dizi hipotez olduğunda aynı düzeltmelerin gerekli olduğu açık değildir.

İkincisi, bireysel bir yayının "bilimsel gerçeği", yayın içindeki her bir ifadenin gerçeğine bağlı değildir. İyi tasarlanmış bir çalışma, genel bir bilimsel (istatistikselin aksine) hipoteze birçok farklı perspektiften yaklaşır ve bilimsel hipotezi değerlendirmek için farklı türde sonuçları bir araya getirir . Her bir sonuç istatistiksel bir testle değerlendirilebilir.

Bununla birlikte, @fcoppens'in argümanı ile, eğer bu istatistiksel testlerden biri bile bir Tip I hatası yaparsa , bu “yanlış bilimsel bilimsel inanç” a yol açar. Bu sadece yanlış.

Bir yayındaki bilimsel hipotezin "bilimsel gerçeği", bireysel bir istatistiksel testin geçerliliğinin aksine, genellikle farklı kanıt türlerinin bir kombinasyonundan gelir. Birden fazla kanıt türündeki ısrar, bilimsel bir hipotezin geçerliliğini kaçınılmaz olarak ortaya çıkan bireysel hatalara karşı sağlam kılar . Geri benim 50 ya da bilimsel yayına bakmak gibi ben bulmak zor olurdu herhangi kalıntılar @fcoppens olarak her detayında kusursuz ısrar görünüyor böylece. Yine de benzer bulmak zor am herhangi nerede bilimselhipotez tamamen yanlıştı. Belki de eksik; elbette bu alandaki gelişmelerle alakasız hale geldi. Ama o zaman bilimsel bilginin durumu bağlamında "yanlış" değil.

Üçüncü olarak, argüman Tip II hata yapma maliyetlerini göz ardı etmektedir. Tip II hatası, ümit verici bilimsel sorgulama alanlarının tümünü kapatabilir. @Fcoppens'in önerilerine uyulacak olsaydı, Tip II hata oranları bilimsel girişimin zararına büyük ölçüde yükselirdi.

Son olarak, uygulamada tavsiyeyi takip etmek imkansızdır. Bir dizi kamuya açık veriyi analiz edersem, başka birinin bunu kullanıp kullanmadığını veya hangi amaçla kullandığını bilmem mümkün olmayabilir. Başka birinin hipotez testlerini düzeltmek için bir yolum yok. Ve yukarıda tartıştığım gibi, yapmamalıydım.


2
Soruyu bir ödül verdim çünkü 'ön plana' getirmek istedim. Bunu yapmak istememin nedeni, yeterince dikkat çekmediğini ve bunun - görünüşe göre, cevabımla yaşadığım gibi - artık bunun hakkında 'tartışma' olmamasıydı. Gösterildiği gibi, bu ilginç bir tartışma olabilir, bu yüzden (+1)

Bu "ayarlıyoruz" getirmek için teşekkür @fcoppens
EDM

Bu yazıdan beri , Salzberg tarafından "Sınıflandırıcıların Karşılaştırılması: Kaçınılması Gereken Tuzaklar ve Önerilen Bir Yaklaşım" ( cs.ru.nl/~tomh/onderwijs/lrs/lrs_files/salzberg97comparing) adlı bu konuyu ele alan harika bir makaleye rastladım. pdf ). Tartışmayı takdir ediyorum. Bu tür sorular, istatistik ve makine öğrenimi / bu yayında tartışılan diğer uygulamalı alanlar arasındaki farkı ortaya koymaktadır : stats.stackexchange.com/questions/1194/… ....
toypajme

1
Breiman'ın bir makalesi de bu konuyu ele alıyor: projecteuclid.org/euclid.ss/1009213726 . Umarım bu makaleler mevcut araştırma ve bu konuda yayınlanmış tartışmalarla ilgilenenler için kolay bir referans olabilir.
toypajme

Ayrıca, " Tıbbi çalışmalarda alfa üretimi ve mülkiyeti üzerine " de şu makale bulunmaktadır . Bu açıkça tartışmalı bir konudur. Cevabın açık olduğu birkaç durumdan biri, tıbbi bir çalışma için az çok tek bir olan farmasötik ürünler için düzenleyici etiket iddialarıyla ilgilidir . Bilimsel yayınlara girdikten sonra, daha iyi ya da hiç kimsenin böyle bir şeyi zorlamaması için var. α=0.05
Björn

4

'Tip I hatasını' '' çoklu test '' düzeltmesi gereklidir: örn. Her biri güven düzeyinde iki test gerçekleştirirseniz ve ilk önce alternatif ve ikinci hipotez ile . , H ( 1 ) 0 'H ( 1 ) 1 H ( 2 ) 0 , H ( 2 ) 1α=5%H0(1)H1(1)H0(2)H1(2)

O zaman biliyoruz ki, örneğin ilk hipotez için I. tip hata yanlış reddetme olasılığıdır ve . α = % 5H0(1)α=5%

İki testi gerçekleştirirseniz, ikisinden en az birinin yanlış bir şekilde reddedilme olasılığı 1 eksi eşittir, her ikisinin de kabul edilme olasılığı ki bu, , eşittir , bu nedenle en az bir yanlış reddetme türünün bir numaralı hatası neredeyse ikiye katlanmıştır! α = 5 % 9.75 %1(1α)2α=5%9.75%

İstatistiksel hipotez testinde sadece alternatif hipotez için istatistiksel kanıt bulabilir, null değerini reddederek, null değerini reddetmek alternatif hipotez lehine kanıt olduğu sonucuna varmamızı sağlar . (ayrıca bkz . Boş hipotezi reddedemezsek ne olur? ).

Dolayısıyla, sıfırın yanlış bir şekilde reddedilmesi bize yanlış kanıtlar verir, böylece '' bilimsel gerçek '' in yanlış inancı. Bu yüzden bu tip I enflasyondan (tip I hatasının neredeyse iki katına çıkması) kaçınılmalıdır; daha yüksek tip I hataları , bir şeyin bilimsel olarak kanıtlanmış olduğuna dair daha yanlış inançlar anlamına gelir . Bu nedenle insanlar, türü Ierror'u aile düzeyinde kontrol ederler.

Birden fazla test yapan bir araştırmacı ekibi varsa, sıfır hipotezini her reddettiğinde, bilimsel bir gerçeğin istatistiksel kanıtını buldukları sonucuna varırlar. Bununla birlikte, yukarıdakilere göre, bu sonuçların 5'inden fazlası '' bilimsel gerçek '' in yanlış bir inancıdır. 5%

Aynı mantıkla, birkaç ekip bu testleri (aynı veriler üzerinde) yaparsa aynı şey geçerlidir.

Açıkçası, yukarıdaki bulgular sadece ekipler aynı veriler üzerinde çalışırsak geçerlidir . Farklı numuneler üzerinde çalıştıklarında farklı olan nedir?

σH0:μ=0H1:μ0α=5%

Örneğimiz ('veriler') sadece bir gözlemdir, bu yüzden gözlem null değerini reddedeceğizo1.96σ1.96σ

5%H0H0μ=0H0o[1.96σ;1.96σH0

Aynı verileri kullanırsak, testlerin sonuçları '' şanssızlık '' ile çizilmiş bir örneğe dayanıyor olabilir. Başka bir örnekle bağlam farklıdır.


1
Bilimsel kanıtlar konusunda "kanıt" kullanma hayranı değilim.
Alexis

@Alexis: Kesinlikle İngilizce anadilim olmadığı için, ama 'kanıt' ve 'kanıt'ın daha fazla ya da benzer bir şey olduğunu düşündüm, ama durum böyle değil mi?

1
Bence resmi "kanıt" matematikte. Ya da, daha az resmi olarak içtihada aittir. Benim için kanıt bilime ait değil, çünkü bu araştırmanın sonu ve dogmanın başlangıcı anlamına geliyor ve bilim temel olarak araştırma ile ilgili. Örneğin İngilizce'de (ve ABD'de), evrim karşıtı bireylerin "biyolojik evrim sadece bir teoridir ve bilimsel olarak kanıtlanmamış " diyeceği retorik bir oyunumuz var . Tabii ki, püf noktası dinleyicilere bilimin asla kanıtlamadığını, sadece kanıt sağladığını unutturuyor.
Alexis
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.