Balık avlama gezileri ile ilgili sorun şudur: Yeterince hipotez test ederseniz, bunlardan biri düşük bir p değeri ile doğrulanacaktır. Somut bir örnek vereyim.
Epidemiyolojik bir çalışma yaptığınızı düşünün. Nadir görülen bir rahatsızlıktan muzdarip 1000 hasta buldunuz. Onların ortak noktalarını bilmek istersiniz. Böylece test etmeye başlarsınız - bu örnekte belirli bir özelliğin fazla temsil edilip edilmediğini görmek istersiniz. Başlangıçta cinsiyet, ırk, ilgili aile öyküsünü (babam 50 yaşından önce kalp hastalığından öldü,…) test ediyorsun ama sonunda, "yapışacak" bir şey bulmakta zorlanıyorsanız, diğer tüm faktörleri eklemeye başlarsınız. hastalık ile ilgili olabilir :
- vejeteryan
- Kanada'ya gitti
- bitmiş kolej
- evli
- Çocuk sahibi
- kedileri var
- köpekleri var
- haftada en az 5 bardak kırmızı şarap içer
…
Şimdi burada bir şey var. Yeterince "rastgele" hipotez seçersem, bunlardan en az birinin p değerinin 0,05'ten daha düşük olmasına neden olacağı muhtemel olmaya başlar - çünkü p değerinin özü "orada olduğunda boş hipotezi reddetmede yanlış olma olasılığıdır" etkisi yok ". Başka bir deyişle - ortalama olarak, test ettiğiniz her 20 sahte hipotez için bunlardan biri size <0,05 p verir .
Bu çok iyi SO XKCD karikatür http://xkcd.com/882/ içinde özetlenmiştir :
Buradaki trajedi, bireysel bir yazarın önemini araştırmak için bir örnek üzerinde 20 farklı hipotez testi yapmasa bile, aynı şeyi yapan diğer 19 yazar olabilir; ve şimdi bir korelasyon "bulan", şimdi yazması için ilginç bir makaleye sahiptir ve yayınlanması için kabul edilmesi muhtemel olan…
Bu, tekrarlanamayan bulgular için talihsiz bir eğilime yol açar. Bireysel yazar olarak buna karşı korunmanın en iyi yolu çıtayı daha yükseğe ayarlamaktır. Bireysel faktör için test yapmak yerine, kendinize "N hipotezini test edersem, en az bir yanlış pozitif ortaya çıkma olasılığı nedir" diye sorun. “Balıkçılık hipotezlerini” gerçekten test ederken, buna karşı korunmak için Bonferroni düzeltmesi yapmayı düşünebilirsiniz - ama insanlar sık sık yapmazlar.
Ioannides'in Atlantik Aylığı'nda özellikle bu konuda özel olarak yazılmış bazı ilginç yazıları vardı .
Ayrıca, bu daha önceki soruya birkaç anlayışlı cevapla bakınız.
Sorunuzun tüm yönlerine daha iyi yanıt vermek için güncelleyin :
Eğer "balıkçılık" olabilir, ancak hangi hipotezi formüle edeceğinizi gerçekten bilmiyorsanız, kesinlikle verilerinizi "keşif", "çoğaltma" ve "onaylama" bölümlerine bölebilirsiniz. Prensip olarak, bu daha önce belirtilen risklere maruz kalmanızı sınırlandırmalıdır: keşif verilerinde ap değeri 0.05 ise ve çoğaltma ve onay verilerinde benzer bir değer elde ederseniz, yanlış düşme riskiniz. British Medical Journal'da "doğru yapma" için güzel bir örnek gösterildi (17+ Etki Faktörü ile çok saygın bir yayın)
Nullipar kadınlarda komplike olmayan gebelik ile ilişkili faktörlerin araştırılması ve doğrulanması: prospektif kohort çalışması, Chappell ve ark.
İşte ilgili paragraf:
5628 kadın veri setini üç bölüme ayırdık: Avustralya ve Yeni Zelanda'daki kadınların üçte ikisinin keşif veri seti, rastgele seçilmiş (n = 2129); Avustralya ve Yeni Zelanda’lı kadınların kalan üçte birinin yerel çoğaltma veri kümesi (n = 1067); ve 2432 Avrupalı kadının Birleşik Krallık ve İrlanda Cumhuriyeti'nden gelen dış, coğrafi açıdan farklı bir doğrulama veri seti.
Literatürde biraz geriye dönersek, Altman ve ark. "Prognoz ve prognostik araştırma: prognostik bir modelin geçerliliği" konusunda çok daha derinlere giren ve içine düşmediğinizden emin olmanın yollarını öneren iyi bir makale var . bu hatayı. Makaleden "ana noktalar":
Doğrulanmamış modeller klinik uygulamada kullanılmamalıdır. Prognostik bir model doğrulanırken, kalibrasyon ve ayrımcılık değerlendirilmelidir. Doğrulama, modeli geliştirmek için kullanılandan farklı bir veri üzerinde yapılmalıdır, tercihen diğer merkezlerdeki hastalardan modeller Uygulamada iyi performans gösteremezler. geliştirme yöntemlerindeki eksiklikler nedeniyle veya yeni örnek orijinalden çok farklı olduğu için
Özellikle, diğer kaynaklardan gelen verilerle doğrulamanın yapılması önerisini (ben ifade ediyorum) , yani verilerinizi keyfi bir şekilde alt gruplara ayırmanın yeterli olmadığını, ancak bir sette sette "öğrenmeyi" kanıtlamak için elinizden geleni yapmanız gerektiğini unutmayın. Deneylerin farklı bir dizi deneyden elde edilen verilere uygulanabilir. Bu daha yüksek bir çubuktur, ancak kurulumunuzdaki sistematik bir önyargının bağımsız olarak doğrulanamayan "sonuçlar" oluşturma riskini daha da azaltır.
Bu çok önemli bir konu - soruyu sorduğunuz için teşekkürler!