Tamam, adil uyarı - bu sayı içermeyen felsefi bir sorudur. Hataların zaman içinde veri kümelerine nasıl girdiğini ve bunun analistler tarafından nasıl ele alınması gerektiğini ya da gerçekten önemli olup olmadığını çok düşündüm.
Arka plan için, analizi 7-8 yıl içinde muhtemelen 25 kişi tarafından toplanan birçok veri kümesini içeren uzun vadeli bir çalışma üzerinde yapıyorum - hiç kimse tüm verileri tutarlı bir yapıya getirmedi (bu benim işim). Çok fazla veri girişi yapıyorum (eski laboratuvar dizüstü bilgisayarlarının fotokopilerinden kopyalanıyor) ve diğer insanların yaptığı küçük transkripsiyon hatalarını bulmaya ve aynı zamanda okunması zor veya imkansız veri girişlerini bulmaya devam ediyorum - çoğunlukla mürekkep zamanla kayboldu. Verilerin söylediklerini 'en iyi tahminler' yapmak için bağlam kullanıyorum ve oldukça emin değilsem verileri tamamen dışarıda bırakıyorum. Ancak her veri kopyalandığında, orijinal veriler tamamen kaybolana kadar hata sıklığı kaçınılmaz olarak artacaktır.
Bu, beni bir düşünceye götürüyor: enstrüman / ölçüm hataları ve kayıt hatalarına ek olarak, zamanla ve verilerin daha fazla işlenmesiyle artacak temel bir 'veri işleme hatası' bileşeni var (yan not: bu muhtemelen Termodinamiğin 2. yasasını belirtmenin başka bir yolu, değil mi? Veri entropisi her zaman artacaktır). Sonuç olarak, veri setlerinin yaşam geçmişini (bir Bonferroni düzeltmesine benzer bir şey) açıklamak için bir tür 'düzeltme' yapılmasının gerekip gerekmediğini merak ediyorum. Başka bir deyişle, eski veya daha fazla kopyalanmış veri kümelerinin daha az doğru olduğunu varsaymalıyız ve eğer öyleyse, bulguları buna göre ayarlamalıyız?
Ama sonra diğer düşüncem, hataların veri toplama ve veri işlemenin ayrılmaz bir parçası olduğu ve tüm istatistiksel testler gerçek dünya verileri ile geliştirildiğinden, belki de bu hata kaynakları analize zaten 'fiyatlandırılmıştır'?
Ayrıca, kayda değer başka bir nokta, veri hataları rastgele olduğu için, bulmanın gücünü iyileştirmekten daha fazla azaltma olasılıklarının daha yüksek olmasıdır - başka bir deyişle, veri işleme hataları Tip 1 hatalarına değil Tip 2 hatalarına yol açacaktır. . Bu nedenle, birçok bağlamda, eski / şüpheli veriler kullanıyorsanız ve yine de bir etki bulursanız, bu etkinin gerçek olduğuna dair güveninizi artıracaktır (çünkü veri kümesine rastgele hata eklemeden kurtulmaya yetecek kadar güçlüydü). Bu nedenle, belki de 'düzeltme' başka bir yoldan gitmeli ('bulma' için gereken alfa seviyesini artırmalı), ya da bizi rahatsız etmemeli mi?
Her neyse, çok ayrıntılı ve geniş olduğu için özür dilerim, bu soruyu nasıl daha kısaca soracağımdan gerçekten emin değilim. Benimle taşıdığın için teşekkürler.