Uyarlanabilir veri analizi fikri, daha fazla bilgi edindikçe verileri analiz etme planınızı değiştirdiğinizdir. Açıklayıcı veri analizi (EDA) söz konusu olduğunda, bu genellikle iyi bir fikirdir (genellikle verilerde öngörülemeyen kalıplar ararsınız), ancak doğrulayıcı bir çalışma için bu, çok hatalı bir analiz yöntemi olarak kabul edilir (hepsi hariç) adımlar açıkça tanımlanmış ve önceden planlanmış şekilde planlanmıştır).
Bu varlık adaptif veri analizi, söz konusu olan birçok araştırmacı aslında çok istatistikçilerden dehşet, onların analizlerini yürütmek nasıl tipik. Dolayısıyla, eğer bunu istatistiksel olarak geçerli bir şekilde yapabilirse, istatistiksel uygulamada devrim yaratacaktır.
Aşağıdaki Bilim makalesinde, bunu yapmak için bir yöntem bulduğunu iddia ediyor (ödeme duvarı için özür dilerim, ancak üniversitedeyseniz, muhtemelen erişiminiz var): Dwork et al, 2015, Yeniden kullanılabilir görüşme: Uyarlanabilir veri analizinde geçerliliği korumak .
Şahsen ben her zaman yayınlanan istatistikler makalelerin şüpheci oldum Fen ve bu bir farkı yoktur. Aslında, ek materyal dahil olmak üzere makaleyi iki kez okuduktan sonra, yazarların kendi yöntemlerinin aşırı uyumu önlediğini iddia ettiğini (hiç de) anlamıyorum.
Benim anlayışım, tekrar kullanacakları bir kesin veri kümesine sahip olmalarıdır. Uzatma veri setindeki doğrulayıcı analizin çıktısını "fuzzing" olarak iddia ediyor gibiler, aşırı uydurma önlenecek ( eğitim verilerinde hesaplanan istatistik yeterince uzaksa fuzzing'in sadece gürültü katıyor gibi göründüğünü belirtmekte fayda var) holdout verilerindeki hesaplanan istatistikten ). Söyleyebileceğim kadarıyla, fazla uydurmayı engellemek için gerçek bir sebep yok.
Yazarların ne önerdiği konusunda yanıldım mı? Gözden kaçtığım ince bir etkisi var mı? Yoksa Science , bugüne kadarki en kötü istatistiksel uygulamayı onayladı mı?