Test verilerinin bağımsız olmadığı öngörücü modellerin genelleştirme hatasını hedefleyen "doğrulama" beni en çok (ve en sık) rahatsız ediyorum (örneğin, tipik olarak verilerde, önyükleme dışı veya çapraz doğrulama bölme ölçümlerinde veri başına hasta başına çoklu ölçümler) hastalar ).
Daha da sinir bozucu olan, böyle hatalı çapraz onaylama sonuçları veren belgeler artı çapraz onaylamanın genel önyargısını gösteren bağımsız bir test setinin yanı sıra çapraz onaylamanın tasarımının yanlış olduğu tek bir kelime değil ...
(Aynı veri sunulduysa çok mutlu olurdum "çapraz onaylamanın hastaları ayırması gerektiğini biliyoruz, ancak buna izin vermeyen bir yazılımla sıkışıp kaldık. Bu nedenle, gerçekten bağımsız bir test hastası grubunu test ettik. ")
(Ayrıca bootstrapping = değiştirme ile yeniden örneklemenin genellikle çapraz doğrulamadan daha iyi performans gösterdiğinin de farkındayım = değiştirme olmadan yeniden örnekleme. Bununla birlikte, çapraz doğrulamayı tekrarlayan / yineleyen spektroskopik verilerde (simüle edilmiş spektrumlar ve hafif yapay model kurulumu ancak gerçek spektrumlar) bulduk önyüklemenin genel belirsizliği benzerdi, oob daha fazla önyargıya sahipti, ancak daha az sapma vardı - yeniden değerlendirme için, buna çok pragmatik bir bakış açısıyla bakıyorum: tekrarlanan çapraz onaylama ve önyükleme dışına çıkma pek çok makale olmadığı sürece önemli değil ne hastaya göre bölünmüş ne de sınırlı test örneği büyüklüğünden dolayı rastgele belirsizliği rapor et / tartış / bahset.)
Bunun yanlış olmasının yanı sıra, uygun bir onaylama yapan kişilerin, sonuçlarının neden literatürdeki diğer sonuçlardan daha kötü olduğunu savunmaları gerektiği yan etkisi de vardır.