Bana göre sorunuz daha akıllıca bir model için farklı doğrulama tatlarını ele alıyor gibi görünüyor: Çapraz doğrulama, iç geçerlilikle veya en azından başlangıçtaki modelleme aşamasıyla daha fazla ilgiliyken, daha geniş bir popülasyonda nedensel bağlantılar kurmakla daha ilgili için dış geçerlilik. Bununla (ve @ Brett'in hoş yorumunu izleyen bir güncelleme olarak), yani varsayımsal bir kavramsal model varsayarak genellikle çalışan bir örnek üzerinde bir model oluşturduğumuzu kastediyoruz (yani, yordayıcılar ve ilgilenilen sonuçlar (lar) arasındaki ilişkileri belirleriz), ve minimum sınıflandırma hata oranı veya minimum tahmin hatası ile güvenilir tahminler elde etmeye çalışıyoruz. Umarım, model ne kadar iyi performans gösterirse, görünmeyen veriler hakkındaki sonuçları tahmin etmemize o kadar iyi olur; Yine de, CV varsayımsal nedensel bağlantıların "geçerliliği" veya yeterliliği hakkında hiçbir şey söylemez. Bazı ılımlılık ve / veya arabuluculuk etkilerinin ihmal edildiği veya önceden bilinmediği bir modelle kesinlikle doğru sonuçlar elde edebiliriz.
Demek istediğim, modelinizi doğrulamak için kullandığınız yöntem ne olursa olsun (ve elde tutma yöntemi kesinlikle en iyisi değildir, ancak yine de epidemiyolojik çalışmada yaygın olarak kullanılan model aşamasından kaynaklanan sorunları hafifletmek için kullanılır), aynı örnekle çalışıyorsunuz. (daha büyük bir nüfusun temsilcisi olduğunu varsayıyoruz) Aksine, sonuçların ve nedensel bağların yeni örneklere veya makul derecede ilişkili bir popülasyona bu şekilde çıkarılan genellemeleri çoğaltma çalışmaları ile yapılmaktadır . Bu, modelimizin öngörme yeteneğini daha geniş bireysel değişkenlik aralığına sahip ve diğer potansiyel faktörler sergileyebilen bir "süper popülasyonda" güvenle test etmemizi sağlar.
Modeliniz, çalışma örneğiniz için geçerli tahminler sunabilir ve aklınıza gelebilecek tüm olası karıştırıcıları içerir; bununla birlikte, ilk modeli oluştururken tanımlanmayan nedensel yolda diğer faktörlerin ortaya çıkması nedeniyle yeni verilerle iyi performans göstermemesi mümkündür. Bu, bazı tahminciler ve bunlardan çıkarılan nedensel bağların, örneğin hastaların işe alındığı belirli araştırma merkezine bağlı olması durumunda ortaya çıkabilir.
Genetik epidemiyolojide, genom çapında pek çok dernek çalışması , DNA markalayıcıları ve gözlenen fenotip arasındaki nedensel ilişkiler hakkında basitleştirilmiş bir bakış açısıyla karmaşık hastalıkları modellemeye çalıştığımız için çoğalmayı başaramıyor, gen geni (epistasis), gen hastalıkları (pleiotropi), gen ortamı ve popülasyon altyapısının tümü devreye giriyor, ancak bakınız örneğin genom çapında ilişkilendirme sinyallerinin doğrulanması, artırılması ve rafine edilmesi(Ioannidis ve diğerleri, Nature Reviews Genetics, 2009 10). Bu nedenle, bir dizi genetik markör (çok düşük ve seyrek etki büyüklüğünde) ile gözlenen çapraz değişkenlikleri ve çok değişkenli gözlenen fenotiplerin (örneğin, beyaz / gri madde hacmi veya örneğin) arasındaki gözlenen varyasyonları hesaba katan bir performans modeli oluşturabiliriz. Beyinde fMRI ile gözlemlenen lokalize aktiviteler, nöropsikolojik değerlendirme veya kişilik envanteri yanıtları), yine de bağımsız bir örneklemde beklendiği gibi performans göstermez.
Bu konuyla ilgili genel bir referans olarak , EW Steyerberg'den (Springer, 2009) Bölüm 17 ve Klinik Tahmin Modellerinin Bölüm III'ünü önerebilirsiniz . Ayrıca Ioannidis'ten şu makaleyi de beğendim:
Ioannidis, JPA, En Çok Yayınlanan Araştırma Bulguları Neden Yanlış? KİTAPLAR Med. 2005 2 (8): e124