Sorum, özellikle dergi yayını için "büyük veriler kullanılarak örnekleme hatasının nasıl değerlendirileceği" şeklinde yeniden ifade edilebilir. İşte bir meydan okumayı gösteren bir örnek.
Çok büyük bir veri kümesinden (> 100000 benzersiz hasta ve 100 hastaneden reçeteli ilaçları), belirli bir ilacı alan hastaların bir kısmını tahmin etmekle ilgileniyorum. Bu oranı elde etmek kolaydır. Güven aralığı (örn. Parametrik veya bootstrap) inanılmaz derecede sıkı / dardır, çünkü n çok büyüktür. Büyük bir örnek büyüklüğüne sahip olmak şanslı olsa da, hala bazı hata olasılık biçimlerini değerlendirmenin, sunmanın ve / veya görselleştirmenin bir yolunu arıyorum. Bir güven aralığı (örn.% 95 CI: .65878 - .65881) koymak / görselleştirmek yararlı olmasa da (yanıltıcı olmasa da) belirsizlik hakkında bazı ifadelerden kaçınmak imkansız gibi görünmektedir.
Lütfen ne düşündüğünü bilmeme izin ver. Bu konuyla ilgili herhangi bir literatürü takdir ediyorum; büyük örneklem büyüklüğü ile bile verilere aşırı güveni önlemenin yolları.