Numune boyutu çok büyük olduğunda güven aralıkları

14

Sorum, özellikle dergi yayını için "büyük veriler kullanılarak örnekleme hatasının nasıl değerlendirileceği" şeklinde yeniden ifade edilebilir. İşte bir meydan okumayı gösteren bir örnek.

Çok büyük bir veri kümesinden (> 100000 benzersiz hasta ve 100 hastaneden reçeteli ilaçları), belirli bir ilacı alan hastaların bir kısmını tahmin etmekle ilgileniyorum. Bu oranı elde etmek kolaydır. Güven aralığı (örn. Parametrik veya bootstrap) inanılmaz derecede sıkı / dardır, çünkü n çok büyüktür. Büyük bir örnek büyüklüğüne sahip olmak şanslı olsa da, hala bazı hata olasılık biçimlerini değerlendirmenin, sunmanın ve / veya görselleştirmenin bir yolunu arıyorum. Bir güven aralığı (örn.% 95 CI: .65878 - .65881) koymak / görselleştirmek yararlı olmasa da (yanıltıcı olmasa da) belirsizlik hakkında bazı ifadelerden kaçınmak imkansız gibi görünmektedir.

Lütfen ne düşündüğünü bilmeme izin ver. Bu konuyla ilgili herhangi bir literatürü takdir ediyorum; büyük örneklem büyüklüğü ile bile verilere aşırı güveni önlemenin yolları.

confidence-interval large-data reporting

— so2015
kaynak

7

Örnekleme dışı hatalara dokunulmadığını hatırlayarak aşırı güveni önleyebilirsiniz. Örnekleme ve ölçümde önyargılar varsa, hala oradalar. Ayrıca, benzersiz ("farklı" demeyi tercih ederim) hastaları veya başka bir şekilde tanımlanan gözlemleri sayıyor olsanız da, aynı hasta için ilaçları ve herhangi bir şekilde birlikte verilen ilaçları birbirine bağlayan (sanırım) küme yapıları vardır. en basit güven aralığı hesaplamaları tarafından muhasebeleştirilmez. Diğer veri kümeleriyle karşılaştırmanın ve veri üretimini belgelemenin ötesinde bunun nasıl ölçüleceğine dair çözümüm yok.

— Nick Cox

10

Bu problem bazı araştırmalarımda da ortaya çıktı (bir salgın modelleyici olarak, kendi veri setlerimi yapma lüksüne sahibim ve yeterince büyük bilgisayarlarla, aslında keyfi olarak boyutlandırılabilirler.

Raporlama açısından, düşündüğünü olabilir bu faydası meşru biraz tartışmalı olsa, daha kesin güven aralıkları bildirmektedir. Ama bu yanlış değil ve bu boyutta veri setleri ile, orada hem talep güven aralıkları çok çağrı bildirilmelidir olduğunu sanmıyorum ve o zaman gerçekten tüm onlar gibi vb iki basamağı, yuvarlanır edilecek ediyorum şikayetçi
Aşırı güvenden kaçınmak açısından, anahtarın hassasiyet ve doğruluğun farklı şeyler olduğunu hatırlamak ve ikisini birleştirmeye çalışmaktan kaçınmak olduğunu düşünüyorum. Büyük bir örneğiniz olduğunda, tahmini etkinin ne kadar kesin olduğuna emilmek ve bunun da yanlış olabileceğini düşünmemek çok caziptir. Ben anahtar olduğunu düşünüyorum - taraflı bir veri kümesi N = 10, 100 veya 1000 veya 100.000 bu önyargı olacaktır.

Büyük veri kümelerinin amacı kesin tahminler sağlamaktır, bu yüzden bu hassasiyetten kaçınmanız gerektiğini düşünmüyorum. Ancak, daha büyük miktarlarda kötü veri toplayarak kötü verileri daha iyi hale getiremeyeceğinizi hatırlamanız gerekir.

— fomite
kaynak

Bence büyük miktarda kötü veri hala küçük hacimli kötü veriden daha iyi.

— Aksakal

@Aksakal Neden? Kesin yanlış bir cevap hala yanlıştır.

— Fomite

@Fomite - evet, ancak daha fazla konum emin o :) yanlış olduğunu

— Duncan

6

Bu sorun kendi el yazmalarımda ortaya çıktı.

1. Raporlama Seçenekleri: Bildirilecek yalnızca bir veya birkaç CI'niz varsa, "(örn.% 95 CI: .65878 - .65881)" raporlaması aşırı ayrıntılı değildir ve CI'nin hassasiyetini vurgular. Bununla birlikte, çok sayıda CI'niz varsa, battaniye bir ifade okuyucu için daha yararlı olabilir. Örneğin, genellikle "bu örnek boyutu ile, her bir oran için% 95 güven hatası marjı +/- .010'dan az" etkisine rapor edeceğim. Genellikle böyle bir şeyi Yöntemde, Tablo veya Şekil başlığında veya her ikisinde bildiririm.

2. Büyük örneklem büyüklüğü ile bile "aşırı güvenden" kaçınmak: 100.000'lik bir örnekle, merkezi limit teoremi CI'leri oranlar için bildirirken sizi güvende tutacaktır. Bu nedenle, tanımladığınız durumda, farkında olmadığım başka varsayım ihlalleri olmadığı sürece (örn. İhlal edilen id) ihlalde bulunmalısınız.

— Anthony
kaynak

0

Güven aralıklarını bildirmeyin. Bunun yerine tam numune boyutunu ve oranları rapor edin. Okuyucu kendi CI'lerini istediği gibi hesaplayabilecektir.

— Aksakal
kaynak

4

Bu mantık neden tüm nicel verilerin raporlanmasına uygulanmamalıdır ?

— whuber

@whuber, güzel soru. Hepiniz tekrarlanabilir araştırmalar yapıyorum, herkesin veri setlerini yayınlamasını diliyorum.

— Aksakal

6

Bunun bir öneri olarak alınması demek istememiştim. Herkes veri setlerini yayınlasa bile, bir analiz sağlayamazlarsa, bu bir belirsizlik analizi de içeren bilimsel görevlerini iptal ederlerdi. Bilim adamlarının hiçbir analiz yapmadan veri yayınlamaktan başka bir şey yapma önerisiyle mantıklı bir şekilde sonlanacak bir yöne gidiyor gibi görünüyorsunuz! Bu, CI'lerin rapor edilmediğine dair tavsiyenin bir iddiasıdır. Aksine, örneklem büyüklüğünden bağımsız olarak, her durumda bir tür istatistiksel analizin sunulması gerektiğini belirtir.

— whuber

0

100 farklı hastanenin oranlarının aynı ortalama değere yakınsama olasılığını düşünün. Gruplar arası varyans testi yaptınız mı? Hastaneler arasında ölçülebilir bir fark varsa, numunelerin ortak bir normal dağıtımdan üretildiği varsayımı desteklenmez ve bunları bir araya getirmemelisiniz.

Ancak verileriniz gerçekten normal olarak dağıtılmış büyük bir örnekten geliyorsa, verilerin bir özelliği olarak yararlı "belirsizlik hakkında ifadeler" bulamazsınız, ancak istatistiklerinizin neden veya neden genelleştirilmemesi gerektiğine dair düşünceler üzerine dikkat etmeniz gereken koleksiyondaki doğal önyargı veya durağanlık eksikliği vb.

— John Mark
kaynak