Küçük örneklemli araştırmalarda keşif veri analizi ve veri tarama ile nasıl baş edilir?


25

Keşifsel veri analizi (EDA) çoğu zaman, mutlaka ilk hipotez grubuna ait olmayan diğer "izleri" keşfetmeye yol açar. Sınırlı örneklem büyüklüğü ve farklı anketler (sosyo-demografik veriler, nöropsikolojik veya tıbbi ölçekler - örneğin, zihinsel veya fiziksel işleyiş, depresyon / anksiyete düzeyi, belirtiler kontrol listesi) ile toplanan çok sayıda veri içeren çalışmalarda böyle bir durumla karşı karşıyayım. ). EDA'nın, ek sorulara / hipoteze çevrilen bazı beklenmeyen ilişkileri (“beklenmeyen” anlamına gelir; ilk analiz planına dahil edilmediği anlamına gelir) vurgulamaya yardımcı olur.

Gibi, veri overfitting için böyledir dip tarama veya gözetleme genelleme yoktur sonuçlarına yol yapar. Bununla birlikte, çok fazla veri olduğunda, sınırlı bir hipotez seti önermesi (araştırmacı veya hekim için) oldukça zordur.

Küçük örneklemli çalışmalarda EDA'nın tanımlanmasına yardımcı olabilecek kabul edilmiş yöntemler, tavsiyeler ya da kurallar olup olmadığını bilmek istiyorum.


Numunenizin boyutunun neden önemli olduğundan emin değilim. Neden küçük n için büyük n'den farklı olduğunu düşündüğünüze dair daha fazla özel akıl yürütme önerisi verebilir misiniz?
Andy W

2
@Andy Çünkü o zaman çok sınırlı bir örneklem büyüklüğüne sahip ( ) bir holdout örneği ve / veya sınıf dengesizliği düşünmek çok zorlaşır ; bazı bireyler iki değişkenli dağılımları incelerken outliers olarak kabul edilebilir; ve kendi ölçüm hataları olan cihazlarda toplanan önlemler daha az güvenilirdir (küçük , büyük ). Belli bir anlamda, beklenmeyen bir ilişkiyi bir eserden ayırmak bazen zordur. 13<n<25nσ
chl

İlgilendiğiniz şey yalnızca sınıflandırma ise, bu duyguyu anlayabildiğimi düşünüyorum. Nedensel çıkarım için, veri taramasıyla ilgili sorunların aynı olduğunu düşünüyorum (örneğin, ilişkileri tanımlamak için artan güç sorunu çözmedi). Bu görüşü bir cevap olarak formüle etmeye çalışacağım. Bu arada, ana forumda, bu alanda yaptığım herhangi bir çalışmaya rastlamadığım için nedensel çıkarım için çapraz onaylama kullanımı hakkında bir soru sorabilirim.
Andy W

1
@Andy Teşekkürler. Umarım, sorunuz çok ilginç cevaplar alır.
chl

Yanıtlar:


10

Bence asıl mesele, böyle bir sonuç bildirilirken, bir priori hipotezine dayanan ilk analiz planının bir parçası değil, EDA'dan beklenmeyen bulgular oldukları dürüst olmaktır . Örneğin: Bazı insanlar bu tür sonuçları 'hipotez üretme' etiketlemek ister ilk isabet bir gelen Google Scholar bu ifade için arama onun soyut sonuç bölümünde aşağıda belirtilen bölümlerden oluşmaktadır:

Bu "keşfedici" bir analiz olduğu için, bu etki diğer denemelerde ileriye dönük ve ileriye dönük bir hipotez olarak düşünülmeli ...

Her ne kadar bu bir post-hoc alt grup analizi olmasına rağmen, sorunun kötüleştiği gözlemsel bir çalışma değil, randomize bir kontrol denemesinden yapıldı. Philip Cole, gözlemsel ('epidemiyolojik') çalışmaların kasıtlı olarak kışkırtıcı ancak eğlenceli bir yorumda hipotezler üretebileceği fikrine iftira attı:

P Cole. Hipotez üreten makine. Epidemiyoloji 1993; 4 : 271-273.


+1 Bağlantı için teşekkürler (ve retag). Bu yöne bakacağım.
chl

13

İlgilenen okuyucunun veri tarama ve klinik çalışmaları hakkında bazı referanslar bıraktım . Bu, @onestop'un iyi yanıtını uzatmak için tasarlanmıştır . Birden bitiş noktaları ile çalışmalar zorlu şimdiki ve uzun yaklaşık Rothman'ın iddiaları sonrasında tartışmalı tartışmalar (devam rağmen, sadece çoklu karşılaştırmalar veya tasarım konularında odaklanan makaleleri uzak durmaya yararsız ayarlamalar , Epidemiyoloji 1990, 1: 43-46; veya Feise incelemesi bkz BMC Tıbbi Araştırma Metodolojisi 2002, 2: 8).

Anladığım kadarıyla, keşifsel veri analizi hakkında konuşmama rağmen , sorum daha genel olarak hipotezlere dayalı testlere paralel olarak potansiyel tuzaklar ile veri madenciliğinin kullanımını ele alıyor.

  1. Koh, HC ve Tan, G (2005). Sağlık Hizmetlerinde Veri Madenciliği Uygulamaları . Sağlık Bilgi Yönetimi Dergisi , 19 (2), 64-72.
  2. Ioannidis, JPA (2005). Yayımlanan araştırma bulgularının çoğu neden yanlıştır ? PLoS Medicine , 2 (8), e124.
  3. Anderson, DR, Link, WA, Johnson, DH ve Burnham, KP (2001). Veri Analizi Sonuçlarının Sunulması İçin Öneriler . Yaban Hayatı Yönetimi Dergisi , 65 (3), 373-378. - Bu, @ onestop'un ilk hipotez grubunun ötesindeki veriye dayalı keşif / modellemeyi kabul etmemiz gerektiği gerçeği hakkındaki yorumunu yansıtıyor
  4. Michels, KB ve Rosner, BA (1996). Veri aktarımı: Balık tutmak veya balık tutmak için değil . Lancet , 348, 1152-1153.
  5. Lord, SJ, Gebski, VJ ve Keech, AC (2004). Klinik çalışmalarda çoklu analizler: sağlam bilim veya veri tarama? . Avustralya Tıp Dergisi , 181 (8), 452-454.
  6. Smith, GD ve Ebrahim, S (2002). Veri tarama, önyargı ya da karışıklık . BMJ , 325,1437-1438.
  7. Afshartous, D ve Kurt, M (2007). Çok düzeyli ve karma efektli modellerde 'veri taraması' yapmaktan kaçınmak . Kraliyet İstatistik Kurumu Dergisi A , 170 (4), 1035–1059
  8. Anderson, DR, Burnham, KP, Gould, WR ve Cherry, S (2001). Gerçekten sahte olan etkileri bulma konusunda endişeler . Widlife Toplum Bülteni , 29 (1), 311-316.

Bu, şu ana kadar okuduklarımın bir özeti. Açıkçası, kendi cevabımı kabul etmeyeceğim . Başka herhangi bir düşünce çok takdir edilecektir.
chl

Cevap chi'mi kabul ettiğin için teşekkürler, kendi referans listen daha iyi ve daha yeni olsa da. Ben ... Ben sabit diskinde onları var gerçekten onlardan bir çiftin kendimi düşünmüş olmalıydı, hatta bunların parçalarını okumuş olabilirsiniz
giderebilirsiniz
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.