Düşük doğum ağırlığı çalışması
Bu, Hosmer ve Lemeshow'un Uygulamalı Lojistik Regresyon (2000, Wiley, 2nci baskı) ders kitabındaki veri kümelerinden biridir . Bu prospektif çalışmanın amacı, düşük doğum ağırlıklı bir bebeğin (2.500 gramdan az) doğum yapmasıyla ilişkili risk faktörlerini tanımlamaktır. Verileri 59'u düşük doğum ağırlıklı bebekleri ve 130'u normal doğum ağırlıklı bebekleri olan 189 kadın üzerinde toplanmıştır. Önemli olduğu düşünülen dört değişken yaş, hastanın son adet dönemindeki kilosu, ırkı ve gebeliğin ilk üç ayında doktor ziyaretlerinin sayısıdır.
R olarak data(birthwt, package="MASS")
veya Stata ile birlikte mevcuttur webuse lbw
. Burada bir metin sürümü görünür: lowbwt.dat ( açıklama ). Dikkat çekici bir şekilde, bu veri setinin çeşitli versiyonları vardır, çünkü ALR bölüm 7'de Hosmer ve Lemeshow tarafından gösterildiği gibi bir vaka kontrol çalışmasına (yaş olarak eşleştirilmiş 1-1 veya 1-3) genişletilmiştir.
Aşağıdaki nedenlerden dolayı bu veri kümesine dayalı tanıtım kursları öğretirdim:
- Tarihsel ve epidemiyolojik açıdan ilginçtir (veriler 1986'da toplanmıştır); ana fikirleri ve bu çalışmadan hangi soruların sorulabileceğini anlamak için tıpta veya istatistikte önceden bir arka plan gerekmez.
- Mevcut temel ilişki testleri (t-testi, ANOVA, kolay hale getirir ki karışık türleri (sürekli, sıralama, nominal) çeşitli değişkenler mevcuttur iki yönlü tablolar için -test, oran-oranı, Cochrane ve Armitage eğilim testi vb.). Ayrıca, doğum ağırlığı sürekli bir ölçü olarak ve ikili bir gösterge olarak (2,5 kg'ın üstünde veya altında) mevcuttur: Basit doğrusal modeller oluşturmaya başlayabiliriz, ardından çoklu regresyon (önceki keşif analizinden seçilen ilgi tahminleri ile) ve sonra muhtemelen bir kesim seçimini tartışarak GLM'ye (lojistik regresyon) geçin.χ2
- Farklı modelleme perspektiflerini (açıklayıcı veya tahmine dayalı yaklaşımlar) ve modeller geliştirirken örnekleme şemasının (katmanlaşma / eşleşen durumlar) tartışılmasını sağlar.
İstatistiksel yazılım veya genel olarak istatistiklerle izleyicilere ve uzmanlık düzeylerine bağlı olarak vurgulanabilecek diğer noktalar.
R'de bulunan veri kümesine gelince, kategorik öngörücüler tamsayılar olarak puanlanır (örneğin annenin etnik kökenine göre '1' = beyaz, '2' = siyah, '3' = diğer), ancak bazı öngörücüler için doğal sıralamanın olmasına rağmen (örneğin, önceki erken işçilerin sayısı veya doktor ziyaretlerinin sayısı) veya açık etiketlerin kullanılması (olmasa bile ikili değişkenler için 1/0 yerine 'evet' / 'hayır' kullanmak her zaman iyi bir fikirdir ' t Tasarım matrisindeki herhangi bir şeyi değiştirmek!) basitçe yoktur. Bu nedenle, veri analizindeki düzey veya ölçü birimlerini göz ardı ederek hangi konuların gündeme getirilebileceğini tartışmak kolaydır.
Bazı keşif analizleri yapmak ve tek değişkenli, iki değişkenli veya üç değişkenli ilişkileri özetlemek için ne tür grafiksel görüntülerin uygun olduğu tartışıldığında, karışık türlerin değişkenleri ilginçtir. Benzer şekilde, güzel özet tablolar üretmek ve daha genel olarak raporlamak, bu veri kümesinin bir başka ilginç yönüdür (ancak Hmisc::summary.formula
komut R altında bunu kolaylaştırır).
Hosmer ve Lemeshow, konunun gizliliğini korumak için gerçek verilerin değiştirildiğini bildirmiştir (s. 25). Önceki Journal Club'ımızda olduğu gibi veri gizliliği konularını tartışmak ilginç olabilir , ancak transkriptine bakın . (İtiraf etmeliyim ki bu konuda asla fazla ayrıntıya girmem.)
(A) kod çizelgesi ( Hmisc::describe
veya Stata'nın codebook
) veya keşif grafikleriyle (her zaman önce verilerinizi çizin!) ve (b) olası iyileştirme (veri toplama, listeye göre silme veya çift ilişkilendirme ölçüsü, vb.).