İstatistiksel analizin belirli yönlerini gösteren iyi veri kümeleri nelerdir?


16

Bunun öznel olduğunu anlıyorum, ancak favori veri setlerimiz ve onları ilginç kıldığını düşündüğümüz hakkında konuşmanın güzel olacağını düşündüm. Orada zengin bir veri var ve tüm API'lerle (örneğin, Datamob ) klasik veri kümeleri (örneğin, R verileri ) ile birlikte, bunun çok ilginç tepkilere sahip olabileceğini düşünüyorum.

Örneğin, "Boston Housing" veri kümesi (talihsiz çıkarımlara rağmen) ve "mtcars" gibi veri kümelerini çok yönlülüğü için her zaman sevdim. Pedagojik bir bakış açısından, çok çeşitli istatistiksel tekniklerin özelliklerini kullanarak bunları gösterebiliriz; Anderson / Fisher'ın iris veri kümesinin her zaman kalbimde bir yeri olacak.

Düşünceler?


2
Tezim

3
Çapraz Geçişe Hoş Geldiniz! Bu bir tartışma forumu değil, gerçek cevapları olan sorular için bir Soru-Cevap sitesi olarak tasarlanmıştır. Bu nedenle, bu sitede istediğimiz soru türü olduğuna inanmıyorum. Lütfen SSS bölümüne bakın .
Michael McGowan

4
Bir soru-cevap olarak tasarlandığını biliyorum, ancak "En sevdiğiniz istatistik karikatürü nedir?" yüksek oyla, bunun çok uygunsuz olmayacağını düşündüm. Özellikle pedagojik olarak, birisi veri analizi ve keşif teknikleri hakkında bilgi edinmeye çalışıyorsa, zengin bir yapı sunan ve arkasında büyük miktarda tarih ve araştırma bulunan kamu veri setleri hakkında geri bildirim almak faydalı olabilir.
DA

4
Topluluğun, bunun kapalı (yapıcı değil) olması gerekip gerekmediğine karar vermesine izin veriyorum, ancak kapsamlı ve tartışmacı yanıtların, veri analizinin belirli yönleri hakkında gelecekteki sorular için bir destek olarak hizmet edebileceğini de ekleyeceğim. Bu arada bunu CW'ye dönüştürüyorum çünkü açıkçası, en iyi tek cevap yok.
chl

2
Bu soru ve cevapları benim için çok faydalı. Lütfen kaldırmayın.
dsign

Yanıtlar:


12

Düşük doğum ağırlığı çalışması

Bu, Hosmer ve Lemeshow'un Uygulamalı Lojistik Regresyon (2000, Wiley, 2nci baskı) ders kitabındaki veri kümelerinden biridir . Bu prospektif çalışmanın amacı, düşük doğum ağırlıklı bir bebeğin (2.500 gramdan az) doğum yapmasıyla ilişkili risk faktörlerini tanımlamaktır. Verileri 59'u düşük doğum ağırlıklı bebekleri ve 130'u normal doğum ağırlıklı bebekleri olan 189 kadın üzerinde toplanmıştır. Önemli olduğu düşünülen dört değişken yaş, hastanın son adet dönemindeki kilosu, ırkı ve gebeliğin ilk üç ayında doktor ziyaretlerinin sayısıdır.

R olarak data(birthwt, package="MASS")veya Stata ile birlikte mevcuttur webuse lbw. Burada bir metin sürümü görünür: lowbwt.dat ( açıklama ). Dikkat çekici bir şekilde, bu veri setinin çeşitli versiyonları vardır, çünkü ALR bölüm 7'de Hosmer ve Lemeshow tarafından gösterildiği gibi bir vaka kontrol çalışmasına (yaş olarak eşleştirilmiş 1-1 veya 1-3) genişletilmiştir.

Aşağıdaki nedenlerden dolayı bu veri kümesine dayalı tanıtım kursları öğretirdim:

  • Tarihsel ve epidemiyolojik açıdan ilginçtir (veriler 1986'da toplanmıştır); ana fikirleri ve bu çalışmadan hangi soruların sorulabileceğini anlamak için tıpta veya istatistikte önceden bir arka plan gerekmez.
  • Mevcut temel ilişki testleri (t-testi, ANOVA, kolay hale getirir ki karışık türleri (sürekli, sıralama, nominal) çeşitli değişkenler mevcuttur iki yönlü tablolar için -test, oran-oranı, Cochrane ve Armitage eğilim testi vb.). Ayrıca, doğum ağırlığı sürekli bir ölçü olarak ve ikili bir gösterge olarak (2,5 kg'ın üstünde veya altında) mevcuttur: Basit doğrusal modeller oluşturmaya başlayabiliriz, ardından çoklu regresyon (önceki keşif analizinden seçilen ilgi tahminleri ile) ve sonra muhtemelen bir kesim seçimini tartışarak GLM'ye (lojistik regresyon) geçin.χ2
  • Farklı modelleme perspektiflerini (açıklayıcı veya tahmine dayalı yaklaşımlar) ve modeller geliştirirken örnekleme şemasının (katmanlaşma / eşleşen durumlar) tartışılmasını sağlar.

İstatistiksel yazılım veya genel olarak istatistiklerle izleyicilere ve uzmanlık düzeylerine bağlı olarak vurgulanabilecek diğer noktalar.

  1. R'de bulunan veri kümesine gelince, kategorik öngörücüler tamsayılar olarak puanlanır (örneğin annenin etnik kökenine göre '1' = beyaz, '2' = siyah, '3' = diğer), ancak bazı öngörücüler için doğal sıralamanın olmasına rağmen (örneğin, önceki erken işçilerin sayısı veya doktor ziyaretlerinin sayısı) veya açık etiketlerin kullanılması (olmasa bile ikili değişkenler için 1/0 yerine 'evet' / 'hayır' kullanmak her zaman iyi bir fikirdir ' t Tasarım matrisindeki herhangi bir şeyi değiştirmek!) basitçe yoktur. Bu nedenle, veri analizindeki düzey veya ölçü birimlerini göz ardı ederek hangi konuların gündeme getirilebileceğini tartışmak kolaydır.

  2. Bazı keşif analizleri yapmak ve tek değişkenli, iki değişkenli veya üç değişkenli ilişkileri özetlemek için ne tür grafiksel görüntülerin uygun olduğu tartışıldığında, karışık türlerin değişkenleri ilginçtir. Benzer şekilde, güzel özet tablolar üretmek ve daha genel olarak raporlamak, bu veri kümesinin bir başka ilginç yönüdür (ancak Hmisc::summary.formulakomut R altında bunu kolaylaştırır).

  3. Hosmer ve Lemeshow, konunun gizliliğini korumak için gerçek verilerin değiştirildiğini bildirmiştir (s. 25). Önceki Journal Club'ımızda olduğu gibi veri gizliliği konularını tartışmak ilginç olabilir , ancak transkriptine bakın . (İtiraf etmeliyim ki bu konuda asla fazla ayrıntıya girmem.)

  4. (A) kod çizelgesi ( Hmisc::describeveya Stata'nın codebook) veya keşif grafikleriyle (her zaman önce verilerinizi çizin!) ve (b) olası iyileştirme (veri toplama, listeye göre silme veya çift ilişkilendirme ölçüsü, vb.).


+1 Bu konunun yararlı olabileceğini gösteren ve diğer yanıtların hedefleyebileceği (ve yapması gereken) bir açıklama standardı sağlayan örnek bir cevap verdiğiniz için teşekkür ederiz .
whuber

Bu harika ve tam olarak ne sormak ile aradığını. Değerli içgörünüz için teşekkür ederim.
DA

5

Tabii ki, Anscombe 4 veri setleri öğretim için çok iyidir - çok farklı görünüyorlar, ancak aynı basit istatistiksel özelliklere sahipler.

Ayrıca KDD Cup veri kümelerini http://www.kdd.org/kddcup/ öneriyorum çünkü iyi çalışılmışlar ve birçok çözüm var, böylece öğrenciler sonuçlarını karşılaştırabilir ve nasıl sıralandıklarını görebilirler.

Veri madenciliği kursumda profesörler tarafından kullanılabilecek bir Microarray veri seti yarışması sağladım http://www.kdnuggets.com/data_mining_course/


Anscombe Quartet'e benzer şekilde pedagojik bir amaç için tasarlanmış diğer veri setleri için bu soruya bakın .
Silverfish

3

Cal Poly'deki İstatistiksel Analiz derslerimin birçoğu zaten R'de bulunan "İris" veri kümesini kullandı.


Son noktalarınızı genişletmek ister misiniz: Bu veri kümesi istatistiklerin öğretilmesine nasıl yardımcı olur? (AFAICT, iris veri kümesinin yalnızca kategorik bir değişkeni, yani iris sınıfı vardır.)
chl

İşte tamamen Iris veri kümesinin öğretimde kullanımı ile ilgili bir konu .
Silverfish

3

Harrell tarafından "Regresyon Modelleme Stratejileri" nde kullanılan Titanik veri seti. Lojistik regresyonu açıklarken, cinsiyet, sınıf ve yaş kullanarak hayatta kalmayı açıklarken analizinin basitleştirilmiş bir versiyonunu kullanıyorum.

Loyn veri seti Gerry Quinn ve Mick Keough tarafından "Deney Tasarımı ve biyologlar Veri Analizi"" de tartışılan çoklu doğrusal regresyon için dönüşüm yapılmasına gerek güzel sorunları içerir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.