Veri madencileri için deneysel tasarım dersi


11

Veri madenciliğinde çalışan bir bilgisayar bilimcisiyim. Bilgisayar bilimcilerinin sistematik deneysel tasarım ve değerlendirme yapmada oldukça fakir olduklarını söylemek bir sır değil - p-değerleri ve güven tahminlerinin kullanımı ileri kabul ediliyor :).

Bilgisayar bilim insanlarına iyi deneysel tasarım hakkında bilgi vermek için iyi dersler / materyaller olup olmadığını bilmek istiyorum. Bunu daha spesifik hale getirmek için aşağıdaki bilgileri ekleyeceğim:

  • Bu ders, olasılık hakkında makul bir anlayışa sahip olduğu ancak istatistiklerde sınırlı bir arka plana sahip olduğu düşünülen lisansüstü öğrencileri hedeflemelidir.
  • Kurs, "kontrolsüz doğal olmayan ortamlarda" deneysel tasarıma odaklanmalıdır: diğer bir deyişle, temel bir fiziksel zemin gerçeği veya veri toplama sürecini kontrol etmenin bir yolu yoktur (insan deneklerde olduğu gibi). Elbette iyi bir kurs temellere odaklanacaktır, ancak bu senaryoyu önemli bir şekilde ele almalıdır.
  • Hesaplama öğesi bir bonus olabilir, ancak zorunlu değildir. Çok fazla veriyle ilgileniyoruz, ancak gerekirse hesaplama sorunlarını kendimiz bulabiliriz.

1
Açıkladığınız deneyin tüm koşulları bana A / B-Testlerini hatırlatıyor ... tesadüf mü? :)
steffen

Yanıtlar:


5

[Noah Smith] [1] ve [David Smith] [2] bir süre önce JHU'da benzer motivasyonlarla bir kurs sundular.

anahat:

  • Ders 1: giriş, istatistiklerin gözden geçirilmesi, hipotez testi, örnekleme
  • Ders 2: ilgi istatistikleri: ortalamalar, miktarlar, varyans
  • Ders 3-4: çalışma zamanı ve “boşluk” ile deneyler
  • Ders 5: Keşifsel veri analizi
  • Ders 6: parametrik modelleme, regresyon ve sınıflandırma
  • Ders 7: İstatistiksel hata ayıklama ve profil oluşturma
  • Ders 8: özet ve inceleme

Ayrıntılar için, bkz. Bilgisayar Biliminde Ampirik Araştırma Yöntemleri (600.408) http://www.cs.jhu.edu/~nasmith/erm/



3

İyi soru. Yanıtları görmeye hevesliyim.

İstatistiksel açıdan bakıldığında iki konunun ele alınması gerekir: çoğu istatistik ve istatistiksel tasarım küçük örnek istatistikleri tartışır ve mühendisler tarafından kullanılan yöntemlerin çoğu "modern" istatistik değildir.

Veri madenciliği / araştırmasında iyi eğitimin yanı sıra nüfus (veya büyük örneklem) istatistiklerinin analizi ile karşılaşıldığında istatistiksel olarak farklı olmanın ötesinde ilk sorun için hemen bir öneri yok.

Bununla birlikte, öğrencileri istatistiklere tanıtmak için ilgi çekici iki kitap Rand Wilcox'tan (bir psikolog) olacaktır:

Wilcox, RR (2012). Sağlam Tahmin ve Hipotez Testlerine Giriş, 3. Baskı. Akademik Basın.

Wilcox, RR (2010). Modern İstatistiksel Yöntemlerin Temelleri: Gücü ve Doğruluğu Önemli ölçüde Geliştirmek, Springer, 2. Baskı.


2
Bana öyle geliyor ki ilk konu araştırma için bir konu ve henüz "en iyi uygulamalar" olmayabilir. Çok sayıda hipotez probleminde temel test ve sondajlara sağlam bir girişin başlamak için en iyi yer olması çok iyi olabilir.
Suresh Venkatasubramanian
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.