G van Belle'nin İstatistiksel Kurallar Kuralları kitabını ve daha az ölçüde , Phillip I Good ve James W. Hardin'den İstatistiklerde (ve Onlardan Nasıl Kaçınmalı) Sıkça Hatalar kitabını seviyorum . Deneysel ve gözlemsel çalışmalardan elde edilen sonuçları yorumlarken genel tuzaklara değiniyor ve istatistiksel çıkarım ya da keşifsel veri analizi için pratik öneriler sunuyorlar. Ancak, “modern” kuralların, özellikle çeşitli alanlarda hesaplamalı ve güçlü istatistiklerin giderek artan kullanımı ya da örneğin klinik biyostatik ya da genetik epidemiyoloji gibi makine öğrenen topluluğun tekniklerinin tanıtılmasıyla biraz eksik olduğunu hissediyorum.
Başka yerde ele alınabilecek veri görselleştirmedeki hesaplama püf noktaları veya yaygın tuzaklar dışında, şunu sormak isterim: Verimli veri analizi için tavsiye edebileceğiniz en önemli kurallar nelerdir? ( cevap başına bir kural, lütfen ).
Bir meslektaşınıza, istatistiksel modelleme konusunda güçlü bir geçmişi olmayan bir araştırmacıya veya orta ila ileri düzeydeki bir öğrenciye verebileceğiniz kılavuzları düşünüyorum. Bu, örnekleme stratejileri, özellik seçimi veya model oluşturma, model karşılaştırma, tahmin sonrası vb. Gibi çeşitli veri analiz aşamaları ile ilgili olabilir.