İstatistiklerde, Veri Madenciliği gibi, verilerle ve bir hedefle başlarsınız. İstatistiklerde çıkarım, yani bir örnek kullanarak nüfus düzeyindeki soruları cevaplamaya çok fazla odaklanılmaktadır. Veri madenciliğinde odak genellikle tahmindir: test verilerini tahmin etmek için numunenizden (egzersiz verileri) bir model oluşturursunuz.
İstatistiklerdeki süreç şu şekildedir:
Özetleri ve grafikleri kullanarak verileri keşfedin - istatistikçinin verilere nasıl yönlendirildiğine bağlı olarak, bazıları verilere tüm açılardan bakarken daha açık fikirli olurken, diğerleri (özellikle sosyal bilimciler) verilere ilgi konusu (örneğin, başkalarını değil, özellikle ilgili değişkenleri çizin)
Uygun bir istatistiksel model ailesi seçin (örn. Sürekli Y için doğrusal regresyon, ikili Y için lojistik regresyon veya sayım verileri için Poisson) ve model seçimi yapın
Son modeli tahmin edin
Makul bir şekilde karşılandıklarından emin olmak için model varsayımlarını test edin (veri madenciliğinde tahmin doğruluğu testinden farklı)
Çıkarım için modeli kullanın - bu, veri madenciliğinden farklı ana adımdır. "P-value" kelimesi buraya gelir ...
Herhangi bir temel istatistik ders kitabına bir göz atın ve Keşif Veri Analizi ve ardından bazı dağılımlar (makul tahmin modellerinin seçilmesine yardımcı olacak), ardından çıkarım (güven aralıkları ve hipotez testleri) ve regresyon modelleri ile ilgili bir bölüm bulacaksınız.
Size klasik istatistiksel süreci anlattım. Ancak, bununla ilgili birçok sorunum var. Çıkarım üzerine odaklanma tamamen alanlara hâkim olmuşken, tahmin (son derece önemli ve yararlı) neredeyse ihmal edilmiştir. Dahası, sosyal bilimcilerin çıkarsama için istatistikleri nasıl kullandıklarına bakarsanız, bunu oldukça farklı kullandıklarını göreceksiniz! Bununla ilgili daha fazla bilgiyi buradan edinebilirsiniz