Bu soruyu bir örnekle önereceğim.
Sürekli ve kategorik değişkenlerim olan Boston'daki konut fiyat veri seti gibi bir veri setimin olduğunu varsayalım. Burada, 1-10 arasında bir "kalite" değişkeni ve satış fiyatı var. Verileri "düşük", "orta" ve "yüksek" kaliteli evlere (keyfi) kalite için kesikler oluşturarak ayırabilirim. Ardından, bu grupları kullanarak satış fiyatlarının histogramlarını birbirine çizebilirim. Gibi:
Burada "düşük" , "yüksek" ise "kalite" puanında . Şimdi üç grubun her biri için satış fiyatlarının bir dağıtımını yapıyoruz. Orta ve yüksek kaliteli evler için konum merkezinde bir fark olduğu açıktır. Şimdi, bunların hepsini yaptıktan sonra, "Hm. Merkezin merkezinde bir fark var gibi görünüyor! Neden araçlar üzerinde t-testi yapmıyorum?" Sonra, araçların hiçbir farkı olmadığı boş hipotezini doğru bir şekilde reddetmiş görünen bir p-değeri alıyorum.
Şimdi, veriyi çizinceye kadar bu hipotezi test etmek için aklımda hiçbir şey olmadığını varsayalım .
Bu veri araştırılıyor mu?
Düşündüğümde hala veri tarama var mı: "Hm, daha yüksek kalitede evler daha pahalı, çünkü daha önce bir evde yaşayan bir insanım. Verileri belirleyeceğim. Ah ha! Farklı görünüyor! Zaman t-testi yapmak için! "
Doğal olarak, bu hipotezi başlangıçtan itibaren test etmek amacıyla toplanan verilerin toplanması, veri tarama değildir. Ancak çoğu zaman bize verilen veri setleriyle çalışmak zorundadır ve “kalıpları aramaları” söylenir. Birisi, bu belirsiz görev göz önünde bulundurularak verilerin taranmasından nasıl kaçınır? Verileri test etmek için bekletme setleri oluştur? Görselleştirme, veriler tarafından önerilen bir hipotezi test etme fırsatı için gözetleme olarak sayılıyor mu?