Açıkçası evet.
Veri analizi, tahmine dayalı modelinize zarar verecek birçok noktaya yol açabilir:
Eksik veri
Nicel verilerden bahsettiğimizi varsayarsak, sütunu göz ardı etmek isteyip istemediğinize karar vermeniz gerekir (çok fazla veri varsa) veya "varsayılan" değerinizin ne olacağını bulmak zorundasınız (Ortalama, Mod, vb.). İlk önce verilerinizi keşfetmeden bunu yapamazsınız.
Anormal veri
Oldukça güçlü bir korelasyon ama olan verilerin% 2 olduğu verileriniz var ki yolu bu korelasyonun kapatır. Tahmini modelinize yardımcı olmak için bu verileri tamamen kaldırmak isteyebilirsiniz.
Çok fazla ilişkilendirmeye sahip sütunları kaldır
Tamam, bu biraz önceki noktamla çelişiyor ama ingilizce benim ana dilim değil bu yüzden anlayacağınızı umuyorum.
Aptal bir örnek alacağım, bir futbol stadyumu veri setini analiz ettiğinizi Width, Length, Area
ve parametreleriniz olduğunu söyleyeceğim . Bu üç parametrenin güçlü bir şekilde ilişkilendirileceğini kolayca hayal edebiliriz. Sütununuz arasında çok fazla korelasyon olması tahmin modelini yanlış yöne yönlendirir. Parametrelerden birini veya daha fazlasını temizlemeye karar verebilirsiniz.
Yeni özellikler bul
Küçük Titanic Kaggle "Yarışması" örneğini alacağım . İnsanların isimlerine bakarken, kişinin özelliklerinden birini çıkarabileceğinizi anlayabilirsiniz Title
. Bu özellik modelleme söz konusu olduğunda oldukça önemli olduğu ortaya çıkıyor, ancak önce verilerinizi analiz etmeseydiniz kaçırırdınız.
Sürekli verilerinizi bölmeye karar verebilirsiniz, çünkü bu daha uygun hissettirir veya sürekli bir özelliği kategorik olana dönüştürür.
Ne tür bir algoritma kullanacağınızı bulun
Şu anda arsa çizemem, ama bunu basit bir örnek yapalım.
Bir özellik sütunu ve bir ikili (sadece 0 veya 1) "sonuç" sütunu olan küçük bir modeliniz olduğunu hayal edin. Bu veri kümesi için tahmine dayalı bir sınıflandırma modeli oluşturmak istiyorsunuz.
Bir kez daha bir örnek olarak, onu çizecekseniz (soo, verilerinizi analiz edin), arsanın 1 değerinizin etrafında mükemmel bir daire oluşturduğunu fark edebilirsiniz. Böyle bir senaryoda, doğrudan DNN'ye atlamak yerine harika bir model elde etmek için bir polinom sınıflandırıcısını kullanabileceğinizi açıkça belirtmek gerekirse. (Açıkçası, benim örneğimde sadece iki sütun olduğunu düşünürsek, bu mükemmel bir örnek değil, ama sen anladın)
Genel olarak, önce verilere bakmazsanız, öngörücü bir modelin iyi performans göstermesini bekleyemezsiniz.
[descriptive-statistics]
etiketi de ekliyorsunuz ve son sorunuz açıklayıcı istatistiklerin önemli olup olmadığı. Bu bağlamda, yalnızca EDA'dan bahsettiğinizde çeşitli tanımlayıcı istatistikleri hesaplamak mı istiyorsunuz yoksa hem tanımlayıcı istatistikler hem de EDA'yı mı soruyorsunuz? Soruyorum çünkü çoğu insan (ben dahil) EDA'yı tanımlayıcı istatistiklerden daha fazlası olarak düşünüyor.