Herhangi bir veri kümesiyle yapabileceğiniz temel şeyler vardır:
- Değerleri doğrulayın (Dize uzunluğu toleransı, veri türü, biçimlendirme maskeleri, gerekli alan varlığı vb.)
- Aralık doğruluğu (Bu, görünüşte doğru veriler beklenen değer aralıklarına giriyor mu?)
- Ön işleme (Bu verileri analiz etmeye çalışırsam, hatalarla karşılaşmadan temel bilgileri gerçekleştirebilir miyim)
- Ön raporlama (bir veri kümesine karşı bir rapor çalıştırın ve bir sağlık testinden geçtiğinden emin olun)
- Herhangi bir veri sütunu için null - empty - zero vs. False tanımlanması
- Yerinde olmayan verileri belirleme (sayısal değerler veri kümesindeki diğer değerlerden önemli ölçüde farklı, yanlış yazılmış gibi görünen dize değerleri vb.)
- Açıkça hatalı verileri ortadan kaldırmak veya düzeltmek
Hataları tanımlamak için verileri anlamak tamamen farklı bir top oyunudur ve çok önemlidir.
Örneğin, belirli bir veri kümesinde seri numarasının bulunması ve seri numarasının maksimum dize uzunluğu 255 ve minimum dize uzunluğu 5 olmak üzere alfasayısal olması gerektiğini söyleyen bir kuralınız olabilir.
Verilere bakarak, belirli bir seri numarası değeri okuyor bulabilirsiniz "PLEASE ENTER SERIAL"
Bu tamamen geçerli, ancak yanlış.
Bu çok açık bir şey, ancak hisse senedi verilerini işlediğinizi ve bir doların altındaki 1000 hisse senedi için bir fiyat aralığınız olduğunu varsayalım. Birçok insan, belirli borsalarda bu kadar düşük bir hisse senedi fiyatının geçersiz olduğunu ve diğerlerinde mükemmel bir şekilde geçerli olduğunu bilemez. Gördüğünüz şeyin sorunlu olup olmadığını anlamak için verileriniz hakkında bilgiye ihtiyacınız var.
Gerçek dünyada, verilerinizi her zaman yakından anlama lüksüne sahip değilsiniz.
Sorunlardan kaçınma yolum etrafımdaki insanları güçlendirmektir. Küçük veri kümeleri için, birisinden verileri bütünüyle incelemesini isteyebilirim. Büyük olanlar için, bir dizi rastgele numune çekmek ve birisinden veriler üzerinde bir sağlık kontrolü yapmasını istemek daha uygundur.
Ayrıca, verilerin kaynağını ve bu veri kaynağına ne kadar güvenilir olabileceğini sorgulamak zorunludur. Sıklıkla birbiriyle çelişen birden çok veri kaynağım var ve "gerçeğin kaynağı" nı belirlemek için kurallar oluşturuyoruz. Bazen bir veri kümesinin belirli bir açıdan mükemmel verileri vardır, ancak diğer veri kümeleri diğer alanlarda daha güçlüdür.
Manuel olarak girilen veriler genellikle en şüpheci olduğum şeydir, ancak bazı durumlarda otomasyon yoluyla edinilebilecek her şeyden daha güçlüdür.