Veri madenciliği, Açıklayıcı veya Öngörülü olarak kategorize edilir. Açıklayıcı veri madenciliği, büyük veri kümelerini araştırmak ve verilerdeki beklenmedik yapıların veya ilişkilerin, örüntülerin, eğilimlerin, kümelerin ve aykırı değerlerin yerlerini bulmaktır. Öte yandan, Öngörücü, regresyon, sınıflandırma, örüntü tanıma veya makine öğrenimi görevleri için modeller ve prosedürler oluşturmak ve yeni verilere uygulandığında bu modellerin ve prosedürlerin tahmini doğruluğunu değerlendirmektir.
Yüksek boyutlu verilerde desen veya yapı aramak için kullanılan mekanizma manuel veya otomatik olabilir; arama, bir veritabanı yönetim sisteminin etkileşimli olarak sorgulanmasını gerektirebilir veya verilerdeki anormallikleri tespit etmek için görselleştirme yazılımı kullanılmasını gerektirebilir. Makine öğrenimi terimleriyle, tanımlayıcı veri madenciliği gözetimsiz öğrenme, tahmini veri madenciliği ise denetimli öğrenme olarak bilinir.
Veri madenciliğinde kullanılan yöntemlerin çoğu istatistik ve makine öğreniminde geliştirilen yöntemlerle ilgilidir. Bu yöntemlerin başında regresyon, sınıflandırma, kümeleme ve görselleştirme genel konuları gelmektedir. Veri setlerinin muazzam boyutları nedeniyle, veri madenciliğinin birçok uygulaması boyutsallık azaltma tekniklerine (örneğin, değişken seçimi) ve yüksek boyutlu verilerin daha düşük boyutlu hiper düzlemlerde yattığından şüphelenildiği durumlara odaklanmaktadır. Son zamanlardaki dikkat, doğrusal olmayan yüzeyler veya manifoldlar üzerinde bulunan yüksek boyutlu verileri tanımlama yöntemlerine yöneliktir.
İstatistiksel çıkarımın - klasik anlamda - ya hiçbir anlamı olmadığı veya şüpheli geçerliliği olduğu durumlarda veri madenciliğinde de durumlar vardır: birincisi, cevapları aramak için tüm popülasyona sahip olduğumuzda ve ikincisi bir veri kümesi bir Bazı büyük popülasyonlardan elde edilen rastgele bir örnek olmaktan ziyade “kolaylık” örneği. Veriler zaman içinde toplandığında (örn. Perakende işlemler, borsa işlemleri, hasta kayıtları, hava kayıtları) örnekleme de mantıklı olmayabilir; Gözlemlerin zaman sıralaması, veri üreten fenomeni anlamak için çok önemlidir ve gözlemlerin birbirleriyle yüksek düzeyde ilişkilendirilebilecekleri zaman bağımsız olarak ele alınması önyargılı sonuçlar sağlayacaktır.
Veri madenciliğinin temel bileşenleri - istatistiksel teori ve yöntemlere ek olarak - hesaplama ve hesaplama verimliliği, otomatik veri işleme, dinamik ve etkileşimli veri görselleştirme teknikleri ve algoritma geliştirmedir.
Veri madenciliğinde en önemli konulardan biri, ölçeklenebilirliğin hesaplama problemidir . Standart keşif ve doğrulayıcı istatistiksel yöntemlerin hesaplanması için geliştirilen algoritmalar, küçük ve orta ölçekli veri kümelerine uygulandığında hızlı ve hesaplama açısından verimli olacak şekilde tasarlanmıştır; yine de, bu algoritmaların çoğunun çok büyük veri setlerini ele alma zorluğuna gelmediği gösterilmiştir. Veri setleri büyüdükçe, mevcut algoritmaların çoğu dramatik bir şekilde yavaşlama eğilimi gösterir (hatta durma noktasına gelir).