Haklı olarak not ettiğiniz gibi, bu günlerde "büyük veriler" herkesin sahip olduklarını söylemek istediği bir şeydir; bu, insanların terimi nasıl tanımladıklarına dair belirli bir gevşeklik gerektirir. Yine de, genel olarak, eğer en azından Hadoop gibi büyük veri teknolojileriyle tamamlamadan, RDBMS gibi daha geleneksel teknolojilerle yönetmenin artık mümkün olmadığı durumlarda, kesinlikle büyük verilerle uğraştığınızı söyleyebilirim.
Durum böyle olması için verilerinizin gerçekte ne kadar büyük olması gerektiği tartışmalıdır. İşte , 5 TB'tan daha az veri için uygun olmadığını iddia eden (biraz kışkırtıcı) bir blog yazısı . (Daha açık olmak gerekirse, "5 TB'den daha az büyük veri değildir" anlamına gelmez, sadece "5 TB'dan daha az Hadoop'a ihtiyacınız olacak kadar büyük değildir" demiştir.)
Ancak, daha küçük veri kümelerinde bile, Hadoop gibi büyük veri teknolojileri, toplu işlemlere uygun olma, yapılandırılmamış verilerle (aynı zamanda yapısı önceden bilinmeyen veya değişmeyen veriler) iyi bir şekilde çalma, yatay ölçeklenebilirlik gibi diğer avantajlara sahip olabilir. mevcut sunucularınızı güçlendirmek yerine daha fazla düğüm ekleyerek ölçeklendirme) ve (yukarıdaki bağlantılardaki notlardaki yorumculardan biri olarak) veri işlemenizi harici veri kümeleriyle bütünleştirme yeteneği (bir haritayı düşünün - eşleştiricinin bulunduğu yeri azaltın) başka bir sunucuya çağrı yapar). NoSql veritabanları gibi büyük verilerle ilişkili diğer teknolojiler, hızlı bir performans ve tutarlı kullanılabilirliği vurgularken, büyük veri kümelerinin yanı sıra yarı yapılandırılmamış verileri idare edebilme ve yatay ölçeklendirebilir.
Elbette, geleneksel RDBMS, ACID garantileri (Atomiklik, Tutarlılık, İzolasyon, Dayanıklılık) ve belirli işlemler için daha iyi performansın yanı sıra daha standart hale getirilmiş, daha olgun ve (birçok kullanıcı için) daha aşina olmak üzere kendi avantajlarına sahiptir. Dolayısıyla, tartışmasız "büyük" veriler için bile, verilerinizin en az bir bölümünü geleneksel bir SQL veritabanına yüklemek ve bunu büyük veri teknolojileriyle birlikte kullanmak mantıklı olabilir.
Bu nedenle, daha cömert bir tanım, büyük veri teknolojilerinin sizin için bir katma değer sağlaması için yeterince büyük olduğu sürece büyük verilere sahip olmanızdır. Ancak görebildiğiniz gibi, bu yalnızca verilerinizin boyutuna değil, onunla nasıl çalışmak istediğinize ve esneklik, tutarlılık ve performans açısından ne tür gereksinimleriniz olduğuna bağlı olabilir. Nasıl verilerinizi kullandığınız kullandıysanız bunu olandan soruya daha alakalı için (örneğin veri madenciliği). Bununla birlikte, veri madenciliği ve makine öğrenmesi gibi kullanımların, çalışmak için yeterince büyük bir veri kümeniz varsa, faydalı sonuçlar vermesi daha olasıdır.