Python'un büyük verilerle çalışmak için çok iyi araçları var:
dizi
Numpy'nin bellekle eşlenen dizileri, diskte kaydedilmiş bir dosyaya bir diziymiş gibi erişmenizi sağlar. Dizinin yalnızca aktif olarak çalıştığınız bölümlerinin belleğe yüklenmesi gerekir. Sıradan bir dizi ile hemen hemen aynı şekilde kullanılabilir.
h5py ve pire
Bu iki kütüphane HDF5 dosyalarına erişim sağlar. Bu dosyalar verilerin sadece bir kısmına erişime izin verir. Ayrıca, verilere erişmek için kullanılan temel kütüphaneler sayesinde, verilerin bir çok matematiksel işlemi ve diğer manipülasyonları, bir python veri yapısına yüklenmeden yapılabilir. 5 TB'tan çok daha büyük, büyük yapılandırılmış dosyalar mümkündür. Ayrıca kesintisiz, kayıpsız sıkıştırma sağlar.
veritabanları
Büyük veri kümelerini depolamanıza ve yalnızca ihtiyacınız olan parçaları yüklemenize olanak tanıyan çeşitli veritabanı türleri vardır. Birçok veritabanı, verileri bir python veri yapısına yüklemeden manipülasyonlar yapmanıza izin verir.
pandalar
Bu, HDF5 verileri, csv dosyaları, veritabanları ve hatta web siteleri dahil olmak üzere çeşitli veri türlerine daha yüksek düzeyde erişim sağlar. Büyük veri için, HDF5 dosya erişimi etrafında büyük veri kümeleri üzerinde analiz yapmayı kolaylaştıran sarmalayıcılar sağlar.
mpi4py
Bu, python kodunuzu birden çok işlemci veya hatta birden fazla bilgisayarda dağıtılmış bir şekilde çalıştırmak için bir araçtır. Bu, verilerinizin bölümleri üzerinde aynı anda çalışmanıza olanak tanır.
dask
Belleğe sığmayacak kadar büyük veriler üzerinde çalışabilen normal numpy işlemlerinin çoğunu çok çekirdekli bir şekilde destekleyen normal numpy dizisinin bir sürümünü sağlar.
yangın
Özellikle büyük veriler için tasarlanmış bir araç. Temel olarak, yukarıdaki kütüphanelerin etrafında, büyük miktarlarda veriyi (HDF5 veya veritabanları gibi) ve manipülasyonu, matematiksel işlemleri gerçekleştirmeyi ve analiz etmeyi kolaylaştıran araçları depolamak için çeşitli farklı yöntemlere tutarlı arayüzler sağlayan bir sargıdır. hafızaya sığmayacak kadar büyük.