Hive ile kullanılabilen depolama formatları üzerinde birkaç test yapıyorum ve ana seçenekler olarak Parquet ve ORC'yi kullanıyorum. ORC'yi bir kez varsayılan sıkıştırmayla ve bir kez de Snappy ile dahil ettim.
ORC'ye kıyasla Parquet'in zaman / mekan karmaşıklığında daha iyi olduğunu belirten birçok belge okudum, ancak testlerim geçtiğim belgelerin tam tersi.
Verilerimin bazı ayrıntılarını takip eder.
Table A- Text File Format- 2.5GB
Table B - ORC - 652MB
Table C - ORC with Snappy - 802MB
Table D - Parquet - 1.9 GB
Masam için kompresyon söz konusu olduğunda parke en kötüydü.
Yukarıdaki tablolarla yaptığım testler aşağıdaki sonuçları verdi.
Satır sayma işlemi
Text Format Cumulative CPU - 123.33 sec
Parquet Format Cumulative CPU - 204.92 sec
ORC Format Cumulative CPU - 119.99 sec
ORC with SNAPPY Cumulative CPU - 107.05 sec
Bir sütun işleminin toplamı
Text Format Cumulative CPU - 127.85 sec
Parquet Format Cumulative CPU - 255.2 sec
ORC Format Cumulative CPU - 120.48 sec
ORC with SNAPPY Cumulative CPU - 98.27 sec
Bir sütun işleminin ortalaması
Text Format Cumulative CPU - 128.79 sec
Parquet Format Cumulative CPU - 211.73 sec
ORC Format Cumulative CPU - 165.5 sec
ORC with SNAPPY Cumulative CPU - 135.45 sec
Where cümlesini kullanarak belirli bir aralıktan 4 sütun seçme
Text Format Cumulative CPU - 72.48 sec
Parquet Format Cumulative CPU - 136.4 sec
ORC Format Cumulative CPU - 96.63 sec
ORC with SNAPPY Cumulative CPU - 82.05 sec
Bu ORC'nin Parquet'ten daha hızlı olduğu anlamına mı geliyor? Veya sorgu yanıt süresi ve sıkıştırma oranıyla daha iyi çalışmasını sağlamak için yapabileceğim bir şey var mı?
Teşekkürler!