Özetle, işte benim örnek kod.
file1 = CSV ile ayrılmış dosya, 1000 satır
file2 = CSV ayrılmış dosya, 3000 satır
file3 = CSV ile ayrılmış dosya, 10000 satır
hdfs dfs - giriş dosya1 / ana sayfa / new_hdfs_file
hdfs dfs -appendToFile file2 / home / new_hdfs_file
hdfs dfs -appendToFile file3 / home / new_hdfs_file
Aşağıdaki komutları uyguladığımda, her appendToFile dosyasının son satırı bozulur ve verileri değiştirir, bazen çoğaltır, bazen parçalarını kaldırır. Mesele şu ki, son çizgiyi bozuyor.
Örnek olarak, 1000, 4000 (1000 + 3000) ve 14000 sıraları bozulur. Bunu hiçbir şekilde açıklayamam. Görünüşe göre hdfs, CSV dosyalarını eklemekten hoşlanmıyor. Bunu yapmamın nedeni, kilobayt değil gigabayt olan dosyalarımın olmasıdır. Ve bu kadarını hafızaya alamıyor.
Bunu başka biri yaşadı mı? etrafında yol var mı?