HDFS “-appendToFile” dosyanın son satırını bozuyor


0

Özetle, işte benim örnek kod.

file1 = CSV ile ayrılmış dosya, 1000 satır

file2 = CSV ayrılmış dosya, 3000 satır

file3 = CSV ile ayrılmış dosya, 10000 satır


hdfs dfs - giriş dosya1 / ana sayfa / new_hdfs_file

hdfs dfs -appendToFile file2 / home / new_hdfs_file

hdfs dfs -appendToFile file3 / home / new_hdfs_file


Aşağıdaki komutları uyguladığımda, her appendToFile dosyasının son satırı bozulur ve verileri değiştirir, bazen çoğaltır, bazen parçalarını kaldırır. Mesele şu ki, son çizgiyi bozuyor.

Örnek olarak, 1000, 4000 (1000 + 3000) ve 14000 sıraları bozulur. Bunu hiçbir şekilde açıklayamam. Görünüşe göre hdfs, CSV dosyalarını eklemekten hoşlanmıyor. Bunu yapmamın nedeni, kilobayt değil gigabayt olan dosyalarımın olmasıdır. Ve bu kadarını hafızaya alamıyor.

Bunu başka biri yaşadı mı? etrafında yol var mı?


Hangi işletim sistemini kullanıyorsunuz? Dosyalarınız satır sonlandırıcılarla bitiyor mu?
Scott

Linux işletim sistemi ve onlar yapar. Tüm çizgiler linux tarafında eşittir ve \ n ile biter. Ancak HDFS'ye eklendiğinde atılıyor. Henüz satır ayırıcı olarak denemedim.
DoctorDawg

Başka bir özellik Python'dan okurken bu bozuk satırlara \ x00 eklemesidir.
DoctorDawg
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.