Göre Hadoop - The Definitive Guide
FileInputFormats tarafından tanımlanan mantıksal kayıtlar, genellikle HDFS bloklarına düzgün bir şekilde sığmaz. Örneğin, TextInputFormat'ın mantıksal kayıtları, HDFS sınırlarını hiç olmadığı kadar sıklıkla aşan çizgilerdir. Bunun programınızın işleyişiyle bir ilgisi yoktur - örneğin, satırlar gözden kaçmaz ya da kopmaz - ancak veri-yerel haritalar (yani, kendi bilgisayarlarıyla aynı ana bilgisayarda çalışan haritalar) anlamına geldiği için bilmeye değer. giriş verileri) bazı uzaktan okumalar gerçekleştirecektir. Bunun neden olduğu hafif ek yük normalde önemli değildir.
Bir kayıt çizgisinin iki bloğa (b1 ve b2) bölündüğünü varsayalım. İlk bloğu (b1) işleyen eşleyici, son satırın bir EOL ayırıcısı olmadığını fark edecek ve satırın kalanını bir sonraki veri bloğundan (b2) alacaktır.
İkinci bloğu (b2) işleyen eşleyici, ilk kaydın eksik olduğunu ve (b2) bloğundaki ikinci kayıttan başlayarak işlem yapması gerektiğini nasıl belirler?
LineReader.readLine
ilgili olduğunu düşünmüyorum, ancak gerekirse daha fazla ayrıntı ekleyebilir.