“Java.nio.charset.MalformedInputException: Giriş uzunluğu = 1” ten kaçınmak için her şey dahil Karakter Kümesi?

Question 1

Java'da bir dizinin metin tabanlı dosyalarını okuyan basit bir wordcount programı oluşturuyorum.

Ancak, şu hatayı almaya devam ediyorum:

java.nio.charset.MalformedInputException: Input length = 1

bu kod satırından:

BufferedReader reader = Files.newBufferedReader(file,Charset.forName("UTF-8"));

Muhtemelen bunu anladığımı biliyorum çünkü Charsetmetin dosyalarındaki bazı karakterleri içermeyen, bazıları diğer dillerin karakterlerini içeriyordu. Ama bu karakterleri dahil etmek istiyorum.

Daha sonra JavaDocs'ta bunun Charsetisteğe bağlı olduğunu ve yalnızca dosyaların daha verimli okunması için kullanıldığını öğrendim , bu yüzden kodu şu şekilde değiştirdim:

BufferedReader reader = Files.newBufferedReader(file);

Ancak bazı dosyalar hala MalformedInputException. Neden bilmiyorum

Her şey dahil olup olmadığını merak ediyorum Charsetbeni karakterlerin birçok farklı türde metin dosyalarını okumak sağlayacak ?

Teşekkürler.

Question 2

Muhtemelen desteklenen kodlamaların bir listesine sahip olmak istersiniz. Her dosya için, sırayla her kodlamayı deneyin, belki UTF-8 ile başlayarak. Her yakaladığınızda MalformedInputException, sonraki kodlamayı deneyin.

Question 3

Files.newBufferedReader'dan BufferedReader Oluşturma

Files.newBufferedReader(Paths.get("a.txt"), StandardCharsets.UTF_8);

uygulamayı çalıştırırken aşağıdaki istisnayı atabilir:

java.nio.charset.MalformedInputException: Input length = 1

Fakat

new BufferedReader(new InputStreamReader(new FileInputStream("a.txt"),"utf-8"));

iyi çalışıyor.

Farklı olan, birincisinin CharsetDecoder varsayılan eylemini kullanmasıdır.

Hatalı biçimlendirilmiş girdi ve eşlenemeyen karakter hataları için varsayılan eylem, bunları bildirmektir .

ikincisi DEĞİŞTİR eylemini kullanırken.

cs.newDecoder().onMalformedInput(CodingErrorAction.REPLACE).onUnmappableCharacter(CodingErrorAction.REPLACE)

Question 4

ISO-8859-1, MalformedInputException oluşturmamasının garanti edilmesi anlamında her şeyi kapsayan bir karakter kümesidir. Dolayısıyla, girdiniz bu karakter kümesinde olmasa bile hata ayıklama için iyidir. Yani:-

req.setCharacterEncoding("ISO-8859-1");

Girişimde bazı çift sağ tırnak / çift sol tırnak karakterleri vardı ve hem US-ASCII hem de UTF-8 bunlara MalformedInputException attı, ancak ISO-8859-1 işe yaradı.

Question 5

Bu istisnayla da hata mesajı ile karşılaştım,

java.nio.charset.MalformedInputException: Input length = 1
at java.nio.charset.CoderResult.throwException(Unknown Source)
at sun.nio.cs.StreamEncoder.implWrite(Unknown Source)
at sun.nio.cs.StreamEncoder.write(Unknown Source)
at java.io.OutputStreamWriter.write(Unknown Source)
at java.io.BufferedWriter.flushBuffer(Unknown Source)
at java.io.BufferedWriter.write(Unknown Source)
at java.io.Writer.write(Unknown Source)

ve kullanmaya çalışırken tuhaf bir hata oluştuğunu tespit etti

BufferedWriter writer = Files.newBufferedWriter(Paths.get(filePath));

bir sınıfta genel bir türden bir String "orazg 54" dökümü yazmak için.

//key is of generic type <Key extends Comparable<Key>>
writer.write(item.getKey() + "\t" + item.getValue() + "\n");

Bu String, aşağıdaki kod noktalarına sahip karakterleri içeren 9 uzunluğundadır:

111114 97122103 9 53 52 10

Ancak, sınıftaki BufferedWriter şu şekilde değiştirilirse:

FileOutputStream outputStream = new FileOutputStream(filePath);
BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(outputStream));

bu String'i istisnasız başarıyla yazabilir. Ek olarak, karakterlerden aynı String oluşturmayı yazarsam hala çalışıyor.

String string = new String(new char[] {111, 114, 97, 122, 103, 9, 53, 52, 10});
BufferedWriter writer = Files.newBufferedWriter(Paths.get("a.txt"));
writer.write(string);
writer.close();

Daha önce herhangi bir Dizeyi yazmak için ilk BufferedWriter'ı kullanırken herhangi bir İstisna ile karşılaşmamıştım. Bu, java.nio.file.Files.newBufferedWriter'den (yol, seçenekler) oluşturulan BufferedWriter'da meydana gelen garip bir hatadır.

Question 6

ISO_8859_1 Benim için çalıştı! Virgülle ayrılmış değerler içeren metin dosyasını okuyordum

Question 7

bunu deneyin .. aynı sorunu yaşadım, aşağıdaki uygulama benim için çalıştı

Reader reader = Files.newBufferedReader(Paths.get(<yourfilewithpath>), StandardCharsets.ISO_8859_1);

ardından Reader'ı istediğiniz yerde kullanın.

foreg:

CsvToBean<anyPojo> csvToBean = null;
    try {
        Reader reader = Files.newBufferedReader(Paths.get(csvFilePath), 
                        StandardCharsets.ISO_8859_1);
        csvToBean = new CsvToBeanBuilder(reader)
                .withType(anyPojo.class)
                .withIgnoreLeadingWhiteSpace(true)
                .withSkipLines(1)
                .build();

    } catch (IOException e) {
        e.printStackTrace();
    }

Question 8

Mevcut karakter kümelerine göre standart hale getirilecek sonuçların bir listesini yazdırmak için aşağıdakileri yazdım. Ayrıca, hangi karakterin sorunlara neden olduğunu gidermeniz durumunda, 0 tabanlı bir satır numarasından hangi satırın başarısız olduğunu da söyler.

public static void testCharset(String fileName) {
    SortedMap<String, Charset> charsets = Charset.availableCharsets();
    for (String k : charsets.keySet()) {
        int line = 0;
        boolean success = true;
        try (BufferedReader b = Files.newBufferedReader(Paths.get(fileName),charsets.get(k))) {
            while (b.ready()) {
                b.readLine();
                line++;
            }
        } catch (IOException e) {
            success = false;
            System.out.println(k+" failed on line "+line);
        }
        if (success) 
            System.out.println("*************************  Successs "+k);
    }
}

Question 9

Sorun şu ki Files.newBufferedReader(Path path)şu şekilde uygulanıyor:

public static BufferedReader newBufferedReader(Path path) throws IOException {
    return newBufferedReader(path, StandardCharsets.UTF_8);
}

Bu nedenle UTF-8, kodunuzda açıklayıcı olmak istemediğiniz sürece , temelde belirtmenin bir anlamı yoktur . "Daha geniş" bir karakter seti denemek istiyorsanız, deneyebilirsiniz StandardCharsets.UTF_16, ancak yine de olası her karakteri alacağınızdan% 100 emin olamazsınız.

Question 10

bunun gibi bir şey deneyebilir veya sadece aşağıdaki parçayı kopyalayıp yapıştırabilirsiniz.

boolean exception = true;
Charset charset = Charset.defaultCharset(); //Try the default one first.        
int index = 0;

while(exception) {
    try {
        lines = Files.readAllLines(f.toPath(),charset);
          for (String line: lines) {
              line= line.trim();
              if(line.contains(keyword))
                  values.add(line);
              }           
        //No exception, just returns
        exception = false; 
    } catch (IOException e) {
        exception = true;
        //Try the next charset
        if(index<Charset.availableCharsets().values().size())
            charset = (Charset) Charset.availableCharsets().values().toArray()[index];
        index ++;
    }
}

Question 11

UTF-8, Lehçe karakterlerle benim için çalışıyor