Unicode'da, bazı karakter kombinasyonlarının birden fazla gösterimi vardır.
Örneğin, ä karakteri şu şekilde temsil edilebilir:
- "ä", yani U + 00E4 kod noktası (
c3 a4
UTF-8 kodlamasında iki bayt ) veya - "ä", bu iki kod noktasıdır U + 0061 U + 0308 (
61 cc 88
UTF-8'de üç bayt ).
Unicode standardına göre, iki temsil eşdeğerdir ancak farklı "normalizasyon formlarında", bkz. UAX # 15: Unicode Normalizasyon Formları .
Unix araç kutusu her türlü metin dönüştürme aracına sahiptir, sed , tr , iconv , Perl akla geliyor. Komut satırında hızlı ve kolay NF dönüşümünü nasıl yapabilirim?
perl -MUnicode::Normalization -e 'print NFC(
… şimdi buraya ne gelirse…