Japonca kullanılmayan bir Han ideografisinden (örneğin, bir çince veya kore dili varyantı) bir Japon kanji ayırmak mümkün değildir (büyük bir tablo kullanmadan).
Sadece temel aralıktaki herhangi bir Han ideografını (\ u4e00 ila \ u9fff) tespit etmek istiyorsanız, bunlar 3 baytta kodlanır, ilk bayt her zaman 0xe4 ve 0xe9 arasındadır, ikinci ve üçüncü bayt 0x80 ve 0xbf arasındadır.
Burada iki zorluk var: önce grep'e karakterlere değil baytlara bakmak istediğinizi söylemelisiniz; regexp ifadesine koymak için 0xe4, 0xe9, 0x80 ve 0xbf baytlarını yazmanız gerekir.
-P anahtarının her ikisini de yaptığını keşfettim; ve istediğiniz çizgi:
grep -P "[\xe4-\xe9][\x80-\xbf][\x80-\xbf]"
ve siz de kana istiyorsanız:
grep -P "[\xe4-\xe9][\x80-\xbf][\x80-\xbf]|\xe3[\x81-\x83][\x80-\xbf]"