İstemcilerden UTF-8 geçerli karakterleri almak gerekiyordu bir soket sunucusu var.
Sorun şu ki, bazı istemciler (özellikle bilgisayar korsanları) tüm yanlış türde verileri gönderiyor.
Orijinal istemciyi kolayca ayırt edebilirim, ancak daha sonra analiz edebilmek için gönderilen tüm verileri dosyalara kaydediyorum.
Bazen hataya œ
neden olan böyle karakterler UnicodeDecodeError
alıyorum.
Bu karakterler ile veya bu karakter olmadan dize UTF-8 yapabilmek gerekir.
Güncelleme:
Benim özel durum için soket hizmeti bir MTA oldu ve bu nedenle sadece gibi ASCII komutları almak için bekliyoruz:
EHLO example.com
MAIL FROM: <john.doe@example.com>
...
Tüm bunları JSON'da kaydediyordum.
Sonra iyi niyetli olmayan bazı insanlar her türlü çöpü satmaya karar verdiler.
Bu yüzden özel durumum için ASCII olmayan karakterleri soymak mükemmel bir şekilde tamam.