Karakter kodlama sorunlarını test etmek için bir dizi "Lorem ipsums" dosyası var mı?

85

Tasarım için, nasıl göründüğünü test etmek için ünlü "Lorem ipsum" metnimiz var.

Aradığım şey, metin dosyalarını okurken karakter kodlamayla ilgili bazı yöntemleri test etmek için JUnit testlerimde kullanabileceğim, birkaç farklı kodlama ile kodlanmış Metin içeren bir dizi dosya.

Misal:

Bir Having ISO 8859-1kodlanmış test dosyası ve bir Windows-1252kodlanmış test dosyası. Windows-1252, 80 ₁₆ - 9F ₁₆ bölgesindeki farklılıkları tetiklemelidir . Başka bir deyişle, ISO 8859-1'den ayırt edilebilmesi için bu bölgenin en az bir karakterini içermesi gerekir.

Belki de en iyi test dosyaları seti, her kodlama için test dosyasının tüm karakterlerini bir kez içerdiği yerdir. Ama belki bir şeyin farkında değilim - hepimiz bu kodlama işini seviyoruz, değil mi? :-)

Orada karakter kodlama sorunları için bir dizi test dosyası var mı?

— Fabian Barney
kaynak

1

+1: UTF-8 kod çözücüyü uygulamak için epey zaman harcadım. Tüm köşe vakalarını ele almak düşündüğünüzden daha fazla birim testi gerektirir.

— Raedwald

4

"Birkaç farklı kodlama ile kodlanmış metin": iyi bir kapsam için, geçersiz baytlar içeren örnek bayt dizileri de istersiniz. UTF-8 Wikipedia sayfasına göre, bu vakaların yanlış ele alınması bazı yüksek profilli ürünlerde güvenlik açıklarına neden oldu.

— Raedwald

@Raedwald Elbette, bu iyi bir nokta. Bunun farkında değildim. Bence kodlama sorunları için olgun bir test paketi için sadece bir neden daha. Bir dizi dosya olması gerekmez. JUnit testlerinde kullanılabilecek test verilerini sağlayan bir kitaplık da olabilir. Örneğin, ortak karakter kümeleri için kritik / geçersiz bayt dizileri ve örnek bayt dizilerinin kodunu çözdükten sonra karşılaştırma için referans Dizeleri sağlayabilir. Bazı düşüncelerim ve bu kodlama maddesinin etraftaki tüm kitaplarda nasıl test edildiğini merak ediyorum ...

— Fabian Barney

26

YBÜ test paketi dosyalarını kullanmaya ne dersiniz ? Testiniz için ihtiyacınız olan şey bunlar mı bilmiyorum, ancak en azından UTF eşleme dosyalarından / dosyalarından oldukça eksiksiz görünüyorlar: YBÜ test dosyaları için depoya bağlantı

— Daniel Teply
kaynak

Şimdiye kadarki favorimi + 1'leyin. Belgeleri 1 saat boyunca okudum ve ihtiyacım olan her şeyi sağlıyor gibi görünüyor - en azından unicode ile ilgili şeyler için.

— Fabian Barney

Bence bu gerçekten şimdiye kadarki en iyi cevap. Kabul ettim ve umarım bunun için bir itibar kazanırsın. Bir hafta önce cevap verseydim, eminim buradaki diğer cevaplara kıyasla çok daha iyi puan alırdı. Neyse teşekkürler!

— Fabian Barney

42

Aksanlarla ilgili Wikipedia makalesi oldukça kapsamlı, maalesef bu karakterleri manuel olarak çıkarmanız gerekiyor. Ayrıca her dil için bazı anımsatıcılar olabilir. Örneğin Lehçe'de kullanıyoruz:

Zażółć gęślą jaźń

tek bir doğru cümlede 9 Polonyalı aksanın hepsini içerir. Başka bir yararlı arama ipucu da pangramlardır : alfabenin her harfini en az bir kez kullanan cümleler :

İspanyolca " El veloz murciélago hindú comía feliz cardillo y kiwi. La cigüeña tocaba el saxofón detrás del palenque de paja. " (27 harf ve aksan).

Rusça olarak, " Съешь же ещё этих мягких французских булок, да выпей чаю " (33 Rus Kiril alfabesi harfinin tümü).

Pangramların listesi kapsamlı bir özet içerir. Bunu basit bir şekilde özetlemek isteyenler:

public interface NationalCharacters {
  String spanish();
  String russian();
  //...
}

kütüphane?

— Tomasz Nurkiewicz
kaynak

1

Elbette bu bir +1 yanıtı. Orada gerçekten iyi düşünülmüş bir dizi test dosyası olmasını ümit ederek biraz bekleyeceğim. Çünkü diğerlerinin üzerine inşa edilen kodlamalar vardır. Farklılıkları tetikleyen her kodlama için test dosyalarına sahip olmanın çok iyi olacağını düşünüyorum. Ama belki yanılıyorum ve var olmadıklarının iyi nedenleri var.

— Fabian Barney

8

Tam bir metin belgesi bilmiyorum, ancak tüm karakter kümelerine basit bir genel bakışla başlayabilirseniz, ftp.unicode.org sunucusunda bazı dosyalar mevcuttur.

İşte WINDOWS-1252 örneğin. İlk sütun onaltılık karakter değeridir ve ikincisi unicode değeridir.

ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT

— İyimser
kaynak

+1 Çabanız için teşekkürler. Çok ilginç dosya kaynağı.

— Fabian Barney

1

Lorem Ipsum'dan metin karakter kümelerimi oluşturmak için çevrimiçi bir araç kullandım. Sana yardımcı olabileceğine inanıyorum. Tek bir sayfada tüm farklı karakter kümelerine sahip bir tane yok.

http://generator.lorem-ipsum.info /

— Sandeep Nair
kaynak

4

Lorem ipsum , Latince'de olduğu gibi yalnızca Latin karakterlerinden oluşur. Burada sorulan bu değil. BTW: repo1.maven.org/maven2/org/codeswarm/lipsum/1.0

— Tomasz Nurkiewicz