Bir kişinin rastgele bir IDN ana bilgisayar adının ( RFC5890 tarafından tanımlandığı gibi ) etki alanını nasıl çok sıkı bir şekilde sıkıştırabileceğini ve bunun ilginç bir meydan okuma olabileceğinden şüpheleniyorum. Bir Unicode ana bilgisayar veya etki alanı adı (U-etiketi), genellikle üst düzey etki alanına (ör. Altındaki Yunanca harfler ) bağlı olarak bir dille sınırlandırılmış (karşılık gelen bir ASCII dizesi ) bir Unicode karakter dizisinden oluşur. Bir etiket)..gr
xn--
Veri modelleri sadece resmi gereksinimlerden değil
Unicode olmayan her etiket bir dize eşleşmesi olabilir
^[a-z\d]([a-z\d\-]{0,61}[a-z\d])?$
;her A etiketi bir dize eşleşmesi
^xn--[a-z\d]([a-z\d\-]{0,57}[a-z\d])?$
; vetüm alanın toplam uzunluğu ('.' sınırlayıcılarıyla birleştirilmiş A etiketleri ve IDN olmayan etiketler) 255 karakteri geçemez
aynı zamanda aşağıdakiler de dahil olmak üzere çeşitli buluşsal yöntemlerden:
daha düşük dereceli U-etiketleri, daha kısa ifadeler tercih edilerek , uygun isimler ve sayılar (tire hariç noktalanmamış , boşluk bırakılmış ve Nameprep başına katlanmış ) dahil olmak üzere bazı doğal dillerde genellikle sözcüksel, sözdizimsel ve anlamsal olarak geçerli ifadelerdir; ve
yüksek dereceli etiketler bir SLD ve TLD sözlüğünden çizilir ve alt dereceli etiketlerde hangi doğal dilin kullanıldığını tahmin etmek için bağlam sağlar.
Verilerin bu belirli özelliklerini dikkate almadan bu tür kısa dizelerin iyi bir şekilde sıkıştırılmasının zor olacağından ve ayrıca mevcut kütüphanelerin daha genel kullanım durumlarını karşılamak için gereksiz ek yük üreteceğinden korkuyorum.
Matt Mahoney'in çevrimiçi kitap Veri Sıkıştırma açıklanması Açıklandığı gibi , daha az spesifik araçlara kıyasla çok daha üstün sıkıştırma ile sonuçlanması gereken yukarıdaki (ve / veya diğer) modelleme varsayımlarından yararlanmak için bir takım mevcut tekniklerin kullanılabileceği açıktır.
Bağlam yoluyla, bu soru SO üzerinde bir öncekinden bir sorun .
İlk düşünceler
Bu sorunun çevrimdışı eğitim için mükemmel bir aday olması beni şaşırtıyor ve aşağıdaki satırlarda sıkıştırılmış bir veri formatı öngörüyorum:
Yayınlanmış bazı alan adı kaydı veya trafik hacimleri kaynağından alınan olasılıklarla " genel soneki " bir Huffman kodlaması ;
Geri kalan U-etiketleri için (doğal dil) modelinin kullanıldığı bir Huffman kodlaması, etki alanı son ekinin bağlamı verilen yayınlanmış bazı etki alanı kaydı kaynağından veya trafik hacimlerinden alınmış olasılıklar;
Belirtilen doğal dil modelinden bazı sözlük tabanlı dönüşümler uygulayın; ve
U etiketlerindeki her karakterin aritmetik kodlaması, çevrimdışı eğitimden türetilen bağlamsal olarak uyarlanabilir doğal dil modellerinden çizilen olasılıklarla (ve belki de çevrimiçi olsa da, verilerin anlamlı bir içgörü sağlamak için çok kısa olabileceğinden şüpheleniyorum).
.in-addr.arpa
; IP değiştiğinde de kesilir.