Metin sıkıştırma ve açma - “Nevermore.”


38

Kod golfünde sıkıştırma araçlarının kullanımıyla ilgili son tartışmada , kendi metin kompresörünüzü ve dekompresörünüzü yazmanın iyi bir zorluk olacağını düşündüm.

Meydan okuma:

İki program yazın : biri ASCII metnini bir bayt dizisine, diğeri de sıkıştırmasını açmak için. Programların aynı dilde olması gerekmez.

İlk program bir ASCII metnini okumalıdır (bir dosyadan veya standart girişten veya dile hangi mekanizmayı kullanıyorsa) ve sıkıştırılmış bir versiyonunu çıkarmalıdır. (Sıkıştırılmış çıktı isteğe bağlı baytlar içerebilir veya okunabilir; okunabilir olması gerekmez.) İkinci program ilkinin çıktısını okumalı ve orijinal girdi metnini yeniden oluşturmalıdır.

puanlama:

Bir çözümün puanı , aşağıdaki üç sayının toplamı olacaktır :

  1. Kompresör uzunluğu karakter programı.
  2. Çıkış uzunluğu bayt olarak test girişi aşağıdaki kompresör.
  3. Açıcı uzunluğu karakter programı (kompresör farklı ise).

Her üç sayımı ve bunların toplamını cevabınıza not etmelisiniz. Bu kod golf olduğu için puan ne kadar düşükse o kadar iyidir.

Kurallar ve kısıtlamalar:

  • Sen kullanamaz onlar seçtiğiniz dilde birlikte geldikleri bile, önceden varolan sıkıştırma veya dekompresyon araç veya kitaplıkları. Belirli bir takım veya fonksiyona izin verilip verilmediğinden şüpheleniyorsanız, lütfen sorunuz.

  • Kompresör programınız , sekmeler (ASCII 9) ve satır beslemeleri (ASCII 10) dahil olmak üzere yazdırılabilir ASCII metinlerinden oluşan girişleri işleyebilmelidir . İsteğe bağlı Unicode ve / veya ikili girişleri işlemeniz gerekebilir, ancak zorunlu değildir.

  • Dekompresör programınız , kompresöre giriş ile verilenle aynı çıktıyı vermelidir . Özellikle, eğer giriş yoksa, takip eden satır beslemesi vermemeye dikkat edin. (Aşağıdaki test girişinde takip eden bir satır beslemesi var, bu nedenle ayrı ayrı test etmeniz gerekir. GolfScript için İpucu:. '':n)

  • Kompresörünüz ve dekompresörünüz aynı program olabilir (uygun bir mod seçildiğinde, örneğin bir komut satırı düğmesiyle). Bu durumda, uzunluğu yalnızca bir kez sayılır .

  • Programlar aşırı yavaş veya hafızada aç olmamalıdır . Test girişini sıkıştırmak veya açmak, yeni olmayan masaüstümde (2.2GHz AMD Athlon64 X2) bir dakikadan fazla sürerse veya bir gigabayt RAM'den daha fazla tüketirse, geçersiz çözümü uygulayacağım. Bu sınırlar kasıtlı olarak gevşek - lütfen onları zorlamayın. (Aşağıdaki değişikliğe bakınız: bu sınırlar içerisinde en az 100 kB girişi kullanabilmeniz gerekir.)

  • Yalnızca test girişi puanlama için önemli olsa da, en azından rastgele girdi metnini sıkıştırmak için çaba sarf etmeniz gerekir . Yalnızca test girişi için ve başka hiçbir şey için iyi bir sıkıştırma oranı elde eden bir çözüm teknik olarak geçerlidir ancak benden bir oy almayacaktır.

  • Kompresör ve dekompresör programlarınız bağımsız olmalıdır . Özellikle, seçtiğiniz dilin standart çalışma zamanı ortamının bir parçası olmayan bazı dosya veya ağ kaynaklarını okuyabiliyorlarsa, o dosyanın veya kaynağın uzunluğu programın uzunluğunun bir parçası olarak sayılmalıdır. (Bu, girişi web'deki bir dosyayla karşılaştıran ve eşleşmeleri durumunda sıfır bayt çıktı yapan "kompresörleri" kaldırmaktır. Üzgünüm, ama bu artık yeni bir numara değil.)

Değişiklikler ve açıklamalar:

  • Kompresörünüz makul süre ve bellek kullanımı (en fazla bir dakika ve bir GB bellek) içinde en az 100 kB tipik İngilizce metinden oluşan dosyaları kullanabilmelidir . Sıkıştırıcınız, ortaya çıkan çıktının aynı sınırlar içinde açmasını sağlamalıdır. Elbette, bundan daha uzun dosyaları idare edebilmek, gayet iyi ve övgüye değer. Uzun girdi dosyalarını parçalara ayırıp ayrı ayrı sıkıştırmak ya da uzun girdiler için hız için sıkıştırma verimliliğini dengelemek amacıyla başka araçlar kullanmak sorun değildir.

  • Kompresörünüz , dekompresörünüzün çıktısında aynı newline gösterimini kullandığı sürece tercih ettiğiniz platformun yerel newline gösterimini (LF, CR + LF, CR, vb.) Kullanarak girilmesini isteyebilir . Elbette, kompresörün, dekompresörünüzün orijinal girdiyle aynı tür yeni satırları çıkardığı sürece, herhangi bir tür yeni hattı (veya platformdan bağımsız olarak yalnızca Unix yeni hatlarını) kabul etmesi de iyidir.

Test girişi:

Cevapların sıkıştırma verimliliğini değerlendirmek için, aşağıdaki test girişi ( Project Gutenberg'in izniyle, Edgar Allan Poe tarafından Raven ) kullanılacaktır:

Once upon a midnight dreary, while I pondered, weak and weary,
Over many a quaint and curious volume of forgotten lore,
While I nodded, nearly napping, suddenly there came a tapping,
As of some one gently rapping, rapping at my chamber door.
"'T is some visiter," I muttered, "tapping at my chamber door--
                                          Only this, and nothing more."

Ah, distinctly I remember it was in the bleak December,
And each separate dying ember wrought its ghost upon the floor.
Eagerly I wished the morrow:--vainly I had sought to borrow
From my books surcease of sorrow--sorrow for the lost Lenore--
For the rare and radiant maiden whom the angels name Lenore--
                                          Nameless here for evermore.

And the silken sad uncertain rustling of each purple curtain
Thrilled me--filled me with fantastic terrors never felt before;
So that now, to still the beating of my heart, I stood repeating
"'T is some visiter entreating entrance at my chamber door
Some late visiter entreating entrance at my chamber door;--
                                          This it is, and nothing more."

Presently my soul grew stronger; hesitating then no longer,
"Sir," said I, "or Madam, truly your forgiveness I implore;
But the fact is I was napping, and so gently you came rapping,
And so faintly you came tapping, tapping at my chamber door,
That I scarce was sure I heard you"--here I opened wide the door;--
                                          Darkness there, and nothing more.

Deep into that darkness peering, long I stood there wondering, fearing,
Doubting, dreaming dreams no mortal ever dared to dream before;
But the silence was unbroken, and the darkness gave no token,
And the only word there spoken was the whispered word, "Lenore!"
This I whispered, and an echo murmured back the word, "Lenore!"
                                          Merely this and nothing more.

Back into the chamber turning, all my soul within me burning,
Soon again I heard a tapping, somewhat louder than before.
"Surely," said I, "surely that is something at my window lattice;
Let me see, then, what thereat is, and this mystery explore--
Let my heart be still a moment and this mystery explore;--
                                          'T is the wind and nothing more!"

Open here I flung the shutter, when, with many a flirt and flutter,
In there stepped a stately Raven of the saintly days of yore.
Not the least obeisance made he; not a minute stopped or stayed he;
But, with mien of lord or lady, perched above my chamber door--
Perched upon a bust of Pallas just above my chamber door--
                                          Perched, and sat, and nothing more.

Then this ebony bird beguiling my sad fancy into smiling,
By the grave and stern decorum of the countenance it wore,
"Though thy crest be shorn and shaven, thou," I said, "art sure no craven,
Ghastly grim and ancient Raven wandering from the Nightly shore,--
Tell me what thy lordly name is on the Night's Plutonian shore!"
                                          Quoth the Raven, "Nevermore."

Much I marvelled this ungainly fowl to hear discourse so plainly,
Though its answer little meaning--little relevancy bore;
For we cannot help agreeing that no living human being
Ever yet was blessed with seeing bird above his chamber door--
Bird or beast upon the sculptured bust above his chamber door,
                                          With such name as "Nevermore."

But the Raven, sitting lonely on the placid bust, spoke only
That one word, as if his soul in that one word he did outpour.
Nothing further then he uttered--not a feather then he fluttered--
Till I scarcely more than muttered, "Other friends have flown before--
On the morrow _he_ will leave me, as my hopes have flown before."
                                          Then the bird said, "Nevermore."

Startled at the stillness broken by reply so aptly spoken,
"Doubtless," said I, "what it utters is its only stock and store,
Caught from some unhappy master whom unmerciful Disaster
Followed fast and followed faster till his songs one burden bore--
Till the dirges of his Hope that melancholy burden bore
                                          Of 'Never--nevermore.'"

But the Raven still beguiling all my sad soul into smiling,
Straight I wheeled a cushioned seat in front of bird and bust and door;
Then, upon the velvet sinking, I betook myself to linking
Fancy unto fancy, thinking what this ominous bird of yore--
What this grim, ungainly, ghastly, gaunt and ominous bird of yore
                                          Meant in croaking "Nevermore."

This I sat engaged in guessing, but no syllable expressing
To the fowl whose fiery eyes now burned into my bosom's core;
This and more I sat divining, with my head at ease reclining
On the cushion's velvet lining that the lamplight gloated o'er,
But whose velvet violet lining with the lamplight gloating o'er
                                          _She_ shall press, ah, nevermore!

Then, methought, the air grew denser, perfumed from an unseen censer
Swung by seraphim whose foot-falls tinkled on the tufted floor.
"Wretch," I cried, "thy God hath lent thee--by these angels he hath sent thee
Respite--respite and nepenthe from thy memories of Lenore!
Quaff, oh quaff this kind nepenthe, and forget this lost Lenore!"
                                          Quoth the Raven, "Nevermore."

"Prophet!" said I, "thing of evil!--prophet still, if bird or devil!--
Whether Tempter sent, or whether tempest tossed thee here ashore,
Desolate yet all undaunted, on this desert land enchanted--
On this home by Horror haunted--tell me truly, I implore--
Is there--_is_ there balm in Gilead?--tell me--tell me, I implore!"
                                          Quoth the Raven, "Nevermore."

"Prophet!" said I, "thing of evil--prophet still, if bird or devil!
By that Heaven that bends above, us--by that God we both adore--
Tell this soul with sorrow laden if, within the distant Aidenn,
It shall clasp a sainted maiden whom the angels name Lenore--
Clasp a rare and radiant maiden whom the angels name Lenore."
                                          Quoth the Raven, "Nevermore."

"Be that word our sign of parting, bird or fiend!" I shrieked, upstarting--
"Get thee back into the tempest and the Night's Plutonian shore!
Leave no black plume as a token of that lie thy soul hath spoken!
Leave my loneliness unbroken!--quit the bust above my door!
Take thy beak from out my heart, and take thy form from off my door!"
                                          Quoth the Raven, "Nevermore."

And the Raven, never flitting, still is sitting, still is sitting
On the pallid bust of Pallas just above my chamber door;
And his eyes have all the seeming of a demon's that is dreaming,
And the lamplight o'er him streaming throws his shadow on the floor;
And my soul from out that shadow that lies floating on the floor
                                          Shall be lifted--nevermore!

Doğru test girişi (Unix tarzı LF yeni satırlarıyla kodlanmış) 7043 bayt uzunluğunda olmalı ve onaltılık MD5 hash değerine sahip olmalıdır 286206abbb7eca7b1ab69ea4b81da227. ( md5sum -tDOS / Windows'ta CR + LF yeni satırları kullanıyor olsanız bile aynı hash değerini üretmelidir.) Dekompresörünüzün çıktısının uzunluğu aynı ve

Ps. Bu zorluğun sadece sizin yaptığınız kadar zor olduğunu unutmayın. Gerçekten, 7043'ün altındaki herhangi bir şey iyi bir puan olarak sayılır. (Ölçeğin diğer ucunda, herhangi biri 2500'ün altında bir puan aldıysa çok etkileneceğim.)


Anladığım kadarıyla herhangi bir kayıplı sıkıştırma görmek istemiyor musunuz?
Bay Llama,

2
MD5 hash'ını eşleştiremeyen insanlar için önleyici not: metin dosyasında satır sonları için Unix yeni satırları var. Ayrıca, dosyadaki son yeni satırın tam 7043 bayt uzunluğa sahip olduğundan emin olun.
Bay Llama,

@GigaWatt: Evet, yeni hatlar hakkında daha açık konuşmalıydım. Girdiyi yalnızca ASCII metniyle sınırladığım için, insanların sürekli olarak kullandıkları sürece, her ne kadar yeni hat sözleşmesini kendileri için en doğal hissettiklerini kullanmasına izin verebilirim. Bunu meydan okumada ifade etmenin güzel bir yolunu düşünmeye çalışacağım. Ve hayır, kompresör kayıp olmamalıdır.
Ilmari Karonen

Dosya uzunluğu hakkında, sadece örneğin boyutundaki dosyalar için veya çok daha büyük dosyalar (> bir miktar MB) için (kabul edilebilir bir zamanda) sadece dosya boyutunda çalışmak gerekli mi?
saat

1
Çıktı kompresör ile aynı dilde bir program olarak verilmişse, dekompresörün uzunluğunu sıfır olarak sayabilir miyiz?
Peter Taylor,

Yanıtlar:


19

Perl, 3502 = 133 + 3269 + 100

Kodlayıcı:

#!/usr/bin/perl -0
$_=<>;for$e(map{~chr}0..255){++$p{$_}for/..|.\G./gs;
%p=$s=(sort{$p{$a}<=>$p{$b}}keys%p)[-1];$d.=/\Q$e/?$/:s/\Q$s/$e/g&&$s}print$_,$d

Ve dekoder:

#!/usr/bin/perl -0777
sub d{($p=$d{$_})?d(@$p):print for@_}
sub r{%d=map{chr,ord($c=pop)&&[pop,$c]}0..255;&d}r<>=~/./gs

Komut satırı anahtarlarını kullanmaktan kaçınmayı tercih eden uzmanlar için: Aynı efekti elde etmek için shebang hattını kaldırabilir $/=chr;ve kodlayıcıya ve $/=$,;kod çözücüye ekleyebilirsiniz . (Bu skoru 3510'a çıkarır.)

Bu kod çok ilkel bir sıkıştırma şeması kullanır:

  • Kaynak metinde en sık görünen iki char bigramını bulun.
  • Bitegramı kullanılmayan bir bayt değeri ile değiştirin.
  • Daha fazla tekrarlanan bigram (veya daha fazla kullanılmamış bayt değeri yok) olana kadar tekrarlayın.

Dışarıdaki biri bunu "yeniden eşleştir" sıkıştırmasının basitleştirilmiş bir sürümü olarak tanıyabilir (özyinelemeli çiftler için kısa).

Çok iyi bir genel sıkıştırma şeması değil. Yalnızca ASCII metin gibi birçok kullanılmayan bayt değerinin olduğu şeylerle iyi çalışır ve o zaman bile tipik olarak% 45-50'den fazla bir oran elde etmez. Ancak, minimum kodla uygulanabilir olma avantajına sahiptir. Özellikle dekompresör oldukça kompakt olabilir. (Kod çözücü betiğimdeki karakterlerin çoğu bigram sözlüğünü almak içindir.)

İşte kodun ungolfed versiyonu:

#!/usr/bin/perl
use strict;
use warnings;
# Run with -d to decode.
if ($ARGV[0] eq "-d") {
    shift;
    $_ = join "", <>;
    my @in = split //;
    my %dict;
    foreach my $n (0 .. 255) {
        my $c = shift @in;
        $dict{chr $n} = [ $c, shift @in ] if ord $c;
    }
    sub decode {
        foreach (@_) {
            if ($dict{$_}) {
                decode(@{$dict{$_}});
            } else {
                print $_;
            }
        }
    }
    decode @in;
} else {
    $_ = join "", <>;
    my @dict;
    for (my $n = 255 ; $n >= 0 ; --$n) {
        my $symbol = chr $n;
        if (!/\Q$symbol/) {
            my %pop;
            ++$pop{$_} for /../gs, /(?!^)../gs;
            my $str = (sort { $pop{$b} <=> $pop{$a} } keys %pop)[0];
            s/\Q$str/$symbol/g;
            $dict[$n] = $str;
        }
    }
    for (0..255) { $dict[$_] ||= "\0" }
    print @dict, $_;
}

Golf kodlayıcısındaki bir ifade (sort{$p{$a}<=>$p{$b}}keys%p)[-1], anahtarın en yüksek değere sahip olması için açıklama gerektirdiğini düşünüyorum . (sort{$p{$b}<=>$p{$a}}keys%p)[0]Aynı şeyi yapan ve bir karakter daha kısa olan gibi yazılması gerektiği gibi görünüyor . Bu şekilde yazmamamın nedeni, en yüksek değerde birden fazla anahtar olduğunda bu durumda seçilen anahtarı değiştirmesidir. Şans eseri bu, test girişinin sonuç çıktısının 10 bayt daha uzun olmasına neden oldu. İşe yaramaz fazladan bir karakter almaktan nefret ettim ama puanımdan 9 puan feda etmeye yetmedim.

Yüzüne, Golfscript! (Haha, Golfscript buraya gelip beni duyabilseydi kıçımı tekmeleyecekti.)


3
Vay, bu oldukça etkileyici! Ps. Bu , komut satırı anahtarlarının sayılmasıyla ilgili genel olarak kabul edilmiş bir cevap gibi görünmektedir.
Ilmari Karonen

Dang, bunu daha önce okudum ama ortadaki o parçayı fark edemedim. Görünüşe göre, şöyle geliyor: -ekodunuz tek tırnaklı bir karakter içermiyorsa ilk kısa çizgi karakterini saymazsınız (çünkü yalnızca seçenek paketine ekleyebilirsiniz ), çünkü bu durumda kısa çizgi sayırsınız (çünkü şimdi komut satırındaki tekli alıntıdan kaçmak için ödeme yapmaktan kaçınmak için bir shebang satırlı bir dosyadan çalıştırmanız gerekir).
breadbox

1
Tekniğe ayrıca Bayt çifti kodlaması da denir . Güzel uygulama
roblogic

@roblogic Referans için teşekkürler; bunu bilmek güzel.
breadbox

20

Python, 3514 = 294 + 2894 + 326

Temelde bir bzip2 uygulaması. Bu etmez , Burrows-Wheeler dönüşümü bir, hareket-ön dönüşümü basit bir Huffman kodlaması bir tam sayıya, bir bit akımı içine dönüştürür bu bit akımını ve bayt yazar.

Encoder:

import sys
S=range(128)
H={0:'0'}
for b in range(7):
 for i in range(1<<b,2<<b):H[i]='1'*b+'10'+bin(i)[3:]
I=sys.stdin.read()+'\0'
N='1'
for x in sorted(I[i:]+I[:i]for i in range(len(I))):i=S.index(ord(x[-1]));N+=H[i];S=[S[i]]+S[:i]+S[i+1:]
N=int(N,2)
while N:sys.stdout.write(chr(N%256));N>>=8

Söne doğru hareket sırası, HHuffman kodlayıcısı ve Nbit akımıdır.

Kodlama, test girişini orijinal boyutunun yaklaşık% 41'ine düşürür.

dekoder:

import sys
N=0
b=1
for c in sys.stdin.read():N+=ord(c)*b;b<<=8
N=bin(N)[3:]
S=range(128)
L=''
while N:
 n=N.find('0')
 if n:i=2**n/2+int('0'+N[n+1:2*n],2);N=N[2*n:]
 else:i=0;N=N[1:]
 L+=chr(S[i]);S=[S[i]]+S[:i]+S[i+1:]
S=''
i=L.find('\0')
for j in L:S=L[i]+S;i=L[:i].count(L[i])+sum(c<L[i]for c in L)
sys.stdout.write(S[:-1])

1
BWT'yi uygulamak ve gerçek bir sıkıştırma şekli yapmak için cazip oldum ama çok tembel oldum. : P
Bay Llama,

8

8086 Birleştirici / MS_DOS

Kompresör: 155

jNiAxBCO2I7AM/+9/QW5AAGK2TPAq4rDqv7D4va6AQkz9lK0BrL/zSFadDK7
/f+DwwM733QNOTd19ThHAnXwid7r34k1iEUC6BMAtACKRQJr8AODxwPryrQC
zSHrxFIz0ovGuwMA9/Nai9iKztPL0ePQ0nMWgPr+cgtSsv60Bs0hWoDq/rQG
zSGyAf7JdeA5/XUHA+2DxQP+xsM=

Veri: 3506

Dekompresör: 203

ieWD7CCM2IDEEI7YjsAz/7kAAYrZM8CrisOq/sPi9rYJxkb0Abn9BehtAIl2
/uhTAOhkAIl28Dv3cy3oRgCLRv6JBYt28Il2/oM8AHQEizTr94pEAohFAoPH
AznPddL+xgPJg8ED68mLdv6JNYM8AHQEizTr94pEAohFAol+/on+aFgBgzwA
dAdWizTo9f9etAaKVALNIcMz9ojz/k70dRu0BrL/zSF0IDz+cgi0BrL/zSEE
/sZG9AiIRvLQZvLR1v7Ldddr9gPDzSA=

Toplam: 3864

Bu Base64 kod çözücüyü kullanın ve ikili dosyaları 'compress.com' ve 'decompress.com' olarak kaydedin ve ardından:

compress < source > compressed_file
decompress < compressed_file > copy_of_source

bir DOS kabuğunda (WinXP ile test edilmiştir). Kontrolde hata yoktur, bu yüzden büyük dosyaları sıkıştırmak yanlış sonuçlara neden olur. Birkaç küçük eklemeler ve her boyuttaki dosyayla başa çıkabiliyordu. Ayrıca, bir 0xff değeri veremediğinden ikiliye açılamaz (sıkıştırılmış veriler 0xff değerinden 0xfe değerini alır, 0xfe 0xfe değerinden 0xfe 0xfe değeriyle çıkabilir). Komut satırı dosya isimlerinin kullanılması ikili çıkış probleminin üstesinden gelecektir, fakat daha büyük bir çalıştırılabilir olacaktır.


Program ne tür sıkıştırma algoritmaları kullanıyor?
Sir_Lagsalot

@Sir_Lagsalot: Değişken bit genişliği LZW (GIF dosyalarında kullanılan) kullanır.
Skizz

6

Bash Poem (566 + 117) + 4687 = 5370

Eğlence için bir kompresörü şiir olarak gizledim:

for I in my chamber nodded, nearly napping, suddenly heard rapping, tapping upon my door    \
"'T is some visiter" \ I\  muttered, o\'er lamplight "nothing more" \
just this sainted maiden whom the angels name Lenore    \
And "Prophet!" said me "thing of evil" -- "prophet still, if bird or devil!"    \
Leave no token of that lie thy soul hath spoken and sitting take thy ore from This floor    \
But you velvet bird from some shore above   \
here this with sad raven before his word still spoke nothing    \
"                                          " Quoth the Raven Never more;                    do C=$[C+1];E=`perl -e "print chr($C+128)"`;echo "s/$I/$E/g">>c;echo "s/$E/$I/g">>d;done;LANG=C sed -f $1;rm c d

Bu birleşik bir kompresördür: “c” seçeneğiyle çalıştırarak sıkıştırır ve “d” ile açar. İki bölümden oluşur: şiirin 566 baytlık bir "okuyucular özeti" ve (2) tüm "gerçek" bashların yapıldığı 117 baytlık bir sonek.

Biraz dikkatle (örneğin şiiri "in I'de" ile başlatmak) bash, şiirin "kayıplı" versiyonunu bir dizi olarak yorumlar. Dizinin her bir öğesini ASCII olmayan bir karakterle değiştirir (girişin ASCII olduğunu varsayıyoruz, bu yüzden çarpışma olmaz). Bu çözümün küçük bir avantajı: girişi ASCII olarak kabul edebileceğimiz gerçeğini kullandığımızdan, bu sıkıştırma ve çıktının ne olduğuna bakılmaksızın, bu sıkıştırmanın çıktısı, girdisinden daha uzun olmayacaktır.

Bunun ihlali en yaklaştığı kural, diğer metinlerde iyi bir sıkıştırma oranı sağlama konusundaki kuraldır. Ancak, GPL V2 metnini 1386 baytlık Tıraş, OP'lerin tanımına uygun gibi görünen kendi boyutunun üzerinde decent. Böylece decentgenel metinlerde sözde sıkıştırma sağlıyor gibi görünüyor . Bunun nedeni, hemen hemen herhangi bir İngilizce metnin "" "" olduğu "vb. Olacaktır." Kayıplı "kısmı kayıpsız bir şekilde sıkıştırmak istediğiniz orijinaline benzeyen metinle değiştirirseniz, açıkça daha iyi çalışacaktır.

Resim ve sesin kayıplı ve kayıpsız parçalara bölünmesi bilinen bir tekniktir. Bu, metin için de işe yaramaz: 4687 byte, 566 byte'ı kayıplı versiyonun dışında tutsak bile o kadar da iyi değildir ve ses için yapabileceğimiz aynı şekilde metinlerin kayıplı bir versiyonunu otomatik olarak oluşturamıyoruz. Artı tarafta, bu, bu kompresörle bir şeyi her sıkıştırdığınızda, elle kaybolan bir versiyon yaratmanın keyfini çıkarabilirsiniz. Yani bu makul bir "eğlence için" çözüm gibi görünüyor.


5

C ++, 4134 bayt (kod = 1357, sıkıştırılmış = 2777)

Bu, bir Burrows-Wheeler, Keith Randall'ınki gibi bir Öne-Harekete dönüşümü yapar, ancak sonradan uyarlanan bir Range Coder kullanarak sonuçtaki bayt sırasını sıkıştırır . Maalesef, aralık kodlayıcısındaki geliştirilmiş sıkıştırma, C ++ 'nın ayrıntılarını dengelemek için yeterli değildir. Bu kodu biraz daha golf edebilirim, yani farklı bir giriş / çıkış yöntemi kullanın, ancak diğer sunumları mevcut algoritmayla yenmek yeterli olmaz. Kod Windows'a özgüdür ve yalnızca ascii metni desteklenir.
Sıkıştırmak için: "C text_file compressed_file" Sıkıştırmak
için: "D compressed_file uncompressed_file"
Hemen hemen herhangi bir komut satırı hatası veya dosya hatası programın çökmesine neden olur ve şiiri kodlamak veya kodunu çözmek için bir dakikanın daha iyi bir kısmını alır.

#include <windows.h>
#include <algorithm>
typedef DWORD I;typedef BYTE u;
#define W while
#define A(x)for(a=0;a<x;a++)
#define P(x)*o++=x;
I q,T=1<<31,B=T>>8,a,l,f[257],b,G=127,p=G,N=255;I Y(u*i,u*j){return
memcmp(i,j,l)<0;}I E(u*i,u*o){b=0;I L=0,h=0,R=T;u*c=o,*e=i+l;W(i<e){I
r=R/p,s=0;A(*i)s+=f[a];s*=r;L+=s;R=*i<N?r*f[*i++]++:R-s;p++;W(R<=B){if((L>>23)<N){for(;h;h--)P(N)P(L>>23)}else{if(L&T){o[-1]++;for(;h;h--)P(0)P(L>>23)}else
h++;}R<<=8;L<<=8;L&=T-1;}}P(L>>23)P(L>>15)P(L>>7)return
o-c;}void D(u*i,u*o){I R=128,L=*i>>1;u*e=o+l;W(o<e){W(R<=B){L<<=8;L|=((*i<<7)|(i++[1]>>1))&N;R<<=8;}I
h=R/p,m=L/h,x=0,v=0;W(v<=m)v+=f[x++];P(--x);L-=h*(v-f[x]);R=h*f[x]++;p++;}}void
main(I Z,char**v){u d[1<<16];I c=*v[1]<68,s;HANDLE F=CreateFileA(v[2],T,0,0,3,0,0),o=CreateFileA(v[3],T/2,0,0,2,0,0);ReadFile(F,d,GetFileSize(F,0),&l,0);l=c?l:*(I*)d;A(G)f[a]=1;u M[256];A(G)M[a]=a+1;u*g=new u[l*3],*h=g+l;if(c){memcpy(d+l,d,l);u**R=new
u*[l];A(l)R[a]=d+a;std::sort(R,R+l,Y);A(l){b=R[a][l-1];I
i=strchr((char*)M,b)-(char*)M;memmove(M+1,M,i);*M=g[a]=b;h[a]=i;}s=E(h,d+l+8);}else{D(d+8,g);A(l){I
k=g[a];g[a]=M[k];memmove(M+1,M,k);*M=g[a];}}u**j=new u*[l];A(l)j[a]=new
u[l*2],memset(j[a],0,l*2),j[a]+=l;A(l){for(b=0;b<l;)*--j[b]=g[b++];std::sort(j,j+l,Y);}if(c){A(l){if(!memcmp(j[a],d,l)){I*t=(I*)(d+l);*t=l;t[1]=a;g=d+l,l=s+8;}}}else
g=j[*(I*)(d+4)];WriteFile(o,g,l,&q,0);}

5

JavaScript, 393 (kod) + 3521 (test) = 3914 (toplam)

Bu program tekrarlı olarak kullanılmayan bayt değerlerini girişin 2 ila 4 karakter parçası için değiştirir. Her bir ikame, orijinal öbek sıklığı ve uzunluğuna göre puanlanır ve en iyi ikame, her seferinde seçilir. Nispeten az sayıda karakterde nasıl yapılacağını çözebilseydim son bir Huffman kodlama aşaması eklerdim. Dekompresyon esasen bir bul ve değiştir işlemidir.

kullanım

C () sıkıştırma sağlar; U (), dekompresyon sağlar. JavaScript'in dizeleri 16 bit Unicode kod birimlerine dayandığından, sıkıştırılmış veri biçiminde her kod biriminin yalnızca en az 8 biti kullanılır; bu, Basefox kodlaması için Firefox'un btoa () ve atob () işlevleriyle uyumludur. ( kullanım örneği )

Bu program yalnızca .replace () işlevine standart olmayan "g" seçeneği nedeniyle Firefox'ta çalışabilir.

kod

Golf kodu:

S=String.fromCharCode;function C(c){h=[];for(f=0;129>f;++f){g='';i=0;for(e=2;5>e;++e){d={};for(a=0;a<=c.length-e;a+=e)b="K"+c.substr(a,e),d[b]=d[b]?d[b]+1:1;for(b in d)a=d[b],a=a*e-(1+e+a),a>i&&(g=b.slice(1),i=a)}if(!g)break;h[f]=g;c=c.replace(g,S(127+f),"g")}return h.join("\1")+"\1"+c}function U(a){c=a.split("\1");a=c.pop();for(b=c.length,d=127+b;b--;)a=a.replace(S(--d),c[b],"g");return a}

Golfe başlamadan önce:

function compress(str) {

    var hash, offset, match, iteration, expansions, bestMatch, bestScore, times, length, score;

    expansions = [];

    for (iteration = 0; iteration < 129; ++iteration) {

        bestMatch = null;
        bestScore = 0;

        for (length = 2; length < 5; ++length) {

            hash = {};

            for (offset = 0; offset <= str.length - length; offset += length) {
                match = 'K' + str.substr(offset, length);
                hash[match] = hash[match] ? hash[match] + 1 : 1;
            }

            for (match in hash) {
                times = hash[match];
                score = times * length - (1 + length + times);
                if (score > bestScore) {
                    bestMatch = match.slice(1);
                    bestScore = score;
                }
            }

        }

        if (!bestMatch) {
            break;
        }

        expansions[iteration] = bestMatch;
        str = str.replace(bestMatch, String.fromCharCode(127 + iteration), 'g');

    }

    return expansions.join('\u0001') + '\u0001' + str;
}

function uncompress(str) {
    var i, j, expansions;

    expansions = str.split('\u0001');
    str = expansions.pop();

    for (j = expansions.length, i = 127 + j; j--;) {
        str = str.replace(String.fromCharCode(--i), expansions[j], 'g');
    }

    return str;
}

Neden alabilirim C(text).length=7301? (FF 60.0.2)
14m2

3

PHP, (347 + 6166 + 176) = 6689

Bu yüzden basit bir sözlük + ikame yaklaşımı ile gittim.

Bir kelime birden çok kez belirirse ve kısaltılırsa (kelimeyi kodla + yerine koyma girişini kaydet) daha sonra değiştirmeyi yapar. Eğer "kelime" bir sayı ise, dekompresyon sırasında yanlışlıkla yer değiştirmeyi önlemek için zaten yapar. Yer değiştirmelerin "sözlüğü" boş baytlar, onu iki boş bayt takip eder, ardından ornatığın çalıştığı vücut izler.

Olası iyileştirmeler:

  • Windows, 4kb'dan fazla veriyi boruya bağlamayı sevmediğinden, dosyaları kullanmaktan daha iyi bir yol bulun.
  • Uzun beyaz boşluk dizileriyle eşleştirme ve çok fazla kod eklemeden bunları "kelimeler" olarak sayma yeteneği.
  • Sayı kullanmak yerine daha iyi bir yer değiştirme ile geliyor.

Kullanım: Kompresör "i" adında bir dosyayı arar ve sıkıştırılmış veriyi "o" ya yazar. Dekompresör "o" arar ve sıkıştırılmamış verileri "d" ye yazar. Bu, benim etrafımdaki veri teknelerinden hoşlanmadığı için Windows'a yaptığım asıl geçici çözüm.


compress.php (347)

<?$d=file_get_contents('i');$z=chr(0);preg_match_all('|\b(\w+)\b|',$d,$m);$n=0;foreach($m[0]as$w){$l=strlen($w);$q[$w]=isset($q[$w])?$q[$w]+$l:$l;}arsort($q);foreach($q as$w=>$s){$l=strlen($w);$c=$s/$l;if($c*strlen($n)+$l<$s||is_int($w)){$d=preg_replace('|\b'.preg_quote($w).'\b|',$n++,$d);$f[]=$w;}}file_put_contents('o',implode($z,$f).$z.$z.$d);

Yorumlar ve açıklamalarla genişletilmiş sürüm .


Sözlük olmadan çıktı örneği . Bakması çok komik.
Normal boyutu: 6166 .

Ah, distinctly I remember it 45 in 0 bleak December,
25 each separate dying ember wrought its ghost 39 0 37.
Eagerly I wished 0 88:--vainly I had sought to borrow
From 9 books surcease of 43--43 for 0 lost 8--
For 0 rare 1 67 40 54 0 26 38 8--
                                          Nameless 63 for evermore.

25 0 silken sad uncertain rustling of each purple curtain
Thrilled me--filled me 19 fantastic terrors never felt 17;
So 4 now, to 13 0 beating of 9 64, I stood repeating
"'T is 57 31 36 49 at 9 2 5
Some late 31 36 49 at 9 2 5;--
                                          58 it is, 1 10 16."

açma / kapatma (176)

<?$z=chr(0);$d=file_get_contents('o');list($w,$d)=explode($z.$z,$d);$w=explode($z,$w);$n=0;foreach($w as$r){$d=preg_replace('|\b'.$n++.'\b|',$r,$d);};file_put_contents('d',$d);

Açıklama ile genişletilmiş versiyonu .


İyileştirme için herhangi bir öneri bekliyoruz.

Düzenleme: Kodun "denetimsiz" sürümlerini ve tonlarca yorumunu ekledi. Takip etmesi kolay olmalı.


Gah! Kullandığım dil ve yöntem! Kahretsin. Yine de, tek kelime atlamak kadar elimde değildi.
Gareth

metinde sayılar olduğunda ne olur? orijinal sayıları yerinde olmayan bir kelimeyle değiştirmekle sonuçlanır. Benzer bir yaklaşım benimsememe rağmen (regex bölüştürüyor, yerine yeni bir sözlük çıkarıp yerine kelimeler ekleyerek ortak kelimeler buluyordum), sayıların yerine unicode karakterleri kullandım (chr (128) 'den başlayarak, sonradan hiçbir şey yazdırılamaz. standart ascii)
Blazer

@Blazer: Aslında, ||is_int($w)numaraları her zaman sözlüğe ekleyerek işlemek için bir kod (yani ) var, ancak hata var gibi görünüyor: tüm Gutenberg E-metnini sıkıştırıp açtıktan sonra , çıktı ile başlar The 4 3 EBook 2 The Raven, by Edgar Allan Poe. :-( Sorunun birşeyin iki kez değiştirildiğinden şüpheleniyorum, strtr()bu sorunu önlemek için kullanmayı düşünebilirsiniz .
Ilmari Karonen

@ Sayı bir ağır belgeniz varsa, söz konusu sayıları sözlüğe eklemek, sıkıştırmanın başlangıçta olduğundan daha büyük olmasına neden olabilir. 1-2 karakter uzunluğunda birkaç eşya saklamak etkili değildir. Mesela belgedeki 'a' kelimesini değiştirecekseniz
Blazer

@Blazer - Tüm sıkıştırma algoritmaları için daha büyük verim sağlayacak belirli girişler vardır . Entropik verileri güvenilir bir şekilde sıkıştırma kabiliyeti gibi, kayıpsız sıkıştırmanın doğasında var.
Bay Llama,

3

GolfScript, 3647 (sıkıştırılmış boyut 3408 + kod boyutu 239)

128,{[.;]''+}%:d;8:k;{2k?={1k+:k;}*}:|;{2base}:b;{.[0]*@b+0@->}:$;.0=
{'':&,:i;1/{.d&@+?.0<{;d,i@d&@:&.0=:i;[+]+:d;k$\|}{:i;&\+:&;}if}%[0]k*+[]*8/{b}%"\0"\+}
{1>{8$}/][]*:^;{^k<b^k>:^;}:r~{.}{d,|d=:&r..d,<{d=}{;&}if[1<&\+]d\+:d;}while;}if

Kullanılan algoritma değişken genişlikli kodlarla LZW sıkıştırmasıdır. İlk satır paylaşılan koddur, ikincisi sıkıştırma kodudur ve üçüncüsü dekompresyon kodudur.

1-127 aralığında ASCII karakterleri olan dosyaları yönetir ve sıkıştırılmış dosyaları otomatik olarak tanır (0 bayt ile başlarlar), bu nedenle sıkıştırması açmak için gerekli hiçbir parametre yoktur.

Örnek çalışma:

$ md5sum raven.txt
286206abbb7eca7b1ab69ea4b81da227  raven.txt
$ ruby golfscript.rb compress.gs < raven.txt > raven.lzw
$ ls -l raven.lzw
-rw-r--r-- 1 ahammar ahammar 3408 2012-01-27 22:27 raven.lzw
$ ruby golfscript.rb compress.gs < raven.lzw | md5sum
286206abbb7eca7b1ab69ea4b81da227  -

Not: 100kb işleme gereksinimi eklenmeden çok önce başladım, bu yüzden bu boyutun girişinde test etmedim. Bununla birlikte, test girişini sıkıştırmak yaklaşık 30 saniye ve tepe noktasında yaklaşık 20 MB bellek kullanarak sıkıştırmayı açmak için 5 saniye sürer.


Bir 76 kB dosyasını sıkıştırmak o 10. alır açılırken ederken, 19 dakika sürer gibi görünüyor olduğunu böylece ... Bilmiyorum, nazik yavaş ki, ama sonra tekrar, orijinal kuralları geçmesi yapar. Bu şartlar altında izin vermemek haksızlık gibi görünüyor. Sanırım sizin için ya da bir şey için örtük bir "büyükbaba fıkrası" isteyebilirim.
Ilmari Karonen

3

Haskell, 3973

Partiye geç kalmayacağım ve kazanamayacağım, ama yazarken eğlendim, o yüzden gönderebilirim.

Bu, açıkça yazdırılabilir ASCII, sekme ve satır besleme ile sınırlı bir sözlükle basit bir değişken genişlikte LZW uygulamasıdır. Argüman olmadan çalıştır, standart girdiyi dosyaya sıkıştırır C. Herhangi bir argümanla çalıştırın (ancak "--decompress" makul bir bahis olacaktır), dosyayı Cstandart çıktıya açar.

import List
import System
import Data.Binary
q=head
main=getArgs>>=m
m[]=getContents>>=encodeFile"C".s 97 128 1 0.e 97h
m _=decodeFile"C">>=putStr.d tail""96h.u 97 128
h=zip[0..].map(:[])$"\t\n"++[' '..'~']
e _ _[]=[]
e n s y=c:e(n+1)((n,take(1+l)y):s)(drop(l)y)where{Just(c,p)=find((`isPrefixOf`y).snd)s;l=length p}
d _ _ _ _[]=""
d f p n s(x:y)=t++d id t(n+1)(f$(n,p++[q t]):s)y where t=maybe(p++[q p])id$lookup x s
s _ _ _ a[]=a::Integer
s n w o a y|n>w=s n(2*w)o a y|0<1=s(n+1)w(o*w)(a+o*q y)(tail y)
u _ _ 0=[]
u n w x|n>w=u n(2*w)x|0<1=(x`mod`w::Integer):u(n+1)w(x`div`w)
  • kod boyutu: 578
  • sıkıştırılmış örneklem büyüklüğü: 3395
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.