Küresel ve evrensel sıkıştırma yöntemleri arasındaki fark nedir?


12

Sıkıştırma yöntemlerinin iki ana gruba ayrılabileceğini anlıyorum:

  1. global
  2. yerel

İlk küme, işlenen verilerden bağımsız olarak çalışır, yani verilerin herhangi bir özelliğine dayanmazlar ve bu nedenle veri kümesinin herhangi bir parçası üzerinde (sıkıştırma işleminden önce) herhangi bir ön işleme gerek duymazlar. Öte yandan, yerel yöntemler verileri analiz eder ve genellikle sıkıştırma oranını artıran bilgileri çıkarır.

Bu yöntemlerden bazılarını okurken tek yöntemin evrensel olmadığını fark ettim , bu da beni "globality" ve "universality" olarak aynı şeyi ifade ettiğini düşündüğümden şaşırttı. Tekli yöntem, kodlamasını sağlamak için verilerin özelliklerine dayanmaz (yani, küresel bir yöntemdir) ve bu nedenle küresel / evrensel olmalıdır, değil mi?

Birincil sorularım:

  • Evrensel ve küresel yöntemler arasındaki fark nedir?
  • Bu sınıflandırmalar eşanlamlılar değil mi?

2
Tek yönlü yöntemin evrensel olmadığını okuduğunuz yere / referansına bağlanabilir misiniz? Bağlam yardımcı olabilir.
Hava

3
Bunun veri bilimi ile nasıl bir ilişkisi olduğundan emin değilim. Bu yığın değişimi için konu dışı görünüyor. Bunu veri bilimi ile ilişkilendirebilir misiniz?
Slater Victoroff

@SlaterTyranus ben ... ben de emin değilim (ve bu da bana gönderdiğim diğer iki soruyu düşündürdü). Benim fikrim bu soruyu eklemekti, çünkü sıkıştırma yöntemleri büyük ölçüde bilgi alımında kullanılıyordu (çoğunlukla indeksleme sırasında). Genel olarak, bunu verimlilikle ilgili buluyorum ve bu Venn şemasının saldırı becerileri alanına konabilir . Her neyse, sanırım bu tür bir sorunun konuyla ilgili olup olmadığını tartışmak güzel olurdu.
Rubens

@Rubens Makul bir tartışma gibi görünüyor, bence verimlilik konuşması, açık hackleme becerilerinden çok teorik CS gibi bir şeye çok daha uyuyor . Aklımda, bilgisayar korsanlığı becerileri, veritabanları, dağıtım ve araç bilgisi gibi şeylerle çok daha ilgili.
Slater Victoroff

1
@SvanBalen İki önemli nokta: 1. Bilgi teorisi veri bilimine bazı yaklaşımlarda önemlidir, ancak diğerlerinde önemsizdir. 2. Temeller doğal olarak konu dışıdır, istatistikler veya doğrusal cebir hakkında ayrıntılı bir soru sormak, her ikisi de yararlı veri bilimi için kesinlikle gerekli olsa da benzer şekilde konu dışı olacaktır.
Slater Victoroff

Yanıtlar:


3

Aşağıdaki veri yığınını düşünün:

1010010110100101

Evrensel - bunlar veri agnostik olan genel sıkıştırma algoritmalarıdır. Çalışma uzunluğu kodlamasının kaba bir versiyonu bu kategoriye girer. Avantajı, sıkıştırmanın ve sıkıştırılmasının çok hızlı olmasıdır. Dezavantajı, sıkıştırılacak verilere dayanarak son derece etkisiz olabilmesidir.

1111111111111111 -> 16 1 (şanslı durum)

1010010110100101 -> 1010010110100101 (şanssız durum)

Yerel - bu yöntem, sabit uzunluktaki daha küçük segmentleri, örneğin 4, desenleri arar ve sıkıştırır. Örneğin. Bu veriler yalnızca bu iki desen türünü içerir - 1010 ve 0101. Bu modeller 0 ve 1'ler olarak temsil edilebilir ve genel veriler eşlemeleri temsil eden bir tablo ve 0101 gibi bir şey olacaktır. sıkıştırılmış boyut.

1010010110100101 -> 1010 0101 1010 0101 -> 0101 (0 = 1010,1 = 0101)

Global - bu yöntem tüm verilere bakar ve verileri sıkıştırmak için en uygun / çok daha iyi kalıpları bulur. Örnek veriler sadece bir desen 10100101 içerir ve eşleme tablosuyla birlikte 00 olarak temsil eder. Bu mümkün olan en küçük sıkıştırılmış boyutu elde etme potansiyeline sahiptir, ancak aynı zamanda hesaplama açısından en ağır olanıdır.

1010010110100101 -> 10100101 10100101 -> 00 (0 = 10100101)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.