Efektívny algoritmus na zmenšenie veľkosti súborov a úložiska dát: LZW kompresia

Všetci poznáme ten moment, keď nám technológia povie „nie“. Disk je plný, príloha e-mailu je príliš veľká alebo sa webová stránka načítava celú večnosť kvôli masívnym obrázkom. Dáta sú v dnešnej dobe novou menou, ale ich skladovanie a prenos sú často nákladné a logisticky náročné, čo v nás vyvoláva potrebu hľadať inteligentnejšie riešenia než len neustále dokupovanie hardvéru.

Obsah

Riešenie sa často skrýva v matematike a elegantných postupoch, ktoré dokážu informáciu „zbaliť“ bez toho, aby sa z nej stratil čo i len jediný bit. Práve tu vstupuje do hry koncept, ktorý zmenil svet digitálneho obrazu a archivácie – metóda postavená na dynamickom slovníku. V nasledujúcich riadkoch sa pozrieme nielen na suchú teóriu, ale aj na fascinujúcu históriu, právne bitky a technické detaily, ktoré robia z tohto prístupu legendu.

Pochopením tohto mechanizmu získate vhľad do toho, čo sa deje pod kapotou vašich obľúbených súborových formátov ako GIF alebo PDF. Odhalíme, ako dokáže počítač rozpoznať opakujúce sa vzorce a nahradiť ich niečím oveľa kratším, čím šetrí miesto aj čas. Je to cesta do hlbín informatiky, ktorá je však prekvapivo logická a prístupná každému, kto má záujem vidieť svet dát inými očami.

História a pôvod revolučnej myšlienky

Svet kompresie by nebol tam, kde je dnes, bez trojice vizionárov. Všetko sa začalo koncom 70. rokov, keď dvaja izraelskí vedci, Abraham Lempel a Jacob Ziv, publikovali svoje prelomové práce o kompresii dát. Ich algoritmy LZ77 a LZ78 položili teoretický základ pre väčšinu moderných kompresných metód, ktoré používame dodnes.

Boli to akademické práce, ktoré potrebovali praktické zjednodušenie pre masové nasadenie. V roku 1984 prišiel Terry Welch, ktorý pracoval pre spoločnosť Sperry (neskôr Unisys), a vylepšil algoritmus LZ78. Jeho modifikácia zjednodušila správu slovníka a urobila implementáciu do hardvéru aj softvéru oveľa priamočiarejšou.

Skutočná sila inovácie nespočíva len v objavení nového princípu, ale v jeho úprave do takej podoby, aby bola použiteľná v každodennom živote miliónov ľudí bez toho, aby o tom vôbec tušili.

Práve Welchov príspevok pridal do názvu písmeno „W“, čím vznikol efektívny algoritmus na zmenšenie veľkosti súborov a úložiska dát: LZW kompresia. Táto metóda sa rýchlo stala štandardom vďaka svojej vysokej účinnosti a relatívnej jednoduchosti.

Bohužiaľ, úspech so sebou priniesol aj komplikácie. Spoločnosť Unisys si tento postup patentovala, čo neskôr viedlo k veľkým kontroverziám, najmä v súvislosti s formátom GIF. Vývojári a firmy boli nútení platiť licenčné poplatky, čo na dlhé roky spomalilo slobodný vývoj softvéru využívajúceho tento princíp.

Princíp fungovania: Kúzlo dynamického slovníka

Základná myšlienka je geniálne prostá. Väčšina dát, či už ide o text, obrázky alebo kód, obsahuje obrovské množstvo opakujúcich sa sekvencií. Predstavte si, že by ste v knihe nahradili každé slovo „a“ číslom 1 a slovo „alebo“ číslom 2. Kniha by bola okamžite tenšia.

Tento systém však nefunguje so statickým slovníkom, ktorý by musel byť vopred známy odosielateľovi aj príjemcovi. Algoritmus si buduje slovník „za pochodu“. Na začiatku obsahuje len základné znaky (napríklad všetkých 256 možných hodnôt bajtu).

Keď procesor číta dáta, hľadá postupnosti znakov, ktoré už má v slovníku. Ak nájde postupnosť, ktorá tam ešte nie je, pridá ju tam a priradí jej nový kód. Nabudúce, keď na túto postupnosť narazí, už nevypíše celú sériu znakov, ale len tento jeden krátky kód.

Kľúčové vlastnosti procesu

Tento prístup má niekoľko špecifík, ktoré ho odlišujú od iných metód. Nie je potrebné analyzovať celý súbor vopred, čo umožňuje kompresiu v reálnom čase (streamovanie).

Jednopriechodovosť: Dáta sa čítajú iba raz, od začiatku do konca.
Bezstratovosť: Po dekompresii dostanete na bit presnú kópiu originálu.
Adaptabilita: Slovník sa prispôsobuje konkrétnemu typu dát, ktoré práve spracováva.
Nezávislosť: Dekompresor nepotrebuje slovník vopred, dokáže si ho zrekonštruovať z prijatých dát.

Práve schopnosť rekonštrukcie je fascinujúca. Dekompresor číta kódy a aplikuje rovnakú logiku ako kompresor. Tým pádom si buduje identický slovník v reálnom čase, čo eliminuje potrebu prenášať obrovské tabuľky kódov spolu so súborom.

Elegancia tohto riešenia spočíva v synchronizácii. Odosielateľ aj príjemca „myslia“ rovnako a budujú si identickú štruktúru poznatkov len na základe toku informácií, ktorý medzi nimi prebieha.

Porovnanie s inými algoritmami

Aby sme pochopili, kde efektívny algoritmus na zmenšenie veľkosti súborov a úložiska dát: LZW kompresia vyniká, musíme ho porovnať s inými hráčmi na trhu. Nie každá metóda je vhodná na všetko.

Niektoré algoritmy sú lepšie na text, iné na zvuk a ďalšie na fotografie. LZW našlo svoje uplatnenie najmä v grafike s plochými farbami a v textových dokumentoch.

Nasledujúca tabuľka ukazuje stručný prehľad rozdielov medzi troma známymi prístupmi k redukcii dát:

Vlastnosť	Huffmanovo kódovanie	RLE (Run-Length Encoding)	LZW Kompresia
Princíp	Frekvencia výskytu znakov	Opakovanie rovnakých znakov za sebou	Opakovanie sekvencií znakov (slovník)
Slovník	Statický alebo adaptívny strom	Nepoužíva slovník	Dynamicky budovaný slovník
Vhodné pre	Text, všeobecné dáta	Jednoduché bitmapy, čiernobiele faxy	GIF, TIFF, text s opakujúcimi sa slovami
Rýchlosť	Stredná	Veľmi vysoká	Vysoká
Zložitosť	Stredná	Nízka	Stredná až vyššia

Detailný pohľad na kódovanie

Poďme sa pozrieť na to, ako to vyzerá v praxi, keď počítač narazí na reťazec znakov. Predstavme si jednoduchý textový reťazec, napríklad „BANANABANANA“.

Na začiatku slovník obsahuje len písmená B, A, N (a ostatné znaky abecedy). Algoritmus prečíta „B“. „B“ je v slovníku. Pozrie sa na ďalší znak „A“. Je „BA“ v slovníku? Nie je.

Takže vypíše kód pre „B“ a do slovníka pridá novú položku „BA“ s prvým voľným kódom (napríklad 256). Teraz začína čítať od „A“. Číta „A“, potom „N“. Je „AN“ v slovníku? Nie.

Vypíše kód pre „A“ a pridá „AN“ do slovníka ako kód 257. Takto postupuje ďalej. Keď neskôr v reťazci narazí znova na „BA“, už nevypisuje B a A osobitne, ale použije kód 256.

Výhody nasadenia v praxi

Jednou z najväčších výhod je, že tento proces je veľmi rýchly na strane kompresie aj dekompresie. Nevyžaduje zložité matematické operácie s plávajúcou čiarkou, čo bolo kľúčové v dobe pomalších procesorov.

Efektívny algoritmus na zmenšenie veľkosti súborov a úložiska dát: LZW kompresia sa preto stal základom pre formát GIF. Vďaka nemu mohli byť obrázky na internete v 90. rokoch malé a rýchlo sa načítavali aj cez telefonické pripojenie.

Ďalšou výhodou je univerzálnosť. Hoci najlepšie funguje na dátach s opakujúcimi sa vzormi, zriedkakedy zväčší súbor, čo sa pri iných metódach stať môže, ak sú dáta náhodné.

V svete technológií je spoľahlivosť často cennejšia než extrémny výkon. Mať istotu, že algoritmus si poradí s akýmkoľvek vstupom bez katastrofálneho zlyhania, je pre inžinierov kľúčové.

Kde všade ho nájdeme?

Možno si to neuvedomujete, ale s týmto algoritmom sa stretávate denne. Okrem spomínaných GIF obrázkov je štandardnou súčasťou formátu TIFF, ktorý používajú grafici a fotografi pre vysokú kvalitu.

Je tiež súčasťou štandardu PDF. Keď ukladáte dokument do PDF, textové reťazce a niektoré obrázky sú často komprimované práve touto metódou, aby výsledný súbor nezaberal megabajty.

V operačnom systéme Unix a Linux existoval príkaz compress, ktorý bol dlhé roky štandardom pre archiváciu súborov. Prípona .Z je priamym odkazom na použitie LZW.

Technické limity a správa pamäte

Samozrejme, žiadny systém nie je dokonalý. Slovník nemôže rásť do nekonečna. Kódy majú zvyčajne fixnú dĺžku, napríklad 12 bitov, čo umožňuje maximálne 4096 položiek v slovníku.

Čo sa stane, keď sa slovník naplní? Algoritmus má niekoľko možností. Môže prestať pridávať nové frázy a používať len tie existujúce, čo však môže znížiť efektivitu kompresie pri dlhých súboroch, kde sa mení charakter dát.

Druhou možnosťou je resetovanie slovníka. Keď sa zaplní, celý sa vymaže a začne sa budovať odznova. Niektoré implementácie sledujú pomer kompresie a reštartujú slovník len vtedy, keď efektivita začne klesať.

Príklad kódovania v tabuľke

Pre lepšiu vizualizáciu si ukážeme, ako sa mení vstupný reťazec na výstupné kódy a ako sa plní slovník. Predpokladajme vstup: ABABA. Základné kódy: A=65, B=66.

Krok	Prečítaný znak	Aktuálna sekvencia	Je v slovníku?	Výstupný kód	Pridané do slovníka
1	A	A	Áno	–	–
2	B	AB	Nie	65 (A)	AB (kód 256)
3	A	BA	Nie	66 (B)	BA (kód 257)
4	B	AB	Áno	–	–
5	A	ABA	Nie	256 (AB)	ABA (kód 258)
6	EOF	A	Áno	65 (A)	–

Z tabuľky vidíme, ako sa postupne tvoria dlhšie sekvencie. Pri piatom kroku už algoritmus rozpoznal „AB“ ako jeden celok a použil preň kód 256, čím ušetril miesto.

Patentová vojna a jej dopad

Vráťme sa k právnemu aspektu, ktorý je pre efektívny algoritmus na zmenšenie veľkosti súborov a úložiska dát: LZW kompresia taký špecifický. Keď Unisys začal v 90. rokoch vymáhať poplatky za používanie GIFov, internetová komunita sa vzbúrila.

Táto situácia viedla k vývoju alternatívneho formátu PNG (Portable Network Graphics). PNG používa algoritmus DEFLATE, ktorý je založený na LZ77 a Huffmanovom kódovaní a bol oslobodený od patentových nárokov.

Dnes sú všetky patenty na LZW už expirované. To znamená, že ho môže ktokoľvek implementovať do svojho softvéru zadarmo, kdekoľvek na svete. Tento moment oslobodenia bol dôležitým míľnikom pre open-source komunitu.

Sloboda informácií a nástrojov na ich spracovanie je základným kameňom otvoreného internetu. História LZW nám pripomína, ako môžu právne bariéry formovať technologický vývoj celých dekád.

LZW versus moderné metódy

Dnes už máme k dispozícii pokročilejšie metódy ako LZMA (používaná v 7-Zip) alebo Brotli (používaný Google pre web). Tieto algoritmy dosahujú oveľa vyšší kompresný pomer.

LZW však stále vyhráva v jednoduchosti. Implementovať dekompresor LZW do malého čipu v tlačiarni alebo do jednoduchého mikrokontroléra je oveľa ľahšie, než tam dostať komplexný moderný algoritmus vyžadujúci veľa pamäte RAM.

Preto sa s ním stále stretávame v priemyselných aplikáciách a v hardvéri, kde je výpočtový výkon obmedzený, ale potreba zmenšovať dáta pretrváva.

Vhodnosť pre rôzne typy dát

Je dôležité vedieť, kedy LZW použiť a kedy nie. Ak sa pokúsite komprimovať už komprimované dáta (napríklad JPG obrázok alebo MP3 súbor), výsledok bude pravdepodobne väčší súbor než originál.

Dôvodom je, že v komprimovaných dátach je entropia (náhodnosť) veľmi vysoká a ťažko sa tam hľadajú opakujúce sa vzorce. Slovník sa zaplní zbytočnosťami a réžia spojená s kódmi prevýši úsporu.

Naopak, pre textové logy, bitmapové obrázky snímok obrazovky alebo vedecké dáta s množstvom núl a opakujúcich sa hodnôt je tento algoritmus excelentnou voľbou.

Budúcnosť a odkaz

Hoci už efektívny algoritmus na zmenšenie veľkosti súborov a úložiska dát: LZW kompresia nie je kráľom kompresie z hľadiska efektivity, jeho odkaz je nesmrteľný. Naučil nás, ako pracovať s dynamickými štruktúrami.

Ukázal cestu, ako optimalizovať prenos dát v sieťach. Princípy, ktoré zaviedol, sú dodnes vyučované na univerzitách ako základný kameň informatiky.

Pre programátorov je napísanie vlastného LZW kodéra a dekodéra vynikajúcim cvičením na pochopenie práce s bitmi, poľami a dátovými štruktúrami.

Pochopenie minulosti technológií nám dáva nástroje na riešenie problémov budúcnosti. Staré algoritmy nezomierajú, stávajú sa základmi pre nové, ešte úžasnejšie stavby.

Implementačné detaily pre zvedavcov

Pri implementácii je kritické správne ošetriť bitový zápis. Kódy nemusia mať celých 8 bitov (bajt). Často začínajú na 9 bitoch a postupne rastú na 10, 11 až 12 bitov, ako sa slovník plní.

Tento variabilný bitový tok robí zápis do súboru trochu komplikovanejším, pretože nemôžete jednoducho zapisovať po bajtoch. Musíte používať bitový buffer.

Práve tieto detaily odlišujú teoretický popis od funkčného programu. Efektívne narábanie s bitmi je umenie, ktoré oddeľuje dobrých programátorov od tých skvelých.

Čo je to bezstratová kompresia?

Bezstratová kompresia je metóda zmenšenia veľkosti dát, pri ktorej je možné z komprimovaného súboru obnoviť pôvodné dáta úplne presne, bit po bite. Na rozdiel od stratovej kompresie (ako JPG alebo MP3), tu nedochádza k žiadnej degradácii kvality.

Je LZW stále pod patentovou ochranou?

Nie, posledný patent spoločnosti Unisys vypršal v roku 2004. Dnes je možné používať tento algoritmus v akomkoľvek softvéri, komerčnom aj open-source, úplne zadarmo a bez právnych rizík.

Prečo je LZW horšie na fotografie ako JPG?

LZW hľadá presné opakovania vzorov. Fotografie z reálneho sveta obsahujú šum a jemné prechody farieb, ktoré sa neopakujú presne. JPG používa iný princíp (vynechávanie detailov, ktoré oko nevidí), preto je na fotky oveľa efektívnejší.

Aký je rozdiel medzi LZ77 a LZW?

LZ77 používa „posuvné okno“ a odkazuje na predchádzajúci výskyt reťazca pomocou vzdialenosti a dĺžky. LZW buduje explicitný slovník kódov. LZW je vo všeobecnosti jednoduchšie na implementáciu, ale LZ77 (a jeho deriváty ako Deflate) často dosahuje lepší kompresný pomer.

Môže LZW zväčšiť veľkosť súboru?

Áno, môže sa to stať. Ak súbor obsahuje úplne náhodné dáta bez opakovania, réžia spojená s vypisovaním kódov (ktoré môžu byť dlhšie ako pôvodné znaky) spôsobí mierny nárast veľkosti súboru. Algoritmy to zvyčajne detegujú a v takom prípade dáta nekomprimujú.

Efektívny algoritmus na zmenšenie veľkosti súborov a úložiska dát: LZW kompresia

História a pôvod revolučnej myšlienky

Princíp fungovania: Kúzlo dynamického slovníka

Kľúčové vlastnosti procesu

Porovnanie s inými algoritmami

Detailný pohľad na kódovanie

Výhody nasadenia v praxi

Kde všade ho nájdeme?

Technické limity a správa pamäte

Príklad kódovania v tabuľke

Patentová vojna a jej dopad

LZW versus moderné metódy

Vhodnosť pre rôzne typy dát

Budúcnosť a odkaz

Implementačné detaily pre zvedavcov

Čo je to bezstratová kompresia?

Je LZW stále pod patentovou ochranou?

Prečo je LZW horšie na fotografie ako JPG?

Aký je rozdiel medzi LZ77 a LZW?

Môže LZW zväčšiť veľkosť súboru?

Poďme sa pripojiť

Populárne príspevky

Government Cloud (G-Cloud): Podrobné ciele a operácie

Úloha a význam konštánt v programovaní: Ako efektívne používať konštanty

mSATA SSD: Podrobné vysvetlenie špecifikácií SSD disku

Executive Dashboard: Zobrazovanie Key Performance Indicators (KPIs) na počítačovom rozhraní

Social Networks