Fotogalerie

Komprese zvuku? Jen podvod na uši!

Jiří Švec

10. června 2009

Jaký dopad mají na kvalitu zvuku použité kompresní algoritmy nebo datový tok? A jaký má vliv hudební žánr?

Zajímá vás, jaké jsou základní pilíře kompresních zvukových algoritmů, které dokáží bez značné ztráty kvality tak dramaticky snížit velikost hudebních souborů?

Ztrátové kompresní algoritmy nás v dnešní době obklopují více, než si mnozí z nás vůbec uvědomují. Použity jsou prakticky v každém hudebním souboru, filmu či seriálu kolujícím internetem, používá ji každý digitální fotoaparát i naše opožděná digitální televize.

Za poslední dvě desetiletí vzniklo nesčetné množství kompresních formátů, které více či méně snižují datový objem, ale teprve s rozmachem hudby a videa nejen na počítačovém poli přicházely velmi účinné kompresní algoritmy, které se zdokonalily do dnes známých podob.

Pro každého něco...

Všechny používané kompresní algoritmy lze rozdělit na dvě hlavní skupiny - ztrátové a bezeztrátové. Ty druhé už podle svého názvu říkají, že po dekompresi jakýchkoliv dat dostaneme naprosto stejnou informaci o stejné velikosti. Používají se tam, kde není přípustná jakákoliv ztráta dat a nejznámějšími představiteli jsou běžně používané komprese do archivů ZIP, RAR apod. O ztrátových nic takového samozřejmě neplatí.

Do rodiny nejznámějších ztrátových kodeků v oblasti komprese hudby patří MP3, MP3Pro, OGG Vorbis, AAC, AACplus, WMA a několik dalších málo rozšířených nebo již téměř zapomenutých. Původní formát MP3 sice už dlouho dobu nepatří mezi nejefektivnější, ale stále jej lze považovat za nejrozšířenější.

Se vzrůstajícími kapacitami úložného prostoru v počítačích i osobních přehrávačích se ale někteří velmi nároční posluchači začali od ztrátové komprese hudby odklánět a přesedlali na formáty jiné. Jsou jimi například Monkey’s Audio, Apple Lossless, WavPack, mp3HD, některé bezeztrátové odnože jinak ztrátových kompresí, ale mezi nejrozšířenější patří FLAC. Patříte-li mezi příznivce těchto formátů, kteří slyší nedokonalosti ztrátové komprese i při vysokých datových tocích (nižší komprese = vyšší kvalita zvuku), musíte samozřejmě počítat s několikanásobně většími soubory. Tak dobré kompresní algoritmy, aby bylo možné multimediální data s tak různorodým obsahem smrsknout bez ztráty kvality na desetinu původního obsahu či ještě méně, prozatím nikdo nevymyslel.

Na účinnost komprese má vliv i hudební žánr

Kvalita zvuku komprimovaných skladeb je samozřejmě závislá na použitém formátu komprese a zvoleném datovém toku. V tomto směru vždy platí, že čím vyšší datový tok si zvolíme, tím bude výsledný soubor větší, ale především výsledná nahrávka kvalitnější, jelikož kompresní algoritmus nemusí „zahodit“ tolik dat. V první tabulce je velmi dobře patrné, jakým způsobem jednotlivé kompresní algoritmy ovlivňují velikost hudebního souboru při různých datových tocích a na jakém kmitočtu začínají omezovat frekvenční charakteristiku.

Formát komprese	Velikost souboru [MB]				Omezení frekvenční charakteristiky [kHz]
Formát komprese	48 kb/s	80 kb/s	96 kb/s	128 kb/s	48 kb/s	80 kb/s	96 kb/s	128 kb/s
MP3	1,02	1,70	2,04	2,72	7,5	13,1	15,1	16,0
MP3Pro	1,02	1,70	2,04	-	16,2	neomezuje	neomezuje	-
OGG Vorbis	0,94	1,57	1,87	2,42	14,1	15,9	16,6	17,4
AAC	1,06	1,73	2,06	2,73	8,7	15,2	15,2	17,2
AACplus	1,02	1,69	2,03	2,71	neomezuje	neomezuje	neomezuje	15,8
WMA	1,05	1,73	2,07	2,75	11,9	13,2	15,5	15,5

Tabulka 1.: Orientační přehled velikosti hudebního souboru (rocková hudba) při různých datových tocích a s nimi související omezení frekvenční charakteristiky oproti originálu (PCM WAV 44,1 kHz/16b)

Formát komprese	Velikost souboru [MB]				Omezení frekvenční charakteristiky [kHz]
Formát komprese	rock	jazz	elektronická hudba	klasika	rock	jazz	elektronická hudba	klasika
MP3	1,02	1,44	1,74	1,47	7,5	7,5	7,5	7,3
MP3Pro	1,02	1,44	1,74	1,47	16,2	16,2	16,2	16,1
OGG Vorbis	0,94	1,24	1,86	1,19	14,1	15,1	15,1	14,2
AAC	1,06	1,49	1,79	1,52	8,7	8,5	8,4	8,5
AACplus	1,02	1,45	1,76	1,49	neomezuje	20,4	20,4	20,3
WMA	1,05	1,47	1,78	1,50	11,9	12,0	12,0	12,0

Tabulka 2.: Orientační přehled velikosti hudebních souborů dle různých žánrů při datovém toku 48 kb/s a souvisejícího omezení frekvenční charakteristiky oproti originálu (PCM WAV 44,1 kHz/16b)

Z porovnání je zjevné, že mezi moderními algoritmy si při nižších datových tocích nejhůře vede nejstarší formát MP3, který při nejnižším datovém toku ořezává všechny vyšší frekvence již od 7,5 kHz. Taková nahrávka je pak samozřejmě velmi nekvalitní. Naopak modernější formát MP3Pro při stejném datovém toku dokáže zachovat frekvence až po 16 kHz, a to bez zvětšení velikosti výsledného souboru. A právě na tomto příkladu se krásně ukazuje výhoda formátu MP3Pro, který má oproti původnímu MP3 navíc technologii SBR určenou specielně pro kódování frekvencí s vyššími kmitočty. Podíváte-li se na srovnání podrobněji, můžete si snadno odvodit, který z uvedených ztrátových kompresních algoritmů má při nižších datových tocích nejlepší poměr velikosti souboru vůči kvalitě výsledné nahrávky. Dojdete-li k závěru, že OGG Vorbis, pak máme stejný názor.

Účinnost algoritmů se však silně odvíjí i od struktury dat, které hudební soubor reprezentují. Zjednodušeně se dá říci, že pokud zvolíme pro kompresi hudby stejný kodek i stejný datový tok, bude se velikost výsledného souboru významně lišit podle stylu hudby. S jiným žánrem se zásadně změní zastoupení frekvenčních složek a jejich relativní důležitost pro kvalitní reprodukci. Jak ukazuje druhá tabulka, velikost souboru může být například při kompresi elektronické hudby i o téměř 100% vyšší než v případě rockové hudby.

Velmi dobrý pohled nabízí série grafů, která ukazuje omezování frekvenčních charakteristik u elektronické a klasické hudby při kompresi různými algoritmy a různém datovém toku.

Elektronicka hudba - 48kbps

Elektronicka hudba - 80kbps

Elektronicka hudba - 128kbps

Klasicka hudba - 48kbps

Klasicka hudba - 80kbps

Klasicka hudba - 128kbps

Za naměřená data a grafická znázornění děkujeme Martinu Ševčíkovi a Tomáši Kratochvílovi z Ústavu radioelektroniky, FEKT VUT v Brně.

Základní kameny kompresních algoritmů aneb kam se všechna data poděla?

Ještě před revolučním formátem MP3 existovaly ztrátové kompresní algoritmy, ale jejich poměr kvality zvuku a velikosti souboru (nebo datového toku) nebyl na tehdejší dobu nijak oslnivý. Revoluce ale začala ve Fraunhoferově institutu v Německu roku 1987, kde se vývoj formát MP3 odstartoval a o 4 roky později zdárně dokončil. Celý proces kódování je matematicky značně složitý proces, nicméně hlavní stavební kameny komprese až tak složité pochopit není.

V podstatě všechny ztrátové kompresní algoritmy pracují na podobném principu, a to na tzv. psychoakustickém modelu, kdy se ze vstupního signálu odebírají ty informace, které člověk neslyší nebo si je neuvědomuje vůbec, případně jen minimálně. Lidské ucho není schopno zachytit všechny složky reprodukovaného zvuku a navíc má omezené vnímání frekvenčního pásma. Dále je vnímání intenzity zvuku závislé na jeho frekvenci, což je zřejmé na obrázku z křivky prahu slyšitelnosti. Tato křivka vznikla na základě pečlivého zkoumání a měření a je jakousi hranicí, nad kterou se zvuková energie musí dostat, aby byl tón dané frekvence v nehlučném prostředí slyšet. Průběh křivky je velmi proměnlivý a je z ní patrné, že člověk dokáže nejlépe vnímat frekvence mezi 1– 5 kHz. Na základě této teorie lze pro kompresi využít maskování ve dvou úrovních - frekvenční a časové.

Princip frekvenčního maskování

Křivka prahu slyšitelnosti (v obrázku) představuje mez, od které jsou zvuky slyšet a má smysl se jimi zabývat. Všechny frekvence pod tímto prahem se tak nemusí přenášet a z původního zvukového souboru mohou být odstraněny. Za další úsporou dat stojí maskovací práh, jehož princip je také v zásadě jednoduchý.

Pokud se kdekoliv ve vnímané frekvenční oblasti objeví intenzivní tón (zde označený M₀ o frekvenci 1000 Hz), vytvoří se kolem něho oblast ohraničená křivkou (maskovací práh). Pokud je tón dostatečně silný, pak zamaskuje všechny méně intenzivní tóny v jeho blízkosti a ty, které jsou pod úrovní křivky, opět není nutné přenášet. Takový signál se nazývá maskovací signál. Signál označený M_P již vystupuje nad maskovací práh, ale vnímána je jen jeho část (M_PU), pro jejíž přenos stačí menší množství bitů. V praxi si to lze představit například jako zvuk sirény, který svou intenzitou spolehlivě překryje všechny do té doby slyšitelné zvuky blízké frekvence.Je-li ve frekvenčním spektru přítomno více silných maskovacích signálů, vytvoří si každý z nich svou maskovací křivku, z níž je následně sestavena jedna globální.

Princip časového maskování

Maskování v časové oblasti bylo poprvé plně použito právě u MP3 a jde v něm o to, že silný zvuk neomezí vnímání „slabších“ zvuků jen v kmitočtové oblasti, ale i v časové. Pokud zazní silný signál, je naše vnímání dalších zvuků omezeno na několik desítek až stovek milisekund i po jeho ukončení a slabší signály opět neslyšíme. Doba doznívajícího maskovacího efektu je závislá na době, po kterou signál zněl a pokud zněl krátce (např. 5 ms), je kratší i doznívající maskovací efekt (šrafovaná oblast). Tato metoda se nazývá post-maskování, ale díky „komplikovanosti“ našeho mozku lze použít i tzv. pre-maskování, kdy je na několik milisekund maskován slabší signál, ještě před zazněním intenzivnějšího.

Slovníček - Přehled nejznámějších hudebních formátů

MP3 – nejrozšířenější zvukový formát ztrátové komprese z Fraunhoferova institutu, jehož podpora nechybí prakticky žádnému multimediálnímu přehrávači. Je založen na kompresním algoritmu MPEG-1 s kódovacím schématem layer 3, z něhož vychází i samotný název.

MP3Pro – jedná se o inovovaný formát MP3, který přinesl především technologii SBR (Spectral Band Replication) pro zlepšení kvality zvuku a odstranění nežádoucích artefaktů při použití úspornějších datových toků. V podstatě v sobě nese dva proudy, a to standardní MP3 a druhý, ve kterém kóduje vyšší frekvence.

OGG Vorbis – open-source ztrátový audio kodek, který měl ambice nahradit právě MP3. Oproti MP3 využívá lepší akustické modely i matematické principy a pro stejnou úroveň kvality zvuku potřebuje zhruba poloviční datový tok. Neschází mu možnost vícekanálového zvuku, ale nepodporuje synchronizaci ani ochrany proti chybám.

AAC (Advanced Audio Coding) – další rozšířené ztrátové kompresní schéma multikanálového zvuku, které je navrženo jako nástupce MP3 a standardizované v MPEG-2 i MPEG-4. Na vývoji se podílel Fraunhoferův institut, Dolby Labs, Bell Labs, Sony a Nokia. Nejedná se o jednotný formát a existuje celá řada modifikovaných enkodérů lišících se zejména zvukovou kvalitou. Používán a podporován je mimo jiné celou řadou zařízení od Applu (iPhone, iPod), PlayStation od Sony, některými telefony Nokia, herní konzolou Wii atd.

AACplus - označován také jako HE-AAC (High-Efficiency Advanced Audio Coding) a představuje rozšíření standardní AAC o velmi pokročilé kompresní technologie včetně SBR v oblasti vysokých kmitočtů (10 -20 kHz) pro ještě lepší kvalitu zvuku při nízkých datových tocích.

WMA (Windows Media Audio) – vyspělý kompresní formát pro zvuková data z dílny Microsoftu. Postupem času bylo vytvořeno více různých variant úzce specializovaných kodeků například pro kompresi hlasu a elektronických knih (WMA Voice), archivaci v bezeztrátové podobě (WMA Lossless) či kódování vícekanálového zvuku (WMA Pro).

FLAC (Free Lossless Audio Codec) – dalších z open-source a rozšířených zvukových kodeků, tentokrát však určen výhradně pro bezeztrátovou kompresi. Pro konverzi zvuku na nižší datový obsah využívá lineární predikci a samotný princip by se dal přirovnat k fungování univerzálních komprimačních programů jako WinRAR či WinZip. Velikost komprimovaného zvukového souboru je rovna zhruba 50 – 60% originálu.

AIFF (Audio Interchange File Format) – starší, ale stále ještě podporovaný formát zvuku ve zcela nekomprimované podobě původně používaný v počítačích Mac a Silicon Graphics. Stále je podporován současnými přehrávači iPod.

Apple Lossless - kodek vyvinutý společností Apple za účelem komprese audia, ale opět v bezeztrátové podobě s využitím lineární predikce podobně jako u FLAC. Podobná je i velikost komprimovaných souborů. Obvykle mají příponu m4a a jsou samozřejmě podporovány přehrávači iPod.

Monkey’s Audio – jedná se o další bezeztrátový zvukový kodek. Velikost komprimovaných souborů je oproti originálu zhruba poloviční, ale oproti konkurenci je o něco pomalejší. Soubory tohoto formátu mají příponu ape a jsou podporovány i některými osobními přehrávači.

WavPack – volně šiřitelný open-source kodek určený opět pro bezeztrátovou kompresi zvuku, za jehož vývojem stojí David Bryant. Poradí si s vícekanálovým zvukem, kompresí vysokých frekvencí a umožňuje i tzv. hybridní kompresi, která spočívá ve vytvoření dvou souborů. Jeden využívá ztrátovou kompresi, je poměrně malý (přípona wv) a může být přehráván samostatně. Druhý je korekční soubor (přípona wvc) a obsahuje rozdílová data, která byla ztrátovou kompresí zahozena. Pokud se tyto dva soubory zkombinují, je výsledkem původní bezeztrátová nahrávka. Rozšířen je poměrně málo a vyjma univerzálního firmwaru Rockbox pro mnoho přehrávačů značek Apple, Archos, Cowon, iRiver, Sandisk a několika dalších příliš podporován není.

mp3HD – patent na formát MP3 před několika lety koupila společnost Thomson a nyní uvedla novinku v podobě bezeztrátové varianty, avšak zpětně kompatibilní s původním MP3. Zpětná kompatibilita je zaručena jakýmsi rozdvojením obsahu, který se opět sestává ze ztrátové a bezeztrátové části. Ve stávajících přehrávačích tak bude přehrávána ztrátová část a v moderních bezeztrátová.

Vstoupit do diskuze (29)