EMUTE-MUSIIKKITEKNOLOGIASIVUSTO
Emute

Digitaalinen ääni, osa 6 - Digitaalisen äänen tiedostomuodot

Kirjoittanut Klas Granqvist | 07.10.2013

Digitaalisen äänisignaalin hyödyntäminen mahdollistaa sekä laadukkaat isommat äänitiedostot että pienempikokoiset ja helpommin siirrettävät pakatut tiedostot.

Digitaalisen äänisignaalin yleistyessä kasvoi myös tarve laadullisesti erilaisten tiedostomuotojen kehittämiseen. Alunperin ääntä muunnettiin digitaaliseen muotoon ns. PCM-koodausta käyttäen. Tämä tarkoittaa sitä, että jokaisella näytteenottohetkellä koko analoginen ääniaalto muunnetaan binääriseksi tiedoksi ja jokainen näyte on koko sanapituuden mittainen. PCM-koodatun, täysilaatuisen äänen nykyisin esiintyvät yleisimmät tiedostomuodot ovat Waveform Audio (.wav) ja Audio Intercahnge File Format (.aif tai .aiff). Tällä tavalla ääntä käsiteltäessä saadaan aikaan aina hyvin laadukasta digitaalista ääntä, mutta esimerkiksi aiemmin mainittu 44,1 kHz / 16 bit äänen laatu osoittautui hyvin pian moneen sovellukseen liian raskaaksi ja hitaaksi.

Kun tarve nopeampaan äänen siirtämiseen kasvoi ja jatkuvasti suuremmalle ajalliselle äänimäärälle tarvittiin tallennetilaa, nousi esiin tarve äänen nopeuden ja tiedostokoon pienentämiselle. Pelkkä näytteenottotaajuuden ja sanapituuden pienentäminen ei ollut tähän oikea ratkaisu, koska niiden vaikutus äänen laatuun oli niin merkittävä. Kun äänen mahduttaminen pienempään tilaan kuitenkin oli välttämätöntä, alettiin kehittää digitaaliselle äänelle pakkausalgoritmeja. Pakattua digitaaliääntä esiintyy nykyisinkin hyvin paljon, ja esimerkiksi musiikin verkkokaupat ja jotkut radioasemat sekä muut jakelijat siirtävät ääntä pakatussa muodossa.

Äänen pakkaaminen perustui jo alusta alkaen siihen, että ääni jaettiin taajuusalueittain osiin, ns. kriittisiin kaistoihin. Tutkijat havaitsivat, että ihmisen kuulokeskus ei pysty erottelemaan saman kaistan sisällä olevia ääneksiä, vaan niistä voimakkaampi verhoaa vaimeamman alleen. Analysoimalla ääni-informaatiota kaistoittain pystyttiin yhden kaistan sisältä poistamaan se informaatio, jota kuulokeskus ei olisi muutenkaan rekisteröinyt. Äänen pakkaustavat ovat aikojen saatossa kehittyneet hyvinkin paljon, ja nykyisin ääni voidaan pakata hyvinkin laadukkaaseen muotoon siten, että tiedostokoko on noin 15 % alkuperäisen PCM-koodatun äänen koosta. Tyypillisimmät ja tutuimmat pakatun äänen muodot nykyään lienevät MPEG2 Layer 3 (.mp3), AAC (.m4a) ja Ogg Vorbis (.ogg).

Tällainen äänen pakkaaminen kylläkin pienentää tiedostokokoa ja nopeuttaa siirtämistä, mutta kerran pakattua ääntä ei enää saa muutettua täyden ääni-informaation sisältävään PCM-muotoon, vaan tällöin tiedostoon kasvaessakin pakkausalgoritmin poistamat ainekset puuttuvat. Vaikka korva ei välttämättä tätä eroa kuulekaan, näkyy ero mitattaessa esimerkiksi taajuus- ja vaihevastetta.

Äänelle on kuitenkin olemassa eräitä ns. häviöttömiä pakkausmenetelmiä, joiden avulla ei päästä aivan niin pieneen tiedostokokoon, vaan yleensä noin 35-50 % alkuperäisestä. Tällä tavoin pakattu ääni on kuitenkin muunnettavissa uudelleen PCM-koodatuksi ja täysilaatuiseksi ääneksi. Häviöttömän pakkaamisen tyypillisimpiä menetelmiä ovat Meridian Lossless (.mlp) ja Flawless Audio Codec (.flac).

Katso myös