Digitaalinen ääni, Osa 3 - Digitaalisen äänisignaalin laatu

Monet seikat vaikuttavat siihen, kuinka laadukas digitaalinen äänisignaali on ja miltä se korvissamme kuulostaa myöhemmin. Näytteenottotaajuus ja sanapituus ovat tekijöistä merkittävimmät, ja niihin liittyy paljon huomioitavia seikkoja.

Näytteenottotaajuus ja sanapituus ovat keskeisimmät digitaalisen signaalin laatuun vaikuttavat tekijät ja äänen laadun lisäksi ne molemmat vaikuttavat myös digitaalisen äänen vaatimaan siirtoväylän nopeuteen tai tallennustilaan. Tarkastellaan hieman näiden tekijöiden vaikutusta.

Näytteenottotaajuus ilmoittaa siis sen, kuinka monta kertaa sekunnin aikana analogisesta äänestä otetaan näyte ja muunnetaan digitaaliseen muotoon. Nykyisin näytteenottotaajuuden tyypillinen vaihteluväli on 44,1 kHz ja 192 kHz välillä. Käytännössä näytteenottotaajuus määrittää suoraan muunnetun signaalin sisältämät korkeimmat taajuudet. Nyquistin teoreeman mukaan näytteenottotaajuuden tulee aina olla vähintään kaksi kertaa niin suuri kuin korkeimman sisällytettävän äänen taajuus – tämä on välttämätöntä, jotta digitaalisen signaalitien loppupään DA-muunnoksessa syntyvän analogisen äänen sisältö vastaisi alkuperäistä äänisignaalia mahdollisimman tarkasti. Tätä näyttenottotaajuuden puolikasta kutsutaan teoreeman kehittäjän mukaan myös Nyquistin taajuudeksi. Ihmisen teoreettisen kuuloalueen mukaan siis korkein tarvittava näytteenottotaajuus olisi siis 40000 Hz, mutta esimerkiksi CD-levyn näytteenottotaajuus määritettiin aikanaan teknisistä syistä 44100 Hz:iin.

Korkeimman muunnettavan taajuuden ja näytteenottotaajuuden suhteesta erotetaan yleensä kolme päätapausta – ylinäytteistetty, kriittisesti näytteistetty ja alinäytteistetty. Ylinäytteistyksessä näytteenottotaajuus on yli kaksi kertaa muunnettavan taajuuden suuruinen, eli se ylittää Nyquistin taajuuden - tällöin näyte otetaan useammin kuin kaksi kertaa yhden äänen jakson aikana. Näiden näytteiden perusteella DA-muunnin pystyy laskemaan uudelleen alkuperäisen analogisen äänisignaalin.

Ylinäytteistyksessä DA-muuntimen uudelleen laskema (punainen) aalto on lähes samanlainen kuin alkuperäinen (vihreä) aaltomuoto.

Ylinäytteistyksessä DA-muuntimen uudelleen laskema (punainen) aalto on lähes samanlainen kuin alkuperäinen (vihreä) aaltomuoto.

Kriittisessä näytteistyksessä muunnettava taajuus on täsmälleen sama kuin Nyquistin taajuus ja näyte otetaan tällöin täsmälleen kaksi kertaa jakson aikana. Tällöin voi DA-muunnoksessa tapahtua kolme eri asiaa. Jos näytteenotto on ajoittunut juuri aallon huippukohtiin, pystyy DA-muunnin laskemaan alkuperäisen äänen uudelleen.

Näyttenottohetki voi kuitenkin kriittisen näytteistämisen tapauksessa osua sellaisiin jakson kohtiin, jossa värähtelyn laajuus on huippuarvoa pienempi. Jos näyte on otettu aallon huippu- ja nollakohdan välissä, on DA-muuntimen laskema uusi analoginen aalto amplitudiltaan pienempi ja siinä on myös tapahtunut vaihesiirtymä. Jos taas näytteenotto on tapahtunut jakson nollakohdissa, on uudelleen laskettu taajuus amplitudiltaan nolla, eli kyseinen taajuus katoaa kuuluvista.

85-Kriittisesti_naytteistetty.png
Kriittisessä näytteistyksessä saattaa edellisen esimerkin lisäksi ilmetä kaksi muutakin tapausta.

Kriittisessä näytteistyksessä saattaa edellisen esimerkin lisäksi ilmetä kaksi muutakin tapausta.


Alinäytteistyksessä näyte on otettu harvemmin kuin kaksi kertaa jakson aikana. Tällöin DA-muunnin tulkitsee muunnettavan taajuuden väärin ja syntyneeseen analogiseen signaaliin syntyy uusi äänes, laskostunut aalto eli alias, joka on yleensä taajuudeltaan korvin kuultavissa. Tätä voi tietyllä tavalla verrata liikkuvaan kuvaan, jossa kuvataan pyörän pyörimistä - aina ajoittain pyörä saattaa näyttää pyörivän takaperin liikesuuntaan nähden.

Näytteistyksen hankalin tapaus on alinäytteistys, eli aliasoituminen, jossa DA-muunnin synnyttää uuden, korvin kuultavissa olevan taajuuden.

Näytteistyksen hankalin tapaus on alinäytteistys, eli aliasoituminen, jossa DA-muunnin synnyttää uuden, korvin kuultavissa olevan taajuuden.

Jotta aliasoituneilta ääneksiltä voitaisiin välttyä, käytetään AD-muuntimessa myös alipäästösuodinta liian korkeiden taajuuksien suodattamiseksi. Tämä suodin sijaitse signaaliketjussa ennen itse muunnosta. Suodin ei kuitenkaan koskaan katkaise taajuuskaistaa suoraan rajataajuuden kohdalta, vaan sillä sanotaan olevan tietty jyrkkyys - sen läpi pääsee siis myös rajataajuutta korkeampia ääneksiä, joskin ne ovat voimakkuudeltaan pienempiä. Kun suotimen rajataajuus asetetaan esimerkiksi 20 kHz:n kohdalle, jää sen ja CD-tasoisen äänen Nyquistin taajuuden, 22050 Hz:n, väliin kuitenkin parin tuhannen Hz:n turvakaista.

Näyttenottotaajuus vaikuttaa varsin suoraan myös äänen kuultavaan laatuun. Seuraavissa ääninäytteissä näyte 1 on CD-tasoista ääntä 44100 Hz taajuudella näytteistettyä. Kun näytteenottotaajuus pudotetaan tästä puoleen, eli 22050 Hz:iin, on vaikutus jo korvin kuultavissa. Tästä edelleen puolittamalla taajuus 11025 Hz:iin, on alkuperäisen äänen taajuudellisesta informaatiosta kadonnut jo merkittävä osa.

Ääninäyte, 44100 Hz / 16 bit
Ääninäyte, 22050 Hz / 16 bit
Ääninäyte, 11025 Hz / 16 bit

Kun näytteenottotaajuuden voidaan ajatella määrittävän digitaalisen signaalin syntymistä ajan funktiona ja graafisen esityksen x-akselilla vaikuttaa sanapituus taas amplitudin funktiona ja y-akselilla. Sanapituus määrittää sen kuinka monella bitillä syntynyt digitaalinen näyte ilmaistaan ja käytännössä tämä on yhteydessä sallittuun analogisen äänen dynaamiseen vaihteluun. 16-bittisellä näytteistyksellä amplitudivoidaan jakaa 65536 eri osaan, eli digitaalinen ääniaalto voi saada niin monta eri arvoa. Koska sanapituuden määrittelemien arvojen välissä ei ole sallittuja arvoja, joutuu AD-muunnin aina pyöristämään arvon lähimpään sallittuun arvoon. Mitä suurempi sanapituus on, sitä enemmän y-akselilla on sallittuja arvoja ja pyöristystä tapahtuu vähemmän. Näin syntyy myös vähemmän ns. kvantisointivirheitä ja täten digitaalinen ääni vastaa aina tarkemmin alkuperäistä analogista ääntä.

Sanapituuden lisääminen yhdellä bitillä mahdollistaa aina 6 dB suuremman dynaamisen vaihtelun. CD-levyn tasoisen äänen sanapituus on 16 bittiä, eli sen dynaaminen skaala on 96 dB ja 24-bittisen äänen suurin mahdollinen dynaaminen vaihtelu on 144 dB.

Näin tarkasteltuna olisi järkevintä aina valita mahdollisimman suuri näytteenottotaajuus ja sanapituus, jotta digitaalinen ääni olisi mahdollisimman laadukasta. Nämä tekijät määrittävät kuitenkin myös digitaalisen äänen vaatiman siirtotien kaistan nopeuden tai tallennettavan äänen vaatiman tallennetilan. Esimerkiksi 44,1 kHz näytteenottotaajuudella näytteistetyn 16-bittisen yksikanavaisen äänen vaatima siirtonopeus lasketaan seuraavasti:

44100 näytettä / sekunti x 16 bittiä / näyte = 705600 bittiä / sekunti

Jos kyseessä on stereoääni, kasvaa nopeus kaksinkertaiseksi, eli 1411200 bittiin sekunnissa eli noin 1,35 megabittiä sekunnissa, josta saadaan laskemalla noin 10,09 megatavua minuutissa. 24-bittisellä 48 kHz stereoäänellä vastaava nopeus ja tallennetila on taas 2,20 megabittiä sekunnissa ja 16,48 megatavua minuutissa.

Vaikka nykyään tallennetila on verrattain huokeaa, täytyy tämä äänen laadun ja kaistannopeuden suhde kuitenkin ottaa huomioon esimerkiksi siirrettäessä ääntä verkkoa pitkin. Pienentämällä näytteenottotaajuutta ja sanapituutta riittää äänelle myös hitaampi siirtotie - valitsemalla tämä äänen laatu oikein voidaan nopeuttaa äänen siirtämistä niin, että oleellisen informaation kannalta tärkeät elementit kuitenkin säilyvät äänisignaalissa. Esimerkiksi puhesovelluksissa, kuten digitaalisessa puheviestinnässä, ei täyden audiokaistan toistaminen ole oleellisin asia, vaan riittävä informaatio pitää pystyä välittämään riittävän nopeasti ja reaaliaikaisesti paikasta toiseen.

Toinen tärkeä AD-muunnoksessa huomioitava seikka on suurin mahdollinen muuntimen operointitaso. Siinä, missä analogisessa siirtotiessä äänen yliohjautuminen eli säröytyminen ei aina ole haitallista, on ns. digitaalinen säröytyminen miltei aina äänen laatua heikentävä tekijä ja sitä pitäisikin pyrkiä välttämään kaikin tavoin. Tähän liittyy myös oleellinen piirre analogi- ja digitaalisignaalien tason mittaamisessa. Analoginen signaali voi saada ajoittain nimellistasoaan suurempiakin arvoja ilman, että ääni säröytyy. Esimerkiksi dBu-asteikolla toimiva analogilaite saattaa kyetä käsittelemään jopa +18 dBu-tasoista ääntä ilman säröä. Digitaalisessa lukujärjestelmässä ei saalitun maksimiarvon ylittäminen ole mahdollista, vaan yliohjaustapauksissa tuloksena on jatkuva sarja maksimiarvoja, mistä käytetään nimitystä digitaalinen säröytyminen. Koska digitaalisen signaalin maksimiarvo on ehdoton, mitataan digitaalista signaali  yleisesti dBFS-asteikolla, jossas FS-liite tulee englannin kielen sanoista "full scale". Digitaalisen äänen taso ei saa ylittää 0 dBFS-tasoa, vaan sen on pysyttävä tämän tason alapuolella. Yleinen tasojen sovittaminen tehdäänkin niin, että 0 dBu-tasoa vastaa digitaalisessa maailmassa -18 dBfs -tasoinen signaali.