Codare audio digitală Reducerea datelor

De la introducerea discului compact audio (CD) și de la apariția benzii audio digitale (DAT), tehnologia digitală a devenit din ce în ce mai populară în sectorul audio. Atât CD-ul, cât și DAT utilizează Modularea codului impulsului (PCM) ca proces de digitalizare de bază. Această tehnologie traduce semnalul audio analogic original în lumea digitală prin eșantionare, cuantificare și codificare. Deoarece PCM nu utilizează reducerea datelor, se obține o calitate excelentă a sunetului - dar este cumpărat la prețul unor cerințe ridicate de memorie. În PCM, un CD poate conține maximum 80 de minute de date audio.

De ce reduceți datele audio?

Cerințele ridicate de memorie ale PCM au făcut în special utilizarea directă a acestei tehnologii în sistemele digitale radio sau multimedia ineficiente, costisitoare sau imposibile. Aceste sisteme necesită o slăbire radicală a semnalelor audio. Motivele pentru aceasta sunt capacitățile de transmisie insuficiente în difuzare, rata limitată de transfer a sistemelor de autobuz de astăzi (PCI, IDE, SCSI) și, mai ales, lipsa încă a spațiului de stocare. Nu numai că spațiul pe hard disk este redus, memoria principală din sistemele de astăzi pentru PC oferă, de asemenea, rezerve insuficiente pentru a permite lucrul sensibil cu datele audio PCM. Dacă considerați că o piesă muzicală de 6 minute în PCM necesită până la 60 MB de memorie (fișier WAV), este ușor să vă imaginați că transmiterea acestei piese prin Internet, de exemplu, este orice altceva decât profitabilă, fără a mai menționa lucrările clasice care durează câteva ore . Rezultatul ar fi durate de descărcare extrem de lungi.

Pe de altă parte, tehnologia digitală are avantaje imbatabile față de tehnologia analogică. Calitatea sunetului foarte bună, imunitatea la interferențe și manevrabilitatea tehnică relativ ușoară au fost motive suficiente pentru ca diverse instituții de cercetare să dezvolte din ce în ce mai multe metode în ultimii ani, care permit o reducere a cerințelor de stocare a semnalelor audio digitale și, astfel, utilizarea acestora în domenii noi, precum difuzarea digitală. Scopul principal a fost menținerea calității sunetului, cu CD-ul ca referință. Rezultatul este o serie întreagă de codecuri, dintre care unele economisesc o cantitate considerabilă de date. În prezent, codecul MP3, dezvoltat de Motion Pictures Expert Group (MPEG), care este răspândit pe internet, este probabil cel mai bine cunoscut, dar MPEG 2, AC-3, ATRAC și altele sunt, de asemenea, tehnici cunoscute de codare audio digitală.

Cantitatea de memorie necesară pentru un semnal audio digital este determinată în principal de rata de biți și rata de eșantionare. Ambii parametri pot fi reglați în timp ce semnalul este codat. Următoarea secțiune examinează efectele modificării ratei de eșantionare și a ratei de biți la procesarea semnalelor.

Cerințe de depozitare în funcție de eșantionare și viteza de biți

Pentru a converti un semnal analogic în echivalentul său digital, funcția originală trebuie prelevată. Procesul de eșantionare este, de asemenea, cunoscut sub numele de eșantionare. Relațiile exacte dintre eșantionare, cuantificare și codificare pot fi găsite în articolul nostru „Stocarea digitală a datelor și producerea discului compact audio” în zona tehnologică de pe pagina noastră de pornire http://www.burosch.de

A doua posibilitate de a codifica date audio digitale cu cerințe de memorie reduse este de a utiliza o rată de biți redusă. Eșantionarea și cuantificarea produc valori discrete ale semnalului analogic original. În timp ce eșantionarea discretizează originalul în domeniul timpului, cuantificarea limitează valorile tensiunii măsurate la timpii de eșantionare la un număr fix de valori. Dacă o valoare a tensiunii este măsurată prin eșantionare la un anumit moment, această valoare a tensiunii este rotunjită la cea mai apropiată valoare disponibilă în timpul cuantificării. Dacă există doar câteva valori care pot fi rotunjite, doar câteva valori digitale diferite sunt create pentru a descrie funcția analogică originală. O mână de biți este suficientă pentru a codifica binar aceste valori.

Cu toate acestea, funcția originală este aproximată insuficient doar cu câteva valori de cuantificare. Datorită rotunjirii puternice a valorilor măsurate de tensiune, apar erori de rotunjire, care pot fi auzite în timpul pasajelor de muzică moale. Zgomotele care apar sunt cunoscute și sub numele de zgomot de cuantificare. Cu toate acestea, există intervale largi de frecvență care pot fi stocate în siguranță cu mai puține date. Aceste zone sunt determinate în primul rând de sensibilitatea urechii umane. Puteți afla mai multe în secțiunea următoare.

Auzul uman - o abordare a compresiei datelor audio

Examinările medicale și fizice ale urechii umane și prelucrarea zgomotului din creier au arătat că aparatul auditiv are propriile sale caracteristici de percepție. În anumite circumstanțe, sunetele nu sunt sau doar parțial înregistrate de creier. Multe dintre componentele semnalului care sunt prezente în semnalul acustic nici măcar nu sunt percepute de oameni. Așa-numita psihoacustică este preocupată de cercetarea acestor probleme. Următoarele deficite au fost descoperite până acum în percepția urechii umane:

Gama perceptivă a auzului:
Valurile pot fi emise pe o gamă largă de frecvențe. Cu toate acestea, urechea umană poate percepe cu adevărat doar o mică secțiune din acest interval de frecvență, gama de frecvențe audio. Teoretic, oamenii pot auzi sunete cu frecvențe cuprinse între 20Hz și 20kHz. Cu toate acestea, în practică s-a demonstrat că sensibilitatea urechii scade considerabil spre frecvențe joase și înalte. În imaginea de mai sus, amplitudinea, adică presiunea sonoră, este reprezentată grafic în funcție de frecvență. Măsurătorile au arătat că toate semnalele care sunt complet sub pragul auditiv de repaus (linia roșie) sunt inaudibile. Amplitudinea acestor tonuri (vârfurile verzi din imagine) este prea mică, astfel încât volumul lor este prea mic pentru a fi perceput. Este interesant de văzut că pragul auditiv liniștit nu este constant la o anumită valoare a amplitudinii, ci se modifică cu frecvența. Tonurile foarte joase (mai puțin de 50Hz) sunt perceptibile numai de la amplitudini foarte mari, la fel ca tonurile de peste 15kHz. De asemenea, trebuie remarcat faptul că nu toată lumea are același prag de auz liniștit. Copiii pot auzi frecvențe înalte mult mai bine decât bătrânii.
Mascare:
Un alt deficit al aparatului auditiv uman este incapacitatea de a distinge între sunete cu o frecvență foarte asemănătoare și un volum foarte diferit care apar simultan. Acest efect este, de asemenea, numit mascare auditivă sau germană numită mascare simultană. Un semnal de amplitudine mare (albastru închis în imaginea de mai sus), cunoscut și sub numele de mascher, ascunde semnale mai silențioase, care au o frecvență similară. În imagine, acestea sunt toate semnale care se află în zona evidențiată în galben. Unele vârfuri turcoaz sunt prezentate ca exemplu. Zona galbenă este mărginită de pragul individual de mascare de culoare portocalie al mascătorului. Pragul individual de mascare și pragul auditiv silențios pot fi combinate pentru a forma așa-numitul prag global de mascare. Prin urmare, toate semnalele care se află sub pragul de mascare global sunt inaudibile. În practică, mascarea auditivă nu înseamnă altceva decât că semnalele muzicale puternice acoperă părțile liniștite și le fac inaudibile.
Un alt efect de mascare apare atunci când două tonuri se succed într-un timp foarte scurt. Dintre aceste două tonuri, doar cel cu o amplitudine mai mare, adică un volum mai mare, este perceput. Interesant, chiar dacă sunetul moale ajunge mai întâi la ureche, doar semnalul puternic care ajunge mai târziu este înregistrat în creier. Acest al doilea efect de mascare important este numit și în jargonul tehnic mascare temporală (mascare temporala).
Deficite în localizarea frecvențelor joase:
În timp ce urechea umană este capabilă să localizeze bine originea tonurilor frecvențelor medii și înalte într-o cameră, apar probleme în zona frecvențelor inferioare. Creierul calculează locația sursei sonore din diferențele în timpul de tranzit al semnalului dintre urechea stângă și cea dreaptă. Dacă există o sursă de sunet în dreapta, undele emise de această sursă sunt percepute mai devreme de urechea dreaptă decât de stânga. Originea tonurilor este apoi calculată din intervalul de timp dintre percepția urechii stângi și a urechii drepte. Cu toate acestea, semnalele sonore cu frecvență foarte scăzută au lungimi de undă foarte mari, ceea ce face imposibilă localizarea clară. Prin urmare, practic nu există nicio diferență tonală între o sursă de sunet mono pentru semnalele de frecvență joasă și o sursă de sunet stereo pentru sunetele de frecvență foarte joasă. Acest lucru este, de asemenea, cunoscut sub numele de efect stereo articular. Este utilizat, de exemplu, în construcția sistemelor de satelit subwoofer și este, de asemenea, punctul de plecare pentru compresia audio în zona tonurilor joase.

Prin urmare, urechea umană poate percepe în mod inadecvat sau deloc o serie întreagă de intervale de frecvență. În electrotehnică, domeniul procesării digitale a semnalului se ocupă (procesare semnal digital, DSP), printre altele, cu procese matematice care, în combinație cu modelul psihoacustic al aparatului auditiv, conduc la reducerea datelor. Astfel de procese sunt cunoscute sub termenul codificare psihoacustică sau codificare perceptivă rezumat.

Metode matematice pentru reducerea datelor:

Metodele matematice pentru reducerea datelor tratate în această secțiune vizează fie eliminarea redundanței din datele de comprimat, adică pentru a rearanja părțile repetitive astfel încât să poată fi salvate doar o singură dată sau pentru a elimina datele care sunt inutile conform modelului psihoacustic. Se face o distincție fundamentală între tehnicile fără pierderi și tehnicile cu pierderi. Trebuie menționat faptul că tehnologiile fără pierderi duc doar la o reducere a datelor în anumite condiții. Adesea câștigul de compresie prin aceste metode este destul de limitat. Avantajul tehnicilor fără pierderi este clar că acestea nu schimbă calitatea originalului.

Cu toate acestea, trebuie stabilit mai întâi cât de des apar simbolurile individuale în șirul de date. O posibilitate este de a codifica datele individuale în conformitate cu o statistică de frecvență dată. De exemplu, un text german ar putea fi codificat conform acestei proceduri dacă este sigur cât de des apar literele individuale în medie în limba germană. Problema cu acest tip de determinare a frecvenței este că, în practică, există abateri de la apariția așteptată conform statisticilor. Acest lucru poate duce la o codificare fără profit dacă cantitatea de date rămâne constantă înainte și după procesul de codare sau, în cazuri extreme (statistici incorecte), algoritmul duce chiar la o situație în care cerința de memorie a crescut după codificare. Acest mod de a determina frecvența simbolurilor individuale este complet imposibil pentru codarea informațiilor necunoscute, cum ar fi cea prezentă în semnalele audio. O altă cale trebuie urmată aici.

Avantajul divizării în benzi de frecvență individuale este că metodele de compresie a datelor pot ataca mai eficient. Dacă întreaga gamă de frecvențe ar fi redusă de date într-o singură explozie, compresia ar putea fi cât mai mare fără pierderi sonore ca în intervalele critice (în special frecvențe între 2kHz și 5kHz). Asta ar însemna, totuși, că ar trebui salvate segmente de frecvență mai puțin perceptibile (mai mult de 15 kHz și sub 50 Hz) cu o cerință de memorie mai mare decât este de fapt necesar. Din acest motiv, intervalul de frecvență este împărțit în secțiuni individuale și numai atunci fiecare interval individual este comprimat și codificat pentru a asigura o eficiență maximă.

Decodificatorul pentru codarea sub-benzii (a se vedea imaginea de mai jos) are o structură foarte asemănătoare cu codificatorul. Mai întâi fluxul de biți de intrare (Y (n)) trece printr-un demultiplexor, care descompune șirul de date în sub-benzi individuale. Apoi are loc o etapă de decodare. În următorul filtru de interpolare, probele calculate sunt parțial restaurate înainte ca un banc de filtru de sinteză să formeze semnalul de ieșire Z (n) din sub-benzi prin însumarea.