Format MP3; expert multimedia

Introducere

Ținând cont de constrângerile teoretice ale restituirii unui semnal analog de bună calitate (pentru urechea umană) de la un semnal eșantionat (teorema lui Shannon), am impus CD-urilor audio un format de stocare a sunetului având următoarele date:
Frecvența de eșantionare = 44,1 kHz
Date codate pe 16 biți
Sunet stereo

Aceasta înseamnă că eșantioanele prelevate din piesa de muzică care urmează să fie digitalizate sunt luate cu o rată de 44,1 kHz, că sunt codificate pe 16 biți (adică 65.536 nivele diferite posibile) și că sunetul este stereo, adică pentru o mostră dată nevoia de a stoca canalele dreapta și stânga.
Cu acest standard, cât spațiu ocupă un minut de muzică? ?
Avem 44.100 de eșantioane într-o secundă (44,1 kHz). Fiecare eșantion este codat pe 16 biți sau 2 octeți, iar sunetul este stereo. Prin urmare, avem ((44100 * 2) * 2 * 60) octeți pentru un minut de muzică stereo, adică 10.584x10 6 octeți !

Este nevoie de aproximativ 10 MB pentru a stoca un minut de muzică.
Vedem că un semnal audio stocat pe un suport digital ocupă mult spațiu, de unde ideea de a încerca să-l comprimăm și apariția standardului MP3.

Compresie MP3

Ce este tehnica de compresie MP3 ?
De fapt, ar trebui să vorbim mai degrabă despre un set de tehnici utilizate pentru a ajunge la rezultatul final. Printre aceste tehnici, se spune că unele sunt distructive, altele nu.

Compresie distructivă, este o compresie care se realizează prin pierderea informațiilor. Aceasta înseamnă că, dacă decomprimăm semnalul comprimat folosind o astfel de tehnică, nu vom găsi semnalul original.

Printre tehnicile de compresie distructive, în esență, avem metode care exploatează proprietățile urechii umane. Acesta din urmă aude frecvențe cuprinse între 20Hz și 20kHz. Dacă o melodie conține frecvențe în afara acestui interval, putem deci să le ștergem pur și simplu fără a pierde calitatea audio, deoarece urechea nu le poate auzi. De fapt, auzim corect frecvențele în intervalul de la 2kHz la 5kHz. Într-adevăr, este nevoie de mai puțin de 5 dB pentru a auzi frecvențele acestei benzi, în timp ce este nevoie de mai mult de 20 dB pentru a auzi frecvențele sub 100Hz sau peste 10 kHz. Aceste descoperiri pot fi exploatate pentru a reduce dimensiunile fișierelor. De exemplu, putem decide că toate frecvențele peste 15kHz vor fi șterse.

MP3 folosește și fișierul principiul frecvențelor mascat. Dacă într-un grup de frecvențe, unele au un nivel de sunet mult mai mare decât altele, nu este necesar să se păstreze frecvențele de nivel sonor scăzut: nu vor fi auzite. Pentru a folosi o comparație mai convingătoare, imaginați-vă că sunteți în grădina dvs. și auziți ciripitul păsărilor. Concordia îți trece peste cap (chiar foarte sus). Nu veți mai auzi păsările, deoarece sunetul pe care îl produc este mult mai mic decât cel generat de avion. Parcă păsările nu mai există sau nu ar mai cânta. Putem vedea că nu este necesar să codăm toate frecvențele prezente într-o bucată, astfel încât urechea umană să o perceapă corect oricum. În cele din urmă, dacă cele două canale ale unui sunet stereo prezintă secvențe similare, în loc să duplicăm aceste secvențe, evident stocăm una și informațiile că în acest moment, canalul drept și canalul stâng sunt identice.