Reducerea datelor prin deduplicare și compresie - IONOS

Potrivit institutului internațional de cercetare IDC, cantitatea de date globale este dublată aproximativ la fiecare doi ani. Din 2020, asta univers digital ar trebui să aibă un volum total de 44 zettabytes. Aceasta este o producție sau o copie a 44 trilioane de gigaocteți de date într-un singur an. Această dezvoltare are repercusiuni în special asupra tehnicilor de stocare, a procedurilor de legătură de retur și a sistemelor de recuperare a datelor. Acestea trebuie să poată transporta greutatea enormă a datelor, precum și să le folosească. Sunt prezentate metode pentru conceptele de implementare tehnică. Acestea permit o reducere a informațiilor fizice, precum și a costurilor de păstrare a datelor. Aceste metode se bazează în principal pe două abordări: compresia datelor și deduplicarea. În timp ce compresia de date fără pierderi utilizează redundanță într-un fișier, algoritmii de deduplicare ajustează de obicei datele fișierului pentru a evita duplicarea. Backup-ul datelor este, prin urmare, zona centrală a tehnologiei de deduplicare.

Deduplicare

Tehnica deduplicării se referă la un proces de reducere a datelor care permite evitați redundanța datelor pe spațiul de stocare al unui sistem. O mașină de deduplicare este utilizată pentru a elimina fișierele sau blocurile de date redundante datorită algoritmilor speciali.

Scopul deduplicării ca tehnică de stocare este de a scrie cât de multe informații sunt necesare pe suporturi non-volatile, pentru a reconstitui un fișier fără pierderi. Cu cât sunt mai multe duplicate eliminate, cu atât este mai mică cantitatea de date care trebuie stocate și transmise. De exemplu, identificarea duplicat se poate face pe Git sau Dropbox la nivel de fișier, dar algoritmii care funcționează la nivelul subfilei sunt încă mai eficienți. Fișierele sunt astfel dezmembrate în blocuri de date care sunt furnizate cu sume de control sau hashuri. A baza de date de urmărire servește ca un organism central de control și conține toate aceste sume de control.

Metoda de deduplicare a construirii blocurilor are două variante:

Deduplicare cu blocuri solide lungi: algoritmul împarte fișierele în fragmente de exact aceeași lungime. Acest lucru este în general orientat spre dimensiunea grupului de fișiere (cluster) sau a sistemului RAID (de obicei, 4 KB), dar poate fi configurat și manual. Lungimea blocurilor este adaptată individual în acest caz și este determinată ca standard pentru toate blocurile.

Deduplicare cu blocuri de lungime variabilă: aici nu este definită nicio lungime standard. În schimb, algoritmul împarte datele în diferite blocuri care variază în lungime în funcție de tip.

Tipul de expediere are o influență din ce în ce mai importantă asupra eficacității deduplicării. Acest lucru este deosebit de important atunci când datele transferate sunt modificate ulterior. Dacă extindem un bloc de date solid cu informații suplimentare, conținutul tuturor blocurilor ulterioare se deplasează de obicei proporțional către limitele blocurilor predefinite. Deși modificarea afectează doar un bloc de date, algoritmul de deduplicare clasifică, de asemenea, toate segmentele ulterioare ale unui fișier din nou din cauza schimbării limitelor blocului. De asemenea, este posibil ca octeții modificați să aibă exact același multiplu ca lungimea blocului fix. Deoarece blocurile marcate ca noi sunt salvate din nou, o copie în timpul deduplicării blocurilor de date cu lungime fixă crește memoria de calcul, precum și încărcarea lățimii de bandă.

Dacă un algoritm folosește în schimb limite de bloc variabile, modificările aduse unui singur bloc nu afectează segmentele adiacente. În schimb, doar blocul de date modificat este modificat și salvat. Acest lucru descarcă rețeaua, deoarece sunt transmise mai puține date în timpul unei copii de rezervă. Această flexibilitate a modificărilor de date este totuși costisitoare în ceea ce privește resursele procesorului, deoarece algoritmul trebuie să afle mai întâi cum sunt distribuite diferitele porțiuni de date.

Identificarea porțiunilor redundante se bazează pe ipoteza că blocurile de date conțin informații hash identice. Pentru a filtra porțiunile redundante, algoritmul de deduplicare trebuie doar să retransmită hashurile și să le compare cu baza de date de urmărire. Dacă există sume de verificare identice acolo, porțiunile redundante sunt înlocuite cu un pointer care indică un spațiu de stocare identic cu cel al blocului de date. Un astfel de indicator în sine necesită în mod semnificativ mai puțin spațiu în comparație cu un bloc de date. Cu cât mai multe date sunt înlocuite cu astfel de indicatoare, cu atât este mai puțin spațiu de stocare. Cu toate acestea, nu putem prezice eficacitatea reducerii datelor prin algoritmi de deduplicare, deoarece depind puternic de fișierul de ieșire și de structura sa de date. În plus, deduplicarea este potrivită numai pentru datele necodificate. Redundanțele sunt evitate în mod special pe sistemele de criptare, ceea ce face imposibilă recunoașterea modelelor.

Deduplicarea are loc fie la locația de stocare țintă, fie la sursă.

Deduplicare sursă

Dacă datele redundante sunt deja eliminate înainte de a fi transmise către spațiul de stocare țintă, se numește deduplicare sursă. În acest caz, mașina de deduplicare este de exemplu integrată în program de rezervă. Informațiile redundante sunt eliminate direct din sistemul de date sursă de date. Pentru aceasta, programul de copiere de rezervă scanează blocurile de date nou create la intervale regulate și le compară cu copiile de siguranță ale serverului deja existente. Dacă găsește un bloc de fișiere redundant, îl va exclude din următoarea copie de rezervă. Dacă un fișier este modificat, programul de rezervă transmite doar modificările.