Codificarea capitolului 1 și formatele de fișiere

Codificarea textului este cel mai important, dar și cel mai sensibil și mai exploziv subiect din domeniul internaționalizării internetului. Acesta este un subiect esențial, deoarece o mare parte din informațiile care circulă pe internet sunt sub formă textuală. Cu toate acestea, istoria internetului asigură că codificarea predominantă și, în unele cazuri, singura codificare posibilă, este ASCII foarte limitat. Dar această codificare poate reprezenta doar câteva limbi, dintre care doar trei sunt importante: engleză, indoneziană și swahili.

Sisteme de codificare

Codificare: principii

Calculatoarele gestionează doar date numerice, în acest caz sub formă binară (cifre binare: Binary Digit = BIT).
Un bit este cea mai mică unitate de informații pe care o poate gestiona un computer.
Un bit poate fi 1 sau 0.
Cu 2 biți putem avea patru stări diferite (2 * 2): 00, 01, 10, 11
Cu 3 biți putem avea opt stări diferite (2 * 2 * 2): 000, 001, 010, 011, 100, 101, 110, 111
Cu 7 biți putem avea 128 de stări diferite (27)
Cu 8 biți puteți avea 256 de stări diferite (28)
Cu 16 biți puteți avea 65.000 de stări diferite (216)
Cu 32 de biți putem avea + 4 miliarde de stări diferite (232)

Un cod (un set de caractere) este un tabel de corespondență care asociază un simbol grafic cu date numerice.
Un set de caractere îndeplinește, în general, anumite criterii:
- Numele de familie: Un set de caractere este menționat prin diferite nume: codificarea caracterelor, repertoriul codificat de caractere și pagina de coduri. Este numit întotdeauna astfel încât sistemul de procesare sau recepție să poată utiliza tabelul corect. Exemple de seturi de caractere: ISO/IEC 8859-1, ISO/IEC 8859-2, ASCII, Unicode 4.0 etc.;
- A tăia: dimensiunea unui set de caractere este exprimată de numărul de biți folosiți pentru a reprezenta un caracter și determină numărul de caractere care trebuie codate:
* Se utilizează 7 biți pentru a codifica 128 de caractere: ASCII, ISO/IEC 9036 (arabă)
* 8 biți pot codifica 256 de caractere: ISO/IEC 8859-1, UTF-8
* 16 biți permit codificarea a +65000 de caractere: UTF-16, KSC 5601 (coreeană)
* 32 de biți pot codifica +4 miliarde de caractere: UCS-4, UTF-32.

- Personaje: există cel puțin (pentru alfabetul latin): cele 10 cifre, cele 26 de litere ale alfabetului, semnele de punctuație sau operatorii, caractere de control destinate să faciliteze transmiterea informațiilor și pentru dispunerea funcțiilor.

Toate seturile de caractere disting noțiunea de caracter de cea de glif:

* Un caracter este o unitate de informații utilizată pentru codificarea textului. Este reprezentat de un număr care se află numai în memorie sau pe disc.

* Un glif este o formă geometrică utilizată pentru a prezenta un personaj. Apare pe ecran sau tipărit. Un director al glifelor constituie un font (Arial, Times New Roman etc.)

- Tratament: codificarea numerelor și literelor ar trebui să fie concepută pentru a facilita prelucrarea.

De exemplu, trebuie să putem să sortăm cu ușurință pe caractere. Întrucât în sens lexicografic „A =? -, & ' +
-12 cutii sunt rezervate pentru uz național sau specific (litere diacritice și alte simboluri).

Codificare: probleme de incompatibilitate

Au fost create sute de sisteme de codificare a caracterelor.

Acestea sunt adesea incompatibile între ele: două sisteme pot utiliza același cod numeric pentru două caractere diferite sau pot folosi coduri diferite pentru același caracter.

Datorită multitudinii de jocuri, fiecare producător oferă propria soluție bazată mai mult sau mai puțin pe unul dintre aceste standarde. Apare atunci problema transferului de date între sisteme sau a migrațiilor de la un sistem la altul.

Prin urmare, problema nu este deficiența, ci supraabundența.

Pentru arabă: mai multe seturi de caractere: ISO 8859-6, ISO 9036, MS Arabic Dos Code Page 708, MS Windows Arabic Code Page 1256, Arabic Mac Code Page, Arabic Windows 3X Code Page, Code Code 864 Dos Arabic, etc.

Exemple de incompatibilitate:
Cuvântul arab „. „Este codificat în ISO 8859-6 ca următoarea succesiune de coduri numerice: 226 () 232 (?) și 234 (?).

Dacă trecem de la ISO 8859-6 la pagina de coduri Windows 1256, aceeași secvență de coduri numerice va afișa: êèâ.

De ce această transformare ?: cele două seturi de caractere atribuie coduri diferite pentru cele trei litere arabe din exemplul nostru.

- Aceeași problemă se observă și cu literele latine accentuate: û, ê, î, ï, è etc.

Codificare: o soluție universală (Unicode și ISO 10646)

Standardul Unicode și standardul ISO/IEC 10646 specificați un număr unic pentru fiecare caracter, indiferent de platformă, indiferent de software și orice limbă.
Din 1992, data fuziunii, dezvoltarea Unicode a fost sincronizată cu cea a standardului ISO/IEC 10646.
Apariția standardului Unicode și a standardului ISO/IEC 10646, precum și disponibilitatea instrumentelor care le susțin, se numără printre cele mai semnificative fapte ale recentei globalizări a dezvoltării de software.
Datorită standardului Unicode și standardului ISO/IEC 10646, un singur software sau site web poate satisface simultan și fără modificări cerințele mai multor platforme, limbi și țări.
De asemenea, permit software-ului din diferite surse să schimbe caractere fără pierderi de date.

Unicode/ISO 10646: internaționalizarea internetului

În prezent, Unicode și ISO/IEC 10646 sunt solicitate de multe standarde recente de la W3C și IETF precum XML, XSL, XHTML etc.

RFC 2277 stabilește următoarele orientări:

orice protocol trebuie să identifice setul de caractere utilizat;
orice protocol trebuie să poată utiliza codificarea UTF-8 a setului de caractere universal ISO/IEC 10646;

protocoalele existente care utilizează alte seturi de caractere sau chiar care utilizează un set de caractere implicit decât UTF-8, trebuie să accepte codarea UTF-8 [...]

Versiunile recente ale principalelor browsere acceptă codarea UTF-8: Internet Explorer 4, 5 și 6, Netscape 4 și 6, Tango etc.

În limbaj HTML, este suficient să adăugați în secțiunea unui document o meta-informație care să indice acest lucru:

Cu XML, mențiunea codării UTF-8 trebuie indicată în prologul documentului XML:

În corpul documentului HTML sau XML, puteți introduce caracterele prin referire la numerele pe care le au în tabelul de coduri.
Referințele la caractere pot fi furnizate fie ca valoare hexazecimală, fie ca valoare zecimală a caracterului din tabel.
În primul caz, referința este prefixată cu &#x urmată de valoarea hexazecimală a caracterului din tabel urmată de un punct și virgulă.
În al doilea caz, referința este prefixată cu & #, urmată de valoarea numerică a caracterului din tabel urmată în cele din urmă de un punct și virgulă.

Diferitele formate de fișiere

Fișiere care conțin text

.RTF (Format text îmbogățit) Acest format de document text ASCII standardizat cu formatare promovează schimbul între diferite programe software. Se folosește dacă există vreo îndoială cu privire la compatibilitatea versiunii, software-ului sau mediului în timpul unui schimb simplu de fișiere text. Vă rugăm să rețineți că aspectul și tabelele dvs. nu vor fi transcrise fidel. Pentru a fi rezervat pentru documente simple (altfel utilizați Acrobat și formatul său PDF).