Principii, stadiul tehnicii, recunoașterea unui singur cuvânt dependent de vorbitor - spectrul științei

Principii, stadiul tehnicii, recunoașterea unui singur cuvânt dependent de vorbitor

Comunicarea lingvistică este un proces foarte complex. O persoană înțelege o vorbire nu numai din ceea ce aude; mai degrabă, el folosește întreaga sa experiență lingvistică, precum și cunoștințele sale anterioare despre subiect și partener; În plus, el evaluează și componentele non-verbale, cum ar fi gesturile, expresiile faciale și tonul emoțional al vocii. Aceste informații suplimentare pot fi chiar mai importante decât formularea. La urma urmei, limbajul natural este caracterizat de un grad ridicat de redundanță (adică a ceea ce este de fapt superflu), astfel încât indicii verbale sau fragmente de limbaj sunt deseori suficiente pentru comunicare. Acest lucru explică de ce o conversație este posibilă și într-un mediu zgomotos.

Dacă s-ar dori să realizeze această performanță de recunoaștere fenomenală printr-un sistem tehnic, aceasta ar trebui să aibă în cele din urmă cunoștințele, experiența și inteligența unei persoane. Se poate filozofa mult timp dacă acesta este un obiectiv realizabil sau semnificativ. Pentru dezvoltatorul unui sistem de recunoaștere a vorbirii, care trebuie întotdeauna să ia în considerare efortul tehnic (și, prin urmare, costurile), acest lucru nu este cu siguranță cazul; el trebuie să vadă în primul rând aplicația concretă. Se pare că formele foarte restrânse de recunoaștere a vorbirii sunt deseori suficiente; este crucial să găsiți cea mai potrivită soluție pentru aplicația specifică.

Comunicarea cu mașinile prin limbaj natural - în locul tastaturii și ecranului obișnuit, mai general prin comutatoare și dispozitive de afișare - oferă o serie de avantaje: utilizatorul nu trebuie să învețe tehnologie nouă, ci lucrează cu cea mai familiară formă de comunicare; își păstrează ochii și mâinile libere pentru alte activități, nu este legat de un anumit loc și chiar poate controla aparatul de la distanță prin telefon. Intrarea și ieșirea vocală sunt posibile și în încăperile întunecate, murdare și prăfuite și poate singurul mijloc de comunicare cu aparatul pentru persoanele cu dizabilități care nu pot utiliza tastatura. În direcția opusă, o enunțare vorbită de mașină ajunge, de asemenea, la utilizatorul distras sau neatent.

Ceea ce se opune utilizării acestei forme de comunicare este că performanța și fiabilitatea sunt încă nesatisfăcătoare pentru unele aplicații. În plus, există punctele slabe ale fiecărei comunicări lingvistice: zgomote pentru spectatori, oportunități nedorite de a asculta și interferențe din zgomotul de fundal, care este în prezent o problemă majoră pentru sistemele de recunoaștere a vorbirii.

Cele mai importante aplicații pot fi găsite în următoarele câmpuri:

- Introducerea numerelor și a listelor de cuvinte: dacă trebuie să tastați coloane lungi de numere sau cuvinte dintr-un șablon, trebuie să continuați să vă schimbați privirea între șablon, tastatură și ecran, ceea ce este enervant, obositor și o sursă de erori pe termen lung. Introducerea verbală imediată fără a privi în altă parte evită această problemă. Ieșirea vocală prin intermediul mașinii poate fi utilizată pentru corectură.

În prezent, unii controlori de calitate din producția de mașini își transmit rapoartele de defecte direct printr-o legătură radio către un computer care recunoaște vocea, care nu numai că păstrează un jurnal, ci și transmite un mesaj corespunzător părții responsabile - posibil un computer de producție. Avantajul față de o evaluare scrisă ulterioară este un răspuns prompt; acest lucru reduce rata de respingere.

- Controlul mașinilor și computerelor. Sistemul nu numai că recunoaște o comandă introdusă, ci o execută și prin declanșarea unei acțiuni. Mașinile-unelte controlate prin voce sunt deja pe piață. Există automobile în care deschizătoarele de ferestre, ștergătoarele de parbriz, aparatele de radio și telefoanele respectă comenzile vorbite. Anumite funcții de control și corecție din computerele personale pot fi de asemenea declanșate cu ajutorul dispozitivelor de recunoaștere a vorbirii. Există scaune cu rotile controlate de voce pentru persoanele cu dizabilități motorii severe. Controlul vocal nu a fost încă utilizat pentru funcții relevante pentru siguranță, deoarece problema răspunderii în cazul unei defecțiuni a sistemului nu a fost încă clarificată.

- Sisteme de informare și comandă. Utilizatorul își exprimă anumite cerințe sau dorințe, iar sistemul oferă un răspuns rostit (vezi articolul lui Helmut Mangold la pagina 97).

- Sisteme de dictare. Orice text vorbit fluent ar trebui convertit în text scris. Această aplicație necesită cea mai extinsă formă de recunoaștere a vorbirii (vezi articolele lui Marcus Spies la pagina 90 și Volker Steinbiß la pagina 94).

Metodele de recunoaștere a vorbirii sunt de obicei împărțite în trei clase: recunoașterea cuvintelor unice, a cuvintelor cheie în textul care curge sau a vorbirii continue. În ordinea numită, dificultatea și efortul cresc dramatic. Un alt criteriu este dependența de vorbitor. Sistemele obișnuite trebuie mai întâi adaptate la difuzorul respectiv înainte de a fi utilizate efectiv. Independența vorbitorilor poate fi obținută prin instruirea sistemului în avans cu cât mai mulți vorbitori posibil. Efortul pentru aceasta este considerabil; cu toate acestea, fiabilitatea detectării scade de obicei.

Recunoașterea unui singur cuvânt dependent de vorbitor este prezentată mai detaliat mai jos. În prezent, este cea mai larg utilizată și avansată tehnică formă de recunoaștere a vorbirii.

Procesul constă în esență din două etape (Fig. 1): preprocesare, care extrage parametrii relevanți pentru recunoaștere din semnalul de vorbire și clasificare, care găsește semnificația asociată prin comparații de tipare între testele și modelele de referință.

Preprocesare

Prima etapă include limitarea frecvenței (filtrare), normalizarea volumului și conversia analog-digitală; acesta din urmă este necesar pentru prelucrarea ulterioară (astăzi exclusiv digital). Semnalul de vorbire digitalizat în acest mod constă deja dintr-o secvență discretă de numere, fiecare dintre ele descriind energia sonoră într-un anumit moment al timpului. Cu toate acestea, acești timpi de eșantionare sunt atât de apropiați încât proprietățile esențiale ale semnalului continuu inițial sunt păstrate; se vorbește despre un semnal cvasi-continuu.

Cantitatea de date, care este mult prea mare în această formă, trebuie acum redusă, astfel încât informațiile eliberate din balastul superflu să caracterizeze proprietățile relevante ale semnalului de vorbire cât mai precis posibil. Printre numeroasele posibilități pentru acest pas, considerăm extragerea parametrilor din spectrul vorbirii în cele ce urmează din motive de claritate. Luați cuvântul faptă ca exemplu, rostit o dată scurt și o dată lung. În semnalul de timp (Fig. 1a), t plosiv poate fi recunoscut prin energia sa redusă a semnalului și cursul său neregulat; acesta din urmă indică componentele semnalului de înaltă frecvență. Vocala a se caracterizează printr-o energie ridicată a semnalului și un curs periodic, destul de regulat.

De asemenea, puteți vedea că vorbirea prelungește încet vocala, dar nu și ploziva. Deci, un cuvânt rostit încet nu este pur și simplu o versiune cu mișcare lentă a unui cuvânt rostit rapid, care trebuie luat în considerare la procesare.

Semnalul sonor este acum defalcat în frecvențe; matematic aceasta corespunde unei transformări Fourier, aplicată la intervale de timp de aproximativ 20 până la 30 de milisecunde. În afișarea frecvenței (Fig. 1b), la fel ca înainte cu vocalele, există energii mari care sunt concentrate în intervalul de frecvențe mai mici (în jur de 1000 Hz); asemenea energii maxime sunt numite formanți. În schimb, intervalul de frecvență pentru plozivi este foarte larg și se extinde până la aproximativ 10 kilohertz. Aproape nu există energie înainte de t la sfârșitul cuvântului; astfel de pauze caracterizează fazele de acumulare a presiunii care sunt în general necesare pentru a vorbi despre plozivi.

Scara de timp a fost deja redusă la grila intervalelor menționate de transformarea Fourier. În majoritatea cazurilor, reducerea datelor este luată chiar mai departe prin combinarea a numeroase valori pe scara de frecvență cvasi-continuă prin media peste 8-20 de benzi de frecvență relativ largi. Numerele rămase, la rândul lor, grosime prin rotunjire, formează așa-numitul vector de caracteristică: o imagine foarte brută a spectrului original, care este complet suficientă pentru procesul de recunoaștere (Fig. 1 c).

Semnalul de vorbire, de exemplu un cuvânt rostit, a devenit astfel o secvență de timp a vectorilor caracteristici. Pauzele vorbitoare înainte și după fiecare cuvânt, care costă doar spațiu de stocare inutil, sunt determinate și eliminate cu un detector special de pauză; Numai cuvântul respectiv este apoi salvat. Aceasta pune capăt preprocesării.

Învățare și recunoaștere

Pentru a adapta sistemul la un difuzor specific, difuzorul vorbește un cuvânt care este transformat într-o secvență de vectori de caracteristici în modul descris, care formează de atunci un model de referință. Semnificația cuvântului vorbit este de obicei comunicată sistemului printr-o tastatură. Semnificația și semnalul de vorbire asociat sunt acum stocate în memoria modelului de referință. Mai multe modele de referință pentru același cuvânt pot fi combinate într-unul singur prin mediere, care compensează abaterile aleatorii din înregistrarea vocală. Procedați în același mod cu toate cuvintele pe care sistemul ar trebui să le învețe.

Dacă, după sfârșitul fazei de învățare, utilizatorul vorbește oricare dintre cuvintele învățate, sistemul convertește semnalul sonor în același mod într-o secvență de vectori de caracteristici - modelul de testare. Acesta îl compară unul după altul cu toate modelele de referință stocate, îl determină pe cel care este cel mai asemănător cu modelul actual și îi dă semnificația (Fig. 1 dreapta).

Pentru această comparație, cele două tipare trebuie aduse pe o scală de timp comună, deoarece nimeni nu pronunță același cuvânt de două ori cu exact aceeași viteză. Pur și simplu comprimarea sau întinderea axei timpului ar fi inutilă, deoarece - așa cum am menționat - o schimbare a vitezei vorbirii are efecte diferite asupra sunetelor diferite. Așa-numita ajustare dinamică a timpului s-a dovedit a fi o metodă foarte eficientă: fiecare perioadă mică de timp este întinsă individual sau comprimată astfel încât corespondența dintre test și modelul de referință să fie cât mai mare posibil (Fig. 2). Funcția de adaptare neliniară rezultată se numește funcția de deformare dinamică a timpului; cuvântul warp (a vânt) descrie foarte clar modul în care funcția de adaptare se învârte prin sistemul de coordonate.

O etapă finală de procesare este reajustarea. Deoarece vocea unui vorbitor se schimbă în timp, modelele de testare care au fost recunoscute în mod fiabil sunt utilizate pentru a reîmprospăta modelele de referință stocate prin formarea unei valori medii ponderate corespunzător pentru ambele. Drept urmare, sistemul funcționează nu numai cu cuvintele stocate în faza de învățare, ci și cu cuvintele rostite recent.

Proceduri suplimentare

Alte două metode foarte reușite funcționează cu o comparație de tipare destul de indirectă în loc de compararea directă a modelelor de testare și de referință prezentate aici.

Recunoașterea cu așa-numitele modele ascunse Markov este în prezent favorita clară. Acestea se întorc la matematicianul rus Andrej Andrejewitsch Markow (1856-1922). Lucrați cu estimări ale probabilității cu care o stare a unui sistem (de exemplu, un vector caracteristică) este urmată de un altul - sau chiar același - (a se vedea în special articolul de Marcus Spies la pagina 90).

Al doilea dintre aceste concepte sunt rețelele neuronale. Ele constau dintr-o structură paralelă, în rețea, a elementelor de comutare primitive, care sunt modelate pe celule nervoase reale. Anumiți parametri ai acestor elemente pot fi setați automat într-o fază de învățare în așa fel încât anumiți vectori de caracteristici prezenți la intrare să dea un anumit rezultat la ieșire (vezi „Cum rețelele neuronale învață din experiență” de Geoffrey E. Hinton, Spectrum of Science, noiembrie 1992, pagina 134 ). Rețelele neuronale sunt foarte potrivite pentru recunoașterea vorbirii; au un succes deosebit atunci când modelele de testare sunt falsificate de interferențe (cum ar fi zgomotul ambiental).

Încă nu este clar care dintre strategiile menționate va prevala pe termen lung. Modelele ascunse Markov ar putea fi ușor depășite de noi tipuri de rețele neuronale optimizate pentru recunoașterea vorbirii.

Pentru a îmbunătăți în continuare performanța recunoașterilor de vorbire, pe lângă informațiile acustico-fonetice conținute în vectorii de caracteristici, sunt evaluate alte surse de informații. Una foarte importantă este cunoașterea legată de sarcini. În majoritatea aplicațiilor, domeniul de aplicare este limitat în ceea ce privește conținutul, astfel încât există doar relativ puține cuvinte permise. Din acest motiv, un program de recunoaștere a vorbirii pentru controlul mașinii, de exemplu, ar putea corecta cu ușurință o comandă care a fost recunoscută incorect ca „pădure de mașină” la comanda validă „oprire mașină”.

Cunoașterea pragmatică este strâns legată de acest lucru: programul de recunoaștere a vorbirii primește informații despre starea mediului său și înregistrează o recunoaștere bazată pe fonetic ca fiind falsă dacă contrazice condițiile de mediu. Dacă, de exemplu, sistemul de recunoaștere pentru controlul mașinii știe (printr-un raport al senzorilor de măsurare) că mașina funcționează, ar recunoaște comanda „pornește mașina” ca fiind lipsită de sens și o va înlocui cu „opri mașina” - sau ar declanșa o interogare.

De ultimă oră

Recunoscătorii de cuvinte unice dependente de difuzoare pentru un vocabular mic (până la câteva sute de cuvinte) pot fi acum implementate fără probleme. Majoritatea sistemelor disponibile în prezent sunt de acest tip.

În unele cazuri, sunt oferite recunoașteri de cuvinte unice independente de vorbitor, cu până la 50 de cuvinte; dar multe sunt încă în stadiul de cercetare sau dezvoltare. Există o nevoie urgentă de aceste sisteme în sectorul telecomunicațiilor cu utilizatorii săi mereu noi, de la care este evident că nu se poate solicita o etapă de instruire de fiecare dată înainte de utilizare. Sistemele de informații telefonice sunt o aplicație tipică.

În fruntea dezvoltării sunt puțini identificatori precum sistemul „Dictate-30K” de la compania americană Dragon Systems, care se bazează pe modele ascunse Markov și are o capacitate de până la 30.000 de cuvinte. Acest lucru este în general suficient pentru crearea de texte standard, chiar dacă luați în considerare faptul că un cuvânt are de obicei forme de flexiune diferite și fiecare formă este considerată ca un cuvânt independent. Deoarece sistemul se adaptează la difuzoarele care îi sunt necunoscute fără o fază de antrenament, acesta are aproape proprietățile unui recunoscător independent de difuzoare. Hardware-ul este găzduit pe un card care poate fi conectat la un computer personal. Aplicația principală este în zona de birouri. Un dezavantaj este cu siguranță faptul că utilizatorul trebuie să facă o pauză între fiecare două cuvinte (deoarece este un singur recunoaștere a cuvintelor), ceea ce necesită un mod de vorbire agitat, nefiresc.

O sarcină deosebit de interesantă este recunoașterea cuvintelor cheie în limbajul vorbit fluent, așa-numitul spotting de cuvinte. Formează tranziția către recunoașterea continuă a vorbirii, dar în niciun caz nu necesită efortul său de calcul. Își dezvăluie punctele forte în care doar informațiile speciale - cum ar fi comenzile, interogările, numele sau numerele - sunt importante. De exemplu, utilizatorul unui sistem de informații de zbor care folosește spottingul cuvintelor are o libertate considerabilă de a-și formula răspunsul la întrebarea unde ar dori să zboare; sistemul îl va înțelege corect dacă recunoaște corect cuvântul „Hamburg” în textul vorbit. În acest fel, se poate obține un nivel ridicat de acceptare a utilizatorilor.

În mod uimitor, există doar câteva astfel de sisteme. Un motiv ar putea fi faptul că identificarea cuvintelor este deosebit de potrivită pentru ascultarea canalelor vocale (în special a liniilor telefonice) și, prin urmare, investigațiile sunt supuse confidențialității.

Cea mai convenabilă, dar și de departe cea mai dificilă tehnică este aceea de a recunoaște vorbirea continuă. Problemele apar mai ales din faptul că limitele cuvintelor nu sunt adesea recunoscute în fluxul de limbă sau nu există deloc: „Luni” se vorbește ca „Luni”. Acest lucru face imposibilă comparația pe baza cuvintelor, astfel încât trebuie să treceți la sunete individuale.

Există foarte puține sisteme în lume care să abordeze aceste probleme; majoritatea sunt încă în laborator sau în etapa de prototip. Pe lângă „Speech Processing System 6000” de la Philips (comparați articolul lui Volker Steinbiß la pagina 94), sistemul „Sphinx”, pe care Kai-Fu Lee și colegii săi de la Universitatea Carnegie Mellon din Pittsburgh, ar trebui să îl menționeze în special (Pennsylvania). Se bazează în mod esențial pe modele ascunse Markov și nu conține strategii sau componente semnificativ noi; Mai degrabă, performanța sa ridicată se datorează faptului că cei mai buni dintre algoritmii de recunoaștere cunoscuți au fost combinați între ei într-un mod elaborat. „Sfinxul” poate recunoaște vorbirea continuă cu un vocabular de aproximativ 1000 de cuvinte și o precizie de aproximativ 95%. Sistemul este în prezent încă în stadiul de laborator.

Recunoașterea automată a vorbirii este, fără îndoială, una dintre cele mai importante inovații tehnice în domeniul comunicării om-mașină. Sistemele disponibile sunt încă departe de o performanță de recunoaștere care ar fi comparabilă cu cea a oamenilor, dar care poate fi deja utilizată pentru o varietate de sarcini. Majoritatea aplicațiilor tehnice au oricum doar cerințe foarte limitate pentru un sistem de recunoaștere a vorbirii. Cu toate acestea, există încă o nevoie considerabilă de cercetare și acțiune într-un domeniu non-tehnic: proiectarea optimă a dialogului om-mașină.

Bibliografie

- Procesarea vorbirii și transmiterea vorbirii. De la Klaus Fellbaum. Springer, Heidelberg 1984.

- Recunoaștere automată a vorbirii. De G. Ruske. Oldenbourg, München 1988.

- Comunicare lingvistică om-mașină. Editat de Helmut Mangold. Oldenbourg, München 1992.

- Recunoașterea și înțelegerea vorbirii. Progrese, tendințe și aplicații recente. Editat de P. Laface și R. de Mori. Springer, Heidelberg 1992.

- Progrese în procesarea semnalului de vorbire. Editat de Sadaoki Furui și M. Mohan Sondhi. Marcel Dekker, New York/Basel/Hong Kong 1992.