Istoria sintezei vorbirii

Aparatul de vorbire al lui Wolfgang von Kempelen

Primele încercări de a genera limbajul uman prin mașini s-au făcut în a doua jumătate a secolului al XVIII-lea. făcut. Ch. G. Kratzenstein, profesor de fiziologie la Copenhaga, anterior la Halle și Petersburg, a reușit să producă vocale cu tuburi de rezonanță conectate la conductele de organe (1773). În această perioadă, Wolfgang von Kempelen începuse deja experimente care l-au determinat să construiască o mașină de vorbit. Von Kempelen a fost un Ingenius în serviciul Mariei Tereza din Viena. S-a născut în 1734 la Pressburg, capitala Ungariei de atunci, și a murit la Viena în 1804. Deși a devenit mai faimos pentru alte acte, studiul producției de vorbire umană a fost preocuparea sa principală, având în vedere și aplicațiile terapeutice. El a fost numit primul fonetician experimental. În cartea sa Mecanismul limbajului uman și descrierea unei mașini de vorbit (1791) a descris, de asemenea, mașina sa de limbaj în detaliu, astfel încât alții să o poată recrea și îmbunătăți. Cele șase desene prezentate mai jos în dreapta sunt extrase din această carte. (Faceți clic pentru a vedea mărit - și înapoi cu butonul corespunzător al browserului dvs.)

Mașina lui Von Kempelen a fost prima cu care a fost posibil să producă nu numai sunete individuale de vorbire, ci și cuvinte și propoziții mai scurte. Potrivit lui Kempelen, puteți „dobândi o abilitate admirabilă în a juca într-o perioadă de trei săptămâni, mai ales dacă treceți la limba latină, franceză sau italiană, deoarece germana este mult mai dificilă” (din cauza silabelor închise frecvente și Pachet de consoane).

Mașina constă dintr-un burduf acționat cu antebrațul drept, care simulează plămânii (desenul de sus). O contragreutate are grijă de „inhalare”. Cele două desene de mai jos prezintă „cufărul de vânt” cu niște pârghii care pot fi acționate cu degetele mâinii drepte, precum și „gura” de cauciuc și „nasul” dispozitivului. Cele două nări trebuie închise dacă nu se produce un nazal.

Debitul de aer nu este doar ghidat în gură printr-o stuf, ci și printr-o țeavă îngustă aranjată paralel cu acesta. Acest lucru permite creșterea presiunii aerului în cavitatea bucală atunci când deschiderea tubului de atașament este complet închisă pentru a produce sunete vocale fără voce. O mică burduf oferă apoi o pufă suplimentară de aer la eliberarea încuietorii.

Cu mâna stângă, proprietățile de rezonanță ale gurii pot fi, de asemenea, influențate prin variația acoperirii deschiderii sale. Acest lucru permite simularea suficientă a unor vocale și consoane. Deci, aceasta nu este o imitație a articulației naturale, deoarece forma tubului de atașare al mașinii este inerent neschimbabilă. Unele vocale și mai ales consoanele [d t g k] nu pot fi imitate cu aceasta, dar în cel mai bun caz pot fi simulate. Un [l] este produs prin introducerea degetului mare în gură.

Funcția pliurilor vocale este simulată de o trestie din fildeș (desen din stânga). Versiunea descrisă în carte încă vorbea monoton, dar exista deja posibilitatea de a schimba lungimea efectivă a stufului și, astfel, tonul vocii.

Două dintre pârghiile care trebuie acționate de mâna dreaptă sunt folosite pentru a genera fricativele [s] și [] precum și [z] și [] prin intermediul unor țevi separate, șuierătoare (desen în dreapta). Un zgomot [R] este produs de un dispozitiv care lasă să cadă un fir pe trestia vibrantă (desenând în mijloc).

Ultima versiune a aparatului Kempelens a fost păstrată până în prezent. A fost până în 1906 în k. k. Conservatorul de muzică din Viena și apoi transferat ca fundație la Muzeul German (capodopere de științe naturale și tehnologie) din München, care a fost fondat cu doar trei ani mai devreme. De atunci a fost expus în departamentul pentru instrumente muzicale. Acest dispozitiv diferă de versiunea descrisă în carte prin faptul că lungimea de oscilare a stufului poate fi variată cu un zăvor care poate fi acționat din palma dreaptă. Puteți încerca apoi să simulați un curs natural al intonației.

Aparatul de vorbire al lui Wolfgang von Kempelen, așa cum se poate vedea în Deutsches Museum din München, și văzut de sus, cu capacul cutiei scoase. Vizualizări ale mecanismului de fonare

La 8 iulie 1997, m-am bucurat de privilegiul de a încerca mașina lui Kempelen. Mecanismul lor de reglare a funcționat în continuare, iar controlul tonului a avut încă un efect. Vocea era asemănătoare cu cea a unui copil și destul de tare. Cu toate acestea, mai multe detalii esențiale ale dispozitivului nu mai erau în stare de funcționare.

O replică a mașinii, demonstrată de Wheatstone la Dublin în 1835, diferea de cea descrisă în cartea lui Kempelen prin aceea că avea o duză maleabilă și o pârghie pentru a suprima vocea, dar nu avea mecanismul pentru a varia tonul ultimei versiuni a lui Kempelen.

În secolul 19 Au fost construite câteva alte mașini de tip similar, dar inovațiile fundamentale în domeniul sintezei vorbirii nu au fost înregistrate de fapt pentru acest secol. Merită menționat, totuși, dispozitivul prezentat de Joseph Faber în 1835, care, în comparație cu mașina lui Kempelen, a reprezentat un avans prin faptul că avea și o limbă și un faringe care schimbă forma și era potrivit și pentru sinteza cântării. Burduful său a fost condus de o pedală, iar restul operației a fost efectuat printr-o tastatură.

„Eufonia” lui Joseph Faber așa cum a fost afișată la Londra în 1846. Aparatul a produs vorbe și cântări obișnuite și șoptite, printre altele. imnul „Dumnezeu să salveze regina”.

În 1937, R. R. Riesz (SUA) construia încă un dispozitiv cu un concept similar cu cel al lui Kempelen, dar cu o formă esențial realistă a tubului de extensie.

Modelul mecanic al generării vorbirii construit de Riesz (1937).

Deși Kempelen își dăduse deja seama că doar unul era A Dacă doriți să produceți vorbire continuă, dispozitive cu rezonatoare separate pentru o vocală fiecare au fost construite în alte scopuri, chiar mai mult de o sută de ani mai târziu. The Sirиnes a voyelles et rйsonateurs buccaux de G.R.M. Marage (Paris, 1900).

VODER-ul lui Homer Dudley

Dezvoltarea ingineriei electrice la începutul secolului al XX-lea a făcut posibilă producerea sunetului de vorbire prin mijloace electrice. Primul dispozitiv de acest gen care a provocat destulă agitație a fost cel dezvoltat de Homer Dudley INAINTE DE, care a fost prezentat publicului la Târgul universal din 1939 din New York. Cu toate acestea, acest lucru a necesitat o perioadă foarte lungă de practică pentru a o putea folosi cu succes.

Schema funcțională a VODER și prezentarea dispozitivului la Târgul Mondial din 1939.

Dispozitive de sinteză a vorbirii acționate manual precum Kempelens și INAINTE DE Acestea erau în principal pentru divertisment, dar aveau un fundal mai profund. Dispozitivul lui Kempelen a fost creat în paralel cu studiul său asupra generării vorbirii umane, iar dispozitivul lui Dudley a ieșit din VOCODER (Voice Coder), al cărui scop a fost de a reduce lățimea de bandă necesară la transmiterea vocii prin telefon, astfel încât să poată fi efectuat un număr mai mare de apeluri la distanță pe o anumită linie telefonică.

Redarea modelelor lui Frank Cooper

O sursă de lumină creează un fascicul care lovește radial un disc rotativ. Discul are 50 de piste sonore concentrice, ca într-un film sonor, prin care sunt redate 50 de tonuri parțiale cu o frecvență fundamentală de 120 Hz. Lumina modulată în acest mod este proiectată pe o spectrogramă a cărei reflectanță sau, într-un alt mod de funcționare, a cărei transmisie a luminii corespunde nivelului de sunet al tonurilor parțiale și este alimentată către o fotocelulă cu care fluctuațiile de lumină sunt în cele din urmă convertite în fluctuații ale presiunii sonore. Spectrograma este deplasată dincolo de raza de lumină de pe role. Aceasta oferă un semnal sonor similar cu semnalul de vorbire original, dar în orice caz monoton. În locul spectrogramelor corecte, se pot folosi „spectrogramele” pictate manual cu vopsea albă. O serie de noi descoperiri despre rolul perceptiv al diferitelor detalii în spectrele sonore au fost obținute prin experimente de percepție cu semnale generate în acest mod.

Modele electrice de producție a vorbirii

În modelele care au fost dezvoltate de mai mulți cercetători din 1950, semnalul de la o sursă de sunet simulată electric este trimis printr-un filtru. Semnalul sursă este fie un sunet periodic, ca la sunetele vocale vocale, fie zgomot aperiodic.

Filtrul simulează proprietățile de rezonanță ale tractului vocal. Se poate face o distincție între două tipuri. Într-un caz, articulația este simulată cu un număr mare de circuite electrice cuplate în serie, fiecare reprezentând o bucată scurtă a tubului de extensie (de exemplu, 5 mm), prin care aria secțiunii sale transversale este decisivă (analog de linie, linie de transmisie analogică). Cu cealaltă, formanții, adică rezonanțele conductei de atașare, sunt simulate direct de câte un cerc (sinteza formanților, analogic terminal).

Gunnar Fant, de la Kgl. Universitatea Tehnică din Stockholm, cu a sa OVE, Un sintetizator formant pentru vocale, în care poziția de frecvență a celor mai importanți doi formanți ar putea fi modificată manual cu un dispozitiv de ghidare.

Cu Acoperitor artificial parametric de Walter Lawrence (1953) s-ar putea produce și consoane cu drepturi depline.

Sinteza vorbirii computerizate

A fost preluată și ideea evidentă de a produce limbaj prin concatenarea cuvintelor stocate sau a unor segmente mai scurte. Cu toate acestea, sunetele individuale ale vorbirii nu pot fi pur și simplu legate cu succes în cuvinte și propoziții, deoarece proprietățile acustice ale unui sunet de vorbire sunt determinate și de mediul său sonor respectiv. Funcționează mai bine cu așa-numitele difoni, care constau din a doua jumătate a unui sunet de vorbire și prima dintre următoarele. Cu toate acestea, rezultă atunci un număr mare de elemente care trebuie salvate. Cu astfel de metode de interconectare, se poate obține un grad ridicat de naturalețe fără a necesita o descriere completă a bazei lor acustice. Cu toate acestea, acestor metode le lipsește flexibilitatea sintezei controlate de reguli.

Cu stadiul actual al tehnicii, limitele inteligibilității realizabile și naturaleții limbajului sintetic sunt greu de dat de factori de natură tehnică, ci mai degrabă de cunoștințele noastre limitate despre acustică și percepția limbajului. În cercetare, sinteza vorbirii poate fi utilizată pentru a testa aceste cunoștințe. Acum există metode automatizate pentru analiza acustică și resinteza vorbirii. Anumite intervenții pot fi făcute înainte de resinteză, de ex. încearcă să schimbi vârsta aparentă a vorbitorului. Succesul depinde de cât de bine cunoașteți factorii cheie. Ascultați astfel de manipulări și judecați singuri cât de reușite au acestea: Manipulări în vârsta și sexul vorbitorilor (exemple în suedeză).

Iată câteva alte indicații cu privire la acest subiect

Wolfgang von Kempelen pe web, de ex. Despre mașina sa virtuală de șah. Puteți găsi o descriere a cărții sale într-un eseu de Slavomir Ondrejovic (slovacă și engleză).
Exemplele de sinteză de mai sus din VODER, Pattern Playback și OVE sunt unele dintre cele compilate de Dennis Klatt (1987). Mai multe demonstrații.
O descriere a modelului de redare și a unora dintre experimentele care au fost efectuate cu acesta este disponibilă pe serverul de internet Haskins Labs. Acolo, este clară legătura dintre fonare, articulație și proprietățile acustice ale sunetelor vorbirii: Sinteza articulatorie.
De asemenea, puteți încerca mai multe sisteme de sinteză a vorbirii controlate de text de diferite tipuri prin rețea. O selecție de linkuri poate fi găsită în Sinteza on-line.
Mai multe exemple de sinteză a vorbirii.
Institutul pentru fonetică și comunicare lingvistică de la Universitatea din München are câteva texte pregătite pentru studierea foneticii acustice: fonetica acustică (HG Tillmann și F. Schiel), citirea sonogramelor (Kirsten Machelett și HG Tillmann) și o introducere în sinteza vorbirii ( Daniel Zboril).
Puteți găsi mai multe linkuri pe acest subiect la SOCRATES.

Literatură:

Wolfgang von Kempelen (1791) Mecanismul limbajului uman și descrierea unei mașini de vorbit, Viena: J.V. Degen, publicat și acolo în franceză, Le Méchanisme de la parole, suivi de la description d'une machine parlante. O reeditare facsimilă a versiunii în limba germană, cu o introducere de Herbert E. Brekle și Wolfgang Wildgren, a fost publicată de Frommann-Holzboog la Stuttgart în 1970. Există, de asemenea, traduceri mai noi în limba maghiară și slovacă.

James L. Flanagan (1965) Analiza vorbirii: sinteză și percepție, Berlin: Springer.

Jens-Peter Kцster (1973) Dezvoltarea istorică a aparatului de sinteză pentru generarea de semnale statice și vocale, precum și studii privind sinteza vocalelor germane (Disertație), Hamburg: H. Buske.

Dennis H. Klatt (1987) Review of text-to-speech conversion for English, Jurnalul Societății Acustice din America, 82: 737-793.

Joachim Gessinger (1994) Urechea ochiului. Studii pentru studiul limbajului la oameni 1700-1850, Berlin, N.Y.: De Gruyter. Hartmut Traunmьller | Departamentul de fonetică | Institutul de lingvistică Universitatea din Stockholm | în august 1997.