Google Deepmind Cloud Text-to-Speech citește texte cu aproape nat; sunet real

Cu rețelele neuronale, acum este posibil să aveți ore de citire cu sunete naturale. Echipa Google Deepmind a dezvoltat un algoritm text-vorbire pe care dezvoltatorii îl pot încorpora cu ușurință în proiectele lor - incluzând 32 de voci în multe limbi, cum ar fi engleza, germana și japoneza.

Google și-a prezentat serviciul cloud Text-to-Speech într-o versiune beta. Acest sistem este destinat să convertească textele scrise într-un limbaj care sună cât mai natural posibil. Pentru a face acest lucru, Google folosește Deepmind, un departament care se ocupă de rețelele neuronale pentru diverse sarcini - pe lângă jocurile Go și Starcraft 2, de asemenea, vorbind texte.

Dezvoltatorii ar trebui să poată utiliza Cloud Text-to-Speech pentru propriile lor proiecte. În acest scop, Google oferă o interfață de programare (API) care poate obține și aborda modele pre-instruite din cloud. Compania folosește tehnologia Wavenet pentru a genera vorbire care sună cât mai natural posibil. Aceasta este o rețea neuronală care generează semnale audio de la diferiți neuroni. În acest moment, acest lucru este disponibil doar pentru vocile SUA.

Video: Google TTS a încercat [1:26]

Majoritatea vocilor în engleză

Serviciul funcționează pe dispozitive mobile precum smartphone-uri și pe PC-uri, difuzoare și televizoare. În prezent, oferă și o gamă de 30 de voci diferite. Cu toate acestea, o mare parte este legată de engleza britanică sau americană. Un alt dialect american poate fi folosit și cu Wavenet însuși. Diferența este marginală. Cu toate acestea, în limba germană există doar două voci fără suport Wavenet: una feminină și una masculină. Efect secundar amuzant: citirea textelor în limba engleză cu voce germană funcționează cu un accent tipic german. Alte limbi includ spaniola, portugheza, franceza, turca și japoneza. Calitatea poate fi încercată într-un instrument web cu texte de testare.

Pe lângă alegerea vocii, pot fi modificați și alți parametri. Utilizatorii pot ajusta tonul și rata vorbirii. Cu toate acestea, ambele comenzi distorsionează și sunetul vocii, astfel încât, de exemplu, un cititor cu vorbire rapidă să sune mai mult ca un computer. Textele sursă JSON pot fi, de asemenea, afișate în instrumentul web, astfel încât dezvoltatorii au destul de ușor să încorporeze texte în aplicațiile lor. Textele pot fi exportate în diferite fișiere audio, cum ar fi MP3, Linear16 și Ogg Opus. Este oferit și suport SSML. În plus, intonația și pauzele în timpul vorbirii pot fi reglate manual folosind etichete.

Cloud Text-to-Speech poate fi testat gratuit. Cu toate acestea, acest lucru necesită un cont Google și apartenența la Google Cloud Platform, care poate fi testat și timp de douăsprezece luni cu un credit de 300 de dolari SUA.