Recunoașterea continuă a limbajului semnelor în vocabularul mare - Descărcare gratuită PDF
Recunoașterea continuă a limbajului semnelor pe un vocabular mare Philippe Dreuw, Morteza Zahedi, David Rybach, Thomas Deselaers, Hermann Ney [email protected] Atelier de limbaj semnelor 27 octombrie 2006 Catedra de informatică 6 RWTH Aachen University, Germania P. Dreuw și colab.: Continuous Recunoașterea limbii semnelor 1 Atelier de limbă a semnelor 2006 27 octombrie 2006

Prezentare generală 1 Introducere 2 Prezentare generală a sistemului 3 Modelare de cuvinte 4 Rezultate 5 Concluzie P. Dreuw și colab.: Recunoaștere continuă a limbajului semnelor 2 Atelier de limbaj semnelor 2006 27 octombrie 2006
1 Introducere Asemănări: recunoașterea vorbirii/recunoașterea limbajului semnelor limbajul vorbit secvența temporală a sunetelor limbajul semnelor secvența temporală a semnelor/gesturilor semnal acustic secvența temporală a vectorilor acustici, (realizarea acustică a sunetelor) semnal vizual secvența temporală a vectorilor vizuali, (realizarea vizuală a semnelor) diferențe: gramatică Paralelismul utilizării și indexării camerei în limbajul semnelor P. Dreuw și colab.: Recunoașterea continuă a limbajului semnelor 3 Atelierul de limbă semnelor 2006 27 octombrie 2006
Probleme cu semne izolate sisteme de recunoaștere robuste lingvistice semne continue Număr de vorbitori 00 11 00 11 000 111 000 111 0000 1111 00000 11111 00000 11111 000000 111111 0000000 1111111 0000000 1111111 00000000 11111111 000000000 000000000 111111111111111111 0000001100 VAR tipuri diferite de probleme 111111111111111111 000000000 111111111111111111111 0000001100I 111111111 0000001100 111111111 0000001100 Viteză Diferențe interpersonale Gen Dialect Coarticulare Tăcere Ce este semnificativ diferit în recunoașterea vorbirii? Ce ne lipsește? Date: aproximativ 400 de ore de vorbire vs. 5 10,7% 8,7% 8,7% 26,2% Frecvențele cuvintelor în instruire P. Dreuw și colab.: Recunoașterea continuă a limbajului semnelor 11 Atelier de limbaj semnelor 2006 27 octombrie 2006
Aplicare: Urmărirea capului Probleme: 2.3 Urmărirea mâinilor sunt adesea în fața feței Rotirea capului, expresii faciale puternice Fundal: culori ale pielii, structură. Idee: combinați informațiile despre culoarea pielii și trăsăturile faciale P. Dreuw și colab.: Recunoașterea continuă a limbajului semnelor 12 Atelier de limbaj al semnelor 2006 27 octombrie 2006
Urmărirea exemplelor de urmărire a capului și a mâinii în baza de date RWTH-Boston-104 Urmărirea capului în baza de date RWTH-Phoenix cu modelul corpului P. Dreuw și colab.
2.4 Funcții utilizate Caracteristici manuale (de la urmărire): Poziția mâinii Mișcarea mâinii Traiectoria mâinii utut 1 ut 2 Configurare linie de bază: Caracteristici ale imaginii bazate pe aspect Imaginile sunt reduse la 32 32 pixeli și servesc drept linie de bază bună rezultând numeroase probleme de recunoaștere a imaginilor, reușite în recunoașterea gesturilor folosit P. Dreuw și colab.: Recunoașterea continuă a limbajului semnelor 14 Atelier de limbă a semnelor 2006 27 octombrie 2006
3 Modelare de cuvinte Recunoaștere pe un vocabular mare: Modele de cuvinte întregi nu sunt utile, este disponibil un material de instruire insuficient. Este necesară o cantitate mai mare de memorie. Soluție: Creați modele de cuvinte prin concatenarea subunităților de cuvinte. Lexic de pronunție recunoscut xyz:: x: x: Observația 1: yz: x Observația 2: yxx: z: y: Observația 3 x, y, z: Etichetele subunităților P. Dreuw și colab.: Recunoașterea continuă a limbajului semnelor 15 Atelier de limbaj al semnelor 2006 27 octombrie 2006
Modelarea cuvintelor Probleme în recunoașterea limbajului semnelor: fonemele încă nu sunt definite în mod clar Nu există lexic de pronunție disponibil Fonemele apar simultan (multi-stream) Semnificativ mai multe foneme în recunoașterea limbajului semnelor decât fonemele în recunoașterea vorbirii Abordare care nu este ușor transferabilă pentru recunoașterea limbii semnelor Semne izolate Limitele cuvintelor cunoscute Semne, limite necunoscute ale cuvintelor, efecte de context la tranzițiile cuvintelor, penthesis de mișcare, tăcere P. Dreuw și colab.: Recunoaștere continuă a limbajului semnelor
4 Rezultate Rezultate de bază și combinație cu caracteristicile mâinii Exemple de propoziții Rată de eroare caracteristică imagine scalată 37,0 Imagine transformată PCA 27,5 + traiectoria mâinii 23,6 Windows 21,9 Combinație de model 17,9 TOATE BĂIEȚI DĂ PROFESOR MERE TOATE BĂIEȚI DĂ PROFESOR MERE JOHN NU TREBUIE CUMPĂRĂ CASĂ JOHN VIITOR NU CUMPĂRĂ HOUSE ANN BLAME MARY ANN BLAME JOHN READ BOOK JOHN FUTURE FINISH READ BOOK P. Dreuw și colab.
5 Concluzie Rezultatele au fost obținute pe o bază de date publică Sistemul nu necesită hardware sau mănuși speciale Recunoașterea limbajului semnelor cu un sistem actualizat de recunoaștere a vorbirii Caracteristicile imaginii bazate pe aspect au, de asemenea, rezultate bune în recunoașterea limbajului semnelor. al.: Recunoașterea continuă a limbii semnelor 18 Atelier de limbă a semnelor 2006 27 octombrie 2006
Outlook Examinați alte descoperiri ale recunoașterii vorbirii și imaginilor: adaptarea difuzoarelor Alte caracteristici pentru recunoaștere Modelarea cuvintelor Integrarea informațiilor spațiale de la recunoaștere în traducere Recunoaștere IOAN IX DĂ OMUL IX COAT NOU JOHN GIVE IX COAT NOU Traducere fără informații spațiale Informații despre cameră John îi dă bărbatului de acolo o haină. P. Dreuw și colab.: Recunoașterea continuă a limbajului semnelor 19 Atelier de limbă a semnelor 2006 27 octombrie 2006
Vă mulțumim pentru atenție Philippe Dreuw [email protected] http://www-i6.informatik.rwth-aachen.de/ P. Dreuw și colab.
Anexă: Regula de decizie bayesiană Intrare video X T 1 Analiza funcției x T 1 Global < Search: argmax Pr(w N 1 ) Pr(xT 1 wn 1 )>w1 N Pr (x T 1 wn 1) Pr (w N 1) Model de cuvinte Model de limbă inventar ŵ N 1 Secvență de cuvinte recunoscute P. Dreuw și colab.: Recunoaștere continuă a limbajului semnelor 21 Atelier de limbaj semnelor 2006 27 octombrie 2006
Anexă: Fețe proprii O imagine X poate fi proiectată spre spațiul frontal printr-o transformare liniară φ: φ (x) = VT (X µ) unde V = [v 1. vm] este matricea primilor m vectori proprii și µ este media față calculată pe setul de imagini de antrenament. Proiecția de la spațiul feței la spațiul de imagine este: φ 1 (X f) = V X f + µ unde X f este reprezentarea imaginii în spațiul feței φ (x). Distanța dintre o imagine și versiunea sa proiectată înainte și înapoi se numește distanță spațială a feței. Poate fi folosit ca o măsură a fațetei. d f (X) = X φ 1 (φ (x)) 2 P. Dreuw și colab.: Recunoaștere continuă a limbajului semnelor 22 Atelier de limbă a semnelor 2006 27 octombrie 2006
Anexă: Eigenfaces Un exemplu de imagini proiectate și distanța rezultată: X φ 1 (φ (x)) X φ 1 (φ (x)) df (X) 278 432 Folosim distanța spațială a feței ca funcție de scor pentru a detecta și urmări capete: sf (ut 1, ut; X tt 1) = df (X t (ut)) unde X t (ut) denotă un patch dreptunghiular de imagine X t centrat în poziția u t. P. Dreuw și colab.: Recunoașterea continuă a limbajului semnelor 23 Atelier de limbă a semnelor 2006 27 octombrie 2006
Anexă: Modelul acustic LM Scales și modelul de limbaj au aceeași influență în regula de decizie a lui Bayes Experimentele în recunoașterea vorbirii au arătat că recunoașterea poate fi mult îmbunătățită dacă modelul de limbă are o influență mai puternică decât modelul acustic Greutatea α pentru modelul de limbă și o greutate β pentru modelul acustic: argmax w N 1 < p(w N 1 xt 1 )> < = argmax p α (w N w1 N 1 ) pβ (x T 1 wn 1 )> < >α = argmax w1 N β log p (wn 1) + log p (xt 1 wn 1) Factorul α β se numește factorul modelului de limbaj. P. Dreuw și colab.: Recunoașterea continuă a limbajului semnelor 24 Atelier de limbă a semnelor 2006 27 octombrie 2006
Anexă: Perplexitatea LM Perplexitatea unui model de limbă și a unui corp de testare w N 1 este definită ca: PP = p (w N 1 1) N [N = p (wnhn) n = 1 Deoarece perplexitatea este o probabilitate inversă, poate fi interpretat ca numărul mediu de cuvinte posibile la fiecare poziție din text. Logaritmul perplexității este egal cu entropia textului, adică redundanța cuvintelor din corpusul de testare față de acest model de limbă. ] 1 N log P P = 1 N N log p (w n h n) n = 1 P. Dreuw și colab.: Recunoaștere continuă a limbajului semnelor 25 Atelier de limbă a semnelor 2006 27 octombrie 2006
Anexă: Caracteristicile traiectoriei mâinii calculează caracteristicile globale care descriu proprietățile geometrice ale estimării traiectoriei mâinii a matricei de covarianță Σ t pentru pozițiile mâinii într-o anumită fereastră de timp 2 + 1 µ t = Σ t = 1 2 + 1 1 2 + 1 t + t = t t + t = tut Σ tvt, i = λ t, ivt, ii (ut µ t) (ut µ t) Valorile proprii λ t, i și vectorii proprii vt, i ai matricei de covarianță pot fi folosiți ca trăsături globale. P. Dreuw și colab.: Recunoașterea continuă a limbajului semnelor 26 Atelier de limbă a semnelor 2006 27 octombrie 2006
Anexă: Caracteristici ale traiectoriei mâinilor 40 60 80 100 120 0 poziții ale mâinii cu vectori proprii vi 20 40 60 80 100 120 140 160 poziții ale mâinii cu vectori proprii vi 140 60 80 20 40 60 80 100 60 poziții ale mâinilor cu vectori proprii vi 180 0 20 40 60 80 100 120 140 160 180 70 poziții ale mâinilor cu Eigenvectors vi 100 120 140 80 90 100 160 40 60 80 100 120 140 110 50 60 70 80 90 100 P. Dreuw și colab.: Recunoaștere continuă a limbajului semnelor 27 Atelier de limbă a semnelor 2006 27 octombrie 2006
Anexă: Rezultate - informații de context 40 dimensiunea ferestrei = 5 dimensiunea ferestrei = 3 dimensiunea ferestrei = 7 35 WER [%] 30 25 20 50 100 150 200 250 300 Dimensiune Combinație prin fereastra de imagini transformate prin PCA P. Dreuw și colab.: Recunoaștere continuă a limbajului semnelor 28 Atelier de limbaj al semnelor 2006 27 octombrie 2006
Anexă: Rezultate - Modelare lingvistică 80 70 60 zerogramă unigramă bigramă trigramă WER [%] 50 40 30 20 10 0 100 200 300 400 500 500 Rezultate la scară LM pentru diferite modele de limbă și factori de scalare P. Dreuw și colab.: Recunoașterea continuă a limbajului semnelor 2006