Văzând aplicația AI Microsoft pentru nevăzători acum și în germană - DER SPIEGEL
Dezvoltatorul Microsoft Saqib Shaikh

Foto: Elaine Thompson/AP
Smartphone-ul citește rețete, scrie fotografii de vacanță și recunoaște prietenii la petreceri: în urmă cu doi ani, Microsoft a lansat un însoțitor digital pentru persoanele cu deficiențe de vedere cu aplicația iPhone „Seeing AI”. De marți, aplicația este disponibilă în franceză, spaniolă, olandeză, japoneză și germană, pe lângă versiunea în engleză.
Într-un interviu acordat SPIEGEL, Saqib Shaikh, dezvoltatorul șef al aplicației de la Microsoft, explică ce funcții noi ale aplicației au fost posibile prin inteligența artificială (AI). El vorbește despre viziunea sa despre însoțitorii digitali pentru persoanele cu deficiențe de vedere și nevăzători, dar și despre problemele cu care se confruntă dezvoltatorii și de ce trebuie să aveți răbdare pentru tehnologie.
Saqib Shaikh În calitate de dezvoltator șef la Microsoft, el este responsabil pentru aplicația „Văzând AI”. Șaikh și-a pierdut vederea la vârsta de șapte ani. La Microsoft, a ajutat la dezvoltarea motorului de căutare Bing și a asistentului vocal Cortana. Șahicul este acum preocupat în primul rând de modul în care inteligența artificială poate ușura viața persoanelor cu deficiențe de vedere.
OGLINDĂ: Domnule Shaikh, acum 15 ani ați avut prima dată ideea de a dezvolta un companion digital pentru persoanele cu deficiențe de vedere. Inteligența artificială este tehnologia pe care ai așteptat-o?
Shaikh: Am făcut pași uriași în cercetarea cu inteligență artificială. Dar suntem la mulți ani distanță de computerele care privesc în jur și înțeleg tot ceea ce văd. Eu însumi sunt orb, așa că îmi place să mă plimb cu soția și prietenii mei. Discutăm apoi ce văd pe parcurs. Apoi îmi spun când descoperă ceva interesant sau mă întreb dacă nu pot identifica un sunet. Mi-aș dori ca într-o zi un AI să poată face exact asta. Ca un asistent personal.
OGLINDĂ: Cât timp trebuie să așteptăm până când asistenții digitali înlocuiesc însoțitorii umani?
Shaikh: Este foarte greu de văzut în viitor. Nu pot specula decât sălbatic. Nu știu dacă vor mai fi doi, trei, patru sau cinci ani. Se întâmplă atât de multe pe teren. În fiecare an, există atât de multe progrese, pe de o parte, dar, pe de altă parte, ne confruntăm cu provocări extrem de mari. De exemplu, este încă foarte dificil pentru un AI să recunoască exact ceea ce fac oamenii într-o anumită situație.
OGLINDĂ: La ce este cu adevărat bun AI?
Shaikh: În ultimii ani, computerele au învățat incredibil de repede să preia sarcini clar definite de la oameni. În special, recunosc imaginile și limbajul din ce în ce mai bine. Inteligența artificială este cea mai avansată în aceste domenii. Datorită acestei tehnologii, „Seeing AI” poate fi folosit pentru a atinge fotografii, de exemplu. Pentru a face acest lucru, utilizatorul atinge ecranul smartphone-ului său pentru a afla dacă textul, o față sau un alt obiect poate fi văzut sub degetul său.
OGLINDĂ: Vederea recunoașterii textului AI funcționează destul de bine. Dar recunoașterea scenei este încă extrem de defectuoasă. Aplicația confundă toboganele copiilor cu hidranții, ferestrele rotunde sunt interpretate ca semne de oprire și băncile de piatră devin pietre funerare. Ce este atât de dificil în recunoașterea obiectelor?
Shaikh: Inteligența artificială poate fi gândită ca un copil de trei ani. Îi arăți o mulțime de poze și îi spui: "Aceasta este o mașină. Acesta este un copac. Acesta este un câine". La început, copilul recunoaște doar lucruri pe care le-a văzut deja. Apoi începe să descrie aceste lucruri în propoziții. La fel ca un copil, inteligența artificială se îmbunătățește în timp. Oamenii de știință lucrează, de asemenea, pentru a se asigura că metodele de instruire continuă să se îmbunătățească.
OGLINDĂ: Este o responsabilitate destul de mare să ghidezi persoanele nevăzătoare și cu deficiențe de vedere prin lume cu ajutorul unei aplicații.
Shaikh: Da. Dar este un proiect de cercetare. Multe funcții sunt încă foarte experimentale. Cu toate acestea, dorim să oferim utilizatorilor posibilitatea de a participa la tehnologiile Microsoft nou dezvoltate cât mai curând posibil. Beneficiem de faptul că utilizatorii ne spun ce părere au despre funcții. Dezvoltăm aplicația împreună cu clienții noștri.
OGLINDĂ: Îi deranjează utilizatorii faptul că aplicația continuă să facă greșeli?
Shaikh: Pentru unii, nu trebuie să fie perfect. De exemplu, un utilizator mi-a spus că vrea să trimită fotografii de vacanță familiei sale acasă. Chiar dacă aplicația nu recunoaște totul exact, ar putea cel puțin să distingă fotografiile și să selecteze imaginile corecte. Un altul mi-a spus că scanează zona pentru a vedea dacă este disponibilă o fotografie pentru Facebook. O descriere aproximativă a aplicației a fost suficientă pentru el. Un altul ne-a spus că a folosit aplicația pentru a filma televizorul la jocurile de fotbal pentru a afla rezultatul. Comentatorul menționase prea rar rezultatul intermediar. Alții scanează cutii de băuturi pentru a distinge o cola de o cola dietetică. Toate aceste lucruri mici fac din aplicație un partener util.
OGLINDĂ: Companii precum Google și Facebook fac multe dezbateri în cercetarea lor în domeniul inteligenței artificiale, câștigând dueluri împotriva campionilor go și învingând jucătorii profesioniști de poker. Ce face Microsoft în competiția pentru supremația AI?
Shaikh: Vedem o mulțime de potențial în AI pentru a îmbunătăți viața persoanelor cu deficiențe de vedere prin „Vederea AI”. Dar colegii noștri dezvoltă și instrumente pentru persoanele cu deficiențe de auz, de exemplu, pentru a afișa subtitrări în timp real. Există, de asemenea, numeroase alte exemple, cum ar fi "Eye Gaze", cu care puteți controla un PC Windows doar cu mișcările ochilor.