Big Data A sosit timpul ”- GULP

Interviu cu Sergey Rysev, șef de dezvoltare software și administrare sisteme la GULP

GULP nu numai că reunește experți și companii, ci și angajează dezvoltatori de software. Sarcinile ei includ întreținerea și dezvoltarea în continuare a tehnologiei din spatele a aproximativ 90.000 de profiluri independente, peste 200.000 de cereri de proiecte pe an și la fiecare mie de oferte de locuri de muncă și proiect zilnic. Sergey Rysev, șef de dezvoltare software și administrare sisteme la GULP, și echipa sa sprijină colegii interni de la GULP în găsirea experților potriviți în acest imens pool de date și aducerea lor împreună cu companiile. Pentru seria noastră Big Data, i-am cerut o evaluare a stării actuale de dezvoltare și întrebarea ce ar trebui să aducă un specialist în Big Data.

GULP: Cum evaluați evoluția actuală a Big Data în acest moment?

Sergey Rysev: Cantitatea de date explodează în cele mai diverse domenii ale vieții noastre: nenumărate date despre senzori în mașinile noastre, tranzacții ale clienților, informații despre cumpărături cu carduri de reducere, transferul de date de pe smartphone-urile noastre și multe altele. Societatea produce din ce în ce mai multe date, astfel încât nu mai poate fi evaluată cu metode clasice, chiar și cu cea mai bună bază de date Oracle.

Conceptele de bază pentru manipularea datelor mari sunt cunoscute de mult timp, dar până acum pur și simplu au lipsit condițiile tehnice pentru a pune teoria în practică. În ultimii ani, tehnologiile de stocare și calcul au făcut un salt uriaș și au devenit mai ieftine, așa că este pe cale să se schimbe.

Marile companii IT precum Google, IBM și Amazon Web Services au făcut aici o muncă importantă de pionierat. Ele aduc din ce în ce mai mult „produse secundare” ale propriilor dezvoltări disponibile gratuit pe piață, ceea ce face ca Big Data să fie din ce în ce mai potrivită pentru masă. Exemple sunt Amazon Machine Learning, IBM Watson sau Lex de la Amazon, care oferă funcțiile de bază ale Alexa pentru propriile aplicații.

O propoziție frecvent citată este: „Datele sunt uleiul nou”. Și exact asta este: datele sunt baza pentru multe aplicații. Cu toate acestea, țițeiul în sine are încă o utilizare relativ mică; trebuie procesat înainte de a putea fi folosit ca combustibil sau plastic, de exemplu. Cu toate acestea: oricine deține datele sau petrolul are un avantaj decisiv. Ei iau decizii mai rapide și mai bune în comparație cu cei care nu o fac. De exemplu, el știe mai bine ce îi privește pe clienți și unde pot fi găsiți clienți potențiali.

GULP: Care este diferența dintre un proiect big data și un proiect IT normal?

Sergey Rysev: Mai ales atunci când proiectele de date mari sunt create de la zero, ele au un caracter de cercetare mai puternic, deoarece nu există încă atât de multe metode și abordări dovedite. Știți chiar mai puțin decât în proiectele tradiționale la ce să vă așteptați și care va fi rezultatul final.

Un punct care nu trebuie neglijat este subiectul: de la cine provin datele, cine este responsabil de date și cum pot fi controlate și transmise membrilor echipei de proiect cu drepturile de acces corespunzătoare? Cheia aici nu este doar crearea de interfețe adecvate din punct de vedere tehnic, ci și atragerea tuturor.

GULP: Ce trebuie să aducă experții în big data?

Sergey Rysev: Multă experiență și intuiție. Ei trebuie să poată evalua dacă pot extrage informații valoroase sau relevante din datele disponibile. Sau, dacă nu este cazul, ca „geolog” atunci când caută petrol - în jargonul tehnic: „broker de date”. Ei știu unde se află datele de interes, atât intern cât și extern, de ex. la Oficiul Federal de Statistică, Eurostat etc. Și știu care sunt datele relevante. Experții în Big Data au nevoie, de asemenea, de un anumit spirit de cercetare cu toate caracteristicile asociate: curiozitatea, disponibilitatea de a învăța, tenacitatea și perseverența.

Și dintr-un punct de vedere pur tehnic: tehnologia big data nu există, deoarece există multe abordări diferite pentru realizarea proiectelor de big data. Limbile precum Python și R, precum și sistemele de baze de date noSQL din jurul Hadoop precum Cassandra, HBase sau MongoDB sunt deosebit de importante. Cei interesați de big data ar trebui să se ocupe și de instrumentele pentru interogări SQL pe clustere Hadoop, de exemplu Hive, Impala sau Phoenix. (Nota editorului: Ne vom ocupa de abilitățile pentru big data într-un articol separat.)