Potrivirea dintre infrastructura big data time r; el Spark câștigă

În ultimii zece ani, cam trei cadre open source din mișcarea Hadoop s-au oferit să proceseze fluxurile de date în timp real. Lăsate pe aceeași linie de plecare, unde sunt astăzi ?

În ceea ce privește datele mari, un anumit număr de cazuri de utilizare nu sunt satisfăcute cu prelucrarea datelor în loturi (sau în loturi). Lupta împotriva fraudei, securitatea cibernetică, detectarea anomaliilor în producția industrială, monitorizarea traficului rutier sau recomandarea produselor pe un site de comerț electronic necesită procesarea fluxurilor de date în timp real pentru a oferi rezultate aproape imediat. Pentru a răspunde la această problemă, la sfârșitul anilor 2010, în cadrul galaxiei Hadoop, au apărut trei cadre open source specializate în streaming de date. Sau, în ordinea apariției, Spark, Flink și Storm. La acest trio, putem adăuga Kafka Streams, care oferă o dimensiune de streaming Kafka, un cadru dedicat procesării evenimentelor. Toate sunt oferite sub licența Apache.

Inițial, aceste cadre răspund la două filozofii diferite. Flink și Storm fac procesare în timp real - în timp real în mod nativ - în timp ce Spark funcționează în micro-loturi pentru a procesa și produce rezultate la fiecare X milisecunde pentru a aborda în timp real.

Compararea infrastructurilor de date mari în timp real Apache Storm Apache Spark Apache Flink anul de creație Origine Natura prelucrării Limbi acceptate Distribuitori Hadoop care integrează cadrul Parteneriate de editor Editor comercial Serviciu administrat în modul cloud Referințe

2011	2009	2010
Stare de nervozitate	UC Berkeley	Universitatea din Berlin
Procesarea evenimentelor	Micro-loturi	Prelucrare în timp real
Clojure, Java	Java, Python, R, Scala	Java, Python, Scala
-	Cloudera, Hortonworks și MapR	-
-	Talend, Dataiku	Talend
-	Databricks	Data Artisans (achiziționată de Alibaba)
Apache Storm pe Azure HDInsight	Apache Spark pe Amazon EMR, Spark pe Azure HDInsight, Cloud Dataproc din Google Cloud (Spark + Hadoop)	Apache Flink pe Amazon EMR
Yahoo !, Twitter, Spotify, Groupon.	Uber, ING, Criteo, Zalando.	Alibaba, AWS, CapitalOne, OVH, Bouygues Telecom.

Potrivit lui Christophe Parageaud, expert senior în date și arhitectură Java la Ippon Technologies, „trebuie luate în considerare și alte criterii de selecție, precum maturitatea cadrului, popularitatea sa în cadrul comunităților de dezvoltatori sau chiar sprijinul soluției de către un editor comercial . Atâtea garanții de durabilitate și scalabilitate. "

Spark, cel mai popular

În ceea ce privește popularitatea, Spark a depășit cu mult competiția sa. Pentru a fi convins de acest lucru, trebuie doar să vedeți numărul de interogări asociate cu cadrul din Google Trends. Cadrul conceput în prestigiosul AMPLab al Universității din California la Berkeley are, de fapt, tot ce vă place pe hârtie. Care a fost principalul său handicap (procesarea datelor în modul micro-lot și nu în flux) a fost depășit acum doi ani cu lansarea versiunii sale 2.0. Pentru această ocazie, noua funcție Spark Streaming a introdus, așa cum sugerează și numele său, gestionarea fluxului de date. De la această versiune, Spark interacționează și cu TensorFlow pentru a integra dimensiunea deep learning. „Un plus de neegalat”, potrivit lui Razvan Bizoï, consultant independent în arhitectura bazelor de date și formator la institutul Orsys.