Potrivirea dintre infrastructura big data time r; el Spark câștigă

În ceea ce privește datele mari, un anumit număr de cazuri de utilizare nu sunt satisfăcute cu prelucrarea datelor în loturi (sau în loturi). Lupta împotriva fraudei, securitatea cibernetică, detectarea anomaliilor în producția industrială, monitorizarea traficului rutier sau recomandarea produselor pe un site de comerț electronic necesită procesarea fluxurilor de date în timp real pentru a oferi rezultate aproape imediat. Pentru a răspunde la această problemă, la sfârșitul anilor 2010, în cadrul galaxiei Hadoop, au apărut trei cadre open source specializate în streaming de date. Sau, în ordinea apariției, Spark, Flink și Storm. La acest trio, putem adăuga Kafka Streams, care oferă o dimensiune de streaming Kafka, un cadru dedicat procesării evenimentelor. Toate sunt oferite sub licența Apache.
Inițial, aceste cadre răspund la două filozofii diferite. Flink și Storm fac procesare în timp real - în timp real în mod nativ - în timp ce Spark funcționează în micro-loturi pentru a procesa și produce rezultate la fiecare X milisecunde pentru a aborda în timp real.
| 2011 | 2009 | 2010 |
| Stare de nervozitate | UC Berkeley | Universitatea din Berlin |
| Procesarea evenimentelor | Micro-loturi | Prelucrare în timp real |
| Clojure, Java | Java, Python, R, Scala | Java, Python, Scala |
| - | Cloudera, Hortonworks și MapR | - |
| - | Talend, Dataiku | Talend |
| - | Databricks | Data Artisans (achiziționată de Alibaba) |
| Apache Storm pe Azure HDInsight | Apache Spark pe Amazon EMR, Spark pe Azure HDInsight, Cloud Dataproc din Google Cloud (Spark + Hadoop) | Apache Flink pe Amazon EMR |
| Yahoo !, Twitter, Spotify, Groupon. | Uber, ING, Criteo, Zalando. | Alibaba, AWS, CapitalOne, OVH, Bouygues Telecom. |
Potrivit lui Christophe Parageaud, expert senior în date și arhitectură Java la Ippon Technologies, „trebuie luate în considerare și alte criterii de selecție, precum maturitatea cadrului, popularitatea sa în cadrul comunităților de dezvoltatori sau chiar sprijinul soluției de către un editor comercial . Atâtea garanții de durabilitate și scalabilitate. "
Spark, cel mai popular
În ceea ce privește popularitatea, Spark a depășit cu mult competiția sa. Pentru a fi convins de acest lucru, trebuie doar să vedeți numărul de interogări asociate cu cadrul din Google Trends. Cadrul conceput în prestigiosul AMPLab al Universității din California la Berkeley are, de fapt, tot ce vă place pe hârtie. Care a fost principalul său handicap (procesarea datelor în modul micro-lot și nu în flux) a fost depășit acum doi ani cu lansarea versiunii sale 2.0. Pentru această ocazie, noua funcție Spark Streaming a introdus, așa cum sugerează și numele său, gestionarea fluxului de date. De la această versiune, Spark interacționează și cu TensorFlow pentru a integra dimensiunea deep learning. „Un plus de neegalat”, potrivit lui Razvan Bizoï, consultant independent în arhitectura bazelor de date și formator la institutul Orsys.