Per comprenderne meglio il ruolo crescente nell’ambito dei big data, Taneja Group ha condotto una ricerca su Apache Spark su su un campione di circa 7.000 persone composto da ruoli tecnici e manageriali direttamente coinvolti in progetti big data in tutto il mondo. Spark, per chi non lo sapesse, è lo standard aperto per l’elaborazione flessibile dei dati in-memory che consente analisi batch avanzate e in tempo reale sulla piattaforma Apache Hadoop.

“Da questa ricerca su Apache Spark abbiamo scoperto che, analizzando una vasta gamma di settori, dimensioni aziendali e livelli di maturità dei big dati rappresentati differenti, oltre la metà degli intervistati sta già utilizzando attivamente Spark. Inoltre, con un numero crescente di carichi di lavoro che richiedono lo streaming dei dati in tempo reale per l’analisi, l’emergere di applicazioni di apprendimento automatico e di casi d’uso in ambito data science, la piattaforma Spark è destinata a imporsi con l’obiettivo di dare seguito a queste richieste” ha dichiarato Mike Matchett, analista senior e consulente presso Taneja Group.

I principali risultati dello studio, intitolato Apache Spark Market Research Study, comprendono un elevato livello di crescita e di slancio nell’utilizzo di Spark al di là dei carichi di lavoro di elaborazione dati/ETL/progettazione e di un futuro passaggio alle distribuzioni in cloud.

ricerca su apache spark

Di quelli che attualmente stanno utilizzando Spark, il 64% afferma che la piattaforma si sta dimostrando preziosa e che se ne intende ampliare l’uso entro i prossimi 12 mesi; anche l’adozione da parte di nuovi utenti Spark è in crescita, con 4 persone su 10 esperti di progetti big data che prevedono di distribuire Spark a breve.

Il 57% si affida a Spark, fornito da Cloudera, per i casi di utilizzo più importanti, oltre il doppio dei tre fornitori di Apache Hadoop più prossimi combinati insieme. A parte i carichi di lavoro previsti di elaborazione dei dati/progettazione/ ETL, che costituiscono il 55% dell’uso di Spark a oggi, le principali iniziative attive di Spark includono l’elaborazione di flusso in tempo reale, la scienza esplorativa dei dati e l’affermazione di Spark per l’apprendimento automatico.

L’indagine descrive, inoltre, il ruolo superiore del cloud pubblico e di Spark: “È interessante notare che, mentre le distribuzioni di Spark on-premise sono oggi dominanti, c’è un forte interesse nell’effettuare la transizione di molte di queste distribuzioni nel cloud”, ha dichiarato Matchett. “Nel complesso la distribuzione di Spark nel cloud privato e pubblico (IaaS o PaaS) dovrebbe aumentare in modo significativo dal 23% al 36% in futuro”.

WHITEPAPER GRATUITI
  • Computerworld Speciale Industria 4.0
    white paper
    Computerworld Italia – Speciale Industria 4.0
    Un PDF da scaricare per leggerlo comodamente su pc o tablet e avere sotto mano e in un unica soluzione le notizie, le analisi e gli approfondimenti sulla trasformazione in atto nel settore manifatturiero, da più parti definita "quarta rivoluzione industriale".
  • white paper
    Computerworld Italia – Speciale GDPR
    Un PDF da sfogliare online o scaricare per leggerlo comodamente su pc o tablet, per avere sotto mano e in un unica soluzione le notizie, le analisi e gli approfondimenti su come le aziende devono affrontare l'arrivo del GDPR.
  • white paper
    Computerworld Italia – Speciale Data Center
    Un PDF da sfogliare o scaricare su pc o tablet per avere sotto mano le notizie, le analisi e gli approfondimenti sulle principali tendenze dei Data Center: integrazione con il Cloud, approccio software-defined, ottimizzazione delle prestazioni energetiche e molto altro