Machine learning per informazioni in tempo reale con Cloudera e Hortonworks

Approvata dai due board la fusione tra Cloudera e Hortonworks. La nuova società sarà guidata dal CEO di Cloudera Tom Reilly e punta a creare una piattaforma per la gestione dei dati di prossima generazione, spinta da IA e real time analytics.

Il nuovo anno porta a Cloudera la chiusura del merge con Hortonworks. L’annuncio è di Romain Picard, regional vice president della società specializzata nella gestione dei dati. La nuova società continuerà a chiamarsi Cloudera e supporterà le piattaforme delle due aziende per altri tre anni mentre si cercherà di migrare verso una soluzione unica con l’obiettivo di creare “una piattaforma per la gestione dei dati di prossima generazione”.

Nell’accordo, che prevede unicamente scambio di azioni, gli azionisti di Cloudera controlleranno circa il 60% delle quote della newco, guidata dall’attuale CEO di Cloudera Tom Reilly e che genererà approssimativamente 720 milioni di dollari lavorando con più di 2.500 clienti. L’accordo è stato approvato all’unanimità da entrambi i board, anche se è ancora soggetto all’approvazione degli azionisti e al via libera dell’antitrust americana. Ci si aspetta che la chiusura definitiva avvenga nel primo trimestre del 2019.

Si tratta di un balzo importante per la società, che “in Italia sta crescendo in modo importante – spiega Michele Guglielmo regional sales director – e nelle telco e nel finance ormai siamo quasi monopolisti”, in una conferenza stampa avvenuta prima della conclusione dell’accordo ma quando l’acquisizione era comunque data per certa. La percentuale di crescita non può essere rivelata ma è superiore a quel 40% che indica invece l’aumento del personale della filiale tricolore.

Miglioramenti nelle prestazioni e qualità di livello enterprise, innovazioni a livello di ricerca, streaming, scalabilità e controllo per aiutare le aziende a rendere velocemente utilizzabili le informazioni derivanti dai dati sono in generale le caratteristiche della versione 6 della piattaforma per data warehousing e machine learning recentemente rilasciata che si articola su quattro pilastri.

  • Machine learning e intelligenza artificiale, considerato la “sesta ondata dell’innovazione e automazione”;
  • Cloud “che è de facto ibrido”;
  • Data warehousing “che sta vivendo una seconda giovinezza perché non è più limitato al mondo strutturato. Oggi c’è bisogno di soluzioni elastiche per i dati non strutturati”;
  • La piattaforma core di Cloudera, “dove assistiamo a un disaccoppiamento fra la parte storage e l’area del workload computazionale”.

“Quello che abbiamo cercato di creare è la shared data experience, Sdx, la gestione dei servizi comuni al mondo storage e del workload per fare si che io non debba essere costretto ogni volta che lavoro su Aws, Microsoft o altro a reinventare la piattaforma di servizi comuni. Quindi una volta che ho creato la parte di Sdx virtuale posso ricrearla a seconda delle necessità. Così non mi preoccupo più che quella policy sia replicata su Aws o Microsoft”, aggiunge il responsabile dell’area mediterranea di Cloudera.

Rimanendo in ambito tecnologico Guglielmo osserva come Hadoop 3 sia un grande balzo in avanti che si caratterizza per due aspetti. La prima parte è relativa alla riduzione dei volumi di storage necessari in hdfs, mentre la seconda consiste nella capacità di combinare dati strutturati e non e le relative analisi. Grazie all’introduzione dell’erasure coding il costo dello storage è stato dimezzato, mentre con l’adozione di Solr 7 è possibile interrogare le data source strutturate e non strutturate. “Si tratta di un’espansione dell’ambito del classico mondo aziendale che riguarda anche quello che già esiste in azienda, fino all’email”.

Hbase 2.0 è invece il NO-SQL engine che rende più veloci i piccoli deployment. Altra innovazione è quella di Cdsw 1.4, un tool che permette ai data scientist di esplorare i dati secondo le sue policy su tutto lo stack (Hadoop o altri) e il mondo cloud. “In questo modo – conclude Guglielmo – è possibile analizzare i dati, creare modelli di esplorazione ed effettuare il deployment dei modelli in produzione con Api specifiche”.

In più il data scientist può lavorare in team con più persone su uno stesso progetto. Chiude la rassegna tecnologica Picard con Altus, che comprende innovazioni che unificano controllo e governance dei carichi di lavoro transienti e prolungati su cloud pubblici e data center, gestiti direttamente dai clienti oppure come servizio da parte di Cloudera.

Questi nuovi miglioramenti della piattaforma accelerano l’espansione delle applicazioni enterprise di data warehousing e machine learning. Tutti i prodotti annunciati sono disponibili e includono Cloudera Altus data wharehouse, soluzione as a service con caratteristiche multi-cloud, Cloudera data warehouse in cloud inbrido e Cloudera workload Xm, un servizio cloud di workload experience management intelligente.

Christian Violi, Partner Manager Mediterranean Region ha poi presentato la situazione del canale che comprende 111 partner una decina dei quali sono seguiti direttamente dall’azienda. Con l’obiettivo di creare un sistema di partner, Cloudera è focalizzata sui partner strategici che hanno impatto sul business e delivery di qualità e cerca di stimolare gli altri a dotarsi di tecnici certificati investendo nella formazione. L’unico distributore è TechData che avrà il compito di aiutare Cloudera nella gestione dei partner migliori con buone competenze tecniche e commerciali.