Big Data: definizione, utilizzi e strumenti utili

Facciamo conoscenza con la marea di informazioni che tutti vorrebbero sfruttare e le tecnologie per gestirla

La ricerca di energie alternative porterà a sfruttare perfino le grandi onde dell’oceano. Nel frattempo c’è un mare ancora più immenso e in continua crescita, che se non può alimentare una città, è senz’altro in grado di orientare un business, rendendo obsoleto il concetto stesso di ricerca di mercato. È il mare dei dati digitali non strutturati che affollano la rete. Un miscuglio di chiacchiere sui social, immagini, conversazioni in chat, email, video condivisi e parametri provenienti dai sensori intelligenti che costituiscono l’Internet delle cose.

Lo scopo dell’elaborazione di queste grandi masse di dati a bassa densità di informazioni, è la ricerca di principi generali, relazioni e meccanismi causa-effetto.

Ogni minuto si aggiungono a questo oceano più di 100 mila tweet, un milione di aggiornamenti di Facebook e oltre 12 milioni di messaggi istantanei, tanto che si stima che per il 2020 l’universo digitale conterrà qualcosa come 40 mila exabyte, ovvero circa 40 mila miliardi di gigabyte di dati.
Per esaminare porzioni sufficientemente consistenti di questo universo da fornire risultati utili alle imprese, e non solo, sono necessarie tecniche di calcolo non convenzionali e sistemi di elaborazione distribuiti straordinariamente efficienti.

Questa tecnica si chiama analisi dei Big Data e, già oggi, consente di ricavare indicazioni utili mescolando data set strutturati provenienti dall’azienda con altri molto più disordinati provenienti dal mondo esterno. Gli analisti concordano nel ritenere che la capacità di sfruttare questi dati sarà sempre più un elemento chiave per il successo di qualsiasi iniziativa commerciale. Per questo oltre 450 tra le aziende della lista Fortune 500 hanno già approntato soluzioni per lo sfruttamento dei Big Data. Il problema è che per collezioni di informazioni così vaste e eterogenee le tecniche tradizionali di Business intelligence sono inadeguate, per cui l’industria dell’IT ha sviluppato, e sta implementando, soluzioni nuove di zecca.

Cosa li rende speciali

adv
Cloud Communication Business

Nell’era digitale il centralino va in Cloud

La telefonia di nuova generazione è in software-as-a-service: non richiede di installare centralini hardware, gestisce fisso e mobile, e consente di attivare nuove linee o filiali con un clic, abilitando Smart Working e Unified Communication. SCOPRI DI PIÙ >>

I Big Data si caratterizzano rispetto a qualsiasi altro sistema di raccolta di informazioni per le cosiddette tre ‘V’: volume, ovvero enorme quantità di dati da elaborare, velocità, perché se le risposte non sono quasi in tempo reale servono a poco, e varietà, visto che provengono da fonti molto diverse tra loro e sono fortemente disomogenei. A queste caratteristiche ne é stata ben presto aggiunta una quarta, anch’essa con la V, ovvero la veracità, la più difficile da assicurare.
Mantenendo questi elementi fondamentali, il concetto stesso di Big Data può variare da un’azienda all’altra, in funzione di ciò che è realmente considerato grande e degli obiettivi da raggiungere, anche se l’ordine di grandezza è attualmente quello di diversi petabyte.
Ovviamente anche la complessità del sistema necessario all’elaborazione varia al crescere del numero e della vastità dei data set, e può impiegare decine o centinaia di server affaticati in onerosi calcoli paralleli, applicando statistica induttiva e risolvendo sistemi non lineari. Lo scopo dell’elaborazione di queste grandi masse di dati a bassa densità di informazioni, è la ricerca di principi generali, relazioni e meccanismi causa-effetto.

Non solo commercio

Non esiste praticamente alcun campo dell’attività umana in cui l’analisi dei Big Data non porta vantaggi potenzialmente enormi. I progetti di Smart city possono raccogliere ed elaborare dati provenienti dalle centraline intelligenti e contemporaneamente i feedback dei cittadini dai social network, matchandoli ottenendo una mappa precisa dei disagi e delle necessità della comunità urbana. I meteorologi ne possono sfruttare le tecniche per aumentare la precisione delle previsioni, provando a smentire le sempre più persone convinte che a volte tirino a indovinare. In sanità i benefici sono tra i più grandi, poiché mettendo insieme grandi quantità di dati eterogenei è teoricamente possibile dedurre andamento e possibili cure per molte patologie che i normali studi clinici impiegano anni a decifrare. Stesso discorso vale per la ricerca scientifica, e nemmeno la politica, così avida di informazioni, potrà farne a meno, come testimonia l’impiego che si è fatto di queste tecnologie nelle ultime campagne elettorali Usa. Ovviamente il supporto al marketing e l’analisi del sentiment relativo al lancio di un prodotto o di un servizio sono le applicazioni più immediate, ma sarebbe riduttivo considerare i Big Data come un mero strumento di business.

Quali soluzioni per gestirli

La storia delle soluzioni capaci di gestire i Big Data è relativamente recente. Da un framework basato su una versione modificata di C++ sviluppato nel 2000 e integrato con una innovativa piattaforma di calcolo parallelo ad alta velocità è nato l’HPCC (High-Performance Computing Cluster), Sviluppato da LexisNexis e conosciuto anche come DAS (Data Analytics Supercomputer). Si tratta di una soluzione che nel 2011 è diventata open source con la licenza di Apache v2.0 ed è capace di gestire data set con più exabyte di informazioni.
Sempre nel 2011 vede la luce anche Apache Hadoop, un framework open source scritto in Java che è attualmente il riferimento per le più massicce applicazioni dei Big Data. Adottato tra gli altri da Yahoo e Facebook, se ne servono più di metà delle Fortune 50.
È costituito da un file system distribuito, l’HDFS (Hadoop Distributed File System), e da un’architettura denominata MapReduce, derivata da un progetto sviluppato da Google nel 2004.
Proprio la tecnica MapReduce è alla base dell’elaborazione parallela necessaria a lavorare su così grandi quantità di dati. Nella fase denominata Map le query vengono frammentate e distribuite tra i diversi nodi di elaborazione, mentre l’operazione di Reduce raccoglie i risultati ottenuti in parallelo, riunendoli e fornendo le risposte.
Per ottenere risultati sempre più utili e affidabili, all’elaborazione dei Big Data possono venire applicate molte tecniche innovative,a seconda dell’obiettivo che si vuole perseguire, dal croudsourcing agli algoritmi genetici, dall’analisi del linguaggio naturale, ai software ad apprendimento automatico.
Tra le aziende più impegnate nei Big Data ci sono tutti i big dell’ICT mondiale, tra cui Oracle, Ibm, Microsoft, Sap, Emc, Dell, Hp e Software AG, che negli ultimi 5 anni si sono impegnate in ingenti investimenti, gareggiando in uno shopping selvaggio delle realtà più promettenti del settore.

Non esiste praticamente alcun campo dell’attività umana in cui l’analisi dei Big Data non porta vantaggi potenzialmente enormi.

Pochi analisti e il rischio di errori

La corsa ai Big Data da parte delle aziende, oltre ai concreti vantaggi per la ricerca di tecnologie innovative, ha però un rovescio della medaglia. Per gestire l’analisi dei Big Data non bastano infatti software e data center, ma servono competenze specialistiche prettamente umane. Se da un lato questo apre nuove prospettive di occupazione, dall’altro richiede un cambio nel paradigma di formazione che il mondo dell’istruzione sembra recepire troppo lentamente. Al ritmo di crescita attuale delle richieste di analisti specializzati, che devono avere competenze a cavallo tra l’informatica, la statistica, il marketing e l’economia, nei prossimi anni si prevede un brusco allargamento della forbice tra domanda e offerta qualificata. Questo potrebbe comportare l’impiego di figure non adeguatamente formate, un po’ come accadeva con i tecnici improvvisati della prima era dell’IT.
Del resto i rischi connessi a simili analisi non vanno sottovalutati, e non mancano i detrattori delle tecniche adottate, bollate come poco rigorose scientificamente. La principale difficoltà sta proprio nell’operazione di validazione dei dati da dare in pasto al sistema, che non facendo parte di un campione di riferimento, come avviene in statistica, possono risultare sbilanciati anche in caso di grandi numeri. La strada comunque è tracciata, e le potenzialità sono talmente grandi che qualsiasi criticità è destinata a risolversi con l’affinamento delle tecniche e il diffondersi delle competenze necessarie.

Aldo Ascenti
Giornalista esperto di tecnologia e divulgazione scientifica, è attivo da vent'anni nel settore dell'editoria specializzata. Ha diretto testate di carta e di bit, consumer e b2b, fondato blog di tecnologia e fotografia e progettato monografie per i tablet.