Al giorno d’oggi, la scienza dei dati raramente non riesce ad attirare l’interesse dei leader IT e aziendali. Ma molto spesso fallisce. In effetti, le iniziative di data science, che sfruttano metodi scientifici, processi, algoritmi e sistemi tecnologici per estrarre una serie di informazioni da dati strutturati e non strutturati, possono fallire in molti modi, portando a perdite di tempo, denaro e altre risorse. I progetti difettosi possono quindi comportare più danni che benefici per un’azienda, portando fuori strada i responsabili delle decisioni. Ecco alcuni dei motivi più comuni per cui i progetti di data science non vanno come previsto.

Scarsa qualità dei dati

I dati errati creano una cattiva scienza dei dati, quindi è di vitale importanza prendersi il tempo necessario per garantire che i dati siano di alta qualità. “Dati errati o sporchi rendono impossibili le iniziative di data science” afferma Neal Riley, CIO di Adaptavit, una società di consulenza per la trasformazione digitale. “Dovete assicurarvi che i vostri dati siano puliti e pronti per gli analisti di dati. In caso contrario, è solo una completa perdita di tempo”.

Quando le aziende utilizzano dati “sporchi” per progetti di data science, finiranno per “osservare modelli che escono con risultati strani e che non rappresentano la realtà o il processo in un modo che migliora le cose”, afferma Riley. A volte la qualità dei dati è scarsa a causa di distorsioni o discrepanze nei set di dati.

“Per alcune organizzazioni vengono utilizzati più sistemi per gestire l’attività” afferma Brandon Jones, CIO presso l’assicuratore Worldwide Assurance for Employees of Public Agency (WAEPA). “Nel caso di certe aziende si potrebbero persino avere sistemi legacy a cui è ancora possibile accedere per riferimento o convalida. In molti casi, l’azienda è cambiata e si è rinnovata, portando quindi a diversi processi e/o modi per contare una metrica”.

Questa può essere una delle principali cause di fallimento per la scienza dei dati, afferma Jones. I risultati potrebbero essere gonfiati a causa del doppio conteggio basato su un processo aziendale modificato.Per risolvere questo problema, le organizzazioni devono definire il livello del loro programma di analisi dei dati. Ciò significa delineare una data specifica in cui i dati possono essere convalidati e questo è lo standard comune da cui l’organizzazione lavorerà”.

Nessuna definizione chiara del problema da risolvere

Come può avere successo un’iniziativa di data science se i membri del team non comprendono il problema aziendale che stanno cercando di risolvere? Eppure, i team di data science a volte hanno a che fare con questa mancanza quando devono mettere in campo progetti che coinvolgono la scienza dei dati.

“La definizione di un problema è spesso lasciata ai data scientist, quando in realtà la definizione di un problema comprende casi aziendali che definiscono il lavoro e il potenziale ritorno sull’investimento” afferma Michael Roytman, a capo del reparto data science presso la società di sicurezza informatica Kenna Security.

Gli utenti aziendali che desiderano sfruttare la scienza dei dati devono porre domande approfondite sul problema che stanno cercando di risolvere afferma Marc Johnson, consulente senior e CIO virtuale presso la società di consulenza sanitaria Impact Advisors.

“Proprio come con qualsiasi progetto, dedicate del tempo a definire l’ambito del problema per identificare le fonti corrette per i dati”, afferma Johnson. “Qualche anno fa mi è stato chiesto di realizzare un progetto di analisi dati per un’azienda con vent’anni alle spalle. Non c’era però nessuna ricerca sulla base di clienti per vedere se c’era davvero un mercato per questo progetto. Non sono state identificate le metriche per le quali il cliente desiderava visualizzare l’analisi dei dati. Era tutto basato sulla concorrenza, che sosteneva di avere un prodotto di analytics che tutti i clienti volevano. Alla fine il progetto è durato due anni senza alcuna direzione a causa della definizione confusa di quale fosse il problema che stavamo tentando di risolvere”, continua Johnson.

Mancanza di dati rilevanti

Un altro modo sicuro per fallire con la scienza dei dati è non fornire i tipi specifici di dati necessari per affrontare un problema particolare. Lanciare un enorme volume di dati su un problema non è la risposta. “Si presume che i dati di grandi dimensioni porteranno a utili insight, ma in realtà ciò succede molto raramente”, afferma Roytman. “I set di dati intelligenti, personalizzati e spesso più piccoli sono più spesso quelli che forniscono modelli generalizzabili più robusti”.

Poiché i dati vengono raccolti o acquistati da varie fonti, i team devono assicurarsi che eventuali modifiche ai dati non distorcano i risultati e sacrifichino la qualità dell’intero set di dati, afferma Johnson. Devono inoltre assicurarsi che non vi siano problemi di privacy, legali o etici con il set di dati.

Mancanza di trasparenza dei dati

I team devono essere trasparenti con i dati utilizzati per creare un determinato modello. “I progetti di data science falliscono quando le persone non si fidano del modello o non comprendono la soluzione” afferma Jack McCarthy, a capo del reparto IT del sistema giudiziario del New Jersey. “Il modo per evitare tutto ciò è essere in grado di far capire i procedimenti dei progetti di data science e comunicarli alle parti interessate, che potrebbero non avere le competenze tecniche o statistiche quando si parla di scienza dei dati”.

data scientist

I data scientist devono spiegare da dove provengono i dati, cosa hanno fatto per calcolare i modelli e fornire l’accesso a tutti i dati rilevanti. “La trasparenza può essere la chiave per un progetto di successo”, afferma McCarthy. Un esempio di ciò è l’algoritmo di valutazione del rischio utilizzato nel New Jersey. “Forniamo a tutte le parti interessate un report che mostra quali casi nella storia di un imputato rientrano in una determinata categoria e come ciascuno di essi viene valutato”, afferma McCarthy. “Il report viene fornito a tutte le parti in causa, in modo che abbiano l’opportunità di esaminare ogni caso. È fatto tutto in modo trasparente”.

Riluttanza a riconoscere che i risultati sono incerti

A volte il business team di un’azienda che richiede particolari insight (o lo stesso team di data science) non è disposto a concludere che i risultati siano stati incerti, poco chiari o non abbastanza forti per un’applicazione aziendale, afferma Roytman.

Il team di data science di Kenna Security ha impiegato due mesi per creare un modello di classificazione delle vulnerabilità che genererebbe automaticamente un’enumerazione di punti deboli comuni per una vulnerabilità, afferma Roytman. “Il modello ha funzionato; era una valida risposta a un problema di un corso di laurea. Ma non ha funzionato abbastanza bene da essere prezioso per i nostri clienti. La precisione era troppo bassa. Quindi abbiamo scartato il progetto, nonostante avessimo investito tempo e ottenuto un buon risultato”.

Assenza di un supporter executive

I progetti di data science hanno bisogno di uno forte “sponsor” a livello di C-suite che garantisca risorse e supporto sufficienti. “Aiuta se è il CIO”, dice Riley. “Consideriamo la scienza dei dati come parte integrante della nostra operazione e mi sono assicurato di essere in prima linea per supportare i nostri sforzi”. Anche se i CIO non sono i “campioni interni” della scienza dei dati, dovrebbero essere responsabili della protezione di tutti i dati coinvolti, sebbene il loro coinvolgimento dovrebbe andare ben oltre la sicurezza.

“Ottenere il massimo dalle informazioni acquisite è ciò che definirei la responsabilità di un moderno CIO”, afferma Riley. “Con tutti questi dati a disposizione, abbiamo i mezzi per imparare da essi e utilizzarli in modo intelligente; e questo è qualcosa che i CIO possono utilizzare per aiutare le loro organizzazioni in modo interfunzionale”.

Adaptavit ha ottenuto molto dai progetti di data science nel determinare nuove tattiche e modifiche per migliorare il processo di vendita, afferma Riley. “Non ha nulla a che fare con il nostro prodotto o infrastruttura IT, marketing, niente di tutto questo. La scienza dei dati ci ha aiutato di più dal punto di vista dell’ottimizzazione dei processi aziendali, per gestire e gestire meglio i lead dalle vendite interne”.

Mancanza di talento

Il divario di competenze sta affliggendo molti aspetti dell’IT e la scienza dei dati non fa eccezione. Molte organizzazioni semplicemente non dispongono delle competenze necessarie per mantenere i progetti o ottenere da essi il massimo valore.

“I data scientist sono molto richiesti, difficili da trovare e costosi” afferma Tracy Huitika, CIO di Beanworks, un fornitore di automazione di contabilità basato su cloud. “Questo ruolo di solito richiede un dottorato di ricerca in fisica o scienze, nonché la capacità di scrivere codice in R e Python.”

Uno dei principali motivi per cui i progetti di data science falliscono, anche quando arrivano alla distribuzione, è la mancanza di talenti operativi per continuare a gestire il progetto, afferma Johnson. “Prendere un brillante data scientist per creare il modello senza un piano per eseguire le operazioni di miglioramento continuo con aggiustamenti per l’evolversi del mercato è come progettare un’auto e consegnare le chiavi a un bambino di 10 anni”.

Le aziende devono disporre delle giuste competenze per mantenere il modello dopo che è entrato in produzione, assumendo o ricorrendo a esperti esterni come consulenti esperti in data science.

La scienza dei dati non era la soluzione giusta

E se un problema particolare non richiedesse affatto la scienza dei dati come soluzione? Un uso improprio di questa disciplina può portare al fallimento, quindi vale la pena riflettere molto su quando non applicare metodi, processi e strumenti di data science.

“Una delle cause principali che farà fallire i progetti è se data science, algoritmi e machine learning non sono nemmeno la soluzione giusta”, afferma Riley. “Potreste non aver affatto bisogno di un modello di machine learning. Siamo rimasti invischiati in una di quelle situazioni in cui stavamo esaminando la modellazione della scienza dei dati finanziari per visualizzare i predittori per il futuro successo finanziario della nostra attività. Si è scoperto che la cosa migliore da usare era solo l’analisi della regressione”.