Dati puliti e affidabili: il ruolo del knowledge scientist

Le aziende che riconoscono l'importanza di dati puliti e affidabili, focalizzandosi sul lavoro del knowledge scientist, si muoveranno più rapidamente nel percorso verso un vero processo decisionale basato sui dati.

knowledge scientist

Come si può costruire una cultura basata sui dati e stimolare la trasformazione digitale senza pensare a chi dovrebbe essere responsabile di questi dati?

I data engineer e i data scientist occupano ciascuno ruoli critici. I data engineer gestiscono l’infrastruttura dei dati e sono incaricati di progettare, costruire e integrare flussi di lavoro, pipeline e processo ETL. Il loro obiettivo è fornire dati per l’analisi dei data scientist. I data scientist, a loro volta, sono coloro che possono trasformare i dati in approfondimenti applicando statistiche, machine learning e approcci analitici. Il loro obiettivo è rispondere a domande cruciale per il business di un’azienda.

Le organizzazioni basate sui dati richiedono dati affidabili e puliti per funzionare. Senza tutto ciò l’intelligenza artificiale, il machine learning e gli analytics non hanno valore. Dati inaffidabili, errati e incompleti portano a risposte di cui non ci si può fidare: quindi immondizia.

Pertanto, il processo di pulizia dei dati è cruciale, tanto da poterlo considerare l’80% del lavoro di un data scientist, sebbene in genere questo sia visto come un compito noioso che le persone non vogliono fare. Tuttavia, questa visione negativa si basa almeno in parte su una forte sottovalutazione del significato di tale lavoro. La pulizia dei dati non riguarda semplicemente l’eliminazione di spazi bianchi, la sostituzione di caratteri errati e la normalizzazione delle date. Facendo un passo indietro, questi compiti dovrebbero essere visualizzati nel contesto di due obiettivi chiave:

  • Comprensione dell’ecosistema di persone, dati e attività in un’organizzazione
  • Comunicare e documentare tale conoscenza al fine di generare dati puliti e affidabili

Ciò non significa che quell’80% di lavoro a cui accennavamo prima venga sprecato. Sebbene questi compiti possano e debbano essere ottimizzati a favore dell’efficienza, fanno parte del lavoro di conoscenza vitale che dovrebbe essere considerato come molto importante all’interno di un’organizzazione basata sui dati. Ma chi dovrebbe farlo?

Solitamente la necessità di dati affidabili è costante, ma il lavoro che li crea è ad hoc. Pratiche e risultati non sono documentati e condivisi perché i data scientist di solito non sono attrezzati, formati o incentivati a farlo. In effetti molto del lavoro di conoscenza “più morbido” (come chiamate in conferenza, discussioni, documentazione, lunghe chat su Slack) necessario per creare dati chiari e affidabili non è valutato dagli esperti di dati o dai loro manager. A peggiorare le cose, la maggior parte degli strumenti è progettata e predisposta per un piccolo set di tipi di utenti e team, escludendo altri tipi di utenti e team. Pertanto, la responsabilità di creare e gestire dati affidabili è ridotta, dispersa o addirittura inesistente.

I data scientist non dovrebbero essere responsabili della creazione e della gestione di dati affidabili e puliti, perché la loro responsabilità è quella di trasformare i dati in qualcosa di utile e utilizzabile. Ecco perché c’è bisogno di un nuovo ruolo per colmare questa esigenza critica: il knowledge scientist.

Chi è un knowledge scientist?

Un knowledge scientist è un esperto che crea ponti tra requisiti, domande e dati aziendali. L’obiettivo dello “scienziato della conoscenza” è documentare la conoscenza raccogliendo informazioni da utenti aziendali, data scientist e data engineer al fine di rendere i dati più utili per AI, machine learning, business intelligence, analisi dei dati e altro ancora.

Dal punto di vista delle competenze, i knowledge scientist dovrebbero lavorare con gli utenti aziendali e dimostrare ciò che hanno appreso usando competenze e tecniche come la modellizzazione dei dati, la rappresentazione delle conoscenze e l’ingegneria ontologica. L’output è un modello di dati che rappresenta il modo in cui l’utente aziendale vede il mondo. I knowledge scientist dovrebbero allineare questo modello di dati con altri modelli derivati da ciò che hanno scoperto parlando con altri utenti aziendali.

Inoltre, mentre lavora con i data engineer, il knowledge scientist dovrebbe essere esperto nell’accesso ai dati e nei metodi di trasformazione come i linguaggi di query e di programmazione. Dovrebbe trasformare i dati forniti dal data engineer in qualcosa che torni utile alla missione dell’azienda e, non ultimo, dovrebbe avere familiarità con analytics e machine larning.

Il lavoro di conoscenza è il lavoro delle persone. Dal punto di vista delle competenze trasversali, il knowledge scientist dovrebbe quindi disporre di eccellenti capacità comunicative che possono essere applicate sia all’utente aziendale, sia al data engineer. Ecco perché il knowledge scientist dovrebbe essere sia una “persona per le persone”, sia un geek.

La disciplina della knowledge science ha le sue radici negli anni ’80 e ’90, quando venivano insegnate e utilizzate skill come l’acquisizione, la valorizzazione e la specifica della conoscenza. Queste sono arti ormai andate perse nell’industria oggi, in particolare nel contesto della scienza dei dati. Rivisitare e riprendere questi approcci sarà una parte fondamentale nello sviluppo degli strumenti necessari per supportare il knowledge scientist.

Le organizzazioni che identificano l’importanza centrale di dati puliti e affidabili concentrandosi su questo lavoro di conoscenza saranno in prima linea nella trasformazione digitale e si muoveranno più rapidamente lungo il percorso verso la creazione di un’organizzazione basata sui dati.