La finzione di Internet e l’affidabilità dei big data

Lo scandalo Ashley Madison, sito di incontri in cui moltissimi account femminili sono risultati fasulli, riapre la questione di una rete in cui almeno un terzo di ciò che si vede non esiste, ma da cui si traggono informazioni chiave per il business.

Facebook stessa, abituata a vedere i dati del suo social network con una comprensibile paterna indulgenza, stimava lo scorso anno una percentuale di account fasulli variabile tra il 5,5 e il 12,2 percento. Significa che almeno 70 milioni di utenti, ma oggi potrebbero essere molti di più, non sono quello che sembrano e i loro post hanno finalità diverse dalla genuina condivisione di opinioni su ricette di cucina, prodotti, luoghi di vacanza, personaggi politici e aziende.

Circa 23 milioni sono invece gli account Twitter dietro i quali c’è solo un bot, che generalmente spamma messaggi a scopo promozionale, e almeno altri 25 milioni risultano essere i falsi utenti Instagram, che è si è rivelato niente affatto immune al fenomeno.

Se poi si vanno a considerare ambienti più ristretti e specifici, come i commenti dei quotidiani online o i forum di prodotto, è evidente come bastino poche voci coordinate, ciascuna associata a più account, per suggerire mood ai lettori con specifiche finalità commerciali o politiche.

Del resto quello delle recensioni ad hoc, vendute da società con pochi scrupoli, è un mercato ben noto, e non ne sono immuni nemmeno i più noti portali, per esempio di viaggio, che dovrebbero basare sull’imparzialità e la qualità dei suggerimenti gran parte della loro fortuna. Poi ci sono casi ancora più clamorosi, come quelli di servizi specifici in ambiti ‘delicati’ come Ashley Madison.

Calore non umano

Dopo il furto dei dati di oltre 30 milioni di utenti, che ha colpito quest’estate il popolarissimo sito di incontri per persone in cerca di scappatelle extraconiugali, è venuta la luce una realtà che gli addetti ai lavori già conoscevano bene. E non stiamo parlando della scarsa attenzione alla sicurezza dei dati, che più sono sensibili più risultano appetibili per i malintenzionati. Questo richiederebbe un discorso a parte.

Gli hacker di Ashley Madison hanno svelato l’uso sistematico di bot per “ingaggiare” i clienti maschi

Il vaso di Pandora scoperchiato dagli hacker del portale di Ashley Madison riguarda piuttosto l’uso sistematico di bot per ‘ingaggiare’ i clienti maschi e illuderli della presenza di molte donne attive.

Gizmodo ha tentato, analizzando il codice trafugato, di estrapolare l’effettiva percentuale di donne reali valutando l’azione dei bot, ma il calcolo si è rivelato azzardato, tanto che il giornalista ha dovuto poi pubblicare una rettifica. Quel che è certo è che una simile pratica è più diffusa di quanto si possa pensare, specie in portali in cui ogni interazione si paga a caro prezzo.

Se ne ricava il quadro poco confortante di una rete, fonte primaria di Big Data, in cui moltissime informazioni sono pilotate, fasulle o addirittura frutto di algoritmi, alcuni semplici altri sempre più sofisticati. Quanto può influire questo sull’affidabilità dei processi di analisi?

Big Data e grandi abbagli

Sono passati oltre cinque anni da quando Google ha pubblicato su Nature i risultati del suo primo Google Flu Trend, capace di prevedere la diffusione dell’influenza con grande anticipo rispetto ai metodi convenzionali, basandosi solo sui risultati delle ricerche degli utenti. Si può dire che la diffusione, anche commerciale, dell’analisi dei big data sia partita da lì.

Oggi il sistema non è più utilizzato, e Big G sta sicuramente lavorando a nuovi progetti collegati, ma negli anni successivi l’analisi non ha avuto sempre successo.
Gli elementi che possono invalidare un processo predittivo su così larga scala sono infatti ancora molti, e può bastare qualche notizia allarmistica, magari falsa, per influenzare le attività in rete di milioni di utenti e portare a risultati incoerenti.

A maggior ragione, una massiccia presenza di contenuti fasulli o eterodiretti, non identificati nella fase di data mining, può condizionare massicciamente la sintesi di un sistema di previsione o un tool di sentiment analysis.

I dati provenienti dai sensori sono decisamente meno manipolabili e non sono soggetti a dubbi di interpretazione

Con questo non vogliamo dire che i Big Data non stiano già rappresentando un elemento di progresso in molti campi, compresi quelli della medicina. Il loro uso andrebbe però accompagnato da un’etichetta di avvertenze, come si fa con i farmaci, specie quelli ancora sperimentali.

Si tratta di avvertenze che i vendor talvolta dimenticano di includere nell’elencazione delle mirabolanti potenzialità dei loro pacchetti. Il punto debole sta in gran parte nella qualità dei dati e nella capacità di riconoscere i falsi. Un compito che anche le più sofisticate reti neurali faticano a svolgere con una percentuale di successo vicina a quella del cervello umano. Che del resto, come evidenziato dal caso Ashley Madison, può essere esso stesso ingannato.

L’analisi dei Big Data risente quindi di tutte le problematiche comunemente legate all’analisi statistica, e l’immensa vastità del campione non è necessariamente una garanzia di accuratezza del risultato.

Se in qualche caso è vero che i grandi numeri parlano da soli, in altri casi, in condizioni del tutto simili alle situazioni di successo, si va incontro a enormi errori di valutazione, che possono influenzare decisioni importanti con conseguenze negative sul business.

Solo gli oggetti non mentono

In questo difetto del sistema risiede l’importanza dell’IoT. I dati provenienti dai sensori sono decisamente meno manipolabili e non sono soggetti a dubbi di interpretazione. Tutta la fatica necessaria a soppesare le sfumature del linguaggio naturale, è superata da macchine che parlano la stessa lingua del software.

 

I dati provenienti dai sensori della Internet of Things sono meno manipolabili e interpretabili, perché parlano la stessa lingua del software

Così gli spostamenti di oggetti nello spazio di un supermercato possono segnalare le preferenze degli acquirenti meglio dell’analisi dei loro commenti su facebook.

Allo stesso modo i sensori biometrici di una fit band possono fornire informazioni sull’insorgenza di certe malattie senza che siano influenzate dalla lettura dei giornali.
Basta solo costruire un valido modello interpretativo e poi applicarlo indefinitamente, con successo quasi garantito.

Lotta alla finzione

Ci saranno sempre campi in cui i sensori non potranno sostituire l’analisi dell’attività umana, e servizi basati sulla condivisione in cui i falsi utenti rappresentano una spina nel fianco.

Smascherarli con gli appositi tool di segnalazione e non servirsene indiscriminatamente per il proprio business, dovrebbe essere un dovere di ogni netizen. In questo senso si stanno muovendo con decisione anche i principali social network, che dopo aver chiuso un occhio per anni, favorendo la diffusione della loro piattaforma a scapito della genuinità dei contenuti, ora hanno finalmente dichiarato guerra aperta ai fake, che ne possono minare uno sviluppo business oriented.

Sperando che non sia troppo tardi per arginare il fenomeno.

Aldo Ascenti
Giornalista esperto di tecnologia e divulgazione scientifica, è attivo da vent'anni nel settore dell'editoria specializzata. Ha diretto testate di carta e di bit, consumer e b2b, fondato blog di tecnologia e fotografia e progettato monografie per i tablet.