Tre aree in cui AIops eccelle e due in cui non è ancora all’altezza

L’intelligenza artificiale e il machine learning possono ridurre il numero di falsi allarmi che vincolano il personale operativo, velocizzare la risoluzione dei problemi e aiutare gli sviluppatori e gli architetti a comprendere e gestire ambienti IT basati su cloud in rapida evoluzione.
Ma non per questo i CIO dovrebbero aspettarsi quelli che alcuni clienti chiamano risultati “magici”, come la previsione e la risoluzione automatica di qualsiasi problema IT concepibile, o anche solo accettare qualsiasi registro o flusso di eventi e analizzarlo senza alcuna pulizia o normalizzazione dei dati.
AIops è l’uso dell’intelligenza artificiale per gestire, ottimizzare e proteggere i sistemi IT in modo più rapido, efficiente ed efficace rispetto ai processi manuali. Gartner stima che il mercato AIops valesse tra i 900 milioni e 1,5 miliardi di dollari nel 2020, con la previsione di un tasso di crescita annuale composto di circa il 15% tra il 2020 e il 2025. Insieme alle piattaforme AIops standalone, molti strumenti di osservabilità, gestione e monitoraggio IT si integrano con piattaforme AIops o hanno aggiunto capacità di intelligenza artificiale ai loro prodotti.
“AIops è la soluzione migliore, secondo clienti e analisti, per scansionare rapidamente enormi quantità di dati da centinaia o migliaia di fonti per filtrare gli avvisi più importanti o identificare le tendenze sottostanti, oltre a rilevare rapidamente nuovi elementi come le API (Application Programming Interface) che collegano le applicazioni” afferma Sean Mack, CIO e CISO di Wiley, leader globale nella ricerca e nell’istruzione.
Ma AIops può fallire se le aziende non ne comprendono i limiti.
Dove eccelle AIops
Identificazione dei modelli
Un uso comune e di successo di AIops consiste nel ridurre il “rumore” degli alert inutili che riflettono i normali cambiamenti nell’infrastruttura IT o non influiscono sui processi aziendali critici.
L’analisi intelligente dei dati operativi può identificare schemi comuni, come un aumento del traffico all’inizio della giornata quando gli utenti accedono o durante le chiusure finanziarie trimestrali, per capire quali schemi sono normali e quali potrebbero segnalare problemi, afferma Stephen Elliot, vicepresidente del gruppo presso ricercatore di mercato IDC. Può anche identificare problemi ricorrenti come server sovraccarichi per aiutare il personale operativo ad applicare una correzione prima che tali problemi influiscano sugli utenti. La correlazione di più avvisi a un singolo problema sottostante può anche ridurre il carico sul personale operativo e accelerare l’analisi delle cause principali dei problemi.
Mentre era all’inizio dell’adozione di AIops tramite la piattaforma di osservabilità di New Relic, il distributore farmaceutico AmerisourceBergen ha visto una riduzione di due terzi degli avvisi che non richiedono azione e ciò ha consentito ai suoi ingegneri di concentrarsi su questioni importanti, dare una migliore priorità agli incidenti e aumentare la disponibilità delle applicazioni, afferma Paul Stuart, Vice President of IT Operations. Alla Wiley, lo staff di Mack ha utilizzato le capacità AIops di Dynatrace per ridurre il numero di falsi positivi di oltre il 50%. Quando si verificano problemi, Wiley ha ridotto il tempo medio di risoluzione di oltre il 37% e tutto ciò consente al suo team di dedicare più tempo al miglioramento dell’esperienza del cliente e alla fornitura di nuovi servizi innovativi.
Monitoraggio e tracciamento
AIops può anche rendere più facile per il personale operativo tenere traccia dei cambiamenti nel proprio ambiente IT, monitorarne le prestazioni e gestire a costi contenuti ambienti più grandi. “Siamo attualmente nel bel mezzo di una grande acquisizione”, afferma Stuart. “Sfruttando AIops, possiamo assumere un carico di monitoraggio aggiuntivo senza un aumento sostanziale dell’organico”.
La società di parcheggi aeroportuali Park ‘N Fly utilizza la piattaforma Dynatrace AIops per monitorare la propria infrastruttura IT e le API che forniscono informazioni dai partner, afferma Ken Schirrmacher, Senior Director IT. Dynatrace rileva inoltre automaticamente nuovi componenti come i server che Park ‘N Fly ospita nel cloud.
Un altro utilizzo di AIops presso Wiley consiste nella gestione dei registri degli eventi non solo per osservare, ma anche per comprendere le ragioni alla base della disponibilità e dell’affidabilità dei suoi sistemi, afferma Mack. “Il monitoraggio è diventato superato”. Ciò di cui Wiley ha bisogno è “osservabilità, ovvero la capacità di porre domande e ottenere risposte. Il monitoraggio può mostrarvi la latenza (dei sistemi) ogni secondo, ma la domanda che molti si vogliono porre, ad esempio, è: Perché un utente a Timbuktu ha un problema?”
Arrivare alle cause profonde
AIops è utile anche per velocizzare l’analisi della causa principale dei problemi, aiutando a determinare “a quale livello della mappa del servizio esiste il problema: nel browser, nel database, nel codice o è un problema di rete locale?”, afferma Elliott. Wiley correla i dati di tutti i livelli dello stack di applicazioni, comprese le prestazioni del database e delle applicazioni e il modo in cui gli utenti sperimentano le sue applicazioni e servizi, e ha utilizzato Dynatrace e altri strumenti per ridurre del 40% il tempo medio per risolvere i problemi. “Ciò significa enormi miglioramenti nelle prestazioni per i nostri clienti”.
AIops richiede però una configurazione e spesso non produce riduzioni dei costi a breve termine. “Non vedrete risparmi durante la fase di implementazione”, afferma Schirrmacher. “Il vantaggio è in gran parte sulla lunga distanza, come quando avrete bisogno di un minor numero di dipendenti per gestire il vostro ambiente in crescita ed eseguirlo in modo ottimale”.
Dove AIops non è all’altezza
Affrontare le carenze di dati
Più dati di qualità superiore ha un algoritmo di machine learning, meglio è in grado di comprendere e analizzare il funzionamento di un’infrastruttura IT complessa. La mancanza di tali dati può limitare l’efficacia di AIops, rendendo la corretta gestione dei dati un elemento cruciale per un’implementazione AIops di successo.
“I nostri primi sforzi in ambito AIops non sono stati semplici, perché i fornitori non sono stati all’altezza della loro promessa di accettare i nostri dati “disordinati” e di utilizzarli per identificare anomalie e problemi all’interno dell’infrastruttura IT” afferma Vilius Ellikas, responsabile dell’affidabilità e dell’osservabilità dei servizi di Danske Bank. Danske Bank vede un potenziale elevato nell’utilizzo della piattaforma di osservabilità StackState per aggregare, correlare e taggare automaticamente i dati in modo che i suoi sistemi interni possano vedere quali componenti dell’infrastruttura supportano quali applicazioni e servizi. Questo aiuta la banca a “ottenere le giuste basi prima che si arrivi alla magia del machine learning”.
Notified, che utilizza un’infrastruttura basata su cloud per fornire comunicazioni e hosting per eventi e comunicazioni aziendali, sta eseguendo il suo primo proof of concept AIops utilizzando le funzionalità AIops in Splunk e New Relic, afferma il CTO Thomas Squeo. Sebbene AIops sia utile per accelerare l’analisi delle cause principali e l’aggregazione degli eventi, Notified sta ancora aggregando i dati storici sulle prestazioni necessari per prevedere la quantità di risorse cloud di cui ha bisogno per eventi su larga scala come le conferenze sulle relazioni con gli investitori.
Il consolidamento dei dati operativi richiesti sulla propria infrastruttura è stato importante per AmerisourceBergen. “Uno dei nostri principali punti deboli è stato avere ambienti in silos che esaminavano la loro serie di strumenti e non avevano una visione generale del sistema”, afferma Stuart. “Ora che tutti i dati sono posizionati centralmente, il nostro motore AIops può correlare gli avvisi provenienti da diverse fonti, consentendo ai membri del team di AmerisourceBergen di concentrarsi rapidamente sul problema principale. Correlando tutti i dati in un’unica posizione, possiamo iniziare a identificare quei modelli che possono rappresentare un primo segnale di allarme per eventuali problemi”.
Risoluzione automatizzata
La risoluzione completamente automatizzata di problemi di sicurezza e di prestazioni è un’altra area in cui AIops può non essere all’altezza delle promesse dei fornitori. “AIops è drammaticamente inefficace se i clienti lo considerano una bacchetta magica in grado di trovare istantaneamente e continuamente i problemi e di suggerire il rimedio ideale” afferma Gregory Murray, Senior Research Director di Gartner.
Alcuni rischi, come lo sfruttamento di una vulnerabilità di sicurezza precedentemente sconosciuta, sono infatti difficili o impossibili da prevedere. “È inoltre impossibile per qualsiasi sistema di intelligenza artificiale valutare tutte le combinazioni di modifiche all’infrastruttura IT e prevedere in modo affidabile l’effetto di tali modifiche”. Notified sta “attualmente eseguendo la risoluzione automatizzata solo dal 20% al 25% del portafoglio di applicazioni in base al rischio”, afferma Squeo.
La cultura va avanti
Per alcuni, AIops non è tanto una disciplina autonoma, quanto più un ulteriore strumento per processi aziendali e IT agili. IDC la chiama “analisi delle operazioni IT” e in Notified “non usiamo il termine AIops”, afferma Squeo. “Preferiamo il termine ‘devsecops’, che presuppone l’esistenza di buone pratiche di monitoraggio, notifica ed eventi e che sfrutta AIops come parte della cooperazione complessiva tra sviluppo, operazioni e sicurezza”.
All’interno di Wiley, AIops fa parte di una strategia più ampia per dare maggiore responsabilità per la qualità delle applicazioni e del servizio ai team che le sviluppano. “Adottiamo un approccio devops alla nostra affidabilità e gestione”, afferma Mack.
Stuart prevede infine che AIops alla fine faciliterà “un cambiamento culturale a livello di team, in cui l’automazione diventerà il punto focale ed eliminerà col tempo la risposta manuale ai problemi. Man mano che maturiamo, l’attenzione si concentrerà sulla visione dell’ambiente da una prospettiva di servizio che unirà i componenti dell’applicazione e dell’infrastruttura con i driver di business”.