IBM ha annunciato Distributed Deep Learning (DDL), una nuova tecnologia che permette di velocizzare i tempi di formazione di modelli di apprendimento profondo. Grazie all’approccio DDL, l’addestramento di modelli di deep learning viene suddiviso automaticamente su diversi server fisici – non solo su singole GPU, ma su interi sistemi con i propri set separati di GPU.

La nuova tecnologia, però, è disponibile solo nel pacchetto software IBM PowerAI 4.0, che viene eseguito esclusivamente sui sistemi hardware OpenPower di IBM.

Distributed Deep Learning (DDL) non richiede agli sviluppatori di apprendere un nuovo framework di deep learning, in quanto permette di utilizzare i più diffusi framework per il machine learning: TensorFlow, Torch, Caffe, Chainer e Theano. I progetti di apprendimento profondo che utilizzano questi framework possono essere eseguiti in parallelo su più nodi hardware.

IBM afferma che l’accelerazione che si guadagna scalando tra i nodi è quasi lineare. La società ha citato l’esempio di un compito, eseguito con set di dati ResNet-101 e ImageNet-22K su un server server IBM S822LC, che ha richiesto 16 giorni per essere completato. Lo stesso lavoro suddiviso su 64 sistemi è stato concluso in sette ore, ovvero 58 volte più velocemente.

IBM offre due modi per utilizzare DDL. Uno è acquistare i server per cui è progettato, ciascuno dei quali integra due unità Nvidia Tesla P100 e costa circa 50.000 dollari. L’altro è eseguire il software PowerAI in un’istanza cloud fornita dal partner Nimbix, per circa 0,43 dollari l’ora.

Una cosa che non si può fare, però, è eseguire PowerAI sui sistemi Intel x86. IBM non ha in programma di offrire PowerAI sulla piattaforma Intel. Il motivo di fondo è la stretta integrazione tra i componenti proprietari di PowerAI e i sistemi OpenPower progettati per supportarli.

Da qualche tempo è possibile effettuare la formazione di modelli di deep learning su sistemi multipli in un cluster, anche se ogni struttura tende ad avere un proprio insieme di soluzioni. Con Caffe, ad esempio, ci sono il sistema Parallel ML o CaffeOnSpark. Anche TensorFlow può essere distribuito su più server, ma l’integrazione con altri framework non avviene in automatico e deve essere aggiunta manualmente.

Secondo quanto dichiarato da IBM, il vantaggio di Distributed Deep Learning è che funziona con più framework e non richiede complesse procedure di impostazione. D’altro canto, la soluzione può essere eseguita solo su hardware di IBM.