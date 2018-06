Il Dipartimento dell’Energia degli Stati Uniti ha annunciato l’entrata in funzione di Summit, il nuovo supercomputer realizzato da IBM e collocato presso l’Oak Ridge National Laboratory. Il team che ha progettato il nuovo supercomputer Summit aveva giustamente previsto l’aumento del computing incentrato sui dati, ma i suoi costruttori non potevano prevedere i ritardi nella consegna dei componenti chiave dovuti a cause come il maltempo.

Ciononostante, quasi quattro anni dopo che IBM ha vinto l’assegnazione, Summit è attivo e funzionante nei tempi previsti. Jack Wells, responsabile scientifico dell’Oak Ridge Leadership Computing Facility (OLCF), si aspetta che la macchina da 200 petaflop sia pienamente operativa all’inizio del prossimo anno.

“È il supercomputer per la scienza più potente e più grande del mondo“, ha affermato Wells. Summit è stato progettato per carichi di lavoro che includono fisica nucleare, sismologia e scienza del clima, che in genere partono da un modello e una serie di condizioni iniziali e arrivano a generare enormi volumi di dati sulla strada verso la soluzione.

I suoi creatori hanno anche pianificato nuovi tipi di problemi computazionali che partono da set di dati molto ampi e cercano spiegazioni concise, situazioni tipiche degli studi sulla genomica e dei problemi di apprendimento automatico. Fino a qualche anno fa c’erano pochi progetti sul deep learning, mentre oggi, “ci sono circa dieci progetti di deep learning che richiedono le risorse computazionali di Summit”, ha spiegato Wells.

L’architettura di Summit, basato su sistema operativo Red Hat Linux, è particolarmente adatta a tali problemi, grazie al modo in cui la sua memoria è condivisa tra i processori e alla sua capacità di eseguire volumi maggiori di calcoli a precisione ridotta.

Summit candidato al primo posto della Top500

È un supercomputer che si distingue anche per altri aspetti.

Se i benchmark delle prestazioni confermeranno le aspettative, Summit potrà salire al primo posto della Top500, la classifica dei supercomputer più veloci al mondo, oggi capitanata dal computer cinese Sunway TaihuLight.

Il supercomputer realizzato da IBM promette una prestazione massima di 200 petaflop, ovvero 200 milioni di miliardi di operazioni in virgola mobile al secondo.

Secondo altri parametri Summit può arrivare a oltre 1,88 exaflop, ovvero 1,88 miliardi di miliardi di operazioni al secondo. Queste velocità sono dovute al fatto che, anziché eseguire calcoli in virgola mobile a 64 bit e a doppia precisione, comunemente usati nella modellizzazione scientifica, Summit lavora in a virgola mobile a 16 bit half-precision. Come ha spiegato Wells, “è il formato sufficiente per molti dei calcoli usati nel deep learning o nella genomica”.

Summit ha molti meno nodi di calcolo rispetto alla macchina che è destinato a sostituire, il Titan, che è stato il più veloce al mondo nella Top500 di novembre 2012. Ciascuno dei 18.688 nodi di Titan era costituito da una CPU AMD Opteron supportata da una singola GPU Nvidia Kepler, mentre ciascuno dei 4.600 nodi di Summit è composto da due CPU IBM Power9 e sei GPU Nvidia Tesla V100. Questi sono i chip che possono gestire il computing a diversi livelli di precisione in modo così efficiente.

I suoi nodi sono ricchi di memoria: 512 GB di RAM DDR4 per le CPU Power9, 96 GB di memoria ad elevata larghezza di banda (HBM2) per le GPU V100 e 1,6 TB come buffer. Inoltre, dal punto di vista del programmatore, quella memoria è condivisa tra CPU e GPU e può essere trattata come un blocco singolo, accelerando ulteriormente le operazioni.

I nodi sono suddivisi in tre categorie: nodi di accesso per la compilazione del codice e la sottomissione dei lavori, nodi di avvio per l’esecuzione di batch, nodi di calcolo in cui viene eseguito il lavoro di hard computing. I nodi sono tutti fisicamente identici, quindi non è necessario eseguire la compilazione incrociata di lavori per obiettivi diversi.

Un percorso a ostacoli per Summit

Oltre al Summit, destinato ai laboratori Oak Ridge, il Dipartimento dell’Energia degli Stati Uniti ha incaricato IBM di costruire anche un altro supercomputer, il Sierra, per il Lawrence Livermore National Laboratory.

Le due macchine differiscono per un aspetto importante: mentre il Lawrence Livermore utilizza un design tradizionale nel suo data center, con pavimento sopraelevato, all’Oak Ridge le strutture per l’acqua e l’energia sono aere.

“Abbiamo dovuto riorientare il sistema, lo stesso armadio, per poter ospitare il supercomputer all’Oak Ridge”, ha affermato Wayne Howell, Vicepresidente per la progettazione e l’ingegneria di IBM Systems.

Ciò significava anche che tutta l’infrastruttura – i rack, il raffreddamento, la rete – doveva essere installata prima della consegna dei primi nodi. I quali, a loro volta, dovevano essere installati a un ritmo costante in un lasso di tempo relativamente breve.

“Una delle sfide che abbiamo incontrato è che, una volta avviate le consegne dei materiali, non potevamo permetterci interruzioni”, ha dichiarato Howell.

Interruzioni come, per esempio, un guasto al veicolo che trasportava un carico di server tra la struttura di IBM in California e il laboratorio nel Tennessee. Il team ha quindi deciso di inviare un altro rimorchio per recuperare i server, piuttosto che attendere la consegna successiva. “Il risultato netto è stato solo un ritardo di poche ore in un viaggio lungo migliaia di chilometri”, ha ricordato Howell.

Quando il maltempo ha fermato del tutto i camion, invece, IBM ha noleggiato degli aerei.

“Per recuperare tempo abbiamo optato per il trasporto aereo invece che su strada”, ha aggiunto, “ma alcuni componenti sono estremamente grandi, quindi abbiamo dovuto noleggiare aerei di grande capacità per poterli trasportare”.

L’ultima attrezzatura è stata consegnata nel marzo 2018. Adesso sono in corso i test del software di sistema, che proseguiranno durante l’estate. L’obiettivo, ha dichiarato Wells, è “entrare a pieno regime entro gennaio 2019”.