Quando si parla di progetti di sviluppo di applicazioni AI based, molti si lasciano prendere dall'entusiasmo, e non si pongono un quesito fondamentale: l'azienda dispone di una infrastruttura IT per l'intelligenza artificiale all'altezza della situazione? Purtroppo, la risposta è quasi sempre no. Ma vediamo perché, cosa si può fare per ovviare e soprattutto quali fattori bisogna prendere in considerazione prima di investire in un progetto del genere.
Cominciamo col dire che, nella stragrande maggioranza dei casi, è necessario superare una serie di gap, che – a differenza di quanto si possa pensare – non sono “semplicemente” di natura tecnologica. Occorre anche un know-how specifico, fatto di conoscenze e buone pratiche che risultano ancora piuttosto rare sul mercato.
Serve, più di ogni altra cosa, saper gestire le nuove farm GPU che, a prescindere dal fatto che siano virtuali o fisiche, sono completamente diverse dalle tradizionali server farm basate sulle CPU.
Dar vita a una infrastruttura IT per l'intelligenza artificiale significa trovare il giusto punto di equilibrio tra un investimento iniziale che supporti l'organizzazione nella fase di sviluppo applicativo e una strategia di trasformazione di lungo termine che consenta il continuo aggiornamento dell'architettura IT man mano che si evolve la tecnologia.
Bisogna dunque innanzitutto valutare se conviene acquistare e ospitare le macchine on premise oppure puntare, facendo leva sul cloud, su capacità computazionali e servizi gestiti on demand. Quali sono i criteri per scegliere?
Si parte dai costi: costruire una farm GPU proprietaria vuol dire installare macchine che implicano un consumo energetico molto più elevato rispetto alle classiche CPU, nell'ordine di dieci volte superiore. Ciò presuppone non solo un aumento delle spese di gestione, ma anche una riprogettazione delle facility, che possono accogliere apparati tecnologici così diversi solo dopo uno studio accurato.
Se si dispone già di una sala server, per esempio, si dovranno prevedere anche i picchi di potenza generati , e mettere a fattor comune sistemi di raffreddamento più efficienti. Come detto, sarà poi indispensabile poter fare affidamento su un know-how specifico – sviluppando, internalizzando o ingaggiando professionalità adeguate – per garantire che le infrastrutture IT per intelligenza artificiale siano operate correttamente.
C'è insomma tutta una serie di step da programmare, nell'ottica sia di preparare le piattaforme, sia di maturare le competenze che occorrono per gestire i carichi di lavoro dell'AI.
L'implementazione di una infrastruttura IT per l'intelligenza artificiale, infatti, presuppone skill specifiche in merito non solo allo sviluppo dei Large Language Model, essenziali per costruire le interfacce della GenAI, ma anche al deployment degli stessi modelli all'interno delle farm GPU installate. Tutto questo al netto delle possibili evoluzioni che la tecnologia affronterà nei prossimi anni, aspetto che rimane un grande punto interrogativo persino per gli addetti ai lavori.
Vogliamo per esempio parlare di ridondanza, criticità dei workload e disaster recovery? Non esistono ancora veri e propri standard da questo punto di vista, e lo scenario può cambiare rapidamente e in modo poco prevedibile. Le aziende dunque devono ponderare con grande attenzione anche l'assunzione di un “esperto”, visto che allo stato attuale c'è un elevato rischio di internalizzare un know-how che magari diventa obsoleto nel giro di pochissimo tempo.
C'è poi un altro elemento, altrettanto essenziale, da valutare: le farm GPU, per definizione, sono infrastrutture che esprimono, in tutti sensi, prestazioni molto elevate. Si portano quindi dietro sempre soluzioni d’avanguardia proprio per far sì che determinate performance siano sempre ai massimi livelli. Ho già accennato al tema del raffreddamento, rispetto al quale, sempre più spesso, si ricorre a sistemi di liquid cooling. Ma anche quello dell'alimentazione è tutt'altro che banale.
Tutto ciò comporta un ulteriore fattore di complessità: ciascun hyperscaler, oggi, da Azure ad AWS passando per Google, sta lavorando alle proprie architetture GPU nell'ottica di raggiungere la massima efficienza rispetto alla questione dell'approvvigionamento. Ne consegue che le liste di attesa per acquistare le componenti necessarie a realizzare una infrastruttura IT per l'intelligenza artificiale continuano ad allungarsi. Basti pensare all'esplosione della domanda di GPU Nvidia, per ottenere le quali spesso occorre partecipare ad aste.
Le sfide da affrontare, dunque, al di là del fattore puramente tecnologico, sono parecchie. Ecco perché, quando parliamo della necessità di acquisire la capacità computazionale per abilitare casi d'uso costruiti sull'AI, è bene prendere in considerazione anche l'opzione Cloud GPU.
Mi riferisco alla possibilità di far leva su vere e proprie farm GPU as-a-Service, erogate e gestite da provider specializzati che per mestiere valutano da sempre questo tipo di rischi. Il compito del fornitore è quello di identificare il mix tecnologico adeguato a ciascun caso d'uso, mettendo a disposizione dei clienti non solo le soluzioni migliori, ma anche competenze (insieme alla readiness dei data center) sempre aggiornate. Elementi, questi, indispensabili per intraprendere il viaggio attraverso il territorio ancora largamente inesplorato dell'AI.