Condividiamo due report, messi a disposizione della community, che documentano attività di test sull’esecuzione locale di Large Language Models open source in contesti aziendali.
I lavori descrivono in modo trasparente la metodologia adottata che combina il benchmark integrato di vLLM per la misurazione del throughput in token al secondo e Apache JMeter per la simulazione di carico concorrente con utenti reali.
I dati raccolti, i comandi utilizzati e le configurazioni hardware sono descritti nel report con il livello di dettaglio necessario alla riproducibilità. Chiunque voglia replicare i test, confrontare le misure con la propria infrastruttura o estendere l’analisi ad altri modelli trova nel documento un riferimento operativo completo.
L’obiettivo è duplice: .da un lato, valutare quantitativamente le performance dei modelli, analizzando il carico di richieste gestibili per unità di tempo in un contesto di risorse vincolate; .dall’altro, identificare lo scenario operativo più idoneo per ciascun modello analizzato, così da orientare scelte di adozione consapevoli e strategicamente fondate.
Esperienze di questo tipo aiutano le aziende a esplorare un’autonomia tecnologica nell’ambito dell’AI conversazionale, garantendo privacy, pieno controllo dei dati e personalizzazione senza compromettere la qualità del servizio.
I report sono pubblici e pensati per chi voglia approfondire o sperimentare in prima persona.
Grazie.
Link al report su configurazione Lenovo ThinkStation (pdf): Report LLM su ThinkSystem
Link al report su configurazione Lenovo ThinkServer (pdf): Report LLM su PGX
PS: Ringraziamo Nunzio Fiore che ha coordinato le attività e il team (Fabio Lecca, Matteo Mastranza, Paolo Mazzitti, Francesco Piccolo, Mario Sebastiani) che ha unito le proprie forze per esplorare nuove frontiere nell’ambito degli LLM e per donarle alla comunità.