Home Sciences et technologiesAzure : Microsoft pulvérise le record d’inférence avec 1,1 million de jetons par seconde

Azure : Microsoft pulvérise le record d’inférence avec 1,1 million de jetons par seconde

by Louis Girard - Tech

Azure pulvérise les records d’inférence IA avec un débit de 1 million de jetons par seconde

SEATTLE, WA – Microsoft a annoncé aujourd’hui un nouveau record de performance en matière d’inférence d’intelligence artificielle, atteignant un débit impressionnant de 1 million de jetons par seconde grâce à sa nouvelle infrastructure Azure ND GB300 v6, alimentée par les GPU NVIDIA GB300 NVL72. Ce bond en avant marque une étape significative dans la capacité à traiter rapidement et efficacement les modèles d’IA de grande taille.

Les tests, réalisés avec le modèle Llama2 70B (en précision FP4) via le moteur d’inférence NVIDIA TensorRT-LLM, ont démontré une amélioration de 27% des performances par rapport à la génération précédente de GPU NVIDIA (GB200), tout en n’augmentant que de 16% la consommation d’énergie.Un rack NVL72 d’Azure ND GB300 v6 a surpassé le précédent record de Microsoft de 865 000 jetons/s, établi avec les machines virtuelles ND GB200 v6.

Ce résultat se traduit par une performance d’environ 15 200 jetons par seconde par GPU Blackwell Ultra, soulignant la puissance brute de la nouvelle architecture. Les performances ont été validées de manière indépendante par Signal65, une société spécialisée dans l’analyse comparative des performances en IA.

“Cette étape est importante non seulement pour franchir la barrière du million de jetons par seconde, mais aussi pour le faire sur une plateforme conçue pour répondre aux besoins d’utilisation dynamique et de gouvernance des données des entreprises modernes,” a déclaré russ Fellows, vice-président des laboratoires chez Signal65.

Pourquoi est-ce significant ?

L’inférence IA, le processus d’utilisation d’un modèle d’IA entraîné pour faire des prédictions ou prendre des décisions, est un élément crucial de nombreuses applications modernes, allant des chatbots et assistants virtuels à la traduction automatique et à l’analyse de données. Un débit d’inférence plus rapide signifie des réponses plus rapides, une meilleure expérience utilisateur et la possibilité de gérer des charges de travail plus importantes.

L’évolution de l’inférence IA : un bref aperçu

L’inférence IA a connu une évolution rapide ces dernières années, stimulée par les progrès de l’apprentissage profond et la disponibilité de matériel spécialisé comme les GPU. Les premières approches d’inférence étaient souvent limitées par la puissance de calcul et la mémoire disponibles. L’introduction de GPU plus puissants, combinée à des techniques d’optimisation logicielle comme la quantification et la distillation, a permis d’améliorer considérablement les performances.

L’architecture NVIDIA GB300 NVL72, utilisée par Microsoft, représente une avancée significative dans ce domaine. elle offre une bande passante mémoire accrue, une interconnexion plus rapide entre les GPU et des fonctionnalités spécialisées pour l’inférence IA.

Implications pour l’avenir

Cette avancée technologique ouvre la voie à de nouvelles possibilités dans le domaine de l’IA. Elle permettra aux entreprises de déployer des modèles d’IA plus complexes et plus performants, et de proposer des services d’IA plus innovants à leurs clients. On peut s’attendre à voir des applications d’IA plus sophistiquées dans des domaines tels que la santé, la finance, la fabrication et le transport. L’amélioration de l’efficacité énergétique est également un facteur clé, permettant de réduire l’empreinte carbone des infrastructures d’IA.

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.