Home Sciences et technologiesNVIDIA DRA pour GPU : Don à la CNCF et support Kubernetes

NVIDIA DRA pour GPU : Don à la CNCF et support Kubernetes

by Louis Girard - Tech

L’IA et Kubernetes : NVIDIA ouvre la voie à une infrastructure cloud native plus performante

L’intelligence artificielle est devenue une charge de travail essentielle pour les entreprises. Et pour la grande majorité d’entre elles, cette charge de travail repose désormais sur Kubernetes, la plateforme open source leader pour l’orchestration des conteneurs. Mais gérer des infrastructures d’IA complexes et gourmandes en ressources peut s’avérer un défi. C’est là qu’intervient NVIDIA, avec une annonce majeure faite lors de KubeCon Europe à Amsterdam : le don de son Pilote NVIDIA Dynamic Resource Allocation (DRA) pour GPU à la Cloud Native Computing Foundation (CNCF).

Un don stratégique pour l’écosystème Kubernetes

Ce don marque un tournant important. Le pilote NVIDIA DRA passe du statut de projet géré par un fournisseur à une propriété communautaire complète au sein de Kubernetes. Chris Aniszczyk, directeur de la technologie de la CNCF, souligne que cette démarche “rend l’orchestration GPU hautes performances transparente et accessible à tous”. En ouvrant le code source et en encourageant la collaboration, NVIDIA stimule l’innovation et garantit que la technologie reste alignée sur les besoins évolutifs du cloud moderne.

Simplifier la gestion des GPU pour l’IA

Historiquement, la gestion des GPU, composants clés de l’IA, dans les centres de données était une tâche complexe. Le pilote NVIDIA DRA vise à simplifier considérablement ce processus. Il offre plusieurs avantages clés :

  • Efficacité améliorée : Le pilote permet un partage plus intelligent des ressources GPU, optimisant l’utilisation de la puissance de calcul grâce à la prise en charge des technologies NVIDIA Multi-Process Service et Multi-Instance GPU.
  • Échelle massive : Il prend en charge nativement la connexion de systèmes entre eux, notamment via la technologie NVLink multi-nœuds, essentielle pour l’entraînement de modèles d’IA massifs sur les systèmes NVIDIA Grace Blackwell de nouvelle génération.
  • Flexibilité : Les développeurs peuvent reconfigurer dynamiquement leur matériel en fonction de leurs besoins, modifiant l’allocation des ressources à la volée.
  • Précision : Le logiciel prend en charge des requêtes affinées, permettant aux utilisateurs de spécifier la puissance de calcul, la mémoire et la configuration d’interconnexion exactes dont leurs applications ont besoin.

Conseil d’expert : L’allocation dynamique des ressources GPU est particulièrement cruciale pour les charges de travail d’IA qui connaissent des pics d’activité. En optimisant l’utilisation des GPU, vous pouvez réduire considérablement les coûts d’infrastructure et améliorer les performances globales.

Sécurité renforcée avec les Kata Containers

NVIDIA ne s’arrête pas là. En collaboration avec la communauté Confidential Containers de la CNCF, NVIDIA a introduit le support GPU des Kata Containers, des machines virtuelles légères qui agissent comme des conteneurs. Cela étend l’accélération matérielle à une isolation plus forte, séparant les charges de travail pour une sécurité accrue. Les charges de travail d’IA peuvent ainsi s’exécuter avec une protection améliorée, facilitant la mise en œuvre d’une informatique confidentielle pour protéger les données sensibles.

Un effort collaboratif à l’échelle de l’industrie

NVIDIA ne travaille pas seule. L’entreprise collabore avec des leaders du secteur tels que Amazon Web Services, Broadcom, Canonical, Google Cloud, Microsoft, Nutanix, Red Hat et SUSE pour faire progresser ces fonctionnalités au profit de l’ensemble de l’écosystème cloud natif. Chris Wright, directeur de la technologie et vice-président senior de l’ingénierie mondiale chez Red Hat, souligne que “l’Open Source sera au cœur de toute stratégie d’IA d’entreprise réussie”.

Au-delà du pilote DRA : d’autres initiatives open source

Le don du pilote NVIDIA DRA n’est qu’une partie d’un engagement plus large envers l’open source. NVIDIA a également annoncé plusieurs autres projets, notamment :

  • NVSentinel : un système de correction des pannes GPU.
  • AI Cluster Runtime (aicr) : un framework d’IA agentique.
  • NVIDIA NemoClaw : une pile de référence open source.
  • NVIDIA OpenShell : un runtime pour exécuter en toute sécurité des agents autonomes.
  • KAI Scheduler : un planificateur de charge de travail d’IA hautes performances, désormais intégré en tant que projet CNCF Sandbox.

Le saviez-vous ? L’intégration du KAI Scheduler en tant que projet CNCF Sandbox est une étape cruciale pour favoriser une collaboration plus large et garantir que la technologie évolue en fonction des besoins de l’écosystème cloud natif.

Dynamo et Grove : orchestrer l’IA sur Kubernetes

NVIDIA étend également l’écosystème Dynamo avec Grove, une interface de programmation d’applications Kubernetes open source pour orchestrer les charges de travail d’IA sur les clusters GPU. Grove permet aux développeurs d’exprimer des systèmes d’inférence complexes dans une seule ressource déclarative, et s’intègre à la pile d’inférence llm-d pour une adoption plus large dans la communauté Kubernetes.

FAQ

Qu’est-ce que le Pilote NVIDIA DRA pour GPU ?
C’est un logiciel qui permet une allocation dynamique et efficace des ressources GPU pour les charges de travail d’IA sur Kubernetes.

Pourquoi NVIDIA a-t-elle fait don de ce pilote à la CNCF ?
Pour encourager l’innovation, la collaboration et garantir que la technologie reste ouverte et accessible à tous.

Quels sont les avantages de l’utilisation des Kata Containers avec les GPU NVIDIA ?
Cela renforce la sécurité en isolant les charges de travail d’IA, permettant une informatique confidentielle.

Qu’est-ce que NVLink multi-nœuds ?
Une technologie d’interconnexion qui permet de connecter des systèmes entre eux pour l’entraînement de modèles d’IA massifs.

NVIDIA s’engage à maintenir et à contribuer activement aux projets Kubernetes et CNCF pour répondre aux demandes rigoureuses des clients d’entreprise en matière d’IA. Vous pouvez commencer à utiliser le Pilote NVIDIA DRA dès aujourd’hui et explorer les démonstrations en direct lors de la KubeCon.

Quelles sont vos perspectives sur l’avenir de l’IA et de Kubernetes ? Partagez vos réflexions dans les commentaires ci-dessous !

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.