Blog

Quelle quantité d'infrastructure d'IA pouvez-vous obtenir pour 400 dollars ?

3 juin 2024

Kevin McDonald

Qumulo : Fichier haute densité Données Vitesse numérique

Ce blog explique les compromis que les architectes de l'informatique en nuage ont dû faire en utilisant des systèmes de fichiers traditionnels lors de la construction d'une infrastructure d'IA. Il explique également comment Azure Native Qumulo résout ces compromis, en réduisant le temps d'utilisation du GPU et en diminuant considérablement les coûts sans sacrifier les performances.

Lorsqu'il s'agit d'exécuter des opérations d'IA à grande échelle, les services de stockage de fichiers n'ont pas réussi à optimiser le compromis entre performance et rentabilité. Le déploiement de flux de travail d'IA directement sur l'infrastructure de stockage de fichiers s'est avéré peu pratique, encombrant et économiquement non viable.

Aujourd'hui, les entreprises sont obligées de construire des solutions basées sur l'IA en transférant les données d'un stockage objet à faible coût vers des caches de fichiers à coût élevé (disque local ou systèmes de fichiers centraux), où les tâches de calcul de l'IA sont exécutées à partir de GPU convoités. Qu'il s'agisse de la collecte de données, du pré-entraînement, de l'entraînement à la production ou de l'inférence continue, le mouvement des données entre les niveaux de stockage ajoute non seulement de la complexité, mais entraîne également des frais de transaction API supplémentaires.

Un système à deux niveaux utilisant des caches de fichiers signifie également que les GPU doivent attendre jusqu'à 40 % du temps simplement pour charger les données du stockage d'objets dans le cache de fichiers. C'est beaucoup de temps perdu pour des GPU inactifs. Pire encore, avec des caches plus petits, les ensembles de données d'entraînement sont limités à la taille de ce cache local, ce qui nécessite plusieurs phases de chargement pour traiter des ensembles de données plus importants tels que les images et les vidéos.

Azure Native Qumulo (ANQ) agit comme un accélérateur de données intelligent pour le magasin d'objets, exécutant des lectures parallélisées et préfixées servies directement à partir de l'infrastructure primitive Azure via le système de fichiers Qumulo aux GPU exécutant des modèles d'entraînement à l'IA. L'ANQ accélère les performances côté GPU, en éliminant les temps de chargement entre la couche d'objets et le système de fichiers. Cela change la façon dont la formation à l'IA dépendante des fichiers dans le nuage devrait être architecturée, comme le montre l'image ci-dessous.

A titre de preuve, nous nous référons à notre dernière Spec Storage AI_IMAGE results démontrant que l'architecture de l'ANQ est la solution de stockage en nuage la plus rapide et la plus rentable de l'industrie.

Nous avons obtenu le meilleur résultat avec un temps de réponse global (ORT) de 0,84 ms et un coût total pour le client de 400 dollars au prix catalogue sur une période de 5 heures. Ce résultat est perturbant car notre cycle de rafale était entièrement SaaS PAYGO, où le comptage s'arrêtait lorsque la performance n'était pas nécessaire. La plupart des autres fournisseurs, y compris une soumission précédente de 700 travaux à 0,85 ms ORT, ne communiquent pas les coûts de manière transparente pour les raisons suivantes :

Il s'agit notamment d'un déploiement important et non élastique de machines virtuelles surdimensionnées qu'il faudrait continuer à faire fonctionner, même après le déploiement, afin de maintenir votre ensemble de données.
Ils exigent un abonnement logiciel de 1 à 3 ans, coûtant des centaines de milliers de dollars, sur la base d'un droit logiciel au lieu d'un modèle de consommation PAYGO.

Ces affirmations semblent difficiles à croire, c'est pourquoi vous vous posez la question :

Qu'est-ce qui différencie l'architecture de l'ANQ et qui permet d'obtenir des résultats aussi étonnants ?
Comment Qumulo peut-il atteindre la vitesse d'une Ferrari, avec la prix annoncé publiquement d'une Toyota Corolla fiable ?
Cela signifie-t-il que je peux enfin utiliser le stockage de fichiers dans le nuage sans avoir à gérer la hiérarchisation des objets ?
Que faire si mon besoin de performance fluctue fortement en fonction du jour de la semaine ou de la semaine du mois ?

Trois choses simples permettent à Qumulo de répondre à toutes ces questions et d'affirmer avec confiance que nous sommes le premier service moderne de stockage de fichiers dans le nuage.

Une véritable évolutivité élastique permet aux clients de se concentrer sur d'autres préoccupations commerciales et technologiques plutôt que sur l'infrastructure de stockage cloud-native. Les performances de stockage sont prêtes à évoluer lorsque la pile d'applications d'IA l'exige, ce qui permet de réduire les coûts en l'absence de demande.
Remarque : d'autres systèmes de fichiers en nuage échouent sur cette capacité critique en exploitant des "volumes" préprovisionnés de capacité fixe. Il n'y a pas vraiment de différence avec le stockage sur site, mais il est beaucoup plus coûteux !
La fixation des prix en cas de rupture : Qumulo a innové en matière de tarification en tirant parti de l'économie des nuages ; nous répercutons les économies réalisées sur le client. L'aspect perturbateur ? Vous ne payez que ce que vous utilisez.
La tarification est simple et repose sur deux facteurs : l'utilisation du stockage (TB) et les performances requises (débit et IOP) ; l'ANQ adapte les performances et la capacité de manière dynamique, de sorte qu'il n'est pas nécessaire de préprovisionner les ressources en prévision de la demande.
Performance augmente de façon linéaire à mesure que la charge de travail augmente. Le système de fichiers Azure Native Qumulo est construit au-dessus du niveau objet, atteignant un taux de cache moyen sur tous les clusters (sur site et dans le nuage) supérieur à 95 % ! L'architecture agit comme un accélérateur qui exécute des lectures parallélisées qui sont préemptées à partir de l'objet et servies directement à partir du système de fichiers à ses clients, qui peuvent être des GPU exécutant des applications d'intelligence artificielle. Cet "accélérateur" géré garantit l'évolutivité et les performances du côté du GPU sans avoir à attendre les temps de chargement entre la couche objet et le système de fichiers.
- Lire est desservi par un cache L1 en mémoire et un généreux cache L2 NVMe. Le cache de lecture global est augmenté à la demande, de manière élastique. C'est la raison pour laquelle nous avons obtenu un temps de réponse global inférieur à la milliseconde pour le benchmark Spec AI_IMAGE ; le système a temporairement augmenté le cache pour répondre aux exigences de performance !
  Derrière le cache de lecture se trouve le modèle d'apprentissage automatique hautement perfectionné de Qumulo qui devine quels blocs sont les plus susceptibles d'être lus ensuite. Entraîné avec des années de modèles d'accès provenant de plus de mille milliards de requêtes, le modèle prélève et sert avec précision les données du cache NVMe ou L1.
- Écrire s'appuient sur les disques hautes performances Azure Managed, qui agissent comme un cache en écriture protégé pour les écritures entrantes, en les transférant continuellement vers Azure Blob Storage. Chaque transaction est enregistrée dans un journal, ce qui garantit qu'il n'y a pas de point de perte de données dans l'architecture de l'ANQ. Cette approche est essentielle en cas de défaillance d'un nœud de calcul et est plus durable que l'architecture de certains de nos concurrents, où les écritures en vol peuvent être perdues lors d'événements de calcul.

Inconcevable ? Nous vous invitons à tester par vous-même. Vous pouvez tester gratuitement Azure Native Qumulo pendant 7 jours ici. La configuration par défaut vous permettra de voir les fonctionnalités, mais elle comporte un limiteur de vitesse de sécurité. Si vous avez besoin de plus de performance, contactez hpc-trial-request@qumulo.com.

Vous souhaitez en savoir plus ? Téléchargez notre solution ci-dessous.