Ce blog explique les compromis que les architectes cloud ont dû faire en utilisant des systèmes de fichiers traditionnels lors de la construction d'une infrastructure d'IA. Le blog explique également comment Azure Native Qumulo résout ces compromis, en réduisant le temps GPU et en réduisant considérablement les coûts sans sacrifier les performances.
Lorsqu’il s’agit d’exécuter des opérations d’IA à grande échelle, les services de stockage de fichiers n’ont pas réussi à optimiser le compromis entre performances et rentabilité. Le déploiement de flux de travail d’IA directement sur l’infrastructure de stockage de fichiers s’est avéré peu pratique, fastidieux et économiquement non viable.
Aujourd'hui, les organisations sont obligées de construire des solutions basées sur l'IA en transférant les données du stockage d'objets à faible coût vers des caches de fichiers coûteux (soit un disque local, soit des systèmes de fichiers centraux), où les tâches de calcul de l'IA sont exécutées à partir de GPU convoités. Qu'il s'agisse de collecte de données, de pré-formation, de formation en production ou d'inférence continue, le mouvement des données entre les niveaux de stockage ajoute non seulement de la complexité, mais entraîne également des frais de transaction API supplémentaires.
Un système à deux niveaux utilisant des caches de fichiers signifie également que les GPU doivent attendre jusqu'à 40 % du temps juste pour charger les données du stockage d'objets dans le cache de fichiers. Cela fait beaucoup de temps perdu pour les GPU inactifs. Pire encore, avec les caches plus petits, les ensembles de données de formation sont limités à la taille de ce cache local, ce qui nécessite plusieurs phases de chargement pour parcourir des ensembles de données plus volumineux comme les images et les vidéos.
Azure Native Qumulo (ANQ) agit comme un accélérateur de données intelligent pour le magasin d'objets, exécutant des lectures parallélisées et préextraites servies directement depuis l'infrastructure primitive Azure via le système de fichiers Qumulo vers des GPU exécutant des modèles de formation d'IA. ANQ accélère les performances côté GPU, en éliminant les temps de chargement entre la couche objet et le système de fichiers. Cela modifie la façon dont la formation de l'IA dépendante des fichiers dans le cloud doit être architecturée, illustrée dans l'image ci-dessous.
A titre de preuve, nous nous référons à notre dernier Résultats AI_IMAGE du stockage des spécifications, démontrant l'architecture d'ANQ comme la solution de stockage cloud native la plus rapide et la plus rentable du secteur.
Nous avons obtenu le meilleur résultat avec un temps de réponse global (ORT) de 0.84 ms et un coût total pour le client de 400 $ au prix catalogue sur une période de rafale de 5 heures. Ceci est perturbateur car notre cycle de rafale était entièrement SaaS PAYGO, où la mesure s'arrêtait lorsque les performances n'étaient pas nécessaires. La plupart des autres fournisseurs, y compris une soumission précédente de 700 tâches à 0.85 ms ORT, ne communiquent pas les coûts de manière transparente pour les raisons suivantes :
- Ils incluent un déploiement à grande échelle et non élastique de machines virtuelles surdimensionnées que vous devrez continuer à exécuter, même après le déploiement, afin de conserver votre ensemble de données.
- Ils nécessitent un abonnement logiciel de 1 à 3 ans, coûtant des centaines de milliers de dollars, sur un droit logiciel plutôt que d'avoir un modèle de consommation PAYGO.
Ces affirmations *semblent* difficiles à croire, alors vous vous demandez peut-être :
- Qu'y a-t-il de si différent dans l'architecture d'ANQ qui donne des résultats aussi étonnants ?
- Comment Qumulo peut-il atteindre la vitesse d'une Ferrari, avec le prix annoncé publiquement d'une Toyota Corolla fiable ?
- Cela signifie-t-il que je peux enfin utiliser le stockage de fichiers dans le cloud sans gérer la hiérarchisation des objets ?
- Que se passe-t-il si mes besoins en performances fluctuent énormément en fonction du jour de la semaine ou de la semaine du mois ?
Trois choses simples permettent à Qumulo de répondre à toutes ces questions et de soutenir avec confiance notre affirmation en tant que premier service de stockage de fichiers cloud moderne.
Véritable évolutivité élastique permet aux clients de se concentrer sur d’autres préoccupations commerciales et technologiques plutôt que sur l’infrastructure de stockage cloud native. Les performances de stockage sont prêtes à évoluer lorsque la pile d'applications IA l'exige, ce qui permet de réduire les coûts lorsqu'il n'y a pas de demande.
Remarque : D'autres systèmes de fichiers cloud échouent sur cette fonctionnalité critique en exploitant des « volumes » pré-approvisionnés de capacité fixe. Pas vraiment différent du stockage sur site, mais bien plus cher !
Tarification perturbatrice : Qumulo a innové en matière de tarification disruptive, en tirant parti de l'économie du cloud ; nous répercutons les économies sur le client. La partie perturbatrice ? Vous ne payez que ce que vous utilisez.
La tarification est simple et repose sur deux facteurs : l'utilisation du stockage (To) et les performances nécessaires (débit et IOPS) ; ANQ fait évoluer les performances et la capacité de manière dynamique afin qu'il ne soit pas nécessaire de pré-approvisionner les ressources en prévision de la demande.
Performance augmente linéairement à mesure que votre charge de travail augmente. Le système de fichiers Azure Native Qumulo est construit au-dessus du niveau objet, atteignant un taux moyen d'accès au cache sur tous les clusters (sur site et dans le cloud) au nord de 95 % ! L'architecture agit comme un accélérateur qui exécute des lectures parallélisées qui sont préextraites de l'objet et servies directement du système de fichiers à ses clients, qui peuvent être des GPU exécutant des applications d'IA. Cet « accélérateur » géré garantit l'évolutivité et les performances côté GPU sans avoir à attendre les temps de chargement entre la couche objet et le système de fichiers.
- Lire le cache est géré à partir d’un cache L1 en mémoire et d’un généreux cache NVMe L2. Le cache de lecture global est augmenté à la demande, de manière élastique. C'est pourquoi nous avons eu un temps de réponse global inférieur à la milliseconde pour le benchmark Spec AI_IMAGE ; le système a temporairement mis à l'échelle le cache pour répondre aux exigences de performances !
Derrière le cache de lecture se trouve le modèle d'apprentissage automatique hautement optimisé de Qumulo qui devine quels blocs sont les plus susceptibles d'être lus ensuite. Formé avec des années de modèles d'accès issus de plus d'un billion de requêtes, le modèle pré-extrait et sert avec précision les données du cache NVMe ou L1. - Écrire les transactions exploitent des disques managés Azure hautes performances, qui agissent comme un cache de réécriture protégé pour les écritures entrantes, les vidant en permanence vers Azure Blob Storage. Chaque transaction est journalisée, garantissant ainsi l'absence de tout point de perte de données dans l'architecture ANQ. Cette approche est essentielle en cas de pannes de nœuds de calcul et est plus durable que l'architecture de certaines de nos concurrents où les écritures en cours peuvent être perdues lors d'événements de calcul.
- Lire le cache est géré à partir d’un cache L1 en mémoire et d’un généreux cache NVMe L2. Le cache de lecture global est augmenté à la demande, de manière élastique. C'est pourquoi nous avons eu un temps de réponse global inférieur à la milliseconde pour le benchmark Spec AI_IMAGE ; le système a temporairement mis à l'échelle le cache pour répondre aux exigences de performances !
Inconcevable? Nous vous invitons à tester par vous-même. Vous pouvez bénéficier d'un essai gratuit de 7 jours d'Azure Native Qumulo ici. La configuration par défaut vous permettra de voir la fonctionnalité, mais dispose d'un limiteur de débit de sécurité. Si vous avez besoin de plus de performances, contactez simplement hpc-trial-request@qumulo.com.
Vous souhaitez en savoir plus ? Téléchargez notre présentation de solution ci-dessous.