Amazon lance des instances AWS optimisées par la puce d'accélérateur d'IA de Habana

octobre 27, 2021 Par admin 0
Amazon lance des instances AWS optimisées par la puce d'accélérateur d'IA de Habana
Amazon Web Services (AWS), la division des services cloud d’Amazon, a annoncé aujourd’hui la disponibilité générale des instances Elastic Compute Cloud (EC2) DL1. Bien que les nouveaux types d’instances ne soient généralement pas particulièrement nouveaux, DL1 (en particulier DL1.24xlarge) est le premier type d’AWS conçu pour la formation de modèles d’apprentissage automatique, selon Amazon – alimenté par les accélérateurs Gaudi de Habana Labs, propriété d’Intel.

Des développeurs tels que Seagate, Fractal, Indel, Riskfuel et Leidos ont obtenu un accès anticipé à Gaudi fonctionnant sur AWS avant le lancement d’aujourd’hui. « Il s’agit de la première instance de formation à l’IA d’AWS qui n’est pas basée sur des GPU », a écrit Habana dans un article de blog. «La principale motivation pour créer cette nouvelle classe d’instances de formation a été présentée par Andy Jassy en 2020 re:Invent:«Fournir à nos clients finaux un rapport qualité-prix jusqu’à 40% supérieur à celui de la génération actuelle d’instances basées sur GPU.»

Formation modèle moins cher

L’apprentissage automatique se généralise à mesure que les entreprises réalisent l’impact commercial du déploiement de modèles d’IA dans leurs organisations. L’utilisation de l’apprentissage automatique commence généralement par l’apprentissage d’un modèle pour reconnaître des modèles en apprenant à partir d’ensembles de données, puis en appliquant le modèle à de nouvelles données pour faire des prédictions. Le maintien de la précision de prédiction d’un modèle nécessite un recyclage fréquent du modèle, ce qui nécessite une quantité considérable de ressources, ce qui entraîne une augmentation des dépenses. On estime que la filiale de Google DeepMind a dépensé 35 millions de dollars pour former un système pour apprendre le jeu de société chinois Go.

Avec DL1 – la première réponse d’AWS aux unités de traitement tensoriel (TPU) de Google, un ensemble de puces d’accélérateur personnalisées fonctionnant dans Google Cloud Platform – Amazon et Habana affirment que les clients AWS peuvent désormais former des modèles plus rapidement et avec jusqu’à 40 % meilleur rapport qualité-prix par rapport aux dernières instances EC2 alimentées par GPU. Les instances DL1 exploitent jusqu’à huit accélérateurs Gaudi spécialement conçus pour accélérer la formation, associés à 256 Go de mémoire à bande passante élevée, 768 Go de mémoire système, des processeurs Amazon de deuxième génération personnalisés Intel Xeon Scalable (Cascade Lake), 400 Gbps de débit réseau, et jusqu’à 4 To de stockage NVMe local.

Gaudi présente l’une des premières implémentations sur puce de l’industrie de l’accès direct à la mémoire à distance sur Ethernet (RDMA et RoCE) sur une puce AI. Celui-ci fournit 10 liaisons de communication 100 Gbps ou 20 50 Gbps, lui permettant d’évoluer jusqu’à autant de « milliers » de cartes accélératrices discrètes. Lorsqu’ils proviennent d’une instance basée sur GPU ou CPU, les clients doivent utiliser le SDK SynapseAI de Habana pour migrer les algorithmes existants en raison de différences architecturales. Habana fournit alternativement des modèles pré-entraînés pour la classification d’images, la détection d’objets, le traitement du langage naturel et les systèmes de recommandation dans son référentiel GitHub.

«L’utilisation de l’apprentissage automatique a explosé. L’un des défis de la formation de modèles d’apprentissage automatique, cependant, est qu’elle est gourmande en calculs et peut devenir coûteuse à mesure que les clients affinent et recyclent leurs modèles », a déclaré David Brown, vice-président d’AWS EC2, dans un communiqué. «AWS dispose déjà du plus large choix de calculs puissants pour tout projet ou application d’apprentissage automatique. L’ajout d’instances DL1 dotées d’accélérateurs Gaudi fournit l’alternative la plus rentable aux instances basées sur GPU dans le cloud à ce jour. Leur combinaison optimale de prix et de performances permet aux clients de réduire les coûts de formation, de former plus de modèles et d’innover plus rapidement. »

Dimensionnement de la concurrence

Dans les résultats de juin 2021 de MLPerf Training, une référence de l’industrie pour le matériel de formation à l’IA, un système à huit Gaudi a pris 62,55 minutes pour former une variante du modèle populaire de vision par ordinateur ResNet et 164,37 secondes pour former le langage naturel modèle BERT. Les comparaisons directes avec la dernière génération de TPU de Google sont difficiles à trouver, mais 4 096 TPU de quatrième génération (TPUv4) peuvent entraîner un modèle ResNet en environ 1,82 minutes et 256 puces TPUv4 peuvent entraîner un modèle BERT en 1,82 minutes, montre MLPerf Training.

Au-delà des avantages de performances apparents, DL1 offre des économies de coûts – c’est du moins ce qu’affirment Amazon et Habana. Par rapport à trois instances basées sur GPU – p4d.24xlarge (qui comprend huit GPU Nvidia A100 40 Go), p3dn.24xlarge (huit GPU Nvidia V100 32 Go) et p3.16xlarge (huit GPU V100 16 Go) – DL1 fournit un taux de 13,11 $ lors de la formation d’un modèle ResNet. Cela se compare à entre 24,48 $ par heure pour p3 et 32,77 $ par heure pour p4d.

Huit GPU A100 de 40 Go peuvent traiter plus d’images (18 251) par seconde pendant l’entraînement qu’un système à huit Gaudi (12 987). Mais Habana met l’accent sur l’efficacité de ses puces par rapport à leur débit brut.

« Sur la base des tests effectués par Habana sur les différentes instances EC2 et des tarifs publiés par Amazon, nous constatons que par rapport à l’instance p4d, le DL1 permet de réaliser 44% d’économies sur la formation ResNet-50. Pour les utilisateurs finaux de p3dn, l’économie de coûts pour former ResNet-50 est de 69% », a écrit Habana. « Alors que… Gaudi n’emballe pas autant de transistors que le GPU 7 nanomètres… A100, l’architecture de Gaudi – conçue dès le départ pour plus d’efficacité – permet une utilisation plus élevée des ressources et comprend moins de composants système que l’architecture GPU. En conséquence, des coûts de système inférieurs permettent en fin de compte des prix plus bas pour les utilisateurs finaux. »

Développements futurs

Lorsqu’Intel a acquis Habana pour environ 2 milliards de dollars en décembre 2019, mettant fin au matériel d’accélérateur d’IA développé par sa division Nervana, cela semblait être une décision astucieuse de la part du géant des puces. En effet, lors de sa conférence re:Invent l’année dernière, Jassy a révélé qu’AWS avait investi dans les puces Habana pour accélérer leur mise sur le marché.

Comme le note un article d’EETimes, les fournisseurs de cloud ont été jusqu’à présent prudents lorsqu’il s’agissait d’investir dans des puces tierces dotées de nouvelles architectures de calcul pour l’accélération de l’IA. Par exemple, Baidu propose le Kunlun, tandis qu’Alibaba a développé Hanguang. Les puces des startups Graphcore et Groq sont disponibles dans le cloud Azure de Microsoft et Nimbix, respectivement, mais prioritaires pour les clients « repoussant les limites de l’apprentissage automatique. »

Les instances DL1 seront installées aux côtés du matériel AWS Trainium d’Amazon, un accélérateur personnalisé qui sera mis à la disposition des clients AWS cette année. Quant à Habana, la société dit qu’elle travaille sur sa prochaine génération d’IA Gaudi2, qui fait passer l’architecture Gaudi de 16 nanomètres à 7 nanomètres.

Les instances DL1 sont disponibles à l’achat en tant qu’instances à la demande, avec des plans d’économies, en tant qu’instances réservées ou en tant qu’instances ponctuelles. Ils sont actuellement disponibles dans les régions AWS USA Est (Virginie du Nord) et USA Ouest (Oregon).