Bienvenue dans notre groupe de travail sur l'IA
Le calcul à haute performance (HPC) est un écosystème qui relie de nombreuses communautés scientifiques, des mathématiques et de l’ingénierie aux sciences expérimentales et à l’informatique. Il fournit les outils et les environnements nécessaires pour aborder les nouvelles architectures informatiques hybrides et accélérées qui alimenteront la recherche future. Les progrès récents de l’IA changent la donne pour la science, en offrant de nouvelles façons d’analyser les données et d’améliorer les simulations grâce à une intégration poussée de l’IA et du calcul intensif. Dans ce contexte, notre programme de recherche NumPEx vise à réunir l’IA et le HPC à grande échelle en développant des logiciels prêts pour Exascale, des méthodes d’analyse de données basées sur l’IA et des capacités d’entraînement de grands modèles. Ce faisant, NumPEx accélérera l’utilisation de l’IA pour la science et renforcera les collaborations entre les communautés de recherche nationales et internationales.
Le calcul de haute performance (HPC) est un écosystème à l’intersection de vastes communautés. Il relève les défis méthodologiques, algorithmiques, logiciels et de portabilité pour exploiter efficacement les nouvelles architectures de calcul hybrides, hétérogènes et hautement accélérées, qui seront les architectures de demain dans les centres régionaux et nationaux. Le calcul haute performance vise à fournir un environnement informatique qui accélère la recherche dans de nombreuses communautés de sciences appliquées et industrielles, dans des domaines tels que l’astrophysique, la physique des hautes énergies, le climat et l’environnement, la biologie et la santé numérique, la neuroimagerie, la chimie physique, les sciences humaines et sociales, l’aéronautique, la production/transition d’énergie, pour n’en citer que quelques-uns. Dans la plupart de ces domaines, le développement récent de l’IA est considéré comme un facteur de changement pour mieux intégrer et analyser les données expérimentales ainsi que pour améliorer considérablement les simulations numériques grâce à l’hybridation profonde IA/HPC, repoussant ainsi de nouvelles frontières afin d’accélérer la recherche. Cependant, l’utilisation de l’IA dans ces domaines reste souvent au niveau de la preuve du concept et nécessite donc un bond en avant avec une mise en œuvre à l’échelle et une validation scientifique complète.
Les récentes avancées dans le domaine de l’IA ont montré que les grands ensembles de données disponibles et l’énorme puissance de calcul sont les éléments essentiels nécessaires au développement de modèles puissants et flexibles pour le traitement du langage naturel et des images. Le positionnement du calcul intensif au carrefour de divers domaines scientifiques et l’expertise de la communauté dans la gestion de grandes infrastructures de calcul et de données en font le terrain idéal pour développer l’utilisation novatrice de l’IA pour la science. En effet, l’écosystème HPC rassemble des données expérimentales et d’observation massives, de grandes ressources de calcul et des praticiens experts, qui sont essentiels à l’avènement de modèles d’IA puissants pour aborder des questions scientifiques complexes. De plus, l’expertise de la communauté HPC dans l’exploitation efficace de grandes infrastructures de calcul offre également la possibilité d’améliorer les pratiques d’IA pour former de grands modèles.
Our actions
Dans ce contexte, l’initiative NumPEx vise à faire progresser l’utilisation conjointe de l’IA et du calcul intensif dans plusieurs directions :
Avec la fin de la loi de Moore, une direction de recherche émergente vise à développer des approches hybrides basées sur l’IA pour accélérer certaines parties des applications de calcul scientifique. Cette hybridation peut prendre plusieurs formes, du développement de codes de simulation incluant des modèles d’IA informés par la physique, à l’optimisation des temps d’exécution basés sur des modèles informés par les logs, ou à la réduction des données d’observation et des simulations numériques à l’œuvre dans les modèles réduits et les jumeaux numériques. À cette fin, NumPEx vise à faire progresser une pile logicielle prête pour Exascale, intégrant des solutions d’IA qui répondent aux besoins des communautés d’application.
Les données massives produites par le calcul scientifique avec HPC soulèvent également des défis particuliers pour l’application de modèles d’IA, car elles ne peuvent souvent pas être stockées et collectées sur le système de calcul. Cela nécessite des méthodologies d’IA spécifiques, capables d’analyser ou d’assimiler des données massives à l’échelle, qu’elles proviennent de solutions numériques ou de données d’observation, avec des solutions basées sur l’IA pour l’analyse de données in-stream et in-situ, l’amélioration de l’IO, ou le checkpointing, pour n’en citer que quelques-unes. Dans le cadre de NumPEx, les flux de travail assistés par l’IA seront étudiés pour la gestion des données distribuées et le calcul distribué.
Ces dernières années ont été marquées par la (r)évolution très rapide de modèles extrêmement volumineux, notamment de grands modèles linguistiques ou, plus généralement, de modèles fondamentaux tels que les modèles de diffusion, les modèles génératifs multimodaux, etc. Ces modèles nécessitent l’utilisation intensive de superordinateurs
et d’énormes infrastructures de stockage de données pour apprendre des modèles comportant des milliards ou des trillions de paramètres à partir de pétaoctets de données. Cela pose des défis en matière de gestion des données et de calcul sur des systèmes de niveau Exascale, avec une utilisation massive d’architectures accélérées hétérogènes. À cet égard, les contributions de NumPEx à la pile logicielle Exascale couvriront davantage les bibliothèques de composants basés sur l’IA, l’interface entre les bibliothèques HPC traditionnelles et les cadres standards d’IA et d’apprentissage automatique (par exemple PyTorch, Tensorflow, Scikit-Learn, etc.). NumPEx est la pierre angulaire de l’écosystème Exascale, entre les communautés d’application, les fournisseurs HPC et la communauté de recherche en mathématiques appliquées et en informatique.
À cet égard, NumPEx contribuera à :
Accélérer l’IA pour la science
NumPEx vise à accélérer la diffusion et l’application de l’IA à tous les stades, en mettant fortement l’accent sur l’IA pour les applications scientifiques et d’ingénierie. À cette fin, il aidera les communautés scientifiques et techniques à accélérer l’intégration de l’IA à grande échelle grâce à la co-conception centrée sur l’IA. Au sein des communautés d’utilisateurs scientifiques et d’ingénierie Exascale, les utilisations de l’IA couvrent un spectre très large, allant des applications proches de la production à faible maturité à la preuve de concept à faible maturité, voire pas d’utilisation du tout mais une intégration planifiée. Par conséquent, NumPEx aidera davantage les communautés d’utilisateurs à intégrer des solutions basées sur l’IA et à les déployer sur des plateformes Exascale. À cette fin, NumPEx s’appuiera sur une activité de co-conception centrée sur l’IA, en se concentrant sur des cas d’utilisation d’applications flexibles partagées. Comprenant des données et des mesures bien définies dépendant de l’application, ces cas d’utilisation constitueront le banc d’essai nécessaire pour tester et évaluer les solutions basées sur l’IA développées dans le cadre de NumPEx. Dans ce contexte, le NumPEx s’engagera fortement dans le développement de la science ouverte (source et données).
Combler le fossé entre les communautés des applications et de l’intelligence artificielle de base
L’objectif de NumPEx est de jeter des ponts entre la communauté traditionnelle du calcul intensif et de l’informatique et les principales communautés de l’IA, des mathématiques appliquées à la vision par ordinateur ou au traitement des signaux. À cette fin, le NumPEx participera et organisera des événements scientifiques interdisciplinaires axés sur l’IA pour la science (par exemple, des programmes thématiques à long terme, des écoles). Le succès de l’IA repose en grande partie sur les défis ouverts massifs 1, qui exposent les besoins des communautés d’application à un public beaucoup plus large, ce qui permet une découverte plus rapide. En s’appuyant sur l’activité de co-conception, NumPEx encourage les défis ouverts, en se concentrant sur des cas d’utilisation d’applications clés.
Favoriser les collaborations et les initiatives au niveau national et international
L’IA est un écosystème complexe et en évolution très rapide, qui nécessite des collaborations interdisciplinaires et internationales. NumPEx, à travers son initiative internationale InPEx, est parfaitement connecté à la communauté Exascale internationale, et plusieurs
des organismes pilotes sont membres de TPC. Dans ce contexte, le NumPEx participera activement à des projets nationaux et européens centrés sur l’IA, en mettant l’accent sur le développement de grands modèles fondamentaux à l’échelle pour la science. NumPEx développera et renforcera les collaborations internationales en participant à des initiatives transnationales telles que le Trillion Parameter Consortium (TPC).
Contacts
Pour plus d’informations sur le groupe de travail « AI for science » et ses activités, veuillez contacter Jérôme Bobin, Thomas Moreau et Emmanuel Franck.

