Le troisième atelier de co-conception et de co-développement d'Exa-DI sur "l'intelligence artificielle pour HPC@Exscale".

Le troisième atelier de co-conception/co-développement du projet Exa-DI (Développement et Intégration) du PEPR NumPEx était dédié à « l’Intelligence Artificielle pour HPC@Exscale » en ciblant les deux sujets « Image analysis @ exascale » et « Data analysis and robust inference @ exascale ». Il s’est déroulé les 2 et 3 octobre 2024 à l’Espace La Bruyère, Du Côté de la Trinité (DCT) à Paris.

This face-to-face workshop brought together, for two days, Exa-DI members, members of the other NumPEx projects (Exa-MA: Methods and Algorithms for Exascale, Exa-SofT: HPC Software and Tools, Exa-DoST: Data-oriented Software and Tools for the Exascale and Exa-AToW: Architectures and Tools for Large-Scale Workflows), Application demonstrators (ADs) from various research and industry sectors and Experts to discuss advancements and future directions for integration of Artificial Intelligence into HPC/HPDA workflows at exascale targeting the two topics, “Large image analysis” and “Data analysis and robust inference”.

 

This workshop is the third co-design/co-development workshops in the series whose main objective is to promote software stack co-development strategies to accelerate exascale development and performance portability of computational science and engineering applications. This workshop is a little different from the previous two in that it has a prospective character targeting the increasing importance of rapidly evolving AI-driven and AI-coupled HPC/HPDA workflows in “Large images analysis @ exascale” and “Data analysis (simulation, experiments, observation) & robust inference @ exascale”. Its main objectives are first to co-develop a shared understanding of the different modes of coupling AI into HPC/HPDA workflows, second to co-identify execution motifs most commonly found  in scientific applications in order to drive the co-development of collaborative specific benchmarks or proxy apps allowing to evaluate/measure end-to-end performance of AI-coupled HPC/HPDA workflows and finally, to co-identify  software components (libraries, frameworks, data communication, workflow tools, abstraction layers, programming and execution environments) to be co-developed and integrated to improve critical components and accelerate them.

Principales sessions

  • Introduction and Context: Setting the stage for the workshop’s two main topics as well as presenting the GT IA, a transverse action in NumPEx.
  • Attendees Self-Introduction: Allowing attendees to introduce themselves and their interests.
  • Various Sessions: These sessions featured talks on the challenges to tackle and bottlenecks to overcome (execution speed, scalability, volume of data…), on the type, the format and the volume of data currently investigated, on the frameworks or programming languages ​currently used (e.g. python, pytorch, JAX, C++, etc..) and on the typical elementary operations performed on data.
  • Discussions and Roundtables: These sessions provided opportunities for attendees to engage in discussions and share insights on the presented topics in order to determine a strategy to tackle the challenges in co-design and co-development process.

Conférencières et conférenciers invités

  • Jean-Pierre Vilotte du CNRS, membre d’Exa-DI, qui a présenté le contexte introductif de l’atelier.
  • Thomas Moreau de l’Inria, membre d’Exa-DoST, présentant la GT IA, une action transversale dans NumPEx.
  • Tobias Liaudat du CEA, sur la quantification rapide et évolutive de l’incertitude pour l’imagerie scientifique.
  • Damien Gradatour du CNRS, qui aborde la question de la construction de nouveaux cerveaux pour les télescopes astronomiques géants grâce aux réseaux neuronaux profonds (Deep Neural Networks).
  • Antoine Petiteau du CEA, discutant de l’analyse des données pour l’observation de l’Univers avec les ondes gravitationnelles à basse fréquence.
  • Kevin Sanchis de Safran AI, sur l’évaluation des méthodes d’apprentissage auto-supervisé dans le domaine de la télédétection.
  • Hugo Frezat de l’Université Paris Cité, présentant des modèles d’apprentissage à l’échelle de la maille pour la convection turbulente en rotation.
  • Benoit Semelin de la Sorbonne Université, discutant de l’inférence basée sur la simulation avec des simulations d’hydrodynamique radiative cosmologique pour le SKA.
  • Bruno Raffin & Thomas Moreau de l’Inria, présentant l’analyse basée sur l’apprentissage automatique de grands résultats de simulation dans Exa-DoST.
  • Julián Tachella du CNRS, présentant DeepInverse : une bibliothèque PyTorch pour résoudre des problèmes inverses avec l’apprentissage profond.
  • Erwan Allys de l’ENS-PSL, explorant le modèle génératif et la séparation des composants dans un régime de données limitées avec la Transformée de diffusion.
  • François Lanusse du CNRS, discutant du pré-entraînement multimodal pour les données scientifiques : Vers des modèles de grandes données pour l’astrophysique. > en ligne
  • Christophe Kervazo de Telecom Paris, abordant les méthodes d’apprentissage profond interprétables et évolutives pour les problèmes inverses d’imagerie.
  • Eric Anterrieu du CNRS, explorant l’approche basée sur l’apprentissage profond en radiométrie d’imagerie par synthèse d’ouverture et son implémentation.
  • Philippe Ciuciu du CEA, sur l’IRM computationnelle à l’ère de l’apprentissage profond.
  • Pascal Tremblin du CEA, caractérisant les modèles dans les simulations HPC à l’aide de la reconnaissance d’images et de la catégorisation pilotées par l’IA.
  • Bruno Raffin de l’Inria, membre d’Exa-DI, présentant le Software Packaging dans Exa-DI

Conclusion et impacts

Many interesting and fruitful discussions took place during this prospective workshop. These discussions allowed us first to progress in understanding the challenges and bottlenecks underpinning AI-driven HPC/HPDA workflows most commonly found in the ADs. Then, a first series of associated issues to be addressed have been identified and these issues can be gathered in two mains axes: (i) image processing of large volumes, images resulting either from simulations or from experiments and (ii) exploration of high-dimensional and multimodal parameter spaces.

One of the very interesting issues that emerged from these discussions concerns the NumPEx software stack and in particular, how could the NumPEx software stack be increased beyond support for classic AI/ML libraries (e.g. TensorFlow, PyTorch) to support concurrent real time coupled execution of AI and HPC/HPDA workflows in ways that allow the AI systems to steer or inform the HPC/HPDA task and vice versa?

A first challenge is the coexistence and communication between HPC/HPDA and AI tasks in the same workflows. This communication is mainly impaired by the difference in programming models used in HPC (i.e., C++, C; and Fortran) and AI (i.e., Python) which requires a more unified data plane management in which high-level data abstractions could be exposed and to hide from both HPC simulations and AI models the complexities of the format conversion and data storage and data storage and transport. A second challenge concerns using the insight provided by the AI models and simulations for identifying execution motifs commonly found in the ADs to guide, steer, or modify the shape of the workflow by triggering or stopping new HPC/HPDA tasks. This implies that the workflow management systems must be able to ingest and react dynamically to inputs coming from the AI models. This should drive the co-development of new libraries, frameworks or workflow tools supporting AI integration into HPC/HPDA workflows.

In addition, these discussions highlighted that an important upcoming action would be to build cross-functional collaboration between software and workflow components development and integration with the overall NumPEx technologies and streamline developer and user workflows.

 

It was therefore decided during this workshop the set-up of a working group addressing these different issues and allowing in fine the building of a suite of shared and well specified proxy-apps and benchmarks, with well-identified data and comparison metrics addressing these different issues. Several teams of ADs and experts have expressed their interest in participating in this working group that will be formed. A first meeting with all interested participants will be organized shortly.

Participantes et participants

  • Jean-Pierre Vilotte, chercheur CNRS et membre d’Exa-DI
  • Valérie Brenner, chercheuse CEA et membre d’Exa-DI
  • Jérôme Bobin, chercheur CEA et membre d’Exa-DI
  • Jérôme Charousset, CEA et membre d’Exa-DI
  • Mark Asch, enseignant-chercheur à l’Université Picardie et membre d’Exa-DI
  • Bruno Raffin, Inria et membre d’Exa-DI et Exa-DoST
  • Rémi Baron, CEA et membre d’Exa-DI
  • Karim Hasnaoui, chercheur CNRS et membre d’Exa-DI
  • Felix Kpadonou, CEA et membre d’Exa-DI
  • Thomas Moreau, Inria et membre d’Exa-DoST
  • Erwan Allys, ENS-PSL et démonstrateur d’application
  • Damien Gradatour, CNRS et démonstrateur d’application
  • Antoine Petiteau, CEA et démonstrateur d’application
  • Hugo Frezat, Université Paris Cité et démonstrateur d’application
  • Alexandre Fournier, Institut de physique du globe et démonstrateur d’application
  • Tobias Liaudat, CEA
  • Jonathan Kem, CEA
  • Kevin Sanchis, Safran AI
  • Benoit Semelin, Sorbonne Université
  • Julian Tachella, CNRS
  • François Lanusse, CNRS
  • Christophe Kervazo, Telecom Paris
  • Eric Anterrieu, CNRS
  • Philippe Ciuiciu, CEA
  • Pascal Tremblin, CEA

Valérie Brenner