Stratégie pour l’interopérabilité des infrastructures numériques scientifiques
Vous trouverez ici toutes les informations sur Exa-AtoW.
L’évolution des volumes de données et des capacités de calcul est en train de remodeler le paysage numérique scientifique. Pour exploiter pleinement ce potentiel, NumPEx et ses partenaires développent une stratégie d’interopérabilité ouverte reliant les principaux instruments, centres de données et infrastructures de calcul.
Porté par la production des données issues des grands instruments (télescopes, satellites, etc.) et de l’intelligence artificielle, le paysage numérique scientifique connaît une transformation profonde, alimentée par l’évolution rapide des capacités de calcul, de stockage et de communication. Le potentiel scientifique de cette révolution, intrinsèquement multidisciplinaire, repose sur la mise en œuvre de chaînes hybrides de calcul et de traitement, intégrant de manière croissante les infrastructures HPC, les centres de données et les grands instruments.
Anticipant l’arrivée de la machine Exascale Alice Recoque, les partenaires et collaborations de NumPEx (SKA-France, MesoCloud, PEPR Numpex, Data Terra, Climeri, TGCC, Idris, Genci) ont décidé de coordonner leurs efforts afin de proposer des solutions d’interopérabilité, permettant le déploiement de chaînes de traitement exploitant pleinement l’ensemble des infrastructures de recherche.
Les travaux ont pour objectif de définir une stratégie ouverte de mise en œuvre de solutions d’interopérabilité, en lien avec les grands instruments scientifiques, afin de faciliter l’analyse des données et de renforcer la reproductibilité des résultats.

Figure: Overview of Impact-HPC.
© PEPR NumPEx
Impacts-HPC : une bibliothèque Python pour mesurer et comprendre l'empreinte environnementale du calcul scientifique
Vous trouverez toutes les informations sur Exa-AToW ici.
L’empreinte environnementale du calcul scientifique va bien au-delà de la consommation d’électricité. Impacts-HPC présente un cadre complet pour évaluer les impacts du HPC sur l’ensemble de son cycle de vie, de la fabrication des équipements à la consommation d’énergie, au moyen d’indicateurs environnementaux clés.
L’empreinte environnementale des calculs scientifiques est souvent réduite à la consommation électrique pendant l’exécution. Or, cela ne reflète qu’une partie du problème. Impacts-HPC vise à dépasser cette vision limitée en intégrant aussi l’impact de la fabrication des équipements et en élargissant le spectre des indicateurs considérés.
Cet outil permet également de tracer les étapes d’un workflow de calcul et de documenter les sources utilisées, renforçant ainsi la transparence et la reproductibilité. Dans un contexte où la crise environnementale nous oblige à considérer simultanément climat, ressources et autres frontières planétaires, disposer de tels outils devient indispensable.
La librairie Impacts-HPC couvre plusieurs étapes du cycle de vie : fabrication et usage des équipements. Elle fournit aux utilisateurs trois indicateurs essentiels :
- Énergie primaire (MJ) : plus pertinent que la seule électricité, car il inclut les pertes de conversion tout au long de la chaîne énergétique.
- Impact climatique (gCO₂eq) : calculé par l’agrégation et la conversion des différents gaz à effet de serre en équivalents CO₂.
- Déplétion des ressources (g Sb eq) : reflétant l’utilisation de ressources non renouvelables, en particulier les minerais métalliques et non métalliques.
C’est la première fois qu’un tel outil est proposé pour un usage direct par les communautés du calcul scientifique, avec une approche intégrée et documentée.
Cette librairie ouvre la voie à une évaluation plus fine des impacts environnementaux liés au calcul scientifique. Les prochaines étapes incluent son intégration dans des environnements de type jumeau numérique, l’ajout de données en temps réel (mix énergétique, stockage, transferts), ainsi que des tests sur un centre HPC de référence (IDRIS). De nouveaux indicateurs, tels que la consommation d’eau, pourront venir compléter l’outil pour en faire une brique incontournable de l’évaluation environnementale du calcul haute performance.

Figure: Overview of Impact-HPC.
© PEPR NumPEx
Stockage de volumes massifs de données : mieux comprendre pour mieux concevoir et optimiser
Vous trouverez ici toutes les informations sur Exa-DoST.
Il est essentiel de comprendre comment les applications scientifiques lisent et écrivent les données pour concevoir des systèmes de stockage qui répondent réellement aux besoins du calcul intensif. La caractérisation fine des E/S permet d’orienter les stratégies d’optimisation et l’architecture des futures infrastructures de stockage.
Les données sont au cœur des applications scientifiques, qu’il s’agisse des données en entrées ou des résultats de traitements. Depuis plusieurs années, leur gestion (lecture et écriture, aussi appelées E/S) est un frein au passage à très large échelle de ces applications. Afin de concevoir des systèmes de stockage plus performants capables d’absorber et d’optimiser ces E/S, il est indispensable de comprendre comment les applications lisent et écrivent ces données.
Grâce aux différents outils et méthodes que nous avons développés, nous sommes capables de produire une caractérisation fine du comportement E/S des applications scientifiques. Par exemple, à partir des données d’exécution de supercalculateurs, nous pouvons montrer que moins d’un quart des applications effectuent des accès réguliers (périodiques) ou encore que les accès concurrents sur le système de stockage principal sont moins courants qu’attendus.
Ce type de résultat est déterminant à plusieurs titres. Il permet par exemple de proposer des méthodes d’optimisation des E/S qui répondent à des comportements clairement identifiés des applications. Une telle caractérisation est aussi un élément concret pour influencer les choix de conceptions de futurs systèmes de stockage, toujours dans le but de répondre aux besoins des applications scientifiques.

Figure : Étape de la classification des données.
PEPR NumPEx
Une nouvelle génération de bibliothèques d'algèbre linéaire pour les superordinateurs modernes
Vous trouverez ici toutes les informations sur Exa-SofT.
Les bibliothèques d’algèbre linéaire sont au cœur du calcul scientifique et de l’intelligence artificielle. En repensant leur exécution sur les architectures hybrides CPU/GPU, de nouvelles approches à base de tâches dynamiques permettent d’en améliorer significativement les performances et la portabilité.
Les bibliothèques de résolution ou de manipulation de systèmes linéaires sont utilisées dans de nombreux domaines de la simulation numérique (aéronautique, énergie, matériaux) et de l’intelligence artificielle (training). Nous cherchons à rendre ces bibliothèques les plus rapides possibles sur les supercalculateurs combinant processeurs traditionnels et accélérateurs graphiques (GPU). Nous utilisons pour cela des modèles d’exécution à base de tâches asynchrones qui maximisent l’occupation des unités de calcul.
C’est un domaine de recherche actif où la plupart des approches existantes se heurtent toutefois au difficile problème de découpage du travail « à la bonne granularité » pour des unités de calcul qui sont hétérogènes.
Durant les derniers mois nous avons mis au point plusieurs extensions d’un modèle de programmation parallèle à base de tâches dit STF (Sequential Task Flow) qui permet d’implémenter de manière beaucoup plus élégante, concise et portable des algorithmes complexes. En combinant ce modèle avec des techniques de découpage dynamique et récursif du travail, on accroît significativement les performances sur des supercalculateurs équipés d’accélérateurs tels que des GPU, notamment grâce à la capacité d’adapter dynamiquement la granularité des calculs en fonction de l’occupation des unités de calcul. A titre d’exemple, grâce à cette approche nous avons obtenu une accélération de 2x par rapport à d’autres bibliothèques de l’état de l’art (MAGMA, Parsec) sur un calculateur hybride CPU/GPU.
Les opérations d’algèbre linéaire sont souvent les étapes les plus coûteuses dans de nombreuses applications de calcul scientifique, analyse de données et apprentissage profond. Par conséquent, toute amélioration de performances dans les bibliothèques d’algèbre linéaire peut potentiellement avoir un impact significatif pour de nombreux utilisateurs de ressource de calcul à haute performance.
Les extensions proposées du modèle STF sont génériques et peuvent également bénéficier à nombreux codes de calcul au-delà du périmètre de l’algèbre linéaire.
Dans la prochaine période, nous souhaitons étudier l’application de cette approche aux algorithmes d’algèbre linéaire pour matrices creuses ainsi qu’aux algorithmes d’algèbre multi-linéaire (calculs tensoriels).
Adapter la granularité permet de confier aux CPUs des tâches plus petites qui ne les occuperont pas trop longtemps, ce qui évite de faire attendre le reste de la machine, tout en continuant à confier aux GPUs de grandes tâches pour qu’ils restent efficaces.

Figure : Adapter la granulométrie permet de confier aux CPUs des tâches plus petites qui ne les occuperont pas trop longtemps, ce qui évite de faire attendre le reste de la machine, tout en continuant à confier aux GPUs de grandes tâches pour qu’ils restent efficaces.
© PEPR NumPEx
Du dépôt Git à l'exécution en masse : Exa-MA industrialise le déploiement d'applications HPC conformes à NumPEx
Find all the information about Exa-MA here.
En unifiant les flux de travail et en automatisant les étapes clés du cycle de vie des logiciels HPC, le cadre Exa-MA contribue à un déploiement plus fiable, portable et efficace des applications sur les systèmes nationaux et EuroHPC.
Les applications HPC nécessitent reproductibilité, portabilité et tests à grande échelle, mais le passage du code à l’ordinateur reste long et hétérogène selon les sites. L’objectif est d’unifier le cadre applicatif Exa-MA et d’automatiser les constructions, les tests et les déploiements conformément aux directives NumPEx.
Un cadre d’application Exa-MA a été mis en place, intégrant la gestion des modèles, des métadonnées et des procédures de vérification et de validation (V&V). Parallèlement, une chaîne complète de CI/CD HPC a été déployée, combinant Spack, Apptainer/Singularity et la soumission automatisée via ReFrame/SLURM orchestrée par GitHub Actions. Cette infrastructure fonctionne de manière transparente sur les ordinateurs nationaux français et les plateformes EuroHPC, avec une automatisation de bout en bout des étapes critiques.
Dans les premiers cas d’utilisation, le délai entre la validation du code et l’exécution à grande échelle a été réduit de plusieurs jours à moins de 24 heures, sans aucune intervention manuelle sur le site. Les performances sont désormais contrôlées par des tests de non-régression (évolutivité élevée/faible) et seront bientôt améliorées par des artefacts de profilage.
L’approche déployée révolutionne l’intégration des applications Exa-MA, accélère l’onboarding et assure une qualité contrôlée grâce à des tests automatisés et une traçabilité complète.
La prochaine phase du projet consiste à mettre en ligne les applications Exa-MA et à déployer un tableau de bord des performances.

Figure : Analyse comparative des pages d’un site web avec des vues par application, par machine et par cas d’utilisation.
PEPR NumPEx
Des données urbaines aux maillages multicouches étanches, prêts pour la simulation énergétique à l'échelle de la ville
Cette recherche a été réalisée dans le cadre du projet Exa-MA. Retrouvez toutes les informations sur Exa-MA ici.
Comment modéliser une ville entière afin de mieux comprendre sa dynamique énergétique, ses flux d’air et sa dynamique thermique ? Les données urbaines (bâtiments, routes, terrain, végétation) sont abondantes mais souvent incohérentes ou incomplètes. Un nouveau pipeline de maillage SIG permet désormais de générer automatiquement des modèles urbains étanches et prêts à être simulés, ce qui permet des simulations réalistes de l’énergie et du microclimat à l’échelle urbaine.
La modélisation énergie/vent/chaleur urbaine requiert des géométries fermées et cohérentes, alors que les données (bâtiments, voirie, relief, hydro, végétation) sont hétérogènes et souvent non étanches. L’objectif est donc de reconstruire des maillages urbains watedight LoD-0/1, interopérables et enrichis d’attributs et modèles physiques.
Un pipeline SIG–maillage a été développé pour automatiser la génération de modèles urbains fermés. Il intègre l’ingestion des données via Mapbox, des opérations géométriques robustes à l’aide de Ktirio-Geom (basé sur CGAL), ainsi que des booléens multi-couches garantissant la fermeture topologique des scènes. Les zones urbaines de plusieurs kilomètres carrés sont ainsi converties en solides cohérents LoD-1/2 (bâtiments, routes, terrain, rivières, végétation). Le temps de préparation des modèles passe de plusieurs semaines à quelques minutes, avec un gain significatif en stabilité numérique. Les sorties sont interopérables avec le modèle Urban Building Model (Ktirio-UBM) et compatibles avec les solveurs énergétiques et CFD.
Ce développement permet un accès rapide à des cas urbains réalistes, exploitables pour les simulations énergétiques et microclimatiques, tout en favorisant la mutualisation des jeux de données au sein de l’écosystème du Centre of Excellence Hidalgo².
La prochaine étape consiste à publier des jeux de données de référence — modèles watertight et scripts associés — sur la plateforme CKAN (n.hidalgo2.eu). Ces travaux ouvrent la voie au couplage entre simulation CFD et énergétique, et à la création d’outils dédiés à l’étude et à la réduction des îlots de chaleur urbains.
Figures: Reconstruction de la ville de Grenoble sur un rayon de 5 km, incluant le réseau routier, les rivières et les étendues d’eau. La végétation n’a pas été intégrée afin de réduire la taille du maillage, qui compte ici environ 6 millions de triangles — un chiffre qui serait au moins doublé si la végétation était incluse.
© PEPR NumPEx
2025 InPEx workshop
Retrouvez toute la présentation sur le site d'InPEx ici
Du 14 au 17 avril 2025, le réseau international d’experts InPEx (Europe, Japon, USA) se réunit à Kanagawa, au Japon, pour le workshop 2025, dédié aux défis de l’ère post-Exascale. Un événement accueilli par RIKEN-CSS et des universités japonaises, avec le soutien du programme de recherche NumPEx
Retrouvez toutes les contributions de NumPEx ci-dessous :
- Introduction, avec Jean-Yves Berthou, directeur Inria du NumPEx et représentant pour l’Europe
-
IA et HPC : partage de benchmarks centrés sur l’IA pour les flux de travail hybrides
Co-présidé par Jean-Pierre Vilotte (CNRS) -
Production et gestion de logiciels
Co-présidé par Julien Bigot (CEA) -
IA et HPC : IA générative pour la science
Co-présidé par Alfredo Buttari (IRIT) et Thomas Moreau (Inria) -
Continuum numérique et gestion des données
Co-présidé par Gabriel Antoniu (Inria)
Si vous souhaitez en savoir plus, toutes les présentations sont disponibles sur le site web d’InPEx.
Crédit photo : Corentin Lefevre/Neovia Innovation/Inria
Assemblée générale 2025 de NumPEx
Réunissant 130 chercheurs, ingénieurs et partenaires à Inria Saclay, l’assemblée générale 2025 de NumPEx a constitué une étape importante pour le futur de notre programme de recherche.
Over two days, participants engaged in discussions, workshops, and guest talks to explore the challenges of integrating Exascale computing into a broader digital continuum. The first day was marked by the live announcement that France had been selected to host one of the European AI Factories.
This General Assembly was also the perfect occasion to introduce YoungPEx to the entire PEPR community through a presentation and one of its first workshop. YoungPEx is a new initiative aimed at fostering collaboration among young researchers, including PhD students, post-docs, engineers, and volunteer permanent researchers. It will serve as a dynamic platform for networking, knowledge exchange, and interdisciplinary collaboration across the HPC and AI communities.
We were also pleased to welcome the TRACCS and Cloud research programs, which presented both ongoing and potential collaborations with NumPEx.
With this first General Assembly, NumPEx strengthens its community and continues its paths to Exascale and beyond.
© PEPR NumPEx
Lettre d'information NumPEx n°2 - 2025 avec NumPEx !
Redirection vers la newsletter... Si rien ne se passe, cliquez ici.
Le troisième atelier de co-conception et de co-développement d'Exa-DI sur "l'intelligence artificielle pour HPC@Exscale".
Le troisième atelier de co-conception/co-développement du projet Exa-DI (Développement et Intégration) du PEPR NumPEx était dédié à « l’Intelligence Artificielle pour HPC@Exscale » en ciblant les deux sujets « Image analysis @ exascale » et « Data analysis and robust inference @ exascale ». Il s’est déroulé les 2 et 3 octobre 2024 à l’Espace La Bruyère, Du Côté de la Trinité (DCT) à Paris.
This face-to-face workshop brought together, for two days, Exa-DI members, members of the other NumPEx projects (Exa-MA: Methods and Algorithms for Exascale, Exa-SofT: HPC Software and Tools, Exa-DoST: Data-oriented Software and Tools for the Exascale and Exa-AToW: Architectures and Tools for Large-Scale Workflows), Application demonstrators (ADs) from various research and industry sectors and Experts to discuss advancements and future directions for integration of Artificial Intelligence into HPC/HPDA workflows at exascale targeting the two topics, “Large image analysis” and “Data analysis and robust inference”.
This workshop is the third co-design/co-development workshops in the series whose main objective is to promote software stack co-development strategies to accelerate exascale development and performance portability of computational science and engineering applications. This workshop is a little different from the previous two in that it has a prospective character targeting the increasing importance of rapidly evolving AI-driven and AI-coupled HPC/HPDA workflows in “Large images analysis @ exascale” and “Data analysis (simulation, experiments, observation) & robust inference @ exascale”. Its main objectives are first to co-develop a shared understanding of the different modes of coupling AI into HPC/HPDA workflows, second to co-identify execution motifs most commonly found in scientific applications in order to drive the co-development of collaborative specific benchmarks or proxy apps allowing to evaluate/measure end-to-end performance of AI-coupled HPC/HPDA workflows and finally, to co-identify software components (libraries, frameworks, data communication, workflow tools, abstraction layers, programming and execution environments) to be co-developed and integrated to improve critical components and accelerate them.
Principales sessions
- Introduction and Context: Setting the stage for the workshop’s two main topics as well as presenting the GT IA, a transverse action in NumPEx.
- Attendees Self-Introduction: Allowing attendees to introduce themselves and their interests.
- Various Sessions: These sessions featured talks on the challenges to tackle and bottlenecks to overcome (execution speed, scalability, volume of data…), on the type, the format and the volume of data currently investigated, on the frameworks or programming languages currently used (e.g. python, pytorch, JAX, C++, etc..) and on the typical elementary operations performed on data.
- Discussions and Roundtables: These sessions provided opportunities for attendees to engage in discussions and share insights on the presented topics in order to determine a strategy to tackle the challenges in co-design and co-development process.
Conférencières et conférenciers invités
- Jean-Pierre Vilotte du CNRS, membre d’Exa-DI, qui a présenté le contexte introductif de l’atelier.
- Thomas Moreau de l’Inria, membre d’Exa-DoST, présentant la GT IA, une action transversale dans NumPEx.
- Tobias Liaudat du CEA, sur la quantification rapide et évolutive de l’incertitude pour l’imagerie scientifique.
- Damien Gradatour du CNRS, qui aborde la question de la construction de nouveaux cerveaux pour les télescopes astronomiques géants grâce aux réseaux neuronaux profonds (Deep Neural Networks).
- Antoine Petiteau du CEA, discutant de l’analyse des données pour l’observation de l’Univers avec les ondes gravitationnelles à basse fréquence.
- Kevin Sanchis de Safran AI, sur l’évaluation des méthodes d’apprentissage auto-supervisé dans le domaine de la télédétection.
- Hugo Frezat de l’Université Paris Cité, présentant des modèles d’apprentissage à l’échelle de la maille pour la convection turbulente en rotation.
- Benoit Semelin de la Sorbonne Université, discutant de l’inférence basée sur la simulation avec des simulations d’hydrodynamique radiative cosmologique pour le SKA.
- Bruno Raffin & Thomas Moreau de l’Inria, présentant l’analyse basée sur l’apprentissage automatique de grands résultats de simulation dans Exa-DoST.
- Julián Tachella du CNRS, présentant DeepInverse : une bibliothèque PyTorch pour résoudre des problèmes inverses avec l’apprentissage profond.
- Erwan Allys de l’ENS-PSL, explorant le modèle génératif et la séparation des composants dans un régime de données limitées avec la Transformée de diffusion.
- François Lanusse du CNRS, discutant du pré-entraînement multimodal pour les données scientifiques : Vers des modèles de grandes données pour l’astrophysique. > en ligne
- Christophe Kervazo de Telecom Paris, abordant les méthodes d’apprentissage profond interprétables et évolutives pour les problèmes inverses d’imagerie.
- Eric Anterrieu du CNRS, explorant l’approche basée sur l’apprentissage profond en radiométrie d’imagerie par synthèse d’ouverture et son implémentation.
- Philippe Ciuciu du CEA, sur l’IRM computationnelle à l’ère de l’apprentissage profond.
- Pascal Tremblin du CEA, caractérisant les modèles dans les simulations HPC à l’aide de la reconnaissance d’images et de la catégorisation pilotées par l’IA.
- Bruno Raffin de l’Inria, membre d’Exa-DI, présentant le Software Packaging dans Exa-DI
Conclusion et impacts
Many interesting and fruitful discussions took place during this prospective workshop. These discussions allowed us first to progress in understanding the challenges and bottlenecks underpinning AI-driven HPC/HPDA workflows most commonly found in the ADs. Then, a first series of associated issues to be addressed have been identified and these issues can be gathered in two mains axes: (i) image processing of large volumes, images resulting either from simulations or from experiments and (ii) exploration of high-dimensional and multimodal parameter spaces.
One of the very interesting issues that emerged from these discussions concerns the NumPEx software stack and in particular, how could the NumPEx software stack be increased beyond support for classic AI/ML libraries (e.g. TensorFlow, PyTorch) to support concurrent real time coupled execution of AI and HPC/HPDA workflows in ways that allow the AI systems to steer or inform the HPC/HPDA task and vice versa?
A first challenge is the coexistence and communication between HPC/HPDA and AI tasks in the same workflows. This communication is mainly impaired by the difference in programming models used in HPC (i.e., C++, C; and Fortran) and AI (i.e., Python) which requires a more unified data plane management in which high-level data abstractions could be exposed and to hide from both HPC simulations and AI models the complexities of the format conversion and data storage and data storage and transport. A second challenge concerns using the insight provided by the AI models and simulations for identifying execution motifs commonly found in the ADs to guide, steer, or modify the shape of the workflow by triggering or stopping new HPC/HPDA tasks. This implies that the workflow management systems must be able to ingest and react dynamically to inputs coming from the AI models. This should drive the co-development of new libraries, frameworks or workflow tools supporting AI integration into HPC/HPDA workflows.
In addition, these discussions highlighted that an important upcoming action would be to build cross-functional collaboration between software and workflow components development and integration with the overall NumPEx technologies and streamline developer and user workflows.
It was therefore decided during this workshop the set-up of a working group addressing these different issues and allowing in fine the building of a suite of shared and well specified proxy-apps and benchmarks, with well-identified data and comparison metrics addressing these different issues. Several teams of ADs and experts have expressed their interest in participating in this working group that will be formed. A first meeting with all interested participants will be organized shortly.
Participantes et participants
- Jean-Pierre Vilotte, chercheur CNRS et membre d’Exa-DI
- Valérie Brenner, chercheuse CEA et membre d’Exa-DI
- Jérôme Bobin, chercheur CEA et membre d’Exa-DI
- Jérôme Charousset, CEA et membre d’Exa-DI
- Mark Asch, enseignant-chercheur à l’Université Picardie et membre d’Exa-DI
- Bruno Raffin, Inria et membre d’Exa-DI et Exa-DoST
- Rémi Baron, CEA et membre d’Exa-DI
- Karim Hasnaoui, chercheur CNRS et membre d’Exa-DI
- Felix Kpadonou, CEA et membre d’Exa-DI
- Thomas Moreau, Inria et membre d’Exa-DoST
- Erwan Allys, ENS-PSL et démonstrateur d’application
- Damien Gradatour, CNRS et démonstrateur d’application
- Antoine Petiteau, CEA et démonstrateur d’application
- Hugo Frezat, Université Paris Cité et démonstrateur d’application
- Alexandre Fournier, Institut de physique du globe et démonstrateur d’application
- Tobias Liaudat, CEA
- Jonathan Kem, CEA
- Kevin Sanchis, Safran AI
- Benoit Semelin, Sorbonne Université
- Julian Tachella, CNRS
- François Lanusse, CNRS
- Christophe Kervazo, Telecom Paris
- Eric Anterrieu, CNRS
- Philippe Ciuiciu, CEA
- Pascal Tremblin, CEA
Valérie Brenner















