Exa-SoFT recherche sa prochaine doctorante ou son prochain doctorant

Candidatez sur le site du CNRS.

 

Contexte

Launched in 2023 for a duration of 6 years, The NumPEx PEPR aims to contribute to the design and development of numerical methods and software components that will equip future European Exascale and post-Exascale machines. NumPEx also aims to support scientific and industrial applications in fully exploiting their potentials.

The Exa-Soft project aims at consolidating the European Exascale software ecosystem by providing a coherent, exascale-ready software stack enabling HPC applications to efficiently exploit  heterogeneous supercomputers featuring heavily accelerated compute nodes. The project will achieve breakthrough research advances in programming languages and models, code optimization, runtime systems, performance profiling and analysis, and numerical libraries to address major scientific challenges.

The SEPIA team works on resource management on various distributed systems (cloud datacenters, HPC centers, edge architectures,IoT…) and is especially interested in ecological transition, notably by reducing energy consumption and CO2 emissions,by using renewable energy.

Les missions

L’utilisation de l’informatique de haute performance se développe depuis les études de climatologie jusqu’à la recherche chimique. L’impact accru de ces calculs ouvre le champ de la recherche sur la manière de gérer et de réduire leur consommation d’énergie. Dans le cadre du projet NumPEx, nous visons à développer des compétences et des infrastructures de pointe dans le domaine du calcul exascale. L’un des piliers du projet NumPEx consiste à rendre le calcul exascale durable.
To make informed cluster-level scheduling decisions and to provide feedback to users, information on the whole infrastructure is needed. At any time, several applications use cluster resources. Each of these applications use there sources differently, leading to different patterns of power consumption. A high level of abstraction is needed to tackle the complexity of the large number of simultaneous applications. Several academic proofs of concept exist to simplifyand use high-level representation (including resource and power consumption) of such applications instead of timeseries of measures.

Les objectifs du doctorat sont les suivants :

  • Surveillance d’applications à grande échelle qui ont un comportement stable en utilisant des données limitées : détecter le comportement de l’ensemble de l’application en utilisant uniquement les données de surveillance d’un petit nombre de serveurs, modifier la fréquence de surveillance en fonction des besoins.
  • Modélisation et caractérisation des applications : détecter quand une application passe d’une phase à une autre, déterminer les propriétés des phases (si elles sont io-bound, memory-bound, cpu-bound…). Un logiciel sera développé pour détecter et caractériser les phases des applications HPC pendant leur exécution.
  • Modéliser l’impact de différents leviers (DVFS, reconfiguration du réseau et des entrées-sorties,…) sur la performance et l’énergie.

La structure de la thèse sera la suivante :

  • Etat de l’art sur les modèles d’application basés sur les phases (tels que https://theses.hal.science/tel-00946583)
  • Expériences pour acquérir des données sur des applications HPC réelles sur des configurations matérielles multiples
  • Analyse des données pour construire des modèles d’énergie et de performance en tenant compte de la configuration matérielle.
  • Analyse de l’impact de la réduction de la quantité de données acquises
  • Un démonstrateur utilisant le système de détection de phase ainsi que le modèle de leviers pour réduire drastiquement la consommation d’énergie des centres de données HPC.

Des logiciels de surveillance seront utilisés (tels que MojitO/S) au cours de la thèse, et certaines contributions pourraient y être apportées. Une plateforme d’expérimentation à grande échelle sera utilisée (Grid’5000).

Compétences requises

Un master en informatique est requis.

Un goût pour les approches expérimentales, programmation en C ou Rust, analyse de données en Python ou R est fortement recommandé.

Une expérience en optimisation des performances, évaluation et modélisation des performances,utilisation de serveurs informatiques distants serait apprécié.

Plus d'informations

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l’autorité compétente du MESR.

Pour plus d’informations, consultez le site du CNRS.