Administrateur Système et Réseau F/H
Nous recrutons un·e Administrateur système et réseau afin de renforcer notre équipe AI Factory d'Outscale.
Outscale est un opérateur souverain et durable de l’Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.
Nous offrons des expériences uniques grâce au savoir-faire de nos équipes passionnées, qui se reflète notamment par la création de solutions de Business Expériences, le développement de notre propre orchestrateur Cloud, TINA OS, ou encore l’obtention de la qualification SecNumCloud.
Intégré(e) à l’équipe AIFactory d’OUTSCALE, vous assurez l’exploitation, l’optimisation et l’evolution de la chaîne de stockage qui alimente les usines à GPU (clustersNVIDIA) à l’échelle globale (Europe, Amérique du Nord, Asie).
Vous concevez, déployez et supervisez des solutions de stockage haute performance : stockage objet compatible S3 (exaoctetscale), systèmes de fichiers distribues (Ceph, Lustre, BeeGFS, DAOS) et technologiesRDMA, GPUDirectStorage, SPDK ainsi que les protocoles NVMeoF/InfiniBand.
Votre mission est de garantir la disponibilité, la latence ultrafaible et la sécurite des plateformes de stockage, tout en offrant une observabilité complète (métriques, tableaux de bord) et en assurant la continuité de service pour les charges de travail IA a tres forte intensité de données.
Vos missions
- Conception & déploiement de fabrics haut débit : Architecture InfiniBand HDR/NDR et Ethernet Spectrum (RoCEv2)
- Dimensionnement pour un service IA à tres grande échelle
- Développement & optimisation des communications RDMA
- Implémentation de piles RDMA (libibverbs, NVPeerMemory)
- Optimisation GPUDirect/GPUDirectRDMA pour un transfert de données ultra rapide sans surcharge CPU
- Intégration RDMA / Kubernetes
- Utilisation du device plugin NVIDIA pour l’exposition des interfaces RDMA aux pods
- Garantir le bon fonctionnement des workloads conteneurises (MPI, NCCL)
- Collaboration avec les équipes d’infrastructure
- Accélération des pipelines de données et des communications collectives (NCCL, MPI, CUDAAware MPI)
- Partage de bonnes pratiques et recettes d’optimisation
- Détection et remontée des goulots de performance
- Analyse de la latence et de la bande passante avec Prometheus, Grafana, NetQ, UFM
- Propositions d’ajustements (MTU, affinage CPUGPU, tuning du firmware)
- Gestion d’incident / Ticketing Niveau2 : Prise en charge des tickets
- Documentation
- Rédaction de procédures, schémas d’infrastructure
- Mise à jour du wiki Confluence et du CMDB (NetBox)
- Veille technologique
- Suivi des évolutions NVIDIA, Mellanox, standards RDMA, Kubernetes
- Proof of concept sur les nouvelles générations de NIC (RoCEv2, InfiniBand EnhancedSpeed)
Stack technique
- GPUNVIDIA & cartes réseau Mellanox (InfiniBand, RoCE)
- Protocoles RDMA: GPUDirectRDMA, RoCEv2
- Programmation basniveau C/C++ ou Rust
- Maîtrise de la pile NVIDIA: pilotes Mellanox, libibverbs, NVPeerMemory
- Compétences complémentaires (au moins 2 parmi les suivantes) :
- Kubernetes (deviceplugin, SRIOV, CNI) MPI & NCCL (CUDAAware)
- Automatisation – Ansible, Terraform, Python/Bash, Git/GitLabCI
- Administration Linux (kernel tuning, netfilter)
- Outils de supervision – Prometheus, Grafana, UFM, NetQ, Zabbix, NetBox
Votre profil
- Diplômé(e) en ingénierie informatique, vous possédez une expérience professionnelle minimum post-diplôme de 2 ans avec les technologies NVIDIA RDMA (GPUDirect, RoCE, InfiniBand) dans des environnements HPC ou IA.
- Vous appréciez travailler en équipe et possédez un bon relationnel.
- Rigoureux, autonome et réactif, vous êtes naturellement force de proposition.
Nous rejoindre c'est aussi
Intégrer une entreprise scientifique au cœur de l’innovation technologique, portée par une forte croissance depuis plus de 40 ans
Principaux avantages et bénéfices :
- Environnement multiculturel
- Cadre de travail convivial axé sur le bien-être et la santé
- Engagement en faveur de la diversité et de l’inclusion
- Politique dynamique de développement de carrière : plan de formation, mobilités internes, etc.
Inclusion statement

OUTSCALEは、組織のバーチャルツインと信頼できるクラウド環境を提供し、イノベーションを容易にし、持続可能な方法で競争力を向上させます。
ダッソー・システムズについて、
当サイトのその他のセクションでさらに詳しくご覧ください。
学生&新規学卒者
働き方の未来 - インターンシップおよび採用情報をご覧ください。
採用情報
採用情報をご覧ください。
企業文化&価値観
ダッソー・システムズの企業文化&価値観をご覧ください。