Kubernetes Site Reliability Engineer (m/w/d)

Rheinmetall Aviation Services GmbH

Jobbeschreibung

Rheinmetall Space Solutions GmbH


  • Provisionierung und Updates von Clustern, GPU-Operatorn, CSI-Treibern, Ingress/WAF-Anbindung sowie die Härtung
  • Tuning von Cluster-Autoscaler oder Karpenter sowie GPU-Scheduling und Topology-Spread-Constraints
  • Aufbau von SLIs, Dashboards, ErrorBudget-Management sowie Runbook-Pflege
  • Durchführung von On-Call-Rotation, Störungsanalysen, strukturierte Rollbacks sowie DR-Übungen und Backup/ Restore-Tests
  • Beachtung von Admission-Policies in Zusammenarbeit mit Security, SecretsMounts, egress-Kontrollen sowie Compliance-Belege
  • Verantwortung für Kapazitätsplanung, Right-Sizing, Cache/ IO-Optimierung sowie für Kosten/Leistungs-Reports

  • Abgeschlossenes Studium der Informatik oder abgeschlossene IT-Berufsausbildung, oder vergleichbare Qualifikationen
  • Mehrjährige Berufserfahrung im Sichern von Verfügbarkeiten, Skalierbarkeit und Betriebssicherheit der OTC-Kubernetes-Plattform
  • Kenntnisse im praktischen Umgang mit GPU-basierten Rechenclustern
  • Fundierte Linux-Kenntnisse, Erfahrung mit Observability-Tools sowie mit Security controls
  • Hohe Eigeninitiaitve und eine proaktive Arbeitsweise
  • Gute Deutsch- und Englischkenntnisse in Wort und Schrift

An unserem Standort in Bremen bieten wir Ihnen:

  • Betriebliche Altersvorsorge
  • Aktienkaufprogramm
  • 30 Urlaubstage
  • Zugang zu den Corporate Benefits
  • Deutschlandticket
  • Umzugsunterstützung
  • VIVA Familienservice
  • Individuelle und vielfältige externe sowie interne Weiterentwicklungsmöglichkeiten u.a. in der Rheinmetall Academy
  • Professioneller Einarbeitungsprozess begleitet durch ein digitales Onboarding
Mehr