Head of Site Reliability Engineering (SRE)

Commerzbank AG

Job Description

Die Commerzbank ist führende Bank für den Mittelstand und mit einem umfassenden Portfolio an Finanzdienstleistungen starker Partner von Firmenkundenverbünden sowie Privat- und Unternehmerkunden in Deutschland. Wir sind eine Bank, die sich durch einen fairen und partnerschaftlichen Umgang untereinander und mit unseren Kunden auszeichnet. Wir schätzen die Arbeit in inspirierenden Teams von Menschen, die einen vielfältigen Background mitbringen. Wir bieten ein kreatives Umfeld und hervorragende Entwicklungschancen. Work Life Balance genießt bei uns einen hohen Stellenwert. Und natürlich wissen wir, dass zu einem guten Job auch eine attraktive Bezahlung gehört.

Als Head of Site Reliability Engineering (SRE) spielst du bei uns eine zentrale Rolle bei der Sicherstellung der Stabilität und Performance unserer IT-Landschaft. Du übernimmst Verantwortung für das Mobile- & Online-Banking der Commerzbank und arbeitest eng mit Entwicklungs- sowie Infrastrukturteams zusammen, um eine sichere und zuverlässige Plattform für unsere Kunden zu gewährleisten. Gleichzeitig hast du die Möglichkeit, in einem international agierenden Umfeld zu arbeiten. Unser Unternehmen setzt auf agile Arbeitsmethoden und ein innovatives Mindset, in dem deine Ideen und dein Engagement gefragt sind.


  • Fachliche Teamführung: Entwicklung und Umsetzung der SRE-Strategie zur Sicherstellung der Systemzuverlässigkeit und -verfügbarkeit
  • Technische Expertise: Leitung von Initiativen zur Optimierung von Java-basierten Anwendungen, DevOps-Prozessen, Monitoring und Logging
  • Incident Management: Moderation von Task Forces und Post-Mortem-Analysen zur Identifikation und Behebung von Problemen
  • Koordination: Steuerung und Priorisierung von Issue-Fixing-Prozessen in Zusammenarbeit mit interdisziplinären Teams
  • Wissensaufbau: Pflegen einer umfassenden Dokumentation für Observability-Konfigurationen, Automatisierungsprozesse und Cloud-Infrastruktur-Standards
  • Teamführung: Aufbau und Weiterentwicklung eines leistungsstarken SRE-Teams

  • Bachelor oder Master in Informatik, Software Engineering oder vergleichbarem Abschluss
  • Mehrjährige Berufserfahrung, idealerweise mit Schwerpunkt auf Site Reliability Engineering
  • Profundes Verständnis von System Architektur und Cloud-Infrastruktur
  • Ausgeprägte kommunikative und Moderationsfähigkeiten für das Management von Task Forces und (Post-Mortem-)Analysen
  • Starke koordinative Fähigkeiten im Delivery Management
  • Starke Fähigkeiten im Troubleshooting mit Schwerpunkt auf Performance-Tuning und Incident-Management
  • Erfahrung in Scripting und Automatisierung, um wiederkehrende Prozesse zu optimieren
  • Erfahrung im Alert Design & SLO-Management
  • Verhandlungsstärke und ausgeprägte Überzeugungsfähigkeit, Teams zu motivieren und zu entwickeln
  • Proaktive, lösungsorientierte Denkweise mit einem Fokus auf kontinuierliche Verbesserung
  • Analytische Fähigkeiten bei der Problemlösung

Technische Schwerpunkte:

  • Dynatrace Monitoring & Observability
  • Java und Spring
  • Openshift oder Kubernetes
  • Cloud- und Netzwerk-Infrastruktur
  • Unix / Linux

  • Flexibles Arbeiten
  • Professionelles Training & Entwicklung
  • Freundliches Arbeitsumfeld
  • Vielfältige Aufgaben
  • Work-Life Balance
View More