Position Details

Type Full-Time

Experience senior

Exp. Years 15+ years

Education Not specified

Category DevOps & SRE

About this role

This role involves leading site reliability engineering efforts for high-scale financial services platforms, focusing on automation, monitoring, and incident management to ensure system reliability.

Key Responsibilities

Define SLIs and SLOs
Track error budgets
Automate workflows
Manage incident response
Collaborate on reliability goals

Technical Overview

The technical environment includes public cloud platforms, container orchestration with Docker and Kubernetes, performance monitoring with Dynatrace and Splunk, and scripting for automation.

Ideal Candidate

The ideal candidate is a highly experienced SRE professional with over 15 years in software engineering and cloud environments, specializing in reliability, automation, and performance monitoring. They possess deep expertise in container orchestration, scripting, and incident management, capable of leading complex reliability initiatives.

Must-Have Skills

15+ years of experience in SRESoftware engineering and architecture in public cloud environmentsPerformance Monitoring Tools like DynatraceSplunkAdvanced scriptingCI/CD pipelinesContainer orchestration (Docker/Kubernetes)

Nice-to-Have Skills

Relational databasesNoSQL databasesMiddleware technologiesCapacity PlanningDemand ForecastingSecurity best practices

Tools & Platforms

DynatraceSplunkDockerKubernetesCloud Platforms

Required Skills

SRESite Reliability EngineeringSLIsSLOsError BudgetsCI/CDDockerKubernetesDynatraceSplunkCapacity PlanningPerformance TuningMonitoring ToolsAutomationIncident ResponseBlameless PostmortemsCloud Environments

Hard Skills

SRESite Reliability EngineeringSLISLOError BudgetsCI/CDDockerKubernetesCapacity PlanningPerformance TuningMonitoring ToolsDynatraceSplunkAutomationIncident ResponseBlameless PostmortemsCloud Environments

Soft Skills

collaborationconflict resolutionmentoringdecision-makingproblem-solving

Industry & Role

Industry Fintech

Job Function Lead reliability engineering initiatives for financial systems

Keywords for Your Resume

Site Reliability EngineeringSRESLISLOError BudgetsCI/CDDockerKubernetesDynatraceSplunkPerformance MonitoringCapacity PlanningIncident ResponseBlameless PostmortemsCloud Environments

Deal Breakers

Less than 15 years of relevant experience, Lack of experience with cloud environments, No experience with monitoring tools like Dynatrace or Splunk, Inability to work in a hybrid onsite/remote environment

Apply for this Position →

Get matched to jobs like this

Luna finds roles that fit your skills and career goals — no endless scrolling required.

Create a Free Profile

Engineer Principal, Software (SRE)

Get matched to jobs like this