After Hours: SRE & Chaos Engineering – gjør robust utvikling til en lek!

Online24. mar 17:00-20:00

Onsdag 24. mars arrangerte vi digital After Hours! Tema for kvelden var Site Reliability Engineering (SRE) og Chaos Engineering – to populære teknikker for å øke påliteligheten til systemene vi bygger. Tenker du på å implementere DevOps i praksis, er dette teknikker det er nyttige å kjenne til.

Kvelden startet med en introduksjon til tema av Morten Forfang og foredrag med Casey Rosenthal – tidligere Engineering Manager for Chaos Engineering hos Netflix. Deretter hadde vi to spor med workshop og foredrag. Track 1: Chaos Engineering-workshop med Bjørn Einar Bjartnes fra NRK. Og track 2: erfaringer med SRE hos Elvia av vår egen Øystein Thuen, og lavterskel SRE-prat med Øystein Thuen og våre sjefsingeniører Rustam Mehmandarov og Michael Gfeller. Les mer om workshopen og de ulike foredragene nedenfor.

Faglig program

Introduksjon og felles foredrag

Kl. 17.00 – 17.15
Velkomst og introduksjon til kveldens tema – SRE og Chaos Engineering
Velkomst og introduksjon til kveldens tema. Hva mener vi med Site Reliability Engineering (SRE) og Chaos Engineering? Og hva betyr det?

Kl. 17.15 – 18.00
Chaos Engineering to Continuous Verification
Almost five years ago I published a manifesto of sorts at https://principlesofchaos.org to define a new discipline in software engineering called Chaos Engineering. It wasn’t about creating chaos, but rather identifying the chaos inherent in a complex system. The other practices that commonly address availability (incident management, alerting, monitoring, disaster recovery, etc) are all reactive: they focus on time to detect, and time to remediate. Chaos Engineering on the other hand is proactive: finding systemic vulnerabilities before they affect customers. Now that Chaos Engineering has high adoption at big tech companies and non-digital native orgs alike, we can look at how the practice is maturing. Our knowledge of systemic properties of complex systems is improving and leading us into a new era of Continuous Verification.

Track 1: Chaos Engineering

Kl. 18.00 – 20.00
Workshop: Robustifisering av web-tjenester for å håndtere tregheter og feil
Brukeres tålmodighet med løsninger som ikke virker reduseres i takt med at kvaliteten på nett-tjenester øker. Dagens trender med å flytte tjenester til skyen og å bygge stadig mindre og mer nettverksintense tjenester gjør det stadig mer krevende for oss utviklere å innfri disse forventningene. I denne workshopen vil du lære hvordan du kan simulere tregheter og feil i webapplikasjonen din og å lage strategier for å håndtere disse. Vi eksperimenterer med hvordan endring av innstillinger forandrer oppførselen til en webapplikasjon under last og hvilke kompromisser vi blir tvunget til å inngå.

Av forkunnskaper kreves ikke erfaring med .NET, men du bør ha noe erfaring med å lage tjenester på nett for å få fullt utbytte av workshopen. Vi kommer til å bruke k6 for å lastteste et .NET Core Web API. For robusthetsstrategier vil vi bruke Polly, og vi vil bruke Simmy for feilinjisering. Dette er rød/grønn testing, men for ytelse og robusthet. Du vil lære om SLI (Service Level Indicators), SlO (Service level objectives) og om hvordan du kan formulere slike krav.

Før workshopen må du sette opp utviklingsmiljøet. Dette oppsettet virker på Windows/Mac/Linux med VS Code og Docker. Du kan finne instruksjoner for hvordan du setter det opp her . Hvis du kommer til punktet «Run and watch web API» og kan kjøre «Intro» k6-testen er du klar. Hvis du skulle få problemer som ikke er forklart i README filen, ta kontakt med meg på bjartnes@gmail.com så ser vi om vi finner ut av det.

Workshopen er tidligere holdt både i inn og utland, blant annet internt i NRK og på DotNext-konferansen. Til høsten blir det en 2-dagers utgave på NDC som går dypere og grundigere inn i problemstillingene.

Track 2: Site Reliability Engineering (SRE)

Kl. 18.00 – 18.45
SRE hos Elvia
Elvia har hundrevis av tjenester. Skrevet i mange språk, av mange utviklere. Hvordan overvåker man dette? Og gjør det på en måte som skalerer til mange hundre flere tjenester? Hos Elvia har vi gått for SRE-metodikken fra Google. Vi har standardisert på Prometheus og Grafana og vi har laget et system som enkelt oppretter dashboard og alarmer for alle tjenester. I dette foredraget snakker jeg litt om hva SRE betyr, og mest om hvordan vi bruker det hos Elvia. Det blir også demo av snasne autogenererte dashboard i Grafana.

Kl. 18.45 – 19.30
Lavterskel SRE-prat
Vil du vite hva SRE står får eller hvordan kan hverdagen se ut for en som jobber med det? Bli med oss på en lavterskel prat med Rustam Mehmandarov, Øystein Thuen og Michael Gfeller, hvor dere også får mulighet til å stille spørsmål og kommentarer. Dette blir gøy!

Arendalsuka 2026

AI-dagen i Trondheim – med Computas og Google

Frokostseminar: Slik knekker du koden til dine 5 % beste selgere