Site Reliability Engineering – How tun run production systems
Site Reliability Engineering (SRE) ist eine Disziplin, die das tiefe Verständnis von Softwareengineering mit einer ausgeprägten Fokussierung auf Zuverlässigkeit und Betriebsstabilität verbindet. Ursprünglich von Google entwickelt, zielt SRE darauf ab, die Lücke zwischen der Entwicklung und dem Betrieb von Software zu schließen, indem es Prinzipien des Engineerings auf Betriebsaufgaben anwendet. SRE-Teams sind dafür verantwortlich, Skalierbarkeit, Performance und Ausfallsicherheit von Services zu gewährleisten und dabei auch die schnelle Entwicklung und Bereitstellung neuer Features zu unterstützen. Sie nutzen eine Reihe von Methoden, wie Automatisierung und kontinuierliche Integration/Delivery, um manuelle Arbeit zu reduzieren und Fehlerquellen zu minimieren.
Genau über diese Methoden und SRE an sich spreche ich heute mit Alex Lichtenberger.
Weihnachten – doppelter Stress für viele Menschen. Auf der einen Seite das Jahresendgeschäft. Projekte müssen abgeschlossen und Geld ausgegeben werden. Die persönlichen Ziele für die Leistungsbeurteilung sind vielleicht noch offen. Weihnachten selbst möchte auch vorbereitet sein. Wo ist da nur die Weihnachtsstimmung hin? Und wie bekomme ich den Bogen zur heutigen Folge?
Wir haben viel zu viel auf der Agenda, richtig? Das Operative frisst viele IT-Organisationen auf, so dass es am Jahresende zu noch mehr Stress kommt. Ob sich das alles retten lässt, keine Ahnung.
Das heißt, wenn Du es schaffst, die Betriebsaufwände zu reduzieren, hast Du die Chance, die Situation grundlegend zu verbessern. Betriebsaufwände kannst Du reduzieren, wenn Du genau weißt, was alles zu leisten ist: Du kennst Deine Services. Es ist definiert, was zu den Services dazu gehört und was nicht. Das Self-Service-Portal wird sinnvoll eingesetzt. Der Automatisierungsgrad wächst beständig. Und so weiter.
Wenn Du an der Stelle stehst, dass Du genau diese Ordnung und Struktur schaffen möchtest, damit Du den Betriebsaufwand messbar senken kannst, dann schau bitte auf www.servicekatalog-erstellen.de vorbei. Dort findest Du alle Informationen zur umfangreichen Ausbildung bezüglich Serviceorientierung und Servicekatalog in Deiner IT-Abteilung.
Wenn Du schon einen Schritt weiter bist, dann habe ich heute ein Werkzeug für Dich, mit dem Du weiter an der Senkung des Betriebsaufwandes arbeiten kannst. Ich spreche heute mit Alex Lichtenberger über SRE – Site Reliability Engineering. Eine sehr interessante Disziplin. Insbesondere, wenn es bei Dir um Cloud-native Applikationen und selbst entwickelte Applikationen geht.
Im deutschsprachigen Raum ist Alex für mich der, an den ich denke, wenn es um SRE geht. Deswegen bin ich sehr froh, dass wir heute miteinander sprechen. Genug der Vorrede, hier mein Gespräch mit Alex.
- 45 Minuten Webcast mit Alex über SRE
- Blog & Webseite von Alex: https://www.impactmatters.ch/
- deutschsprachiger Übersichtsartikel zu SRE
- umfangreiche Videoserie von Liz Fong und Seth Vargo von Google
- Einstieg zu SRE direkt bei Google