Apollo 13 An ITSM Case Experience www.omec.pl 1
W kwietniu 1971, w trakcie lotu Apollo 13, NASA była blisko wielkiej katastrofy. Pomimo tego, udało się doprowadzić do, prawdopodobnie, największego sukcesu w historii lotów kosmicznych. www.omec.pl 2
Cały system Apollo składający się z kompleksu naziemnego, rakiety nośnej, statku kosmicznego stanowił jeden z najbardziej ambitnych i wymagających systemów inżynierii stworzonych kiedykolwiek przez człowieka. Dla powodzenia misji konieczne było wydajne i efektywne zarządzania wszystkimi elementami systemu składającego się z: procesów, ludzi i sprzętu. www.omec.pl 3
Dzięki zastosowaniu odpowiednich procesów ITIL udało się zrealizować następujące cele: Uratowaćżycie astronautów w bardzo trudnej i kryzysowej sytuacji. Zaoszczędzić miliony dolarów na późniejsze próby ustalenia przyczyn awarii oraz koszty związane z opóźnieniami kolejnych misji. Zapewnić realizację programu kosmicznego zgodnie z harmonogramem. www.omec.pl 4
Zintegrowanie ludzi, procesów i technologii umożliwiło Centrum Kontroli Misji: Szybko ustalać przyczyny i wprowadzać odpowiednie poprawki i rozwiązania. Stale monitorować i zarządzać kluczowymi pojemnościami i wydajnością zasobów. Zagwarantowanie dostępności i ciągłości krytycznych systemów. Aktywne zapobieganie sytuacji zagrożenia życia. www.omec.pl 5
W trakcie gry symulacyjnej Apollo 13 an ITSM Case experience uczestnicy zapoznają w praktyce się z procesami ITIL: Wcielają się w role pracowników Centrum Kontroli Misji. Otrzymują i muszą odpowiednio reagować na rzeczywiste zdarzenia misji. Muszą zaprojektować, przetestować i doskonalić własne procedury postępowania....w celu naśladowania sukcesu Centrum Kontroli Misji w 1970 roku. www.omec.pl 6
RES GESTA PER EXCELLENTIAM Osiągnięcia poprzez doskonałość Niepowodzenie nie jest opcją Wiele organizacji IT staje przed podobnymi wyzwaniami. Potrzeba zapewnienia doskonałości operacyjnej dla krytycznych usług IT. Niepowodzenie nie jest opcją www.omec.pl 7
ITIL w Apollo 13 Zarządzanie Konfiguracją Zarządzanie Wersjami Service desk Zarządzanie Incydentami Zarządzanie Problemami Zarządzanie Zmianami Zarządzanie Poziomem Usług Zarządzanie Finansami Zarządzanie Dostępnością Zarządzanie Pojemnością 13 S-IC stage separation fail 13 velocity CO2 870 Zarządzanie Ciągłością www.omec.pl 8
Zarządzanie Konfiguracją Supplier Part of RFC Price Configuration database $ 125.000 $ 500.000 $ 1.000.000 Gra symulacyjna BEECH SM-109 North American Rockwell change requested Block II oxygen tank shelf serial number 0632AAG3277 bolt ass: bs-3277-2 Thermostatic switch 28V dc power Oxygen tank 1: 10024XTA0009 Oxygen tank 2: 10024XTA0008 65 v dc switch Oxygen tanks block II $ 2.100.000 Detail of registration SM-O2-4 Stage s (S-IC, S-II) Internal stage s (O2 tanks) stage structure (circuit boards) $ 1.500.000 Consumables (duct tape,books) CMDB-2 Do zapewnienia identyfikacji, kontroli, utrzymania i weryfikacji wszystkich istotnych elementów konfiguracji (Cofiguration Item - CI). CI number Change includes CMDB się i nabierają doświadczenia: Identyfikacja - Elementy Konfiguracji, Atrybuty, Relacje Kontrola komponentów konfiguracji Monitorowanie statusu Dokładność i zakres CMDB Będzie to przydatne przy: Wsparciu przy budowie Identyfikowaniu dostawców Rozwiązywaniu incydentów Zarządzaniu zmianami www.omec.pl 9
North American Nor th American Rockwell Manual firing activation C M -109 Grumman Apollo Lunar Surface Experimental Package ALSEP) ( Manual engine l firing $ 250.000 Thermostatic switch 28V dc power Oxygen tank 1: Nor th 10024XTA0009 American Oxygen tank 2: Rockwell 10024XTA0008 change requested 65 v dc switch Oxyge n ta nks block II $ 2.100.000 Nor th American Rockwell MOCR -4 configuration Oxygen shelf Mc Donnel Douglas Engine J2: 203,000 lbs IU configuration: S-IU -508 SM -O2-4 LES -1 $ 12.000.000 S-CS M-2 ALSEP: $ 5.000.000 LM : $ 12.000.000 S -LM -3 $ 25.000.000 S -IVB -4 Nor th American Rockwell programmed S-IC -8 J2 engine thrust Fuel: 1,750,000 lbs. $ 25.000.000 Boeing Instrumentation interfacing link: S -II-8 Fuel: 5,031,500 lbs MOC R: programmed link MOC R -4 S -II -2 $ 35.000.000 S -IC -1 Operating instructions manuals OI -CS M-109-1 Electrical control manual OI -CS M-109-2 Environmental control manual OI -LM -7-1 Lunar module engine control manual OI -LM -7-2 Lunar Module environmental control manual OI -S-IVB-508-1 S -IVB engine control manual $ 2.500 OM -1.1 OI -CS M-109-1 OI -CS M-109-2 OI -LM -7-1 OI -LM -7-2 OI -S-IVB-508-1 NASA MOC R configuration S-IC -8 S-II -8 S-IVB -508 CS M -109 Consumables Electrical control manual Environmental control manual Lunar module engine control manual Lunar Module environmental control manual S-IVB engine control manual $ 2.500 OM -1.2 $ 25.000.000 MOCR -2 $ 1.500 C MDB -2 CONS-1 RC A Duplex memory Triplex redundancy of critical circuits Data links to MOCR -4 $ 15.000.000 COMP -1 Konferencja "Bezpieczny Projekt" Wrocław 22 czerwca 2010 W celu zapewnienia, że sprzęt i oprogramowanie są Zarządzanie Wersją bezpieczne, możliwe do prześledzenia, i że tylko poprawne, autoryzowane i przetestowana wersje są dystrybuowane i instalowane. IT system Gra symulacyjna IT packaged release LES-508 Block II oxygen tank BEECH shelf serial number 0632AAG3277 bolt ass: bs-3277-2 SM-109 North American Rockwell CSM-109 S-508 Operating S-508 instructions manuals 0632AAG3277 Grumman LM-7 Mission Control Centre MOCR-4 McDonnel Douglas S-IVB-508 North American Rockwell S-II-8 BOEING S-IC-8 User guides IT Service organisation CMDB Spares Captured Events Operations guides Configuration Detail of registration database $ 125.000 Stage s (S-IC, S-II) $ 500.000 Internal stage s (O2 tanks) $ 1.000.000 stage structure (circuit boards) $ 1.500.000 Consumables (duct tape,books) Plastic bag Presure hose Airtight duct tape Cardboard Lithium hydroxide box RCA RCA-110 Systems management tools Budowa i Konfigurowanie wersji - Opracowanie procedur Testy i zatwierdzanie wersji Komunikacja i szkolenia - integracja z Centrum Kontroli Misji Dostarczenie szczegółów konfiguracji Kontrola kosztów Podczas budowy należy również określić Znane Błędy i przekazać do zarządzania operacyjnego. www.omec.pl 10
Service desk Gra symulacyjna Zapewnienie pojedynczego punktu kontaktu z użytkownikami, skupia się na obsłudze incydentów i zapytań oraz dostarcza informacje dla użytkowników. Ustanowienie pojedynczego punktu kontaktu z załogą Przyjmowanie i rejestracja incydentów Informowanie o statusie zgłoszenia Zespół gra rolę Capsule Communications (CapCom) odpowiada za komunikację z załogą. W rolę załogi (użytkownika) wciela się prowadzący grę. www.omec.pl 11
Zarządzanie Incydentami Gra symulacyjna Odpowiada za przywrócenie normalnego działania usługi w możliwie jak najkrótszym czasie, minimalizując zakłócenia w biznesie Rejestracja i klasyfikacja incydentów Rozwiązywanie incydentów Monitorowanie i śledzenie incydentów Priorytetyzowanie - jak priorytetyzować zmiany Należy samodzielnie przygotować procedury i narzędzia potrzebne do zarządzania i raportowania wyników procesu. www.omec.pl 12
Zarządzanie Problemami Odpowiada za zidentyfikowanie przyczyny incydentu i znalezienie sposobu na przywrócenie poprawnego działania usług oraz za minimalizuje niekorzystne konsekwencje występowania błędów.. Matching 22 details: The first stage of the Apollo 13 rocket (S-IC) has reported a stage separation fail. This stage should now separate from the rocket and fall to earth. Impact: If the stage has not separated then this is an emergency: Abort mission and activate Launch Escape System (LES) Known Error-2 Work-around: See Known Error (KE) 2. If KE-2 is not available then details request : The first stage of the Apollo 13 rocket RETRO officer to authorise LES (S-IC) abort. has reported a stage separation SD must have written authorisation fail. This was detected during launch test. The crew systems reported separation OK. from RETRO on the incident solution, then instruct SD to notify Resolution: crew to abort Circuit problem to MOCR console. mission & activate Launch Escape The SD should confirm with the crew system. that separation has occurred. If crew says separation has failed then activate the Launch escape System Time delay Incident (FIDO) Time (LES). delay Incident Time Incident details: delay Time Too much communications details: delay Apollo 13 static. Crew cannot hear all Too much communications Incident Priority Apollo 13 details: commands from CapCom. static. Crew cannot hear all Priority NotesToo much communications details: Incident commands from CapCom. Apollo 13 number static. Crew cannot hear all Too much communications Incident Priority Apollo 13 number commands from CapCom. static. Crew cannot hear all 8 Priority Incident CI: commands from CapCom. 8 number Incident Period dispatched: 16 CI: number 8 Routed to: Period dispatched: 16 Powtarzające CI: się incydenty 8 Routed to: Period closed: Period dispatched: 16 CI: Solution: Period closed: Routed to: Period dispatched: 16 Solution: Routed to: Period closed: Solution: Period closed: 12 Solution: (SSR) 20 Crew Internal Costs 23 safety process Crew Internal Costs safety process Crew safety Internal process Costs Crew safety 34 Internal process Costs Identyfikowanie Znanych Błędów przy budowie procesu Analiza powtarzających się incydentów Rozwiązania tymczasowe Organizacja zespołu problemów Użycie Znanych Błędów Rola menadżera Problemu Celem jest zmniejszanie liczby incydentów oraz poprawianie wskaźników rozwiązywalności zgłoszeń przez Service Desk. www.omec.pl 13
Zarządzanie Zmianami Zapewnia, że dla zmian zostały przyjęte standardowe metody i procedury zapewniające skuteczność i efektywność wprowadzania zmian oraz minimalizuje ryzyko negatywnego wpływu zmiany na usługi. Wniosek o zmianę Klasyfikacja zmian Planowanie Zmiany Analiza wpływu, autoryzacja, budowa, testowanie, ocena zmiany Rola menadżera Zmiany Zarządzający zmianą musi koordynować krytyczne zmiany, aby załoga mogła powrócić do domu. www.omec.pl 14
Zarządzanie Poziomem Utrzymanie jakości usług zdefiniowanych w SLA poprzez cykl Usług uzgadniania, monitorowania, raportowania i przeglądu ich parametrów i doskonalenia jakości świadczonych usług. ITIL Team: Innovation and learning ALSEP deployment Photos of landing sites Internal Internal processes: Incidents resolved: Average resolution: ROUND 2 Customer Crew safety: Financial Costs incurred: $157,780,000 Kluczowe Wskaźniki Wydajności Raport poziomów usług Docelowy poziom usług - zadanie Kluczowych Wskaźników Wydajności (KPI) Raporty poziomu usług Doskonalenie usług - analiza wydajności zespołu i priorytety doskonalenia Dyrektor lotu musi raportować poziom usług na zakończenie każdej rundy. www.omec.pl 15
Zarządzanie Finansami Zarządzanie finansowe składa się z trzech głównych procesów: budżetowania, rachunkowości i pobierania opłat. Cost: Księgowanie kosztów - sprzętu - wyposażenia - wsparcia specjalistów - zewnętrznych dostawców Raportowanie kosztów Zespół musi rejestrować i raportować o kosztach powyżej budżetu. Doskonalenie zespołu powinno mieć również na celu ograniczenie zbędnych kosztów. www.omec.pl 16
Zarządzanie Dostępnością Zapewnienie, że projektowana, implementowana, mierzona i zarządzana dostępność infrastruktury IT spełnia wymagania biznesowe. Computer support Systems Triple redundant systems Projektowanie dostępności - systemy redundantne - niezawodność Monitorowanie dostępności Analiza krytycznych komponentów Zarządzanie Dostępnością jest używane w celu rozwiązania sytuacji zagrażających życiu i podjęcia decyzji, czy należy uruchomić procedury awaryjne. www.omec.pl 17
Zarządzanie Pojemnością Zapewnienie pojemności i wydajności usług IT w stopniu zapewniającym wymagania biznesowe w sposób efektywny kosztowo. Monitorowanie pojemności Dostrajanie pojemności Planowanie pojemności Zarządzanie pojemnością monitoruje niezbędne parametry eksploatacyjne i zgłasza incydenty, w sytuacji gdy ustalone progi są osiągane. Zarządzanie pojemność wywołuje zmiany kursu i uruchamia zespół do rozwiązania problemu CO2 zagrażający życiu załogi. www.omec.pl 18
Konferencja "Bezpieczny Projekt" Wrocław 22 czerwca 2010 Zarządzanie Pojemnością Zapewnienie pojemności i wydajności usług IT w stopniu zapewniającym wymagania biznesowe w sposób efektywny kosztowo. Zarządzanie Zapotrzebowaniem - systemy modułu dowodzenia W relacji z Zarządzaniem Dostępnością - które systemy są krytyczne i muszą być włączone. www.omec.pl 19
Zarządzanie Ciągłością Opracowanie planu przywrócenia usług w celu zapewniania funkcjonowania, poprzez redukcję wpływu katastrof, redukowanie wrażliwości na zagrożenia przez efektywną analizę i zarządzanie ryzykiem. Availability card Oxygen tank 1 Oxygen tank 2 Availability status: Cell1 O2 tank 1 Cell2 O2 tank 2 Cell3 (SSR) Fuel cell 1 Fuel cell 2 Fuel cell 3 Bus a Bus a Bus b Bus b Impact: Contingency card Continuity demands: 1 healthy O2 tank, 2 healthy fuel cells 1 Healthy bus (SSR) coordi nates from CM computer Zależności pomiędzy procesami Zarządzania Dostępnością i Ciągłością Plany awaryjne Wywołanie planów awaryjnych Autoryzacja Zespół pod kierunkiem Problem Menadżera musi korzystać z informacji procesu Zarządzania Dostępnością i określić, czy wystąpiła sytuacja kryzysowa. www.omec.pl 20