IBM i Dostępność Przegląd wysokiej dostępności 7.1
IBM i Dostępność Przegląd wysokiej dostępności 7.1
Uwaga Przed skorzystaniem z tych informacji oraz z produktu, którego dotyczą, należy przeczytać informacje zawarte w sekcji Uwagi, na stronie 33. Niniejsze wydanie dotyczy wersji 7.1 systemu IBM i (numer produktu 5770-SS1) oraz wszystkich kolejnych wersji i modyfikacji tego produktu, chyba że w nowych wydaniach zostanie określone inaczej. Wersja ta nie działa na wszystkich modelach komputerów z procesorem RISC ani na modelach z procesorem CISC. To wydanie zastępuje publikację SCnn-nnnn-nn. Copyright International Business Machines Corporation 2002, 2010.
Spis treści Przegląd wysokiej dostępności..... 1 Co nowego w systemie IBM i 7.1........ 1 Przegląd zagadnień dotyczących wysokiej dostępności - plik PDF................. 1 Zalety wysokiej dostępności.......... 2 Wyłączenia planowane........... 3 Wyłączenia nieplanowane.......... 3 Odzyskiwanie po awarii.......... 4 Skrócenie okna składowania......... 5 Równoważenie obciążenia.......... 6 Komponenty wysokiej dostępności........ 6 Zdolność do pracy przy częściowej awarii na poziomie aplikacji............... 7 Zdolność do pracy przy częściowej awarii na poziomie danych............... 8 Zdolność do pracy przy częściowej awarii spowodowanej warunkami środowiskowymi.... 12 Prostota............... 13 Kryteria wysokiej dostępności......... 13 Budżet............... 13 Wymagania w zakresie czasu dostępności..... 14 Ochrona przed wyłączeniami........ 14 Docelowy czas odzyskiwania........ 15 Docelowy stan systemu.......... 16 Wymagania w zakresie zdolności do pracy przy częściowej awarii............ 16 Automatyczne przełączanie i przełączanie awaryjne.. 17 Wymagania w zakresie odległości....... 17 Liczba systemów zapasowych........ 18 Dostęp do dodatkowej kopii danych...... 18 Wydajność systemu........... 18 Porównanie metod zapewniających zdolność do pracy przy częściowej awarii na poziomie danych.... 19 Wybór rozwiązania wysokiej dostępności w systemie IBM i.................. 23 Poziomy elastyczności aplikacji........ 23 Porównanie technologii zapewniających zdolność do pracy przy częściowej awarii na poziomie danych.. 23 Zarządzanie wysoką dostępnością....... 28 Informacje pokrewne dotyczące przeglądu wysokiej dostępności............... 32 Dodatek. Uwagi........... 33 Informacje dotyczące interfejsu programistycznego... 35 Znaki towarowe............. 35 Warunki................ 35 Indeks............... 37 Copyright IBM Corp. 2002, 2010 iii
i IBM i: Dostępność Przegląd wysokiej dostępności
Przegląd wysokiej dostępności Ciągłość biznesowa oznacza odporność firmy na wyłączenia i zdolność do świadczenia istotnych usług w normalny, nieprzerwany sposób zgodnie z predefiniowanymi umowami dotyczącymi poziomu usług. Aby osiągnąć pożądany poziom ciągłości biznesowej, należy wybrać zestaw usług, oprogramowania, sprzętu i procedur, opisać je w dokumentacji, wdrożyć, a następnie regularnie sprawdzać. Rozwiązania zapewniające ciągłość biznesową muszą uwzględniać dane, środowisko operacyjne, aplikacje, środowisko serwerowe aplikacji oraz interfejs użytkownika. Wszystkie te komponenty muszą zapewniać odpowiedni i niezawodny poziom ciągłości biznesowej. Ciągłość biznesowa obejmuje usuwanie skutków awarii i wysoką dostępność. Można ją określić jako zdolność do kontynuowania pracy w przypadku wszystkich typów wyłączeń (planowanych, nieplanowanych i klęsk żywiołowych) oraz do zapewnienia nieprzerwanego działania wszystkich ważnych aplikacji. Ostatecznym celem jest osiągnięcie czasu wyłączeń krótszego niż 0,001% całkowitego czasu działalności. Środowisko wysokiej dostępności różni się od odzyskiwania po awarii założeniem krótszego czasu odzyskiwania (liczonego w sekundach lub minutach) i bardziej surowymi wymaganiami co do docelowego stanu systemu (całkowity brak zakłóceń pracy użytkowników). Rozwiązania wysokiej dostępności umożliwiają w pełni zautomatyzowane przełączenie awaryjne na system zapasowy, co pozwala na nieprzerwane działanie aplikacji i pracę użytkowników. Rozwiązania wysokiej dostępności muszą udostępniać natychmiastowy punkt odzyskiwania. Jednocześnie muszą zapewniać znacznie krótszy czas odtwarzania niż w przypadku rozwiązań, które nie charakteryzują się wysoką dostępnością. Co nowego w systemie IBM i 7.1 Poniżej omówiono nowe informacje zawarte w kolekcji tematów dotyczących wysokiej dostępności. Zaawansowane wykrywanie awarii węzła Usługi zasobów klastra systemu IBM i mogą teraz korzystać z konsoli HMC lub partycji wirtualnego serwera we/wy (VIOS) w celu wykrycia awarii węzła klastra. Ta nowa funkcja pozwala identyfikować większą liczbę scenariuszy awarii oraz uniknąć problemów z partycjami klastrów. Więcej informacji na ten temat zawiera sekcja Zaawansowane wykrywanie awarii węzłów. Asynchroniczny tryb dostarczania w geograficznym zapisie lustrzanym Asynchroniczny tryb dostarczania w geograficznym zapisie lustrzanym pozwala zwiększyć tolerancję opóźnień aplikacji (a więc również zwiększyć odległości) przy stosowaniu geograficznego zapisu lustrzanego. Więcej informacji na ten temat zawiera sekcja Charakterystyka geograficznego zapisu lustrzanego. Przełączanie na poziomie jednostki logicznej Przełączalne jednostki logiczne umożliwiają przełączanie danych przechowywanych w niezależnej puli dyskowej, utworzonej w środowisku IBM System Storage DS8000 lub DS6000, między systemami zapewniającymi wysoką dostępność. Więcej informacji na ten temat zawiera sekcja Charakterystyka przełączalnych jednostek logicznych. Przegląd zagadnień dotyczących wysokiej dostępności - plik PDF Informacje zawarte w tym temacie są także dostępne w postaci pliku PDF, który można wyświetlić i wydrukować. Copyright IBM Corp. 2002, 2010 1
Aby wyświetlić lub pobrać dokument w formacie PDF, kliknij odsyłacz Przegląd wysokiej dostępności 415 kb). (około Można otworzyć lub pobrać następujące pliki PDF z kolekcją tematów pokrewnych: Plik Technologie wysokiej dostępności Technologia klastrowa Domena administracyjna klastra Przełączalne pule dyskowe Urządzenia przełączalne Międzyośrodkowy zapis lustrzany - Geograficzny zapis lustrzany - Zapis lustrzany MAN - Globalny zapis lustrzany FlashCopy Zarządzanie wysoką dostępnością (około 580 kb) zawiera następujące tematy: Plik Implementacja wysokiej dostępności (około 4123 kb) zawiera następujące tematy: Instalowanie programu licencjonowanego IBM PowerHA for i (ihasm) (5770-HAS) Deinstalowanie programu licencjonowanego IBM PowerHA for i (ihasm) (5770-HAS) Wdrażanie wysokiej dostępności przy podejściu ukierunkowanym na rozwiązania Wdrażanie wysokiej dostępności przy podejściu ukierunkowanym na zadania Zarządzanie wysoką dostępnością Rozwiązywanie problemów z wysoką dostępnością Zapisywanie plików PDF Aby zapisać plik PDF na stacji roboczej w celu jego wyświetlenia lub wydrukowania, wykonaj następujące czynności: 1. Kliknij prawym przyciskiem myszy odsyłacz do pliku PDF w przeglądarce. 2. Kliknij opcję zapisania pliku PDF lokalnie. 3. Przejdź do katalogu, w którym ma zostać zapisany plik PDF. 4. Kliknij opcję Zapisz. Pobieranie programu Adobe Reader Do przeglądania i drukowania plików PDF potrzebny jest program Adobe Reader. Bezpłatną kopię tego programu można pobrać z serwisu WWW firmy Adobe (www.adobe.com/products/acrobat/readstep.html). Zalety wysokiej dostępności Wysoka dostępność chroni firmy przed utratą przychodów w przypadku przerwy w dostępie do zasobów danych i newralgicznych aplikacji biznesowych. Pierwszym krokiem przy wyborze rozwiązania wysokiej dostępności jest dokładne określenie, jakie problemy z dostępnością wymagają rozwiązania. W odniesieniu do ciągłości biznesowej problemy te można podzielić na pięć głównych kategorii. 2 IBM i: Dostępność Przegląd wysokiej dostępności
Wyłączenia planowane Rozwiązania wysokiej dostępności systemu IBM i pozwalają zmniejszyć skutki odczuwane przez klientów i użytkowników w sytuacjach, kiedy konieczne jest odłączenie systemów lub danych w celu wykonania niezbędnych czynności konserwacyjnych, takich jak nocne składowanie lub instalacja nowego sprzętu i oprogramowania. Wraz z rozwojem firmy wzrasta też znaczenie czasu dostępności. Okno konserwacji systemów się może stawać coraz krótsze. Wyłączenia planowane obejmują składowanie na taśmach, aktualizację aplikacji, aktualizację systemów operacyjnych itp. Przez ile godzin tygodniowo aplikacje mogą być niedostępne, aby nie miało to wpływu na działalność? Wyłączenia planowane są najczęstszym powodem stosowania rozwiązań wysokiej dostępności. Rozwiązania gwarantujące dostępność pojedynczych systemów IBM i służą przede wszystkim do zapewnienia możliwości obsługi technicznej sprzętu i oprogramowania w trakcie pracy systemu i wykorzystują w tym celu nadmiarowość. Istnieją jednak ograniczenia zakresu działań możliwych do wykonania w przypadku pojedynczego systemu. Technologie wysokiej dostępności systemu IBM i, takie jak klastry i niezależne pule dyskowe, umożliwiają przeniesienie prac produkcyjnych na inny system lub udostępnienie drugiego zestawu danych. Te rozwiązania wysokiej dostępności systemu IBM i umożliwiają prowadzenie działalności podczas wykonywania prac konserwacyjnych. Za pomocą tych rozwiązań wysokiej dostępności można zminimalizować wpływ wyłączeń planowanych na działalność. Składowanie na taśmie w trybie bez połączenia Składowanie na taśmie może być realizowane z systemu zapasowego, w którym przechowywana jest kopia danych użytkownika. Poprawki i aktualizacje aplikacji oraz systemów operacyjnych Aby możliwa była instalacja poprawek i aktualizacji, można wykonać aktualizację sekwencyjną. Poprawki można wprowadzić w systemie zapasowym, podczas gdy system główny działa w trybie produkcyjnym. Następnie obciążenie może zostać przełączone na system zapasowy, a poprawki mogą zostać wprowadzone do systemu pierwotnego. Po zakończeniu aktualizacji pracę w trybie produkcyjnym można z powrotem przełączyć na pierwotny system główny. Serwisowanie sprzętu Zmiany, których nie można wykonać w ramach serwisowania sprzętu w trakcie pracy, zazwyczaj wymagają wyłączenia systemu. Rozwiązanie wysokiej dostępności pozwala przełączyć pracę w trybie produkcyjnym na system zapasowy, a następnie przeprowadzić serwisowanie sprzętu, bez negatywnego wpływu tych czynności na działalność. Pojęcia pokrewne Ochrona przed wyłączeniami na stronie 14 Przed jakiego rodzaju wyłączeniami ma być chroniona firma? Podczas wyboru rozwiązania wysokiej dostępności należy uwzględnić takie czynniki, jak: skrócenie okna składowania, planowane wyłączenia, nieplanowane wyłączenia lub klęski żywiołowe. Informacje pokrewne Skracanie planowanych wyłączeń Wyłączenia nieplanowane Rozwiązania wysokiej dostępności w systemie IBM i umożliwiają ochronę przed wyłączeniami nieplanowanymi, spowodowanymi przez błędy człowieka, problemy z oprogramowaniem, awarie sprzętowe oraz warunki środowiskowe. Wraz z rozwojem działalności coraz większego znaczenia nabiera ochrona przed nieplanowanymi zdarzeniami. Niestety, zaplanowanie nieplanowanych zdarzeń jest oczywiście niemożliwe. Wymagania firmy w zakresie wysokiej dostępności powinny być skoncentrowane wokół okresu, który jest najważniejszy dla działalności. Podczas wyboru rozwiązania wysokiej dostępności i sposobu jego wdrożenia należy uwzględnić koszt wyłączenia w najbardziej newralgicznym okresie. Nieplanowane wyłączenia można podzielić na następujące kategorie: Przegląd wysokiej dostępności 3
Błędy człowieka Niestety, błędy człowieka są zazwyczaj najczęściej występującym powodem nieplanowanych wyłączeń. Ludzie mogą nie postępować zgodnie z procedurami, pomijać ostrzeżenia, mieć za małą wiedzę. Mogą nawet występować problemy w komunikacji i niezrozumienie między grupami pracowników. Wszystkie te czynniki mogą powodować nieplanowane wyłączenia mające wpływ na działalność. Problemy z oprogramowaniem Złożoność aplikacji, systemów operacyjnych, oprogramowania pośredniego lub bazy danych może powodować nieplanowane wyłączenia. Każda działalność jest unikalna, a kłopoty z interakcją między poszczególnymi komponentami oprogramowania mogą powodować problemy. Awarie sprzętowe Każde urządzenie mechaniczne po pewnym czasie ulegnie awarii. Komponenty elektryczne są wrażliwe na zmiany środowiskowe: temperaturę, wilgotność, wyładowania elektrostatyczne. Wszystkie te czynniki mogą doprowadzić do wystąpienia awarii. Może również wystąpić uszkodzenie kabli i poluzowanie połączeń. Warunki środowiskowe Pojedynczy system może się stać niedostępny z powodu awarii zasilania, sieci lub klimatyzacji. Aby uniknąć tych problemów, można wprowadzić elementy nadmiarowości, ale możliwości są tu ograniczone. Odzyskiwanie po nieplanowanym wyłączeniu w środowisku wysokiej dostępności polega na przełączeniu awaryjnym na system zapasowy. Dzięki temu firma może nadal pracować z wykorzystaniem serwera zapasowego, a w tym czasie problem jest diagnozowany i usuwany. Pojęcia pokrewne Ochrona przed wyłączeniami na stronie 14 Przed jakiego rodzaju wyłączeniami ma być chroniona firma? Podczas wyboru rozwiązania wysokiej dostępności należy uwzględnić takie czynniki, jak: skrócenie okna składowania, planowane wyłączenia, nieplanowane wyłączenia lub klęski żywiołowe. Informacje pokrewne Skracanie nieplanowanych wyłączeń Zapobieganie nieplanowanym wyłączeniom Odzyskiwanie ostatnich zmian utraconych w wyniku nieplanowanego wyłączenia Odzyskiwanie danych utraconych w wyniku nieplanowanego wyłączenia Odzyskiwanie po awarii Odzyskiwanie po awarii oznacza zbiór zasobów, planów, usług i procedur, które w przypadku klęski żywiołowej służą do odzyskania i uruchomienia aplikacji o znaczeniu krytycznym w ośrodku zdalnym. Wraz z rozwojem działalności, odzyskanie środowiska w ośrodku zdalnym za pomocą taśm może przestać spełniać wymagania czasowe firmy. W każdej lokalizacji mogą wystąpić jakiegoś rodzaju klęski żywiołowe. Pożary, trąby powietrzne, powodzie, trzęsienia ziemi i huragany mogą mieć ogromny zasięg geograficzny i poważne konsekwencje. Powoduje to, że zdalne ośrodki zapasowe, wykorzystywane w przypadku klęsk żywiołowych, są tworzone w coraz większych odległościach od ośrodków produkcyjnych. W niektórych przypadkach odległość między ośrodkami jest też uzależniona od przepisów branżowych. Podczas planowania na wypadek wystąpienia klęski żywiołowej należy sobie zadać kilka istotnych pytań: Jaki wpływ finansowy na działalność może mieć wystąpienie klęski żywiołowej? Jak szybko można przywrócić działanie firmy? Na ile aktualne mają być odtworzone dane? Na jak dużą przepustowość łącza komunikacyjnego stać firmę? Jakie rozwiązania do odtwarzania po awarii są sensowne przy określonych wymaganiach w zakresie odległości? Na podstawie odpowiedzi na te pytania można zaprojektować rozwiązania wysokiej dostępności w systemie IBM i. Może się okazać, że wystarczy solidniejsze zabezpieczenie pojedynczego ośrodka. Do przywrócenia działalności może 4 IBM i: Dostępność Przegląd wysokiej dostępności
też wystarczyć użycie systemu odtwarzania z taśm. Istnieje jednak również możliwość, że konieczne będzie tworzenie aktualnej kopii zapasowej w ośrodku zdalnym, na podstawie której będzie można w dowolnej chwili wznowić działalność produkcyjną. Informacje pokrewne Planowanie odzyskiwania po awarii Odzyskiwanie systemu Skrócenie okna składowania Rozwiązania wysokiej dostępności w systemie IBM i mogą skrócić okres niedostępności systemu lub usług podczas składowania. Czas, jaki zajmuje składowanie, jest nazywany oknem składowania. Trudność polega na zagwarantowaniu, że w dostępnym czasie zostaną zeskładowane wszystkie dane. Oczywistą techniką skracania lub eliminowania okna składowania jest skracanie czasu wykonywania składowania lub zmniejszanie liczby składowanych danych. Obejmuje to następujące metody: Udoskonalone technologie taśm Technologie szybszego i bardziej gęstego zapisu na taśmach pozwalają skrócić czas składowania. Składowanie równoległe W celu skrócenia czasu składowania można używać wielu napędów taśm jednocześnie, co pozwala zredukować lub wyeliminować przetwarzanie szeregowe na pojedynczym urządzeniu. Składowanie na nośnikach niewymiennych Składowanie na nośnikach, które są szybsze niż nośniki wymienne, np. bezpośrednio na urządzeniach DASD, może skrócić okno składowania. Migrację danych na nośniki wymienne można wykonać później. Archiwizacja danych Dane, które nie są potrzebne podczas normalnego działania systemu, mogą zostać zarchiwizowane i odłączone. Takie dane są podłączane tylko w razie potrzeby, na przykład w celu wykonania miesięcznych lub kwartalnych obliczeń. Dzienne okno składowania ulega skróceniu, ponieważ nie jest wykonywane składowanie zarchiwizowanych danych. Składowanie jedynie zmienionych obiektów i nieuwzględnianie w codziennym składowaniu tych obiektów, które nie zmieniły się w ciągu ostatniego dnia Okno składowania można znacznie skrócić, jeśli procentowa liczba niezmienionych obiektów jest dość duża. Inne techniki skrócenia okna składowania wykorzystują kopię danych (rzeczywistą lub wirtualną). Do tych technik należą: Składowanie z drugiego systemu Technologie zapewniające zdolność do pracy przy częściowej awarii na poziomie danych, takie jak replikacja logiczna. Udostępniają one drugą kopię danych, dzięki czemu można przenieść okno składowania z kopii podstawowej na dodatkową. Technika ta pozwala wyeliminować okno składowania w systemie podstawowym. Nie ma to wpływu na system produkcyjny, ponieważ przetwarzanie kopii zapasowej jest wykonywane na drugim systemie. Składowanie podczas użycia W środowisku z jednym systemem dane mogą być składowane podczas działania aplikacji w trybie produkcyjnym. Aby zagwarantować integralność i łatwość używania danych, tworzony jest punkt kontrolny, który zapewnia spójność. Obrazy obiektów w punkcie kontrolnym podlegają składowaniu, ale dalsze zmiany samego obiektu są dozwolone. Składowane obiekty są spójne względem siebie, a więc możliwe jest odtworzenie środowiska aplikacji do znanego stanu. Składowanie podczas użycia może również zostać wdrożone z wykorzystaniem kopii zapasowej, realizowanej za pośrednictwem replikacji logicznej. Zastosowanie tej techniki pozwala skutecznie wyeliminować okno składowania. IBM System Storage FlashCopy W technologii tej wykorzystano funkcję FlashCopy serwera IBM System Storage na niezależnej puli dyskowej. Obraz stanu niezależnej puli dyskowej jest wykonywany na pojedynczym serwerze System Storage Przegląd wysokiej dostępności 5
Serer. Pojedynczy serwer System Storage Serer tworzy w zadanym momencie wersję niezależnej puli dyskowej, a host nie jest świadomy operacji kopiowania. Technologia klastrów umożliwia przenoszenie kopii na system zapasowy w celu składowania lub przetwarzania w trybie bez połączenia. Pozwala również na bezproblemowe ponowne włączanie drugiego systemu do klastra. Technologia klastrów zapewnia obsługę wielu niezależnych pul dyskowych z poziomu tego samego systemu oraz obsługę wielu systemów produkcyjnych podłączonych jednocześnie do danej jednostki pamięci. Pojęcia pokrewne Ochrona przed wyłączeniami na stronie 14 Przed jakiego rodzaju wyłączeniami ma być chroniona firma? Podczas wyboru rozwiązania wysokiej dostępności należy uwzględnić takie czynniki, jak: skrócenie okna składowania, planowane wyłączenia, nieplanowane wyłączenia lub klęski żywiołowe. Informacje pokrewne Replikacja - przegląd Równoważenie obciążenia Rozwiązania wysokiej dostępności systemu IBM i mogą służyć do równoważenia obciążenia. W najpopularniejszych technologiach do równoważenia obciążenia stosowane jest przenoszenie pracy i jej przypisywanie do dostępnych zasobów. Z kolei w popularnych technikach zarządzania wydajnością stosowane jest przenoszenie zasobów i ich przypisywanie do pracy, która nie jest realizowana z oczekiwaną wydajnością. Przykładowe technologie równoważenia obciążenia (wraz z ich wpływem na wysoką dostępność): Routery frontowe Te routery obsługują wszystkie przychodzące żądania i używają algorytmu do rozdzielenia prac w zrównoważony sposób na dostępne serwery. Algorytmy mogą być proste, jak algorytm karuzelowy, lub złożone, oparte na faktycznie zmierzonej wydajności. Wiele serwerów aplikacji Użytkownik rozdziela pracę na wiele serwerów aplikacji, zgodnie z predefiniowaną konfiguracją lub strategią. Zazwyczaj powiązanie między requesterem i serwerem jest dość statyczne, ale requestery są rozdzielone na wiele serwerów w jak najbardziej zrównoważony sposób. Rozproszona aplikacja wieloczęściowa Te aplikacje działają w odpowiedzi na żądania użytkowników, które przechodzą z jednego serwera na inny. Sposób rozproszenia pracy jest niewidoczny dla użytkownika. Każda część aplikacji realizuje predefiniowane zadanie, a następnie przekazuje pracę do następnego w kolejności serwera. Najbardziej typowym przykładem tego mechanizmu równoważenia obciążenia są aplikacje trójwarstwowe z serwerem bazy danych na zapleczu. Kontrolowane przełączanie aplikacji Praca jest początkowo rozdzielona na wiele serwerów, w pewien predefiniowany sposób. Serwer może udostępniać wiele aplikacji i/lub wiele instancji tej samej aplikacji. Jeśli dany serwer staje się przeciążony, a inne serwery mają dostępną moc obliczeniową, pracownicy operacyjni przenoszą aplikacje lub instancje aplikacji wraz z danymi z serwera przeciążonego na serwer niedociążony. Przenoszenie pracy może być ręczne lub automatyczne, w zależności od predefiniowanej strategii. Informacje pokrewne Routing TCP/IP i równoważenie obciążenia Tworzenie grup zasobów klastra węzła sieci Komponenty wysokiej dostępności Wysoka dostępność pozwala korzystać z newralgicznych aplikacji i danych biznesowych w sytuacji, kiedy nastąpi przerwa w świadczeniu usług. Rozwiązania wysokiej dostępności w systemie IBM i minimalizują, a czasem całkowicie eliminują niekorzystny wpływ planowanych i nieplanowanych wyłączeń oraz katastrof na działalność firmy. Podstawą rozwiązań wysokiej dostępności w systemie IBM i jest technologia klastrów. 6 IBM i: Dostępność Przegląd wysokiej dostępności
Klaster to co najmniej dwa systemy (lub obrazy systemu operacyjnego), które współużytkują zasoby oraz moc przetwarzania, a także zapewniają kopie zapasowe w przypadku wyłączenia. Dzięki technologii klastrów wysoka dostępność nie jest postrzegana jako grupa identycznych kopii zasobów w kilku systemach, lecz raczej jako zbiór współużytkowanych zasobów, które w nieprzerwany sposób udostępniają najważniejsze usługi użytkownikom i aplikacjom. Technologia klastrów sama w sobie nie stanowi kompletnego rozwiązania wysokiej dostępności, ale jest podstawą, na której są oparte wszystkie rozwiązania wysokiej dostępności w systemie IBM i. Infrastruktura klastrów, nazywana usługami zasobów klastra, stanowi podstawowy zbiór mechanizmów do tworzenia wielu systemów i ich zasobów oraz do zarządzania nimi jak jednym, ujednoliconym obiektem komputerowym. Technologia klastrów pozwala również monitorować systemy i zasoby zdefiniowane w środowisku wysokiej dostępności pod kątem wystąpienia awarii i zapewnia odpowiednie reagowanie, w zależności od typu wyłączenia. Technologia klastrów łączy sprzęt i oprogramowanie, aby zmniejszyć koszty i skutki wyłączeń planowanych i nieplanowanych, poprzez szybkie przywracanie usług po wystąpieniu takich wyłączeń. Mimo że odzyskiwanie nie następuje natychmiastowo, jest realizowane bardzo szybko. W poniższych sekcjach opisano kluczowe komponenty rozwiązania wysokiej dostępności. Zadania pokrewne Wybór rozwiązania wysokiej dostępności w systemie IBM i na stronie 23 Po określeniu celów i wymagań biznesowych należy wybrać odpowiednie rozwiązanie wysokiej dostępności w systemie IBM i, które pasuje do działalności firmy. Zdolność do pracy przy częściowej awarii na poziomie aplikacji Zdolność do pracy przy częściowej awarii na poziomie aplikacji może być klasyfikowana w zależności od skutków, jakie odczuwają użytkownicy. W infrastrukturze klastrów IBM i zdolność do pracy przy częściowej awarii na poziomie aplikacji jest kontrolowana za pomocą obiektu grupy zasobów klastra (CRG). Taki obiekt CRG udostępnia - za pośrednictwem programu obsługi wyjścia - mechanizm pozwalający kontrolować uruchamianie, zatrzymywanie, restartowanie i przełączanie aplikacji na systemy zapasowe. Kompletne środowisko aplikacji, obejmujące replikację danych i urządzenia przełączalne, może być kontrolowane za pośrednictwem infrastruktury klastrów i traktowane jak jeden obiekt. Zdolność do pracy przy częściowej awarii na poziomie aplikacji jest klasyfikowana w następujących kategoriach. Brak odzyskiwania aplikacji Po wyłączeniu użytkownicy muszą ręcznie restartować aplikacje. Użytkownicy sami określają, na jakim etapie kontynuować przetwarzanie w aplikacji, w zależności od stanu danych. Automatyczne restartowanie aplikacji i ręczne znajdowanie miejsca w aplikacji Aplikacje, które były aktywne w momencie wyłączenia, są automatycznie restartowane za pośrednictwem programu obsługi wyjścia CRG. Użytkownik musi sam określić, na jakim etapie kontynuować pracę w aplikacji, w zależności od stanu danych. Automatyczne restartowanie aplikacji i półautomatyczne odzyskiwanie Oprócz automatycznego restartowania aplikacji użytkownicy są przenoszeni do wcześniej określonego punktu restartu w aplikacji. Punktem restartu może być na przykład główne menu aplikacji. Jest to zazwyczaj zgodne ze stanem danych aplikacji elastycznej, ale użytkownik może być zmuszony do wcześniejszego dostosowania danych w aplikacji. Niezbędne jest wprowadzenie zmian w aplikacji w celu zapisania danych na temat stanu użytkownika. Podczas wpisywania się aplikacja wykrywa stan każdego użytkownika i określa, czy w jego przypadku niezbędne jest odzyskanie aplikacji na podstawie ostatnio zapisanego stanu. Automatyczne restartowanie aplikacji i automatyczne odzyskiwanie na podstawie ostatniej granicy transakcji Użytkownik jest przenoszony w aplikacji do punktu przetwarzania, który jest spójny z ostatnią zatwierdzoną transakcją. Dane aplikacji i punkt restartu aplikacji są w pełni zgodne. Ta kategoria wymaga zmian kodu w aplikacji, aby stany użytkowników były zapisywane na końcu każdego cyklu zatwierdzania. Dzięki temu w razie awarii aplikacja wie, na jakim etapie pracy z aplikacją są poszczególni użytkownicy. Przegląd wysokiej dostępności 7
Pełna zdolność do pracy przy częściowej awarii na poziomie aplikacji z automatycznym restartowaniem i przezroczystym przełączaniem awaryjnym Oprócz przywrócenia do miejsca zakończenia ostatniej zatwierdzonej transakcji, użytkownik nadal widzi to samo okno i te same dane, które były widoczne przed wyłączeniem. Żadne dane nie są utracone, nie jest wymagane wpisywanie się, nie ma też żadnego wrażenia utraty zasobów serwera. Użytkownik zauważa jedynie dłuższy czas odpowiedzi. Ta kategoria jest możliwa do realizacji tylko w przypadku aplikacji działających w modelu klient/serwer. Pojęcia pokrewne Wymagania w zakresie zdolności do pracy przy częściowej awarii na stronie 16 Firma musi określić, jakie elementy wymagają ochrony w przypadku wyłączenia systemu udostępniającego aplikacje. Wymagania w zakresie zdolności do pracy przy częściowej awarii określają zbiór aplikacji, danych i środowisk systemowych, jakie muszą działać w razie wyłączenia systemu produkcyjnego. Obiekty te pozostają dostępne po przełączeniu awaryjnym, nawet jeśli system, który je udostępnia, zostanie wyłączony. Informacje pokrewne Poziomy elastyczności aplikacji Elastyczność aplikacji (umożliwiająca jej pracę przy częściowej awarii) może być dostosowana do poziomu elastyczności wymaganego przez firmę. Służą do tego opcje środowiska klastrów IBM i. Tworzenie aplikacji elastycznej Planowanie zdolności do pracy przy częściowej awarii na poziomie aplikacji Zdolność do pracy przy częściowej awarii na poziomie danych Istnieje kilka technologii, które można zastosować w celu zapewnienia zdolności do pracy przy częściowej awarii na poziomie danych. Wymagania w tym zakresie zostały opisane w sekcji Korzyści wynikające z zastosowania wysokiej dostępności. Poniżej opisano pięć kluczowych, wielosystemowych technologii zapewniających zdolność do pracy przy częściowej awarii na poziomie danych. Należy pamiętać, że możliwe jest zastosowanie kilku technologii jednocześnie. Pozwoli to jeszcze bardziej zwiększyć zdolność do pracy przy częściowej awarii na poziomie danych. Replikacja logiczna Replikacja logiczna to często stosowana w rozwiązaniach wysokiej dostępności, wielosystemowa technologia zapewniająca zdolność do pracy przy częściowej awarii na poziomie danych, udostępniana przez system IBM i. Zazwyczaj jest wdrażana w postaci produktu oferowanego przez IBM lub niezależnego dostawcę oprogramowania. Replikacja jest realizowana na poziomie obiektów (przy użyciu metod programistycznych). Zmiany obiektów (np. zbiorów, podzbiorów, obszarów danych lub programów) są replikowane do kopii zapasowej. Replikacja wszystkich obiektów kronikowanych jest realizowana w czasie rzeczywistym lub w czasie zbliżonym do rzeczywistego (synchroniczne kronikowanie zdalne). Jeśli obiekt (na przykład zbiór) jest kronikowany, to replikacja jest zwykle wykonywana na poziomie rekordu. W przypadku takich obiektów, jak niepodlegające kronikowaniu przestrzenie użytkowników, replikacja jest zazwyczaj realizowana na poziomie obiektu. Replikowany jest wtedy cały obiekt po zakończeniu wprowadzania zmian tego obiektu. Większość rozwiązań do replikacji logicznej udostępnia dodatkowe funkcje, wykraczające poza możliwości replikacji na poziomie obiektów. Można na przykład uzyskać dodatkowe możliwości kontroli, obserwować status replikacji w czasie rzeczywistym, automatycznie dodawać do obiektów replikowanych obiekty nowo utworzone, a także replikować tylko pewien podzbiór obiektów w danej bibliotece lub danym katalogu. Aby stworzyć wydajne i niezawodne, wielosystemowe rozwiązanie wysokiej dostępności z wykorzystaniem replikacji logicznej, najlepiej jako mechanizm transportu zastosować kronikowanie zdalne. Dzięki kronikowaniu zdalnemu system IBM i stale przenosi dane przychodzące dziennika oryginalnego do dziennika na serwerze zapasowym. Na tym etapie rozwiązanie programowe odtwarza te aktualizacje dziennika, wprowadzając te same zmiany w obiektach na serwerze zapasowym. Po stworzeniu takiego środowiska istnieją dwa oddzielne, ale identyczne obiekty: jeden na serwerze głównym i jeden na serwerze zapasowym. Dzięki takiemu rozwiązaniu można szybko aktywować środowisko produkcyjne na serwerze zapasowym, zamieniając serwery rolami. Poniższy rysunek przedstawia podstawowe mechanizmy środowiska replikacji logicznej. 8 IBM i: Dostępność Przegląd wysokiej dostępności
Główną zaletą tej kategorii rozwiązań jest fakt, że plik zapasowej bazy danych jest wykorzystywany na żywo. Oznacza to, że możliwy jest dostęp do niego w czasie rzeczywistym, zarówno na potrzeby składowania, jak iwtrybie tylko do odczytu, np. w celu tworzenia raportów. Oznacza to również, że w przypadku konieczności przejścia na kopię zapasową odzyskiwanie wymaga minimalnej liczby operacji. Problemem związanym z tą kategorią rozwiązań jest złożoność konfigurowania i utrzymania środowiska. Jednym z największych problemów jest brak rygorystycznej strategii kontrolowania modyfikacji kopii obiektów na serwerze zapasowym. Niewprowadzenie właściwych środków dyscyplinowania takich działań może prowadzić do sytuacji, w której użytkownicy i programiści wprowadzają zmiany w kopii, przez co przestaje ona być zgodna z kopią produkcyjną. W takim przypadków wersje plików (główna i zapasowa) nie są już identyczne. Innym problemem jest fakt, że obiekty, które nie podlegają kronikowaniu, muszą przejść przez punkt kontrolny, zostać zapisane, a następnie oddzielnie wysłane do serwera zapasowego. Dlatego też granulacja czasu rzeczywistego w tym procesie może być ograniczona przez granulację największego obiektu, który jest replikowany w ramach danej operacji. Załóżmy na przykład, że program aktualizuje rekord znajdujący się w zbiorze kronikowanym. W trakcie tej samej operacji aktualizuje również obiekt, taki jak przestrzeń użytkownika, który nie jest kronikowany. Kopia zapasowa będzie całkowicie spójna dopiero w momencie, gdy przestrzeń użytkownika zostanie w pełni zreplikowana w systemie zapasowym. Z praktycznego punktu widzenia, jeśli system podstawowy ulegnie awarii, a obiekt przestrzeni użytkownika nie będzie jeszcze w pełni zreplikowany, należy przeprowadzić ręczne odzyskanie danych, aby dostosować stan niekronikowanej przestrzeni użytkownika do ostatniej poprawnej operacji, której dane zostały całkowicie zreplikowane. Innym problemem związanym z tym podejściem są opóźnienia procesu replikacji. Dotyczy to opóźnienia między momentem wprowadzenia zmian do systemu źródłowego a momentem, w którym zmiany te będą dostępne w systemie zapasowym. Zjawisko to można w znacznym stopniu zminimalizować za pomocą synchronicznego kronikowania zdalnego. Bez względu na użyty mechanizm transmisji należy w odpowiedni sposób przewidzieć wielkość transmisji i właściwie zaplanować ilość i szybkości linii komunikacyjnych. Środowisko musi bowiem być w stanie zarządzać replikacją, gdy jej wolumen jest największy. W środowisku o dużym obciążeniu replikacją opóźnienia i niemożność dokończenia transakcji mogą być spowodowane przez system docelowy, nawet jeśli infrastruktura transmisji została prawidłowo zaplanowana pod względem wielkości. Urządzenie przełączalne Urządzenie przełączalne to zbiór zasobów sprzętowych, takich jak jednostki dyskowe, adaptery komunikacyjne i napędy taśm, które mogą być przełączone z jednego systemu do drugiego. Na potrzeby zdolności do pracy przy częściowej awarii na poziomie danych jednostki dyskowe można skonfigurować jako specjalną klasę ASP, niezależną od konkretnego systemu hosta. Praktycznym wynikiem zastosowania tej architektury jest fakt, że przełączanie niezależnej puli dyskowej z jednego systemu do innego wymaga krótszego czasu przetwarzania, niż wykonanie pełnego IPL. Implementacja niezależnych pul dyskowych w systemie IBM i obsługuje zarówno obiekty katalogów (takie jak zintegrowany system plików - IFS), jak i obiekty bibliotek (takie jak pliki bazy danych). Są one często nazywane dyskami przełączanymi. Korzyścią wynikającą z użycia niezależnych pul dyskowych w celu zapewnienia zdolności do pracy przy częściowej awarii na poziomie danych jest prostota działania. Pojedyncza kopia danych jest zawsze aktualna, co oznacza, że nie trzeba jej synchronizować z żadną inną. Nie może wystąpić żadna utrata danych podczas przesyłania, tak jak w przypadku danych przesyłanych asynchronicznie. Wpływ na wydajność też jest minimalny. Zamiana ról lub przełączanie to operacje dość proste, choć może być konieczne uwzględnienie czasu niezbędnego do udostępnienia niezależnej puli dyskowej. Inną ważną korzyścią wynikającą z użycia niezależnych pul dyskowych jest brak opóźnień transmisji, które mogą występować w każdym rozwiązaniu wykorzystującym replikację. Jednak rozwiązanie to wymaga dużej ilości pracy przy konfigurowaniu urządzeń DASD, danych oraz struktury aplikacji. Utworzenie przełączalnej niezależnej puli dyskowej jest z kolei dość proste. Przegląd wysokiej dostępności 9
Z rozwiązaniem opartym na niezależnej puli dyskowej wiążą się też ograniczenia. Po pierwsze, istnieje tylko jedna logiczna kopia danych w niezależnej puli dyskowej. Może to zwiększać ryzyko awarii, chociaż dane mogą być zabezpieczone przy użyciu macierzy RAID 5, RAID 6 lub zapisu lustrzanego. Nie jest możliwy jednoczesny dostęp do danych z poziomu obu hostów. Operacje odczytu lub składowania na taśmie nie mogą być realizowane z systemu zapasowego. W niezależnej puli dyskowej nie mogą być przechowywane niektóre typy obiektów, takie jak obiekty konfiguracyjne. Niezbędny jest inny mechanizm zapewniający odpowiednią obsługę tych obiektów, na przykład okresowe operacje składowania i odtwarzania, domena administracyjna klastra lub replikacja logiczna. Istnieją też ograniczenia związane ze sprzętem. Przykładem mogą być ograniczenia na długość łączy o dużej szybkości (HSL) oraz konieczność wyłączenia systemu w związku z modernizacją niektórych elementów sprzętowych. Niezależna pula dyskowa nie może działać ze starszymi systemami. Dlatego niezbędne jest wcześniejsze zaprojektowanie i przeanalizowanie środowiska systemowego. Charakterystyka przełączalnych jednostek logicznych (LUN) Przełączalne jednostki logiczne umożliwiają przełączanie danych przechowywanych w niezależnej puli dyskowej, utworzonej w środowisku IBM System Storage DS8000 lub DS6000, między systemami zapewniającymi wysoką dostępność. Przełączalna jednostka logiczna jest niezależną pulą dyskową, która jest kontrolowana z poziomu grupy zasobów klastra urządzeń i może być przełączana między węzłami w klastrze. Połączenie przełączanych jednostek logicznych z technologią klastrów IBM i pozwala utworzyć proste i ekonomiczne rozwiązanie wysokiej dostępności, sprawdzające się w przypadku planowanych wyłączeń oraz niektórych wyłączeń nieplanowanych. Grupa zasobów klastra urządzeń kontroluje niezależną pulę dyskową, która może być przełączona automatycznie w przypadku nieplanowanego wyłączenia lub też ręcznie. Grupa systemów w klastrze może wykorzystać funkcję przełączania, aby przenosić dostęp do przełączalnej puli jednostek dyskowych z systemu do systemu. Przełączalna jednostka dyskowa musi się znajdować w serwerze IBM System Storage DS8000 lub DS6000, połączonym za pomocą sieci SAN. Przełączalne jednostki logiczne działają podobnie do przełączalnych dysków, ale nie ma możliwości przełączania sprzętu między partycjami logicznymi. Podczas przełączenia niezależnej puli dyskowej jednostki logiczne w jednostce IBM System Storage są ponownie przypisywane do innej partycji logicznej. Międzyośrodkowy zapis lustrzany (XSM) Geograficzny zapis lustrzany Geograficzny zapis lustrzany to funkcja systemu operacyjnego IBM i. Wszystkie dane umieszczane w kopii produkcyjnej w niezależnej puli dyskowej są kopiowane do kopii lustrzanej w drugiej niezależnej puli dyskowej, umieszczonej na innym (opcjonalnie zdalnym) systemie. Korzyści wynikające z tego rozwiązania są zasadniczo takie same, jak w przypadku rozwiązania podstawowego z urządzeniem przełączalnym, przy czym dodatkową zaletą jest zapewnienie odzyskiwania danych aplikacji po awarii do drugiej kopii, znajdującej się w dużej odległości od oryginału. Największą korzyścią nadal jest prostota działania. Operacje przełączania są w zasadzie takie same, jak w przypadku rozwiązania z urządzeniem przełączalnym. Różnica polega na tym, że przełączenie następuje do lustrzanej kopii w niezależnej puli dyskowej. Dzięki temu jest to proste we wdrożeniu i obsłudze rozwiązanie wysokiej dostępności. Podobnie jak w przypadku rozwiązania z urządzeniem przełączalnym, obiekty nieznajdujące się w niezależnej puli dyskowej muszą być obsługiwane za pomocą innego mechanizmu, ponieważ niezależna pula dyskowa nie może działać ze starszym systemem. Geograficzny zapis lustrzany umożliwia również obsługę replikacji w czasie rzeczywistym, przydatną w zintegrowanych środowiskach serwerowych, takich jak Microsoft Windows i Linux. Nie jest to zazwyczaj możliwe przy stosowaniu replikacji logicznej opartej na kronikowaniu. Ponieważ geograficzny zapis lustrzany jest zaimplementowany jako funkcja systemu operacyjnego IBM i, potencjalnym ograniczeniem rozwiązania opartego na geograficznym zapisie lustrzanym jest zmniejszona wydajność w niektórych środowiskach. 10 IBM i: Dostępność Przegląd wysokiej dostępności
Jeśli uruchamiane są zadania wsadowe intensywnie korzystające z operacji wejścia/wyjścia, to w systemie podstawowym może nastąpić spadek wydajności. Należy również mieć świadomość większego obciążenia jednostki centralnej w związku z obsługą geograficznego zapisu lustrzanego. Trzeba też pamiętać o tym, że podczas synchronizacji danych nie jest możliwy dostęp do kopii zapasowej w niezależnej puli dyskowej. Jeśli na przykład dane pochodzące z geograficznej kopii lustrzanej mają być składowane na taśmach, to należy wyciszyć operacje zapisu lustrzanego w systemie źródłowym i odłączyć kopię lustrzaną. Następnie odłączoną kopię z niezależnej puli dyskowej należy udostępnić w systemie zapasowym, przeprowadzić procedurę składowania, po czym odłączyć i ponownie podłączyć niezależną pulę dyskową do oryginalnego hosta produkcyjnego. Zostanie wtedy przeprowadzona synchronizacja danych, które zostały zmienione w trakcie odłączenia niezależnej puli dyskowej. Podczas składowania i synchronizacji rozwiązanie wysokiej dostępności jest niezabezpieczone przed awariami, co oznacza że nie ma aktualnego, drugiego zbioru danych. Aby zminimalizować niebezpieczeństwo, należy użyć śledzenia zarówno po stronie źródłowej, jak i docelowej. Zapis lustrzany MAN Zapis lustrzany MAN jest funkcją serwera IBM System Storage Serer. Dane przechowywane w niezależnych pulach dyskowych znajdują się na jednostkach dyskowych w serwerze System Storage Serer. Takie rozwiązanie wykorzystuje replikację do drugiego serwera pamięci na poziomie sprzętowym, przy użyciu funkcji Copy Serices serwera IBM System Storage. Podstawową jednostką pamięci dla funkcji zdalnego kopiowania peer-to-peer (PPRC) serwera System Storage jest niezależna pula dyskowa. Funkcja PPRC umożliwia replikację niezależnej puli dyskowej do innego serwera System Storage Serer. System IBM i udostępnia zbiór funkcji zapewniających kopiowanie PPRC, niezależnych pul dyskowych oraz usług zasobów klastra systemu IBM i w celu zapewnienia skoordynowanego przełączania i przełączania awaryjnego przy użyciu grup zasobów klastra (CRG) urządzeń. Rozwiązanie to można również połączyć z innymi funkcjami usług kopiowania serwera System Storage, w tym FlashCopy, w celu skrócenia czasu przerwy na składowanie. Przesyłanie danych w zapisie lustrzanym MAN jest synchroniczne. Należy również znać ograniczenia dotyczące odległości oraz wymagania w zakresie przepustowości związane z czasami transmisji, które występują we wszystkich rozwiązaniach wykorzystujących komunikację synchroniczną. Globalny zapis lustrzany Globalny zapis lustrzany wykorzystuje te same podstawowe technologie, co zapis lustrzany MAN. Różnica polega na asynchronicznej transmisji danych oraz na konieczności zastosowania technologii FlashCopy w odniesieniu do trzeciego zestawu dysków w celu utrzymania spójności danych. Ponieważ transmisja danych jest asynchroniczna, w przypadku tego rozwiązania nie ma żadnych ograniczeń co do odległości, w jakiej mogą się znajdować poszczególne serwery System Storage Serer. Przegląd wysokiej dostępności 11
Pojęcia pokrewne Porównanie technologii zapewniających zdolność do pracy przy częściowej awarii na poziomie danych na stronie 23 Zdolność do pracy przy częściowej awarii na poziomie danych oznacza, że dane pozostają dostępne dla aplikacji i użytkowników, mimo awarii systemu, który je pierwotnie udostępniał. Wybranie odpowiedniego zestawu technologii umożliwiających pracę przy częściowej awarii na poziomie danych w kontekście ogólnej strategii ciągłości biznesowej może być złożone i niełatwe. Ważne jest, aby rozumieć działanie poszczególnych rozwiązań, które mogą zostać użyte w celu zwiększenia dostępności środowisk zawierających wiele systemów. Do zaspokojenia potrzeb można wybrać pojedyncze rozwiązanie lub ich kombinację. W poniższych tematach porównano poszczególne technologie zapewniające zdolność do pracy przy częściowej awarii na poziomie danych. Porównanie metod zapewniających zdolność do pracy przy częściowej awarii na poziomie danych na stronie 19 Poniższa tabela zawiera skrótowy opis głównych cech rozwiązań, które tworzą kopie danych w pamięci dyskowej. Wymagania w zakresie zdolności do pracy przy częściowej awarii na stronie 16 Firma musi określić, jakie elementy wymagają ochrony w przypadku wyłączenia systemu udostępniającego aplikacje. Wymagania w zakresie zdolności do pracy przy częściowej awarii określają zbiór aplikacji, danych i środowisk systemowych, jakie muszą działać w razie wyłączenia systemu produkcyjnego. Obiekty te pozostają dostępne po przełączeniu awaryjnym, nawet jeśli system, który je udostępnia, zostanie wyłączony. Informacje pokrewne Planowanie zdolności do pracy przy częściowej awarii na poziomie danych Zdolność do pracy przy częściowej awarii spowodowanej warunkami środowiskowymi Zdolność do pracy przy częściowej awarii spowodowanej warunkami środowiskowymi można podzielić na dwa rodzaje, w zależności od środowiska: fizycznego i logicznego. Środowisko fizyczne, które ma gwarantować dostępność pojedynczego systemu, obejmuje m.in. nadmiarowy sprzęt, topologię sieci, infrastrukturę zasilania i możliwości w zakresie chłodzenia. Środowisko logiczne to środowisko, w którym są zainstalowane i uruchamiane aplikacje. Obejmuje takie elementy, jak ustawienia systemowe, profile użytkowników i atrybuty systemu, co pozwala użytkownikom na uruchamianie aplikacji na wielu serwerach. Środowisko fizyczne Środowisko fizyczne obejmuje opcje gwarantujące dostępność pojedynczego systemu oraz infrastrukturę wymaganą do odpowiedniego utrzymania komputerowego środowiska operacyjnego. Te opcje dostępności pojedynczego systemu mają kluczowe znaczenie dla utrzymania środowiska wysokiej dostępności. Istnieje wiele opcji, które pozwalają ochronić system przed awariami sprzętowymi. Najważniejszym komponentem, który należy chronić, jest podsystem dyskowy. Mechanizmami ochrony dysków są macierze RAID 5 i RAID 6 oraz zapis lustrzany dysków. Praktycznie każda firma potrzebuje jednego z tych mechanizmów ochrony. Innym komponentem, który wymaga ochrony, jest sieć. Ochrona obejmuje tu zarówno stosowanie nadmiarowych adapterów sieciowych w systemach, jak i wielu ścieżek sieciowych realizowanych za pośrednictwem nadmiarowego sprzętu sieciowego, które mogą być używane przez użytkowników i systemy do komunikacji. Środowisko fizyczne obejmuje również infrastrukturę niezbędną do funkcjonowania serwerowni. Systemy mają możliwość korzystania z podwójnych kabli zasilających. Oznacza to, że każda wieża i każdy stelaż są wyposażone w dwa kable zasilające, podłączane do dwóch różnych gniazd zasilających. Pozwala to korzystać z dwóch oddzielnych paneli bezpieczników, chroniących poszczególne stelaże i wieże. Ze względu na sposób funkcjonowania publicznej sieci elektrycznej należy poważnie rozważyć ochronę serwerowni przy użyciu zasilacza awaryjnego lub generatora zasilania. Należy również uwzględnić pozostałe elementy serwerowni, takie jak ogrzewanie, chłodzenie oraz kontrolę wilgotności i czystości powietrza. Środowisko logiczne Środowisko logiczne to środowisko, w którym są uruchamiane aplikacje. Na środowisko to składają się takie elementy, jak atrybuty systemowe, wartości systemowe, atrybuty konfiguracji sieci, atrybuty zarządzania pracą oraz profile użytkowników. Te elementy muszą być takie same, aby środowisko aplikacji w systemie zapasowym działało tak samo, jak w głównym systemie produkcyjnym. Utrzymanie spójności tych wartości 12 IBM i: Dostępność Przegląd wysokiej dostępności
środowiska logicznego w wielu systemach jest możliwe za pośrednictwem domeny administracyjnej klastra, replikacji logicznej lub precyzyjnie określonego procesu ręcznego. Pojęcia pokrewne Wymagania w zakresie zdolności do pracy przy częściowej awarii na stronie 16 Firma musi określić, jakie elementy wymagają ochrony w przypadku wyłączenia systemu udostępniającego aplikacje. Wymagania w zakresie zdolności do pracy przy częściowej awarii określają zbiór aplikacji, danych i środowisk systemowych, jakie muszą działać w razie wyłączenia systemu produkcyjnego. Obiekty te pozostają dostępne po przełączeniu awaryjnym, nawet jeśli system, który je udostępnia, zostanie wyłączony. Informacje pokrewne Planowanie elastyczności środowiska Prostota Wysoka dostępność w systemie IBM i charakteryzuje się prostotą działania w zakresie dostosowywania, kontroli i automatyzacji. Dostosowywanie Każdy klient stosuje unikalne środowisko o specyficznych wymaganiach. Architektura wysokiej dostępności w systemie IBM i udostępnia platformę, którą każdy klient może wykorzystać do zaprojektowania własnego rozwiązania, dostosowanego do danego środowiska aplikacji i zaspokajającego konkretne potrzeby. Kontrola Architektura IBM PowerHA for i umożliwia prostą kontrolę środowiska wysokiej dostępności. Po odpowiednim dostosowaniu można korzystać z łatwego w użyciu interfejsu klastrów w celu kontrolowania procesów, takich jak aktywacja, zamykanie, przełączanie i przełączanie awaryjne całego środowiska aplikacji. Operator systemu staje się w ten sposób operatorem klastra. Automatyzacja Wysoka dostępność środowiska produkcyjnego klienta wymaga ostrożnych, skoordynowanych działań we wszystkich aspektach związanych z aplikacjami. Jest to niezbędne do zachowania możliwości pracy w warunkach częściowej awarii oraz do szybkiego przenoszenia pracy z jednego serwera na inny, jeśli główny serwer zostanie wyłączony. Automatyzacja środowiska pozwala maksymalnie skrócić przerwy w pracy. Wielką zaletą funkcji automatyzacji w produkcie IBM PowerHA for i jest zmniejszenie liczby błędów użytkowników podczas realizacji scenariuszy awaryjnych. Ograniczenie możliwości popełnienia błędów przez użytkowników usprawnia proces podejmowania decyzji w razie wystąpienia awarii. Kryteria wysokiej dostępności Wysoka dostępność w systemie IBM i to kilka różnych technologii zapewniających możliwość pracy przy częściowej awarii na poziomie danych oraz gwarantujących dostępność aplikacji. Każda z tych technologii ma inne cechy. Wyboru należy dokonać na podstawie tych cech oraz ich dopasowania do konkretnych wymagań poszczególnych aplikacji biznesowych. Podczas podejmowania decyzji o wyborze technologii zapewniania zdolności do pracy przy częściowej awarii na poziomie danych należy rozumieć i uwzględnić następujące parametry. Budżet Każde rozwiązanie wysokiej dostępności wiąże się z określonymi kosztami. Koszt całego rozwiązania musi być porównany z korzyściami, jakie niesie ono dla firmy. Większość klientów zapytanych o potrzeby w zakresie rozwiązania wysokiej dostępności odpowiada, że potrzebują stałej dostępności, tak aby system nie był wyłączony nawet na chwilę. Wprawdzie jest to technicznie możliwe do realizacji, jednak koszty ochrony oferowanej przez takie rozwiązanie mogą się okazać zbyt wysokie. Podstawowe pytanie, jakie należy sobie zadać przy podejmowaniu decyzji o wyborze rozwiązania wysokiej dostępności, brzmi Jakie są koszty wyłączenia systemu?. Ośrodki zapasowe, systemy zapasowe i kopie zapasowe danych aplikacji wiążą się z kosztami oraz z określonymi korzyściami, jakie płyną z poniesienia tych kosztów. Do czasu uzyskania wiedzy na temat kosztów związanych z wyłączeniem nie można przypisać realnej wartości korzyściom, jakie oferuje klientowi rozwiązanie wysokiej dostępności. Przegląd wysokiej dostępności 13
Koszt rozwiązania to całkowite koszty użytkowania, które obejmują wstępny koszt zakupu i wdrożenia rozwiązania, bieżące koszty korzystania z rozwiązania, a także koszty związane z wpływem tego rozwiązania na wydajność. Koszty są zazwyczaj przewidywane na podstawie dokładnej analizy skutków biznesowych. Mogą wystąpić następujące sytuacje: Koszt nie stanowi decydującego czynnika. Koszt ma niewielki wpływ na decyzję. Koszt rozwiązania musi się mieścić w pewnym budżecie, określonym na podstawie analizy skutków wyłączeń. Koszt ma istotny wpływ na decyzję. Klient nie chce lub nie jest w stanie wydać pieniędzy na rozwiązanie gwarantujące dostępność. Wymagania w zakresie czasu dostępności Wymagania w zakresie czasu dostępności określają łączny czas, przez jaki system musi być dostępny dla użytkowników. Parametr ten jest określany jako wyrażona w procentach część łącznej liczby planowanych godzin pracy. Poniżej przedstawiono procentowy czas dostępności i odpowiadający mu czas wyłączeń dla klientów, których systemy muszą być dostępne w trybie ciągłym (24 godziny na dobę, 365 dni w roku). Poniżej 90% - wyłączenia mogą trwać 876 lub więcej godzin (36 dni) na rok 90 do 95% - wyłączenia mogą trwać od 438 do 876 godzin na rok 95 do 99% - wyłączenia mogą trwać od 88 do 438 godzin na rok 99,1 do 99,9% - wyłączenia mogą trwać od 8,8 do 88 godzin na rok 99,99% - wyłączenia mogą trwać około 50 minut na rok 99,999% - wyłączenia mogą trwać około 5 minut na rok Zazwyczaj jako czynnik określający wymagania w zakresie czasu dostępności przyjmowane są koszty, jakie powoduje jedna godzina wyłączenia. W przypadku wyłączeń nieplanowanych wymagania w zakresie czasu dostępności muszą być oparte wyłącznie na godzinach niezaliczanych do czasu wolnego. Oznacza to, że koszt wyłączenia powinien być obliczany na podstawie możliwie najmniej korzystnego czasu jego wystąpienia. Ochrona przed wyłączeniami Przed jakiego rodzaju wyłączeniami ma być chroniona firma? Podczas wyboru rozwiązania wysokiej dostępności należy uwzględnić takie czynniki, jak: skrócenie okna składowania, planowane wyłączenia, nieplanowane wyłączenia lub klęski żywiołowe. Konieczne jest rozważenie, przed jakiego rodzaju wyłączeniami firma chce się chronić za pomocą nowego rozwiązania. Skrócenie okna składowania W środowiskach z jednym systemem składowanie systemu jest najczęstszym powodem planowanych wyłączeń. Wraz ze zwiększeniem potrzeb w zakresie czasu dostępności aplikacji, skraca się czas, w jakim może być wykonane składowanie. Rozwiązanie wysokiej dostępności może umożliwić składowanie w trybie bez połączenia. Składowanie w trybie bez połączenia oznacza składowanie danych aplikacji z kopii zapasowej. Każda technologia umożliwiająca pracę przy częściowej awarii na poziomie danych oferuje różne korzyści w zakresie składowania w trybie bez połączenia. Planowane prace konserwacyjne Planowane prace konserwacyjne to okres, w którym system musi być wyłączony w celu wprowadzenia aktualizacji aplikacji i oprogramowania oraz modernizacji sprzętu. Jeśli nie jest już możliwe zaplanowanie prac konserwacyjnych w godzinach pracy, można zastosować rozwiązanie wysokiej dostępności, które pozwoli prowadzić prace konserwacyjne w trybie bez połączenia. Przy prowadzeniu prac konserwacyjnych w trybie bez połączenia jako pierwsze są aktualizowane i modernizowane systemy zapasowe. Po przełączeniu środowiska produkcyjnego na system zaktualizowany wykonywana jest aktualizacja i modernizacja starego systemu produkcyjnego. 14 IBM i: Dostępność Przegląd wysokiej dostępności