E-BIULETYN Podtrzymywanie działania systemów, nawet podczas katastrof DLACZEGO DOSTĘPNOŚĆ JEST TAK ISTOTNA? W poprzednim artykule z serii poświęconej przywracaniu przetwarzania danych po awarii, omówiliśmy zasadnicze znaczenie replikacji dla zapewnienia ciągłego bezpieczeństwa danych, również w przypadku wystąpienia katastrofy. Replikacja to oczywisty kolejny krok w kierunku uzyskania wyższych poziomów jakości usług, po wprowadzeniu solidnego planu tworzenia kopii zapasowych. Jeśli więc kopie zapasowe stanowią podstawę każdej strategii przywracania przetwarzania danych, a kolejnym krokiem jest replikacja, zapewniająca ich ochronę w czasie rzeczywistym, to jakie miejsce zajmuje w tym procesie dostępność systemów? Jeśli centrum usługowe przestanie działać, nie będziemy mogli obsłużyć naszych klientów, co oznacza przerwanie druku gazet. Innymi słowy, przerwa w naszej działalności sparaliżowałaby 30 procent prasy norweskiej. Gunstein Løken, kierownik ds. operacyjnych i rozwoju, Orkla Media Service Senter IT Technologie kopii zapasowych i replikacji służą ograniczeniu utraty danych, ale żadna z nich nie jest w stanie podtrzymać działania systemów informatycznych, także podczas katastrof. W celu uzyskania maksymalnej dostępności systemów musimy przyjrzeć się innym alternatywom. Tradycyjnie, jeśli ochrona systemów polegała wyłącznie na tworzeniu kopii zapasowych, jedyną możliwością wznowienia pracy było odtworzenie danych z dysku lub taśmy, które mogło potrwać od kilku godzin, do kilku dni, a nawet tygodni. Znaczenie podtrzymania działania systemów informatycznych potwierdza zdarzenie sprzed kilku lat, kiedy to w dużej internetowej firmie brokerskiej wystąpiły 4 awarie systemu w ciągu 2 miesięcy, powodując 22% spadek cen akcji, ponieważ klienci stracili do niej zaufanie. W celu skrócenia czasu przestoju oraz ograniczenia utraty danych należy połączyć grupowanie serwerów w klastry i replikację. W systemach klastrowych aplikacja, z którą są problemy, zostaje przeniesiona ze źle działającego urządzenia do poprawnie działającego systemu, w tym samym centrum przetwarzania danych, lub w innej lokalizacji. Czas trwania tego procesu mierzymy w sekundach lub minutach. CO TO JEST KLASTER? Zanim uznano tworzenie klastrów za pełnoprawną technologię podtrzymywania dostępności systemów informatycznych, użytkownicy byli po prostu podłączeni do systemów, nie mogąc w przypadku ich awarii zrobić niczego, zanim system nie został naprawiony. Dla administratora środowiska informatycznego oznaczało to odpowiedzialność za możliwie najszybsze wznowienie działania systemu i ciągłą presję ze strony użytkowników do czasu tego wznowienia. Rysunek 2: W przedstawionym powyżej środowisku, awaria serwera spowodowałaby niesprawność i niedostępność całego środowiska informatycznego.
Chociaż idea tworzenia klastrów komputerów typu mainframe była znana od wielu lat, dopiero w latach 90-tych stała się popularna w systemach otwartych, takich jak Windows, Unix i Linux. Dzięki klastrom administratorzy mogli zapewnić bezpieczny dostęp do systemów i ograniczyć czas przestojów, dysponując zapasowymi serwerami, zabezpieczającymi przetwarzanie podczas awarii. Rysunek 3: Posiadanie dodatkowego systemu, mogącego przejąć przetwarzanie w przypadku awarii, pozwala na ograniczenie przestojów. Awaria jednego systemu oznacza przejęcie przetwarzania przez drugi. W JAKI SPOSÓB DZIAŁAJĄ KLASTRY? Tworzenie klastrów nie jest cudownym środkiem, ale po prostu automatyzuje proces odtwarzania serwera i uruchamia aplikację na serwerze rezerwowym. Bez wykorzystania klastra odtworzenie serwera może zająć mnóstwo czasu, ponieważ najpierw instaluje się system operacyjny, potem aplikacje, następnie pobiera i wprowadza programy korygujące, konfiguruje serwer, itd. Cały ten czas to okres przestoju, ponieważ dostęp użytkowników do systemu nie jest możliwy. Nie ma znaczenia, czy chodzi o zewnętrzny serwer transakcyjny oparty na mechanizmach WWW, czy o wewnętrzny serwer poczty elektronicznej każdy przestój takiego systemu będzie miał znaczne, negatywne skutki. Ze względu na wysoką złożoność większości obecnych środowisk informatycznych należy uwzględnić wszystkie warstwy występujące w centrum przetwarzania danych. Jeśli przeanalizujemy tradycyjne 3-warstwowe środowisko, z interfejsem użytkownika wykonanym w technologii WWW, aplikacją ERP w warstwie środkowej i bazą danych na zapleczu, to awaria któregokolwiek z tych trzech systemów uniemożliwi dostęp do wszystkich. Ilustruje to znaczenie ochrony wszystkich warstw w centrum przetwarzania danych, ponieważ niedostępność jednej z nich, niezależnie od jej umiejscowienia w środowisku informatycznym, oznacza przerwę w dostępności systemu dla użytkowników. Rysunek 4: Awaria jednego systemu powoduje niedostępność pozostałych. Wdrożenie strategii dostępności przypomina budowę domku z kart jedno niedopatrzenie może w parę sekund zrujnować całą budowlę i ściągnąć na głowę administratora użytkowników domagających się przywrócenia dostępu. Dobrze znany przykład to awaria serwisu internetowego Ebay, który był niedostępny w 1999 r. przez 22 godziny, co spowodowało konieczność zwrotu użytkownikom około 5 milionów dolarów opłat za aukcje. Warto zauważyć, że obecnie Ebay korzysta z
kompletnego zestawu rozwiązań VERITAS Disaster Recovery, wykorzystującego kopie zapasowe, replikację i łączenie serwerów w klastry do zabezpieczenia systemów i danych. Kolejnym przykładem ilustrującym znaczenie uwzględnienia każdego aspektu centrum przetwarzania danych są dwa przestoje Orbitz (dużej witryny turystycznej w USA), które wystąpiły w ciągu 8 dni w lipcu 2003 r. Ostatecznie firma Orbitz podała, że przyczyną awarii była niestabilna praca bazy danych na zapleczu systemu. ROSNĄCA DOSTĘPNOŚĆ DZIĘKI NOWYM METODOM ŁĄCZENIA SERWERÓW W KLASTRY Teraz, kiedy poznaliśmy wartość łączenia serwerów w klastry, warto przyjrzeć się niektórym nowym metodom tworzenia klastrów, które mogą obniżyć koszty i zwiększyć dostępność, umożliwiając optymalne wykorzystanie centrum przetwarzania danych. Gdy tworzenie klastrów zostało uznane za wiarygodną metodę poprawy dostępności, stosowano klastry z jednym węzłem aktywnym, a drugim pasywnym (znane również jako asymetryczne). Były to po prostu dwa połączone systemy komputerowe, z których jeden był aktywny, a drugi pasywny oczekujący na przejęcie przetwarzania w przypadku awarii pierwszego systemu lub aplikacji. Wkrótce firmy zrozumiały, że utrzymywanie w centrum przetwarzania danych bezczynnego serwera zapasowego oznacza marnotrawienie zasobów, ponieważ serwery są kosztowne, a utrzymywanie ich przez większość czasu w stanie bezczynności nie zapewnia dobrego zwrotu z inwestycji. Ze względu na to, dominującym rozwiązaniem stała się alternatywa dla klastrów z węzłem aktywnym i pasywnym, znana pod nazwą klastra z dwoma węzłami aktywnymi (active/active clustering). Klastry z dwoma węzłami aktywnymi (znane również jako symetryczne) są podobne do klastrów z węzłem aktywnym i pasywnym, z tą różnicą, że oba systemy są w nich aktywne i gotowe do przejęcia przetwarzania realizowanego przez partnera, w przypadku awarii jednego z nich. Ta metoda tworzenia klastrów obniża koszty dzięki jednoczesnemu używaniu obu systemów. Jej wadą jest to, że w przypadku awarii jednego systemu, pozostały system zostaje podwójnie obciążony, co może spowodować pogorszenie wydajności lub niedostępność aplikacji. Innym aspektem tej metody jest konieczność skomplikowanych działań w celu zapewnienia, że nie występują konflikty pomiędzy aplikacjami i aplikacje mogą pracować obok siebie, nie szkodząc sobie nawzajem. Kto bowiem chciałby używać oprogramowania SQL Server i Exchange, działającego na tym samym serwerze? Rysunek 5: Klaster z węzłem aktywnym i pasywnym po lewej stronie i klaster z dwoma węzłami aktywnymi po prawej. Ze względu na wysokie koszty i problemy z dostępnością, charakteryzujące te dwie metody łączenia systemów w klastry, szybko pojawiła się inna metoda, umożliwiająca rozwiązanie obu tych problemów. Metoda ta polega na tworzeniu klastrów typu N+1, w której klaster składa się z 3 lub większej liczby systemów komputerowych (VERITAS obsługuje do 32 systemów połączonych w klaster), podłączonych do tej samej pamięci masowej i gotowych na przejęcie przetwarzania realizowanego na każdym z pozostałych serwerów. Rysunek 6: Klaster typu N+1 posiada najlepsze cechy klastrów z węzłem aktywnym i pasywnym oraz klastrów z dwoma węzłami aktywnymi, zapewnia maksymalną dostępność przy niskich kosztach, nie obniża wydajności i nie powoduje niepotrzebnych komplikacji.
W powyższym przykładzie przedstawiony jest klaster z pięcioma systemami, w którym 4 serwery są aktywne, a jeden pasywny oczekujący na przejęcie przetwarzania w przypadku awarii któregokolwiek z pozostałych serwerów. Ta metoda ma wiele zalet: Niskie koszty: Przy zastosowaniu tradycyjnego klastra z jednym węzłem aktywnym i drugim pasywnym potrzeba byłoby 8 serwerów do uzyskania tego samego poziomu dostępności. Używając klastrów typu N+1 można zmniejszyć liczbę serwerów do 5, utrzymując ten sam poziom dostępności. Biorąc pod uwagę koszty rzeczywiste, przy założeniu, że serwer kosztuje 5.000 (bez utrzymania), można zaoszczędzić 15.000 kupując o 3 serwery mniej. Brak spadku wydajności: W klastrach typu N+1 zawsze dostępny jest dedykowany serwer, gotowy na przejęcie przetwarzania w przypadku awarii jednego z aktywnych urządzeń. Oznacza to, że każdy serwer będzie w danym momencie obsługiwać tylko jedną aplikację, bez pogorszenia wydajności. Brak dodatkowych komplikacji: Ze względu na wykorzystanie dedykowanego serwera zapasowego zmniejsza się ryzyko usterek spowodowanych pracą niekompatybilnego oprogramowania na tym samym serwerze. Oszczędność czasu: Zarządzanie jednym klastrem złożonym z pięciu węzłów jest łatwiejsze niż zarządzanie 4 klastrami składającymi się z 2 węzłów każdy, co oznacza oszczędność czasu administratora. W klastrach typu N+1 dostępny jest zawsze dedykowany serwer rezerwowy. W przypadku awarii jednego z serwerów drugie urządzenie przejmuje realizowane na nim przetwarzanie danych. Po naprawie usterki wyłączony z użytkowania serwer przejmuje funkcje serwera rezerwowego. CO ŁĄCZY DOSTĘPNOŚĆ Z PRZYWRACANIEM PRZETWARZANIA DANYCH PO KATASTROFIE Rozważając zagadnienia związane z dostępnością systemów informatycznych należy pamiętać, że katastrofy mogą mieć wielki lub mały zasięg. Awarię pojedynczego serwera przerywającą pracę centrum przetwarzania danych można z pewnością uznać za katastrofę i należy się do niej przygotować. Równie ważne jest zaplanowanie postępowania w przypadku katastrof o większym zasięgu, takich jak pożary, powodzie, przerwy w zasilaniu, ataki terrorystów, itd., które wpływają na cały ośrodek. Przy podejmowaniu decyzji o wyborze pewnej strategii utrzymania dostępności należy pamiętać, że przyjęte rozwiązanie musi zabezpieczać systemy niezależnie od ich fizycznej lokalizacji. Należy uwzględnić wszystkie aspekty, od lokalnej dostępności do potrzeb związanych z przywracaniem przetwarzania w sieci metropolitalnej i rozległej. Rysunek 7: Dobre rozwiązanie z zakresu utrzymania dostępności powinno chronić systemy, zabezpieczając je przed katastrofami nie tylko na poziomie lokalnym, ale również w sieci metropolitalnej lub rozległej. Kompletne i szczegółowe wyjaśnienie różnic pomiędzy tymi architekturami znajdą Państwo w artykule Prezentacja architektur przywracania przetwarzania danych po katastrofie stosowanych przez VERITAS, dostępnym w dziale materiałów do pobrania tego biuletynu. Poniżej przedstawiamy krótki przegląd każdej architektury: Klaster lokalny: Pojedynczy klaster zlokalizowany w jednym budynku. Awaria jednego serwera powoduje lokalne przejęcie przetwarzania przez drugi. Przywracanie przetwarzania danych po katastrofie w sieci metropolitalnej: Z wykorzystaniem zdalnego mirroringu: pojedynczy klaster jest rozmieszczony w dwóch lokalizacjach połączonych poprzez łącze Fibre Channel lub sieć SAN. Ośrodki są zazwyczaj oddalone o mniej niż 100 km. W przypadku usterki jednego serwera przejęcie przetwarzania może nastąpić lokalnie lub zdalnie w drugiej lokalizacji. Z wykorzystaniem replikacji: pojedynczy klaster jest rozmieszczony w dwóch lokalizacjach połączonych siecią IP. Odległości mogą być większe niż przy mirroringu, ale zazwyczaj nie przekraczają kilkuset kilometrów. W przypadku usterki jednego serwera przejęcie przetwarzania może nastąpić lokalnie lub zdalnie w drugiej lokalizacji. Przywracania przetwarzania po katastrofie z wykorzystaniem sieci rozległej: dwie oddzielne sieci kontrolują każdą lokalizację. W przypadku usterki jednej lokalizacji cały ruch zostaje przekierowany do drugiej lokalizacji. Architektura ta nie jest ograniczona odległością.
PODSUMOWANIE W dobie gospodarki internetowej ciągła dostępność systemów ma krytyczne znaczenie dla sukcesu każdego przedsiębiorstwa. Z tej przyczyny dostępność powinna dotyczyć nie tylko danych, ale również serwerów i aplikacji. W sytuacji gdy zaledwie 5% firm korzysta z rozwiązań chroniących dostępność swoich podstawowych systemów, wiele z nich ryzykuje utratę transakcji, przychodów, wizerunku i innych istotnych dla firmy wartości (źródło: VERITAS Disaster Recovery Survey, wrzesień 2004 r.). Stajemy zatem wobec ważnego pytania jakie koszty zewnętrzne i wewnętrzne poniosłaby nasza firma w rezultacie jednej godziny przestoju? Sama odpowiedź na to pytanie powinna uzasadnić potrzebę wdrożenia rozwiązania zapewniającego dostępność aplikacji. W sekcji tego biuletynu informującej o materiałach udostępnionych do pobrania znajdą Państwo multimedialną prezentację na temat VERITAS Cluster Server. Pewnego poniedziałku przyszliśmy rano do pracy i wszystko działało jak zwykle. Dopiero później dowiedzieliśmy się, że nastąpiła awaria serwera, a przetwarzanie zostało przeniesione do innego urządzenia przez VERITAS Cluster Server. Było to niedostrzegalne. Bill Augustadt, Główny Architekt i Technolog, BlueStar Solutions www.veritas.com Copyright 2004 VERITAS Software Corporation. Wszystkie prawa zastrzeżone. VERITAS, logo VERITAS i wszystkie inne nazwy produktów oraz hasła reklamowe VERITAS są znakami towarowymi lub zastrzeżonymi znakami towarowymi firmy VERITAS Software Corporation. Inne nazwy produktów i/lub hasła reklamowe użyte w niniejszym dokumencie mogą być znakami towarowymi lub zastrzeżonymi znakami towarowymi odnośnych firm. Specyfikacje i oferty produktów mogą ulec zmianie bez zawiadomienia.