Konfiguracje wysokiej dostępności Wysoka niezawodność - ochrona systemu ( protect the system ) - HA - Klastry wysokiej niezawodności Ochrona organizacji ( protect the organization ) - rozdział geograficzny
Katastrofy Fizyczne uszkodzenie sprzętu komputerowego Uszkodzenie łączy komunikacyjnych Utrata zasilania 2
Źródła błędów i koszty ich poprawy 7% Źródła błędów 4% 1% Koszty poprawiania błędów 10% 13% ` 27% 56% Analiza potrzeb Projektowanie Inne Kodowanie 82% 3
Redundancja informacji (dodatkowe bity; kod Hamminga) czasu (powtórzenie działania - niepodzielne transakcje; wady przejściowe lub nieciągłe) fizyczna aktywne zwielokrotnienie zasoby rezerwowe 4
Redundancja na poziomie komputera Klastry komputerów 1 High Availability Node 1 Node 2 High Availability Array 5
Klastry komputerów 2 Redundancja na poziomie komputerów i macierzy Node 1 Node 2 A A' High Availability Array 6
Klastry komputerów 3 Rozproszenie komputerów Heartbeat Networks...... Node 1 Hub 2km* Hub Node 2 1 3 HA Disk Array/FC 1 (cluster lock) Hub 2 2km Hub 4 HA Disk Array/FC 2 (cluster lock)...... Building 1 Building 2 7
Typowa struktura HAC przykład: MC/Service Guard MC/ServiceGuard Cluster (Local) EMC Symmetrix ICDA (Local) SRDF Link EMC Symmetrix ICDA (Remote) 8
Macierz odległa No Cluster One or More Hosts (Local) No Cluster Zero or More Hosts (Remote) MANUAL FAILOVER Optional EMC Symmetrix ICDA (Local) SRDF Link EMC Symmetrix ICDA (Remote) 9
HAC z macierzą odległa i komputerem rezerwowym MC/ServiceGuard Cluster (Local) Disaster Recovery System (Remote) MANUAL FAILOVER EMC Symmetrix ICDA (Local) SRDF Link EMC Symmetrix ICDA (Remote) 10
Dwa niezależne klastry (drugi oczekuje na awarie) MC/ServiceGuard Cluster (Local) MC/ServiceGuard Cluster (Remote) MANUAL FAILOVER EMC Symmetrix ICDA (Local) SRDF Link EMC Symmetrix ICDA (Remote) 11
Podwójny klaster (fault tolerant) MC/ServiceGuard Cluster (Campus) Each heartbeat network is a single IP subnet Arbitrator (Data Center C) HA Net Bridge or FDDI EMC Symmetrix ICDA (Data Center A) SRDF Link (ESCON) EMC Symmetrix ICDA (Data Center B) 12
Systemy oprogramowania Producent IBM HP SUN Compaq Data General Veritas (firma 3-cia) System High Availability Cluster Multiprocessing (HACMP) RS6000 System Parallel Sysplex (S390) MultiCluster Service Guard (MC/SG) HP9000 Lock Manager for Oracle Parallel Server SUN Cluster NonStop Software (Himalaya) OpenVMS Cluster Software (dla VMS) DG UX Clusters (dla AVxxxxx) Cluster Server (VCS) 13
Porównanie MC/ServiceGuard firmy HP i HACMP Cluster Solution firmy IBM Cecha HP MC/SG IBM HACMP Automatyczne wykrywanie uszkodzenia tak tak sprzętu, bazy danych, aplikacji Do 8 komputerów w klastrze tak tak system plików NFS tak tak Dodanie nowej aplikacji bez przerywania tak tak dotychczasowych Dodanie nowego węzła bez przerywania tak tak pracy pozostałych Zarządzanie zdalnymi klastrami z jednego tak tak miejsca Możliwość monitorowania działających tak brak danych aplikacji Dealokacja uszkodzonych stron pamięci tak nie Dynamiczna zmiana przydziału tak nie procesorów i pamięci operacyjnej 14
A = 99,999 % Elementy Avoidance Preventing planned and unplanned downtime Regeneration Transparent fast repair of components Inclusion Extending availability through the entire IT stack Simplicity Enhancing ease-of-installation and ease-of-use Expertise Enabling end-to-end support 15
Przykład: MC/Service Guard Backward compatibility: - Operating System - MC/ServiceGuard Hardware or software upgrades... Pkg D Pkg E Pkg A Pkg F...then roll through the cluster Pkg A Pkg D Pkg C Pkg H Pkg B Pkg G Pkg B Pkg C Pkg E Pkg H Pkg F Pkg G Pkg I Pkg I 16
MC/ServiceGuard HA Clusters Fast application failover LAN failure protection Survives multiple node failures No idle systems Workload balancing features Rolling Upgrades Online Reconfiguration New Functionality Rotating standby Automatic failback 16-node support Tape Sharing EMS integration 17
MC/ServiceGuard and Built-in Workload Balancing Node 1 Pkg A Pkg B Pkg C If Node 1 fails... Node 2 Pkg D Pkg E Pkg A Node 4 Pkg C Pkg H Pkg I Balance workload after a node failure Minimize impact on remaining nodes Node 3 Pkg B Pkg F Pkg G 18
PRM with MC/ServiceGuard: Load Balancing Pkg C 100% Pkg A Pkg B 80% 20% Dynamic allocation of processing procedures Load balancing for normal and postfailure operation Node 1 Node 2 Pkg C Pkg C 70% If Node 1 fails Pkg A 20% Pkg B 10% Node 1 Node 2 19
Full-range Disaster Tolerant Solutions Flexibility, Functionality Local Cluster Single cluster Automatic failover Same data center Campus Cluster Single cluster Automatic failover Same site Systems up to 10KM apart Metro Cluster Single cluster Automatic failover Same city EMC SRDF Data sites up to 50KM apart Continental Clusters Separate clusters "Push-button" automated failover Same planet!! Data sites at unlimited distance! Distance 20
Campus Clusters: fast, flexible HA & local disaster protection Builds on MC/SG capabilities Single cluster, multiple sites Continuous site-to-site data mirroring Based on Fibre Channel for speed & up to 10 km distance FC HUB FC HUB Heartbea t 10 km 10 km FC HUB FC HUB HA Disk Array or EMC HA Disk Array or EMC 21
High Availability and Disaster Recovery ( przykład ) Highly redundant network with no single point of failure. 22
High Availability and Disaster Recovery ( przykład ) Clients Clients Building 1 Building 2 Campus Network Appl. Server 1 2x Serial, Appl. Server 2 1x Private Ethernet Distance 10 km Tape Library Fibre Channel SAN Fibre Channel Raid 1 Fibre Channel Raid 2 23
Scalability Can scale to very large configurations quickly 24
World-Wide Data Protection with HP Continental Clusters Cluster Detection Data Replication Highest levels of availability & disaster tolerance Reduces downtime from days to minutes Locate data centers at economically and/or strategically best locations Transparent to applications and data Push button or automatic (phase 2) failover across 1000s of km Supports numerous wide area data replication tools for complete data protection Comprehensive Support Services and Business Recovery Services for planning, design, and support 25
Connection options IP network with iscsi devices used FC or IP SAN iscsi (Internet Small Computer Systems Interface) FCIP (Fibre Channel over TCP/IP) ifcp (Internet Fibre Channel Protocol) isns (Internet Storage Name Service) network FC or IP SAN 26
Tiers Podsumowanie Tier I podstawowy. Jest nieodporny na błędy ludzkie, ma wiele możliwych punktów awarii, a niemożność równoczesnej konserwacji utrudnia prace przy wykorzystaniu maszyn wirtualnych. Tier II zawiera już elementy nadmiarowe, ale, podobnie jak Tier I, ze względu na brak możliwości wykorzystania kanałów alternatywnych (nie zawiera ich), uniemożliwia konserwację w trakcie pracy. Liczba możliwych awarii jest tu wciąż wysoka. Tier III wybór racjonalny, zawierający tylko kilka możliwych punktów awarii. Tier IV, ze względu na zastosowanie dwóch równoległych systemów, gwarantuje niemal całkowitą niezawodność rozwiązania, które może przestać działać tylko w wypadku ciężkiego uszkodzenia sprzętu, np. pożaru. Z oczywistych względów, np. wielokrotnej nadmiarowości tego systemu, jest on najdroższy w budowie i ten właśnie koszt może okazać się główną barierą w jego stosowaniu. Niemal Fault Tolerance. 27
Zasilanie Tier I - pojedyncza linia dystrybuująca zasilanie bez nadmiarowych komponentów 99,671 % dostępności. Tier II - pojedyncza linia dystrybuująca zasilanie z nadmiarowymi komponentami 99,741 % dostępności. Tier III - wiele aktywnych instalacji zasilających, tylko jedna z nich ma elementy zapewniające redundancję oraz jest utrzymywana konkurencyjnie 99,982 % dostępności. Tier IV - wiele aktywnych instalacji zasilających, ma komponenty nadmiarowe i jest odporna na uszkodzenia, zapewnia 99,995 % dostępności. 28
Porównanie poziomów Tier Tier I Tier II Tier III Tier IV Źródło System System System System + System Liczba ścieżek dystrybucji 1 1 1 aktywana + 1 alternatywna (active passive) 2 jednocześnie aktywne (active active) Nadmiarowość brak N+1 N+1 Minimalnie N + 1 Przedziałowość Nie Nie Tak Tak Możliwość konserwacji bez przestojów Odporność na awarie (pojedyncza awaria) Nie Nie Tak Tak Nie Nie Nie Tak Pojedynczy punkt awarii Wiele + błędy ludzkie Wiele + błędy ludzkie Kilka + błędy ludzkie Brak + wyłączenie zasilania w przypadku awarii lub pożaru Dostępność 99.671 % 99.741 % 99.982 % 99.9995 % 29
Odpowiedniość poziomu Tier Tier I dla małych firm, w których technologia informatyczna jest wykorzystywana głównie w wewnętrznej działalności, które nie odczuwają finansowo skutków awarii centrum danych. Tier II dla małych firm, które działają w typowych godzin pracy i nie potrzebują dostępu online po ich zakończeniu oraz są chronione przed brakiem dostępności systemu na podstawie umów. Tier III dla firm, które działają całodobowo, lecz mogą pozwolić sobie na krótkotrwałe, planowane okresy ograniczonej funkcjonalności i godzą się na efekty zakłóceń spowodowanych przez zdarzenia nieplanowane. Firmy często decydują się na Tier III, mając w perspektywie rozbudowę do Tier IV w późniejszym okresie. Tier IV dla firm działających 24 godziny na dobę przez wszystkie dni w roku w sektorze dużej konkurencji, w których dostęp klientów i pracowników do aplikacji decyduje o konkurencyjności. Rozumieją koszty awarii pod względem finansowym i wpływu na pozycję rynkową, nie wahają się inwestować w najlepsze rozwiązania. 30
W środowisku zwirtualizowanym Wbudowana funkcjonalność HA migracja maszyn wirtualnych w przypadku awarii serwera dla: VMware vsphere XenServer 31
Środki zabezpieczeń danych Macierze dyskowe RAID automatyczne biblioteki taśmowe urządzenia do zapisu optycznego dyskach CD. na 32