Architektura i mechanizmy systemu Warsztaty Usługa powszechnej archiwizacji Michał Jankowski, PCSS Maciej Brzeźniak, PCSS
Plan prezentacji Podstawowe wymagania użytkowników - cel => Funkcjonalnośd i cechy systemu Zarys architektury - główne komponenty systemu Główne moduły oprogramowania i ich rola System od strony użytkownika Wyróżniające cechy systemu Podsumowanie
Wymagania użytkowników => podstawowe funkcje systemu Cel: Usługa kopii zapasowych i archiwizacji: => wymogi: np. nie primary storage np. nie współdzielenie danych Na podstawie: ankieta przeprowadzona wśród potencjalnych użytkowników Replikacja danych (min. 2 repliki) Wysoka trwałośd danych Wysoka dostępnośd
Rozproszenie systemu Skalowalnośd Unikanie centralnego punktu awarii Unikanie wąskich gardeł Wiele punktów dostępu do danych Dane replikowane do fizycznie różnych lokalizacji Częściowe rozproszenie baz danych Kompromis między pełnym rozproszeniem a centralizacją
Wysoka dostępność Dostęp do danych mimo awarii węzłów systemu lub separacji sieci: wiele punktów dostępu maskowanie awarii replikacja danych i meta-danych Wykrywanie anomalii działania: monitoring Raportowanie błędów (m.in. do NOC)
Wysoka dostępność dzięki replikacji Dostęp do danych mimo awarii węzłów systemu lub separacji sieci Użytkownik Dane użytkownika Usługa PLATON-U4 R E P L I K A C J A Replika 1 Replika 2 Replika 3 Centrum Danych 1 Centrum Danych 2 Centrum Danych 3
Wysoka dostępność dzięki replikacji Dostęp do danych mimo awarii węzłów systemu lub separacji sieci Użytkownik Dane dostępne! Dane użytkownika Usługa PLATON-U4 O D T W A R Z A N I E Replika 1 Replika 2 Replika 3 Centrum Danych 1 Centrum Danych 2 Centrum Danych 3
Integralność i trwałość danych Replikacja: synchroniczna i asynchroniczna Współbieżny dostęp rzadko Replikacja meta-danych Slony-I Mechanizm synchroniczny Implementacja odporna na awarie i błędy przetwarzania mechanizmy spójności
Replikacja: Replikacja danych synchroniczna vs asynchroniczna Dłuższy czas odpowiedzi systemu Krótszy czas odpowiedzi systemu Pewnośd dot. stanu/ spójności wszystkich replik =? Pewnośd dot. stanu / spójności tylko dla 1. repliki W architekturze KMD/PLATON-U4 obsługiwane są obydwa tryby replikacji!
Wydajność Użycie lekkich, niskopoziomowych mechanizmów Adekwatny czas dostępu VLAN w sieci PIONIER Monitoring wydajności i predykcja Użycie wydajnych protokołów wewnątrz systemu (NFS, GridFTP) Optymalizacja zakłada składowanie dużych plików
Poufność i bezpieczeństwo danych Szyfrowanie połączeo klient-system i wewnątrz systemu (X.509) Oddzielne przestrzenie nazw dla instytucji Audyty bezpieczeostwa systemu i oprogramowania Przechowywanie odpowiedniej liczby replik Wsparcie dla szyfrowania sprzętowego Komunikacja przez VPN
Zarządzanie cyklem życia informacji Zarządzanie ilością replik Synchroniczna i asynchroniczna replikacja Asynchroniczne usuwanie danych Retencja danych: Jeśli wymagana...
Dostęp do danych Standardowe protokoły dostępu do danych i meta-danych Po stronie użytkownika typowe oprogramowanie klienckie: SSH/SFTP (WinSCP, SSHFS) HTTP/WebDAV (przeglądarka internetowa, klient WebDav, mapowanie dysków w Windows) GridFTP Po stronie systemu emulowane systemy plików z danymi i meta-danymi
Zarys architektury Węzły dostępowe Meta-katalogi Baza użytkowników Węzły przechowywania Baza rozliczeniowa
System KMD - architektura a otoczenie Użytkownik Metakatalog Database Serwery metod dostępowych (SSH, HTTPs, WebDAV...) Wirtualny system plików dla danych i meta-danych Logika systemu KMD/PLATON-U4 Access Baza użytkowników Baza rozliczeo i limitów Serwery metod dostępu do replik System plików GPFS i klient HSM Replikacja Storage Storage System HSM System HSM
Meta-katalog Użytkownik Metakatalog Database Serwery metod dostępowych (SSH, HTTPs, WebDAV...) Wirtualny system plików dla danych i meta-danych Logika systemu KMD/PLATON-U4 Access Baza użytkowników Baza rozliczeo i limitów Serwery metod dostępu do replik System plików GPFS i klient HSM Replikacja Storage Storage System HSM System HSM
Meta-katalog Serce systemu : Logiczna struktura systemu plików Mapowanie plików logicznych na repliki Meta-dane o plikach: np. adnotacje wsparcie dla retencji danych historia operacji
Przykład meta-danych (historia operacji na pliku)
Demon dla danych i demon dla meta-danych Użytkownik Metakatalog Database Serwery metod dostępowych (SSH, HTTPs, WebDAV...) Wirtualny system plików dla danych i meta-danych Logika systemu KMD/PLATON-U4 Access Baza użytkowników Baza rozliczeo i limitów Serwery metod dostępu do replik System plików GPFS i klient HSM Replikacja Storage Storage System HSM System HSM
Demon dla Danych Koń roboczy systemu KMD Zapewnia dostęp do danych użytkowników Realizuje polityki bezpieczeństwa, replikacji, limitów, optymalizacji Emuluje logiczny system plików użytkownika na węźle dostępowym Dostęp dla użytkownika standardowymi metodami oraz przez portal Wytwarza dane accountingowe
Demon dla Meta-danych Emuluje system plików zawierający meta-dane na węźle dostępowym Pliki z meta-danymi umieszczone w katalogach odpowiadających logicznym plikom i katalogom Dostęp dla użytkownika standardowymi metodami oraz przez portal
Dane vs meta-dane
Baza użytkowników i baza rozliczeniowa Użytkownik Metakatalog Database Serwery metod dostępowych (SSH, HTTPs, WebDAV...) Wirtualny system plików dla danych i meta-danych Logika systemu KMD/PLATON-U4 Access Baza użytkowników Baza rozliczeo i limitów Serwery metod dostępu do replik System plików GPFS i klient HSM Replikacja Storage Storage System HSM System HSM
Baza użytkowników Instytucje klienci Kontrakty i profile (parametry usług) Liczba i lokalizacja replik Tryb replikacji Użytkownicy (certyfikaty)
Rozliczanie użytkowników (baza rozliczeniowa) Zajęta przestrzeo Liczba plików Ilośd operacji na plikach Limity (quota) Generowanie raportów i rachunków Statystyki
Monitoring i predykcja Monitoring pozwala administratorom na bieżąco kontrolować stan wszystkich elementów systemu Predykcja: pomaga w optymalnym wyborze repliki do odczytu lub węzła do zapisu
Metody dostępowe do danych a użytkownik Użytkownik Metakatalog Database Serwery metod dostępowych (SSH, HTTPs, WebDAV...) Wirtualny system plików dla danych i meta-danych Logika systemu KMD/PLATON-U4 Access Baza użytkowników Baza rozliczeo i limitów Serwery metod dostępu do replik System plików GPFS i klient HSM Replikacja Storage Storage System HSM System HSM
Po stronie systemu odpowiednie serwery usług SSH/SFTP / HTTP / WebDAV Po stronie klienta: typowe oprogramowanie klienckie specjalizowany portal Dostęp do danych
Systemy przechowywania hierarchicznego Użytkownik Metakatalog Database Serwery metod dostępowych (SSH, HTTPs, WebDAV...) Wirtualny system plików dla danych i meta-danych Logika systemu KMD/PLATON-U4 Access Baza użytkowników Baza rozliczeo i limitów Serwery metod dostępu do replik System plików GPFS i klient HSM Replikacja Storage Storage System HSM System HSM
Przechowywanie danych HSM (Hierarchical Storage Management) pamięd systemu
Jak użytkownik widzi system?
Wyróżniające cechy systemu Replikacja synchroniczna i asynchroniczna Semi-synchroniczna replikacja meta-danych Oddzielne (logicznie i fizycznie) przestrzenie dla użytkowników Wysoki stopieo decentralizacji Niezależne meta-katalogi Brak potrzeby specjalizowanego oprogramowania klienckiego
Oprogramowanie KMD i Usługa Powszechnej Archiwizacji dają użytkownikom dostęp do skalowalnej i rozproszonej infrastruktury opartej na nowoczesnej technologii nieosiągalnej dla większości instytucji System został zaprojektowany tak, aby spełnid wymagania użytkowników w zakresie: Bezpieczeostwa danych Wysokiej trwałości danych Niezawodności Prostoty użytkowania Podsumowanie System jest innowacyjny względem istniejących rozwiązao
Usługa Powszechnej Archiwizacji Architektura i mechanizmy systemu Dziękujemy za uwagę Kontakt: michal.jankowski@man.poznan.pl kmd.pcss.pl