Zagrożenia dla danych Problemy i scenariusze Warsztaty Usługa powszechnej archiwizacji Maciej Brzeźniak, PCSS
Zagrożenia dla danych: Plan prezentacji Duże ilości danych produkowane i przechowywane: w instytucjach i projektach naukowych przez indywidualnych użytkowników Praktyczne zagrożenia dla danych: uszkodzenie lub utrata danych starzenie się danych i nośników oraz rozwój/ starzenie się technologii Przyczyny problemów z zabezpieczeniem danych i wyzwania z tym związane: Złożonośd procesu zabezpieczenia danych Brak know-how i doświadczenia w dziedzinie Ograniczone zasoby, koszty Możliwe rozwiązania Outsourcing do PLATON-U4 Przykładowi użytkownicy i scenariusze: Biblioteki cyfrowe i archiwa Operatorzy sieci miejskich Naukowcy, pracownicy uczelni, studenci
Dane jako wartość Dane są bardzo wartościowe: Bezcenne zbiory cyfrowe Wyniki kosztownych badao Prywatne dokumenty = => Konieczne jest dobre zabezpieczanie danych: Dobre = odporne na zagrożenia, którym podlegają dane
Danych jest coraz więcej Wzrost objętości danych na świecie przekracza dotychczasowe prognozy: roczny PRZYROST danych na świecie: 2006: 161 exabajtów *IDC/ NYT + 2007: 181 exabajtów *IDC/ DailyTech + 2010: 1,250 exabajtów w 2010 [IDC, prognoza 2009) 2010: 1,800 exabajtów *) *IDC, 2010, The Economist + roczny: przyrost danych / 1 użytkownika: 2006: 45 GB / osobę (IDC) 2010: 260 GB / osobę *IDC, 2009, The Economist + => Ciągły przyrost objętości danych sprawia, że lokalne systemy przechowywania należące do instytucji i użytkowników mogą okazad się za małe... lub za drogie... *) 1 exabajt = 1000 petabajtów = 1000x1000 terabajtów
Naukowe dane cyfrowe: Biblioteki cyfrowe: 80-100 TB rocznie Wirtualne laboratoria: 5 TB / dobę (!) Infrastruktura EDU-IT: Akademickie centra obliczeniowe: 300 TB dziś Operatorzy sieci miejskich MAN w ramach konsorcjum PIONIER: 14 TB/miesiąc Instytucje naukowe: Instytuty naukowe: setki jednostek Uczelnie: prawie 500 uczelni Szpitale kliniczne: ponad 50 w całym kraju Ludzie: Producenci danych w Polsce (1) Naukowcy, studenci: tysiące osób, PetaBajty danych
Producenci danych w Polsce (2) Naukowe dane cyfrowe: Biblioteki cyfrowe: Zbiory cyfrowe dużej objętości Wiele instytucji skanuje oryginały dzieł w wysokiej rozdzielczości: 100-300 MB / plik 300-400 GB / dobę 80-100 TB / rok źródło: sxc.hu Wirtualne laboratoria: Radioteleskopy: np.10 teleskopów x 512 Mbit/s 5,3TB / dobę (!) np. projekty: Express, JIVE.NL źródło: sxc.hu źródło: swaen.com źródło: http://www.astron.nl/
Infrastruktura EDU-IT: Akademickie centra obliczeniowe: Np. PCSS: Producenci danych w Polsce (3) Kopie zapasowe systemów i projektów: 50 TB Dane użytkowników: 15 TB Ekstrapolując: 5 centrów KDM/HPC ~300 TB Prognozowany duży wzrost związany z inwestycjami w systemy obliczeniowe Operatorzy sieci miejskich (MAN) w ramach konsorcjum PIONIER Wolumen ruchu PIONIER-MANy (IV.2010): 696 TB /dobę 20 883 TB / miesiąc Ilośd danych do archiwizacji (do 5% ruchu): 1 044 TB/miesiąc całośd informacji ~ 14 TB/miesiąc - przy zapisie wyłącznie nagłówków 5% ruchu (zakładając header /packet 20/1500)
Instytucje naukowe: Instytuty badawcze: 1) Ponad 600 jednostek -- produkcja i potrzeba zabezpieczenia ogromnych ilości danych (trudno oszacowad...), w tym: PAN: 81 placówek, B+R: 222 jednostek Instytuty przy zakładach przemysłowych: 402 Uczelnie: Producenci danych w Polsce (4) 457 uczelni: 131 publicznych i 326 prywatnych 2) Systemy informatyczne uczelni... PetaBajty danych Szpitale kliniczne: 54 szpitale w 24 miastach Duże zapotrzebowanie na przestrzeo archiwizacji danych 1) za GUS, dane z 2006 r. 2) za http://pl.wikipedia.org/wiki/szkoły_wyższe_w_polsce
Ludzie: Naukowcy: 1) Producenci danych w Polsce (5) PAN: 6 800 osób B+R: 21 500 osób Szkoły wyższe: 80 000 osób Studenci: Ogromna liczba studentów Liczba studentów w Polsce (w tys.) 1) za GUS, dane z 2006 r. źródło: http://www.studenckamarka.pl/serwis.php?s=73&pok=1909
Producenci danych w Polsce (5) Ludzie zapotrzebowanie na przestrzeo:
Przyrost danych - podsumowanie Duża ilośd danych Przechowywanie danych może przekraczad możliwości instytucji lub osoby indywidualnej! Problemy/zagrożenia: Bezpieczeostwo danych Integralnośd i poufnośd Trwałośd danych Złożonośd procesu Zasoby i koszty
Zabezpieczenie danych zagrożenia i wyzwania (1) Trzeba zapewnid: Bezpieczeostwo fizyczne danych Kontrolę integralności logicznej danych oraz poufnośd danych Długoterminowe przechowywanie i udostępnianie wykonanych kopii Narzędzia wspierające wykonywanie kopii danych i dostęp do nich (odtwarzanie)
Zabezpieczenie danych zagrożenia (2) Bezpieczeostwo fizyczne danych: => Warto przechowywad dane w co najmniej 1 dodatkowej lokalizacji...
Zabezpieczenie danych zagrożenia (3) Integralnośd logiczna i poufnośd danych Problem 1 integralnośd logiczna
Zabezpieczenie danych zagrożenia (4) Integralnośd logiczna i poufnośd danych Problem 2 poufnośd danych
Zabezpieczenie danych zagrożenia (5) Długoterminowe przechowywanie danych i udostępnianie przechowywanych kopii: Ograniczona trwałośd nośników Dysk twardy 5-10 lat (w zależności od obciążenia) CD/DVD praktycznie 5-10 lat Pamięd flash 10 lat Taśma LTO 15-30 lat (5000 montowao)
Zabezpieczenie danych zagrożenia (6) Długoterminowe przechowywanie danych i udostępnianie przechowywanych kopii: Wytrzymałośd dysków twardych MTBF (Mean Time Between Failures): Jest miarą statystyczną: Nic nie mówi o niezawodności pojedynczego dysku!!! Jest zawyżany przez producentów (3-5x...) *) Typowe wartości: 300 000 h dyski do stacji roboczych: 0,88 dysków / 100 dysków może ulec awarii w ciągu roku 1 000 000 h dyski do serwerów i macierzy 2,92 dysków / 100 dysków może ulec awarii w ciągu roku SMART (Self-Monitoring, Analysis, and Reporting Technology): Monitoruje wiele parametrów dysków twardych, min. liczniki błędów i parametry fizyczne pracy dysków Praktyczna skutecznośd jest niestety ograniczona *) Failure Trends in a Large Disk Drive Population, 5th USENIX Conference on File and Storage, Technologies (FAST 07), February 2007, San Jose, CA, USA
Zabezpieczenie danych zagrożenia (7) Długoterminowe przechowywanie danych i udostępnianie przechowywanych kopii: Migracja danych między technologiami przechowywania (dyski) Dysk twardy 3,5 (Rodime, 1986) Dysk twardy IBM 350 (1956) SSD (1995, M-Systems i później)
Zabezpieczenie danych zagrożenia (8) Długoterminowe przechowywanie danych i udostępnianie przechowywanych kopii: Migracja danych między technologiami przechowywania (taśmy) TK50 (DEC, 1984, 0.1GB) -> DLT-S4 (Quantum, 2006, 800GB) Napęd taśmowy IBM 727 (1952...) LTO1-LTO5 (Seagate-HP-IBM, 2000-2010, 0.1-1.5TB)
Zagrożenia a problemy z zabezpieczeniem Dane podlegają wielu zagrożeniom => Powinniśmy je zabezpieczyd... Ale są z tym problemy...
Przyczyny problemów z zabezpieczeniem danych (1) Złożonośd procesu wykonywania kopii danych i dostępu do nich: Problem 1: złożonośd procesu
Przyczyny problemów z zabezpieczeniem danych (2) Złożonośd procesu wykonywania kopii danych i dostępu do nich: Problem 2: potrzeba automatyzacji Dzieo 1 Dzieo 2 Dzieo 3 Dzieo 4 Dzieo 5 - wakacje Kopia Kopia Kopia Kopia Brak kopii Wakacje już na zawsze
Przyczyny problemów z zabezpieczeniem danych (3) Brak doświadczenia i know-how w dziedzinie: Wiele instytucji nie ma dedykowanych działów IT lub są one niedoszacowane (za mało pracowników) Działy IT w wielu instytucjach: zaniedbują proces wykonywania kopii danych, który: jest uciążliwy jeśli nie zautomatyzowany nie jest regularny obejmuje wycinek danych organizacji nie mają doświadczenia z zarządzaniem dużymi ilościami danych i cyklem życia danych
Przyczyny problemów z zabezpieczeniem danych (4) Brak zasobów: Ludzkich do obsługi procesu Sprzętu i oprogramowania do automatyzacji procesu Dysk 1TB, Koszt: 300 zł brak redundancji (np. RAID) Macierz SAS-SATA: 12-48x dysk 1TB, Koszt: 30 000 90 000 zł redundancja (RAID) Macierz FC-SATA: 16 x dysk 1TB, koszt: 280 000 zł (tzw. List Price) redundancja (RAID) Sied SAN koszt: 100 000 zł Taśma LTO5, 1.5 TB Koszt: 800 zł Wymaga napędu Napęd IBM TS2350: 1 taśma, 1 napęd, koszt: Autoloader Quantum Superloader 3; 16 taśm, 1 napęd koszt: Oprogramowanie: Koszt: 4 000 -... zł Wymaga serwera
Przyczyny problemów z zabezpieczeniem danych (5) Wysokie koszty: tanie dyski dysk 1TB, koszt: 300 zł brak redundancji (np. RAID) Załóżmy: 12 TB 12 dysków koszt: 3 600 zł Nadal brak redundancji! Dołóżmy redundancję RAID Dysk dekstop: koszt: 300 zł Dysk serwerowy: koszt: 1 000 zł + kontroler RAID karta PCI do serwera Koszt 1 200 zł + serwer 12 wnęk na dyski Koszt ok. 20 000 zł Macierz SAS-SATA: 12 dysków 1TB 12 TB fizycznie 10 TB logicznie REDUNDANCJA (RAID +2 kontrolery) Koszt ok. 30 000 zł / 12 TB => 2 500 zł / TB + + = RAZEM: 12 TB fizycznie 10 TB logicznie (RAID) REDUNDANCJA! Koszt ok. 34 000 zł => 3 400 zł / TB
Przyczyny problemów z zabezpieczeniem danych (6) Wysokie koszty: Skalowalnośd kosztów System dyskowy 12-48 TB + + = + + = + + = + + = 1 server: 12 TB 12 TB fiz., 10 TB logicznie (RAID) Koszt ok. 34 000 zł => 3 400 zł / TB + server: 12 TB 12 TB fiz., 10 TB logicznie (RAID) Koszt ok. 34 000 zł => 3 400 zł / TB + server: 12 TB 12 TB fiz., 10 TB logicznie (RAID) Koszt ok. 34 000 zł => 3 400 zł / TB + server: 12 TB 12 TB fiz., 10 TB logicznie (RAID) Koszt ok. 34 000 zł => 3 400 zł / TB Macierz SAS-SATA: 12 dysków 1TB 12 TB fizycznie, 10 TB logicznie REDUNDANCJA (RAID +2 kontrolery) Koszt ok. 30 000 zł/12 TB => 2 500 zł/tb + półka SATA: 12 dysków 1TB 12 TB fizycznie, 10 TB logicznie Koszt ok. 51 000 zł/24 TB => 2 125 zł/tb + półka SATA: 12 dysków 1TB 12 TB fizycznie, 10 TB logicznie Koszt ok. 72 000 zł/36 TB => 2 000 zł/tb + półka SATA: 12 dysków 1TB 12 TB fizycznie, 10 TB logicznie Koszt ok. 93 000 zł/48 TB => 1 950 zł/tb + SERWISY... (typowo po 3 latach ok. 10% ceny listowej / rok)
Przyczyny problemów z zabezpieczeniem danych (7) Wysokie koszty: taśmy Taśma LTO5, 1.5 TB koszt: 800 zł wymaga napędu Załóżmy: 16 taśm 24 TB (LTO5) Dołóżmy autoloader Np. zmieniarka Quantum Superloader 3 24 TB fizycznie 12 TB logicznie z REDUNDANCJĄ Koszt ok. 22 000 zł Koszt 16 taśm: 12 800 zł - brak redundancji! - wymagana zmieniarka Dołóżmy oprogramowanie Oprogramowanie: Koszt: 4 000 zł Wymaga serwera oraz serwer... 1 serwer 2 x 4-core CPU 6 dysków wewn. (baza oprogramowania) Koszt ok. 20 000 zł + + + = + SERWISY... (typowo po 3 latach ok. 10% ceny listowej / rok) RAZEM: 24 TB logicznie, 12 TB fizycznie (RAID) Koszt ok. 58 800 zł 2 450 zł / TB (bez redundancji) 4 900 zł / TB (zakładając redundancję 1:1)
Przyczyny problemów z zabezpieczeniem danych (8) Wysokie koszty: Taśmy - skalowalnośd Załóżmy: 16 taśm 24 TB (LTO5) 16 taśm: 12 800 zł + Autoloader: 22 000 zł + + Oprogramowanie: 4 000 zł Serwer: 20 000 zł = RAZEM: 24 TB logicznie, 12 TB fizycznie (RAID) Koszt ok. 58 800 zł 2 450 zł / TB (bez redundancji) 4 900 zł / TB (zakładając redundancję 1:1) Załóżmy: 32 taśmy 48 TB (LTO5) + + + + Oprogramowanie: 4 000 zł Serwer: 4 000 zł = RAZEM: 24 TB logicznie, 12 TB fizycznie (RAID) Koszt ok. 93 600 zł 1 950 zł / TB (bez redundancji) 3900 zł / TB (zakładając redundancję 1:1) 32 taśm: 25 600 zł Autoloader: 22 000 zł
Przyczyny problemów z zabezpieczeniem danych (9) Koszty systemu - zakup i utrzymanie
Przyczyny problemów z zabezpieczeniem danych (10) Koszty 1 TB danych zakup i utrzymanie
Problemy z zabezpieczeniem danych (11) Wiele problemów z zabezpieczeniem danych => Potrzebne jest solidne i wiarygodne rozwiązanie tych problemow
Outsourcing problemu jedyne realne rozwiązanie? Outsourcing problemu może okazad się: Skuteczniejszy Taoszy Outsourcing opcje: Usługi kopii zapasowych w sieci: np. ibard24, AutoBackup.pl => Kosztowne przy dużej ilości danych Przechowywanie chmurowe: Amazon S3 (Simple Storage Service) => Kosztowne przy dużej ilości danych Przechowywanie w PLATON-U4: => Bezpłatne dla użytkowników akademickich i naukowych przez pierwsze 3 lata...
Outsourcing problemu alternatywy dla PLATON-U4 Koszty składowania w innych systemach... ibard24 1) : osoby prywatne firmy 1 GB - 0,00 zł / rok 0,00 zł / rok 10 GB - 98,99 zł / rok 249,99 zł / rok 100 GB - 798,99 zł / rok 1399,99 zł / rok > 100 GB - brak cen AutoBackup.pl 2) : 1 GB - 29,80 zł / rok (taryfa <3 GB) 10 GB - 154,80 zł / rok (taryfa 3-30 GB) 100 GB - 468,00 zł / rok (?) bez limitu pojemności (taryfa >30 GB) Amazon S3 3) : 20% out 50% out 100% out 1 GB - 6 zł / rok 7 zł / rok 7 zł / rok 10 GB - 68 zł / rok 69 zł / rok 71 zł / rok 100 GB - 684 zł / rok 689 zł / rok 715 zł / rok 1 TB - 6 840 zł / rok 6 892 zł / rok 7 154 zł / rok kruczki: PUT, COPY, POST, or LIST $0.01 per 1,000 Requests GET and All Other Requests*** $0.01 per 10,000 Requests XX% out - założenie: użytkownik pobiera do XX% danych składowanych uprzednio w systemie 1) https://www.ibard24.pl/pl/cennik 2) źródło: http://www.auto-backup.pl/cennik 3) na podstawie: http://aws.amazon.com/s3/, założenie: (1) 1$ = 3,49 PLN
Outsourcing problemu PLATON-U4 Koszty składowania w PLATON-U4: Przez 3 lata za darmo Po 3 latach (od 2012) przez 5 lat: Utrzymanie usługi w ramach kosztów własnych Dane Usługa PLATON-U4 Inne czynniki: Nie jesteśmy instytucją anonimową... Partnerzy projektu są znani w środowisku akademickim/ naukowym Umowa podpisywana pomiędzy konkretnym ośrodkiem KDM/MAN i klientem Działamy w Polsce: w polskiej sieci naukowej i w sieciach miejskich w ramach polskiego prawa
PLATON-U4 nie tylko outsourcing problemu PLATON-U4: Standardowe/łatwe interfejsy Automatyzacja Prawdziwa redundancja danych Wsparcie dla procesu kopiowania danych / archiwizacji Dane Usługa PLATON-U4
Zabezpieczenie danych wyzwania (1) Ułatwienie procesu wykonywania kopii danych i dostępu do nich: intuicyjny interfejs Dostęp sieciowy: sftp, SCP, WebDAV... Aplikacja Web owa Aplikacja backup/archive
Zabezpieczenie danych wyzwania (2) Ułatwienie procesu wykonywania kopii danych i dostęp do nich (odtwarzania): automatyzacja
Zabezpieczenie danych wyzwania (3) Zapewnienie faktycznej redundancji danych: Ograniczenia zabezpieczeo grupami RAID: RAID nie chroni przed kataklizmem Zapewnia redundancję danych w ramach pojedynczego urządzenia / pomieszczenia /centrum danych => Konieczna jest replikacja!!!! RAID nie chroni przed błędem użytkownika Wszystkie błędne operacje są wykonywane na RAID => Konieczne jest regularne i automatyczne wykonywanie kopii zapasowych
Zapewnienie faktycznej redundancji danych: Użytkownik Dane użytkownika Usługa PLATON-U4 R E P L I K A C J A Replika 1 Replika 2 Replika 3 Centrum Danych 1 Centrum Danych 2 Centrum Danych 3
Zapewnienie faktycznej redundancji danych: Użytkownik Dane dostępne! Dane użytkownika Usługa PLATON-U4 O D T W A R Z A N I E Replika 1 Replika 2 Replika 3 Centrum Danych 1 Centrum Danych 2 Centrum Danych 3
Zabezpieczenie danych wyzwania (3) Wsparcie dla procesu wykonywania kopii m.in. Zabezpieczenie przed propagacją błędów użytkowników Dzieo 1 Dzieo 2 Dzieo 3 Dzieo 4 Dzieo 5 Kopia Kopia Odtworzenie Kopia REGULARNY BACKUP
Zabezpieczenie danych wyzwania (4) Optymalizacja kosztów: Regularny backup kosztuje: Trzeba robid regularne kopie... Koszty składowania są wysokie... Odpowiednie polityki = optymalizacja: Kopie przyrostowe Sprawna implementacja polityk = automatyzacja
Zagrożenia i wyzwania: Dane są bardzo wartościowe lub nawet bezcenne Dane są wrażliwe Danych jest coraz więcej: Instytucje Użytkownicy indywidualni Podsumowanie (1) Efektywne zabezpieczenie dużych ilości danych: jest trudne... i kosztowne
Sensownym wyjściem wydaje się outsourcing: Ktoś inny martwi się: O bezpieczeostwo fizyczne Poufnośd Integralnośd Trwałośd nośników Migrację między technologiami Wartości dodane: Standardowe interfejsy Podsumowanie (2) Proponujemy usługi PLATON-U4: Rozproszony system z replikacją geograficzną Znany dostawca usługi Konkurencyjne koszty Dane Usługa PLATON-U4
Usługa Powszechnej Archiwizacji Dziękujemy za uwagę Kontakt: maciekb@man.poznan.pl kmd.pcss.pl