Nowoczesne systemy przechowywania danych Stanisław Jankowski
Dysk twardy uniwersalne medium przyszłości (?) Źródło: Wikipedia: http://en.wikipedia.org/wiki/hard_disk_drive
Dysk twardy Dyski nie rozwijają się tak szybko jak procesory 2009 2008 2007 2005 Źródło: http://www.tomshardware.com/reviews/sas-hard-drive,2566.html
Dysk twardy Dyski nie rozwijają się tak szybko jak procesory Ew olucja napędów "desktopow ych" - 7200 obr/min (2001-2007) Ew olucja napędów "serw erow ych" - 15 000 obr/min (2002-2007) 1000 300 900 800 250 700 200 600 500 150 400 300 100 200 50 100 0 2001 2002 2003 2004 2005 2006 2007 rok 0 2002 2003 2004 2005 2006 2007 rok Max. Transfer rate GB/ platter Capacity [GB] Read access time: 12.3-14.4 ms Max. Transfer rate GB/ platter Capacity [GB] Read access time: 5.5-5.9 ms
Konsolidacja Pamięci Masowej lata 60 lata 90 IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata 80 konsolidacja klient - serwer XXI wiek Komputer PC zdobywa każdą przestrzeń w przedsiębiostwach Data Center - konsolidacja serwerów - konsolidacja przestrzeni dyskowej
NAS urządzenia plikowe Dostęp do zasobów przy użyciu protokołów: NFS (Network File System) CIFS (Common Internet File System) WWW, ftp DLNA (klientem Telewizor LCD) Realizacja na różne sposoby: zastosowanie zwykłych serwerów, które pełnią rolę serwerów plików korzystając poprzez SAN ze wspólnych zasobów dyskowych filery (JBOD + serwer ) z własnymi dyskami, bramy SAN-NAS korzystające z zewnętrznych macierzy NetApp, BlueArc, OnStor Dostępne rozwiązania dla wysokowydajnych usług plikowych: klastry serwerów NFS pnfs CXFS system plików sprzedawany przez SGI czyli RACKABLE GPFS system plików sprzedawany przez IBM a lustre wysokowydajny klastrowy system plików sprawdza się dla dużych bloków (blok 1MB) działająca proteza zanim pojawi się pnfs
SAN dedykowana sieć łączy urządzenia w sieci każdy z każdym protokoły blokowe zapewnia wydajną transmisję danych pomiędzy urządzeniami pracującymi w sieci Serwery Sun HP L A N S/390 RS/6000 xseries S A N
SAN - infrastruktura Macierze dyskowe modularne półka kontrolerów + półki z dyskami: OEM LSI: IBM, SUN, SGI monolityczne duża liczba kontrolerów (procesorów IO), portów, redundancja połączeń Biblioteki taśmowe/magnetooptyczne Przełączniki FC / urządzenia typu Director Karty HBA (Host Bus Adapter) System nadzoru i zarządzania
SAN zalety/wady Zalety: Elastyczność: dostęp do zasobów i możliwość dowolnej ich konfiguracji bez konieczności zmian w fizycznej strukturze urządzeń i okablowaniu Separacja zasobów: na poziomie macierzy - LUN masking interfejsy serwerów reprezentowane są w macierzy poprzez unikalne numery WWN numerowi WWN przypisany jest wolumen logiczny w macierzy (utworzony w ramach grupy RAID), co umożliwia współdzielenie portów macierzy przez różne serwery, bez ryzyka przejęcia "cudzych" zasobów na poziomie przełączników - podział na strefy (WWN zoning, port zoning) ograniczenie ruchu pomiędzy wybrane porty przełącznika FC Funkcjonalność podobna do VLAN w sieciach Ethernet na poziomie kart HBA serwera - persistent binding. definicja zasobów widzianych przez interfejsy HBA serwera Wady: wysoka cena wdrożenia problemy przy rozbudowie/aktualizacji oprogramowania
Fibre Channel Na początku był HIPPI, łączył superkomputery przy pomocy 50 parowych przewodów na krótką odległość, więc trzeba było to uprościć. FC jest protokołem hybrydowym kanałowo-sieciowym Kanałowym: ponieważ potrafi zestawić kanały z zamkniętym i przewidywalnym mechanizmem transmisji pomiędzy ograniczoną liczbą urządzeń. Raz ustanowiony kanał potrzebuje bardzo niewielkiego nakładu pracy na obsługę transferów, co skutkuje ich wysoką efektywnością. Protokoły kanałowe są z tego powodu bardzo chętnie wykorzystywane do łączenia macierzy dyskowych, napędów taśmowych z serwerami. Sieciowym ponieważ potrafi obsłużyć bardziej skomplikowane struktury połączeń urządzeń, ustalać trasy pomiędzy nimi, a więc podejmować większą liczbę decyzji. W sieciach duża część tych decyzji jest wykonywana programowo co spowalnia ich pracę. W Fibre Channel ilość decyzji jest ograniczona i realizowana w dużej mierze na poziomie sprzętowym Fizyczny transport odbywa się poprzez łącza światłowodowe miedziane Typy połączeń: Pętla arbitrażowa (arbitrated loop) sieć szeregowa z przełącznikami FC-Arbitrated Loop w różnych topologiach mesh, core-edge oraz mieszanych. FC-Switched Fabric Możliwość łączenia urządzeń oddalonych o ponad 100 kilometrów (w trybie synchr.)
FC a inne protokoły
iscsi Protokół przesyłania danych w sieci IP w oparciu o protokół SCSI: wykorzystuje transportowanie standardowych komend SCSI przenosi je za pomocą protokołu TCP/IP (zazwyczaj po sieci Ethernet) Zalety: Łatwość implementacji: używamy NIC a nie HBA interfejs SCSI służy do wymiany danych, bez ograniczenia na odległość od macierzy protokół iscsi kapsułkuje i transferuje polecenia zapisu odczytu danych protokół iscsi komunikuje się bezpośrednio z protokołem SCSI obsługiwanych przez system operacyjny niskie koszty rozbudowy (sterowniki bezpłatne) Linux-iSCSI Project tgtadm - Linux SCSI Target Administration Utility Wady: zbyt wolne dla niektórych rozwiązań (zalecane używanie Jumbo Frames) znaczne obciążenie CPU klientów
Czym są urządzenia taśmowe Kasety do napędów dzielą się na dwa rodzaje z dwoma szpulami i z jedną szpulą: Obecnie w zastosowaniach profesjonalnych stosuje się najczęściej taśmy z jedną szpulą: LTO, SDLT, natomiast w pozostałych taśmy z dwoma szpulami: DAT72, QIC.
Czym są urządzenia taśmowe Przykładowy system prowadzenia taśmy:
Helical scan Ułożenie ścieżek Line serpentine
Czym różnią się od dysków? Urządzenia taśmowe: Twarde dyski Szeregowy dostęp do danych Wymienne nośniki Długi czas przechowywania danych (30 lat) Wydajne algorytmy korekcji błędów WH Error: 10-17 SW Error: 10-27 Duża odporność na uszkodzenia nośnika Bardzo szybki transfer liniowy ok. 280MB/s (LTO-5 Comp.) Potencjalnie bardzo długi czas oczekiwania na określowny fragment danych Kodowanie: RLL, MPRL, NPML Brak systemu plików (wyjątek LTFS) RAIT Blokowy dostęp do danych Niewymienne nośniki Nieznany maksymalny czas przechowywania Słabsze algorytmy korekcji Mała odporność na uszkodzenia mechaniczne Transfer liniowy na poziomie 120MB/s Stosunkowo krótki czas oczekiwania na określony fragment danych Kodowanie RLL Ściśle zdefinowane systemy plików
Podstawowe parametry nośnika Taśma LTO-5: Gwarantowany czas przechowywania archiwum 15..30 lat Pojemność 1500GB / 3000GB (2:1) Maksymalna liczba montowań taśmy: 5000 Maksymalna liczba przebiegów głowicy 1 000 000 co daje ok. 260 pełnych zapisów / odczytów nośnika. Cartridge Memory: jeśli występuje pozwala odczytać ważne informacje o taśmie: Liczbę montowań, Liczbę przebiegów głowicy, Ewentualne problemy, Bar Code Odporność na uszkodzenia wycięcie 3,2cm taśmy lub całkowite zniszczenie 1 ścieżki 1280 ścieżek, 16 zapisywanych w tym samym czasie, 80 przebiegów dla całkowitego zapisu Po zapisie od razu weryfikacja głowicą czytającą
Podstawowe parametry napędu LTO-5: (przykładowo Quantum LTO-5 FH) Pojemność nośników: 1500GB, 3000GB (2:1) 4500GB (3:1 IBM) Interface FC-8 Szybkość transferu: 140MB/s, 280MB/s (2:1) Czas potrzebny na utworzenie pełnego archiwum: 90 minut (2:1) Dostępność WORM-a: TAK Szyfrowanie sprzętowe: 256bit AES Pamięć cache: 256MB
Przyszłość technologii LTO:
Kiedy i dlaczego używamy technologii taśmowych Stosujemy: Archiwa długoterminowe Bezpieczeństwo danych nie modyfikowanych (WORM) Trwałość mechaniczna: dysk pracuje przez cały czas taśma tylko chwilę Przechowywanie dużych pojemności Kopie bezpieczeństwa Szybkość dostępu do danych jest drugorzędna Wymagane mocne kody korekcyjne Nie stosujemy: Szybki lub losowy dostęp do danych Dane często ulegają zmianie Krótki czas, życia danych Dane małoistotne
Biblioteka IBM TS3500 4 szafy, 16 napędów LTO, 3326 slotów, 1 robot Oferowana pojemność bez kompresji: 2,66 PB Szybkość zapisu / odczytu: 1,92 GB/s Orientacyjna cena wraz kompletem kaset 279 000 USD Maksymalne zasilanie: 1,6 kw Zajmowana powierzchnia 12,52 m 2
Biblioteka IBM TS3500
Biblioteka IBM TS3500
Biblioteka z taśmami
HSM ang. Hierarchical Storage Management Poziomy hierarchii HSM Parametry użytkowe i cechy systemu HSM Przykładowa realizacja HSM w PCSS
DS5300 1 macierz zawiera 2 kontrolery i 272 dyski 750 GB SATA Pamięć cache: 8 GB Porty FC: 8 x 8 Gbps Pojemność brutto: 204 TB (pojemność netto w RAID-6 ok. 185 TB) Max. wydajność: 4,7 GB/s SPC1-IOPS: 58 158 IOPS Orientacyjna cena : 265 000 USD Max. Zasilanie: 9,86 kw Zajmowana powierzchnia: 3,50 m 2
DS5020, DS5300
Switch FC 10-Gbit
SSD uniwersalne medium przyszłości (?)
RAMSAN 620
RAMSAN 620
RAMSAN 620 1 macierz zawiera 20 kart pamięci SSD NAND 265GB Porty FC: 2 x 4 Gbps Pojemność brutto: 5 TB (dostępny RAID 5) Max. wydajność: 3 GB/s Stałe opóźnienie: 80 milisekund SPC1-IOPS: 250 000 IOPS!!! Orientacyjna cena : 287 000 USD Max. Zasilanie: 230 W!!! Zajmowana powierzchnia: 2U!!!
Linki: http://www.storageperformance.org/home/ http://www.lto.org/ http://www.fujitsu.com/global/services/computing/storage/eternus/produ cts/tape/ http://www.terena.org/activities/tf-storage/ http://www.ramsan.com/ http://www-03.ibm.com/systems/storage/
Pytania? Dziękuję za uwagę http://royal.pingdom.com