Nowoczesne systemy dyskowe i sieci pamięci masowych Warsztaty Usługa powszechnej archiwizacji Rafał Mikołajczak, PCSS Maciej Brzeźniak, PCSS
Agenda Pamięci dyskowe wprowadzenie Dyski twarde uniwersalne medium przyszłości (?) Cechy i ograniczenia napędów dyskowych Macierze dyskowe więcej niż Just Bunch of Disks (JBoD) Techniki konsolidacji pamięci masowej SAN (FCP, iscsi) NAS (CIFS, NFS, ftp, http )
Dysk twardy uniwersalne medium przyszłości (?) Źródło: Wikipedia: http://en.wikipedia.org/wiki/hard_disk_drive
Dysk twardy uniwersalne medium przyszłości? (1) Krótka historia (pojemnośd) 1956: IBM 350 - disk storage unit: Pierwszy dysk twardy Pojemnośd: ok. 4.4 MB 1000 kg, talerze 24, obudowa 140 x 172 x 74 *cm+ 1980: Seagate ST4053 Pojemnośd: ok. 5 MB talerze 5 1/4 1986: Conner Peripherals CP340 Pojemnośd: ok. 40 MB talerze 3.5 1991: Zapis magnetorezystywny (IBM) Przełamanie bariery pojemności 1 GB! 8 talerzy 3.5, czas dostępu 7.5 ms IBM 0664 Corsair Źródło: IBM 350 disk storage unit, http://www-03.ibm.com/ibm/history/exhibits/storage/storage_350.html
Dysk twardy uniwersalne medium przyszłości? (2) Krótka historia (pojemnośd) 2005: Perpendicular recording Technologia zapisu poprzecznie do ścieżki Znaczny wzrost gęstości zapisu! 2007: Hitachi (w 2003 wykupił IBM HDD Devision) Pierwszy dysk 1 TB 5 talerzy 3.5, 7200 RPM, czas dostępu: 8.7 ms, 2009: Western Digital / Seagate 2010: SSD... Pierwszy dysk 2 TB: WD: 5400 obr./min., 2 talerze Seagate: 7 200 obr./min, seek <8,5 ms Seagate zapowiada pierwszy dysk 3 TB:
Krótka historia SSD: SSD realna sytuacja 1970 & 1980: Pierwsze prace nad SSD (IBM, Cray, Amdahl) 1995 pierwsze SSD oparte o pamięci flash (Texas Memory Systems, CERAM) 2003 pierwsze dyski 1TB SSD (2 szafy rack, 5kW mocy, 2mln IOPS, Texas Memory Systems) 2009 pamięci flash osiągają tą samą gęstośd zapisu co dyski twarde... np. 1TB w dysku 3,5 SATA (Foremay Jaguar Series) 2010 pamięci SSD: 4 TB na karcie PCIE, 1.5-1.6GB/s (Foremay EC188) Wiele linii i typów SSD: wydajnośd, pojemnośd, niezawodnośd, Ceny: rozpiętośd 1-200x w zależności od parametrów 1 TB - OCZ Technology 3.5 SATAII: $4,076.99 (amazon.com) Sustained write: 220MB/s (dysk do PC ) 146 GB dysk do macierzy IBM DS8000, List price: 57,722$ Brak danych dot. wydajności za drogie jako medium do kopii zapasowych/archiwizacji Na podstawie: SSD Market History Charting the 30 Year Rise of the Solid State Disk Market (http://www.storagesearch.com/chartingtheriseofssds.html)
Dysk twardy uniwersalne medium przyszłości? (1) + Dysk 3TB Seagate, 3-4Q2010 Wzrost pojemności dysków twardych w komputerach osobistych. Źródło: Wikipedia: http://en.wikipedia.org/wiki/hard_disk_drive
Dysk twardy ograniczenia dysków twardych (1) Dyski nie rozwijają się tak szybko jak procesory liczba tranzystorów w podwaja się co 24 miesiące (trend wykładniczy) Prawo Moore a wzrost liczby tranzystorów w procesorach komputerów. Źródło: Wikipedia: http://en.wikipedia.org/wiki/moore%27s_law
Dysk twardy ograniczenia dysków twardych (2) Dyski nie rozwijają się tak szybko jak procesory ewolucja napędów desktopowych i serwerowych (2001-2007) Ew olucja napędów "desktopow ych" - 7200 obr/min (2001-2007) Ew olucja napędów "serw erow ych" - 15 000 obr/min (2002-2007) 1000 300 900 800 250 700 200 600 500 150 400 300 100 200 50 100 0 2001 2002 2003 2004 2005 2006 2007 rok Max. Transfer rate GB/ platter Capacity [GB] Read access time: 12.3-14.4 ms 0 2002 2003 2004 2005 2006 2007 rok Max. Transfer rate GB/ platter Capacity [GB] Read access time: 5.5-5.9 ms
Dysk twardy ograniczenia dysków twardych (3) Dyski są urządzeniami mechanicznymi czyli podlegają prawom fizyki... Czas dostępu jest ograniczony koniecznością przesuwania głowic Transfer jest ograniczony gęstością zapisu i prędkością obrotową talerzy
Dysk twardy ograniczenia dysków twardych (4) Dyski są urządzeniami mechanicznymi: co oznacz, że niestety psują się... => Czas życia dysku: 5-10 lat w zależności od obciążenia MTBF: Jest często zawyżany Typowe wartości: 300 000 h dyski do stacji roboczych 1 000 000 h dyski do serwerów i macierzy dyskowych S.M.A.R.T.: ma ograniczoną skutecznośd Dyski podlegają m.in.: Wibracjom Zmianom temperatury Włączaniu/wyłączaniu częsta przyczyna awarii
Dysk twardy ograniczenia dysków twardych (5) MTBF fakty a mity: MTBF - Mean Time Between Failures - średni czas między awariami Co mówi MTBF?, np. 300 000 h (34 lata)? Jest miarą statystyczną określa prawdopodobieostwo awarii dysku w dużej populacji napędów Nic nie mówi o niezawodności pojedynczego dysku!!! Np. MTBF=300 000 h mówi, że: w dużej populacji dysków, połowa dysków ulegnie awarii po pierwszych 300 000 h użytkowania w populacji 100 dysków średnio 2,92 dysku zepsuje się w ciągu roku Jak obliczany jest MTBF? Często jest zawyżany! Najczęściej na podstawie dysków, które trafiają w trybie serwisowym do producentów, z których ok. 20-30% po testach określana jest jako brak błędów co nie oznacza, że w praktyce wytrzymałyby obciążenie produkcyjne Awaryjnośd w praktyce jest ok. 3-5x większa niż wynikałoby to z kalkulacji opartych na MTBF (patrz prace Google *) Za: http://storagemojo.com/2007/02/19/googles-disk-failure-experience/
Dysk twardy ograniczenia dysków twardych (6) SMART ograniczenia skuteczności: SMART: Self-Monitoring, Analysis, and Reporting Technology Monitoruje wiele parametrów dysków twardych, m.in.: Liczniki błędów: błędy CRC/odczytu/zapisu, błędne sektory, błędy pozycjonowania głowic, itp. Parametry fizyczne pracy dysku: temperatura, wibracje, stabilnośd głowic Praktyczna skutecznośd SMART: m.in. prace Google z 2007 *) dot. dużych populacji dysków twardych pokazały, że: O ile wiele dysków, dla których SMART sygnalizował problemy (np. tzw. surface scan errors lub bad sectors) uległo awarii w ciągu 60 dni o tyle wiele dysków, które uległy awarii nie wykazywało żadnych błędów SMART => wystąpienie błędu SMART jest ostrzeżeniem => niewystąpienie błędu SMART nie powinno usypiad naszej czujności! *) Failure Trends in a Large Disk Drive Population, 5th USENIX Conference on File and Storage, Technologies (FAST 07), February 2007, San Jose, CA, USA
Dysk twardy ograniczenia - podsumowanie 1 dysk: Pojemnośd: Do 2TB / dysk (3TB/ 2010) Wiele dysków Pojemnośd: zależy od liczby dysków Wydajnośd: Do 140 MB/sek Wydajnośd: nie ograniczona wydajnością pojedynczego dysku Czas życia dysku: 5-10 lat MTBF: XXX godzin S.M.A.R.T.: nie na 100% skuteczny Bad sector y: na każdym dysku => Potencjalnie zwiększona niezawodnośd: redundancja Just Bunch of Disks (JBoD)
Macierze dyskowe coś więcej niż Just Bunch of Disks (JBoD) Źródło: IBM
Macierze dyskowe Wiele dysków (JBoD) Pojemnośd: nie ograniczona pojemnośd pojedynczego dysku Wydajnośd: skalowalna Potencjalnie zwiększona niezawodnośd: redundancja Macierze dyskowe: Pojemnośd: nie ograniczona pojemnośd pojedynczego dysku Wydajnośd: skalowalna Niezawodnośd: zwiększona awarie maskowane dzięki większej liczbie dysków redundancja dodatkowe techniki macierzowe: RAID analiza informacji S.M.A.R.T. aktywna kontrola mediów autorskie algorytmy Kontroler macierzowy
Macierze dyskowe techniki macierzowe: RAID (1) RAID: ang. Redundant Array of Independent Disks Technika zwiększenia wydajności lub niezawodności za pomocą kombinacji napędów dyskowych
Macierze dyskowe techniki macierzowe: RAID (2) RAID0: ang. Striping Zwiększenie wydajności (głównie zapisy) RAID1: ang. Mirroring Redundancja danych (tolerowana jest awaria 1 dysku z pary) Wydajne odczyty Duży koszt vs pojemnośd
Macierze dyskowe techniki macierzowe: RAID (3) RAID5: ang. striping + distributed parity Redundancja danych (tolerowana jest awaria 1 dysku) Wydajne odczyty, akceptowalna wydajnośd zapisów Optymalny kosztowo (mała nadmiarowośd n+1)
Macierze dyskowe techniki macierzowe: RAID (4) RAID6: ang. striping + dual distributed parity Jeszcze większa redundancja danych (tolerowana jest awaria 2 dysków) Wydajne odczyty Optymalne kosztowy dla dużej liczby dysków (nadmiarowośd n+2)
Macierze dyskowe techniki macierzowe: RAID (5) Aktywna kontrola dysków: Wykorzystanie informacji S.M.A.R.T Zbieranie i wizualizacja informacji nt. stanu dysków Ostrzeganie administratorów o przekroczeniu progów (np. liczby błędów) Automatyczne odłączanie dysków, dla których wykryto dużo błędów i odbudowa RAID z użyciem nowego dysku (hot spare) Inne techniki, np. tzw. ang. scrubbing tj. Próbne wykonywanie zapisów / odczytów na dyskach w okresach mniejszej aktywności Jakośd prognozowania uszkodzeo/stanu dysków zależna jest od: logiki firmware macierzy dobre macierze mają często zaawansowane techniki wsparcia tych funkcji przez napędy dyskowe i firmware w nich obecny Inne techniki macierzowe
Konsolidacja pamięci masowej
Konsolidacja Pamięci Masowej lata 60 lata 90 IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata 80 konsolidacja klient - serwer XXI wiek Kompter PC zdobywa każdą przestrzeń w przedsiębiostwach Data Center - konsolidacja serwerów - konsolidacja przestrzeni dyskowej
Konsolidacja Pamięci Masowej Problem duża liczba serwerów każdy serwer potrzebuje przestrzeni dyskowej najprostsze rozwiązanie: serwer < > macierz SCSI ograniczenia pojemnościowe wydajnościowe koszty Efektywne wykorzystanie zasobów dyskowych, czy taśmowych zapewnienie większej wydajności oraz elastyczności uproszczenie zarządzania dynamicznie rosnącą ilością danych wymierne oszczędności ekonomiczne zmniejszenie TCO (Total Cost of Ownership) Zakup nowoczesnych urządzeń i zaawansowanych technologii możliwy dzięki współdzieleniu urządzeń w ramach heterogenicznych systemów komputerowych Konsolidacja dotyczy zarówno przestrzeni dyskowej jak i bibliotek taśmowych
NAS urządzenia plikowe LAN/WAN NAS
NAS urządzenia plikowe Stosujemy do współdzielenie zasobów dyskowych: przystępna cena zadowalająca wydajnośd technologia trafia do domów ceny od 500 zł Dostęp do zasobów przy użyciu protokołów: NFS (Network File System) CIFS (Common Internet File System) WWW, ftp Realizacja na różne sposoby: zastosowanie zwykłych serwerów, które pełnią rolę serwerów plików korzystając poprzez SAN ze wspólnych zasobów dyskowych filery z własnymi dyskami, bramy SAN-NAS korzystające z zewnętrznych macierzy NetApp, BlueArc, OnStor, Dostępne rozwiązania dla wysokowydajnych usług plikowych: klastry serwerów NFS pnfs CXFS system plików sprzedawany przez SGI czyli RACKABLE GPFS system plików sprzedawany przez IBM a lustre wysokowydajny klastrowy system plików sprawdza się dla dużych bloków (blok 1MB) działająca proteza zanim pojawi się pnfs
SAN kolejny krok po NAS LAN/WAN iscis SAN FC 0010010010 1001001010 1001010101 0101010101 0101010101 0100101011 LUN
SAN kolejny krok po NAS L A N Sun HP S/390 RS/6000 xseries Serwery S A N
SAN SAN to dedykowana sied, której zadaniem jest: łączyd urządzenia w sieci każdy z każdym urządzenia: serwery/stacje robocze pamięci masowe: macierze dyskowe, biblioteki taśmowe biblioteki optyczne (na wymarciu) zapewnid wydajną transmisję danych pomiędzy urządzeniami pracującymi w sieci: Wydajnośd dzięki: Zoptymalizowanemu protokołowi (FCP) Sieci transportowej o małym opóźnieniu Pięd razy S: Servers SAN Fabric Storage Software Services Sun Serwery HP L A N S/390 RS/6000 S A N xseries
SAN urządzenia blokowe Technologia SAN (Storage Area Network): odciąża sieci korporacyjne (LAN) wykorzystuje protokół Fibre Channel Protocol (FCP), zasoby dyskowe są widziane przez system operacyjny jako lokalne, bez względu na to gdzie się fizycznie znajdują umożliwia wydajniejszy backup danych (snapshot, LAN-free backup) umożliwia replikacji danych z macierzy produkcyjnej na macierz zapasową w centrum zapasowym (mirroring) wirtualizacja zasobów fizyczne napędy dyskowe -> struktury RAID struktury RAID -> wolumeny łączenie resztówek... Technologia NAS (Network Attached Storage) pozwala współdzielid ten sam system plików (wolumen) między wieloma systemami klientami UNIX, Windows protokoły NFS, pnfs, CIFS dostęp realizowany poprzez tradycyjną sied LAN/WAN
SAN - infrastruktura Macierze dyskowe modularne półka kontrolerów + półki z dyskami: OEM LSI: IBM, SUN, SGI monolityczne duża liczba kontrolerów (procesorów IO), portów, redundancja połączeo Biblioteki taśmowe/magnetooptyczne Przełączniki FC / urządzenia typu Director problemy przy aktualizacji firmware przełączników problemy z budową fabric dla wielu przełączników Karty HBA (Host Bus Adapter) System nadzoru i zarządzania
SAN zalety/wady Zalety: Elastycznośd: dostęp do zasobów i możliwośd dowolnej ich konfiguracji bez konieczności zmian w fizycznej strukturze urządzeo i okablowaniu Separacja zasobów: na poziomie macierzy - LUN masking interfejsy serwerów reprezentowane są w macierzy poprzez unikalne numery WWN numerowi WWN przypisany jest wolumen logiczny w macierzy (utworzony w ramach grupy RAID), co umożliwia współdzielenie portów macierzy przez różne serwery, bez ryzyka przejęcia "cudzych" zasobów na poziomie przełączników - podział na strefy (WWN zoning, port zoning) ograniczenie ruchu pomiędzy wybrane porty przełącznika FC Funkcjonalnośd podobna do VLAN w sieciach Ethernet na poziomie kart HBA serwera - persistent binding. definicja zasobów widzianych przez interfejsy HBA serwera Wady: wysoka cena wdrożenia problemy przy rozbudowie/aktualizacji oprogramowania dawniej występowały problemy przy wdrożeniach w środowisku heterogenicznym (np. brak wsparcia dla rzadkich serwerów np. SGI, Cray)
Fibre Channel Na początku był HIPPI, łączył superkomputery przy pomocy 50 parowych przewodów na krótką odległośd, więc trzeba było to uprościd. FC jest protokołem hybrydowym kanałowo-sieciowym Kanałowym: ponieważ potrafi zestawid kanały z zamkniętym i przewidywalnym mechanizmem transmisji pomiędzy ograniczoną liczbą urządzeo. Raz ustanowiony kanał potrzebuje bardzo niewielkiego nakładu pracy na obsługę transferów, co skutkuje ich wysoką efektywnością. Protokoły kanałowe są z tego powodu bardzo chętnie wykorzystywane do łączenia macierzy dyskowych, napędów taśmowych z serwerami. Sieciowym ponieważ potrafi obsłużyd bardziej skomplikowane struktury połączeo urządzeo, ustalad trasy pomiędzy nimi, a więc podejmowad większą liczbę decyzji. W sieciach duża częśd tych decyzji jest wykonywana programowo co spowalnia ich pracę. W Fibre Channel ilośd decyzji jest ograniczona i realizowana w dużej mierze na poziomie sprzętowym Fizyczny transport odbywa się poprzez łącza światłowodowe miedziane Typy połączeo: Pętla arbitrażowa (arbitrated loop) sied szeregowa z przełącznikami w różnych topologiach mesh, core-edge oraz mieszanych. FC-Arbitrated Loop FC-Switched Fabric Możliwośd łączenia urządzeo oddalonych o ponad 100 kilometrów (w trybie synchronicznym)
FC a inne protokoły
iscsi Protokół przesyłania danych w sieci IP w oparciu o protokół SCSI: wykorzystuje transportowanie standardowych komend SCSI przenosi je za pomocą protokołu TCP/IP (zazwyczaj po sieci Ethernet) Zalety: Łatwośd implementacji: używamy NIC a nie HBA interfejs SCSI służy do wymiany danych, bez ograniczenia na odległośd od macierzy protokół iscsi kapsułkuje i transferuje polecenia zapisu odczytu danych protokół iscsi komunikuje się bezpośrednio z protokołem SCSI obsługiwanych przez system operacyjny niskie koszty rozbudowy (sterowniki bezpłatne) Linux-iSCSI Project tgtadm - Linux SCSI Target Administration Utility Wady: zbyt wolne dla niektórych rozwiązao (zalecane używanie Jumbo Frames) znaczne obciążenie CPU klientów
Podsumowanie (1) Dysk twardy: Ciągły rozwój technologii: Rosnąca pojemnośd (4.4 MB / 1956 -> 3 TB / 2010) Postępy dot. wydajności (nie tak szybkie jak CPU, ale są...) Pojawia się wszędzie serwery, laptopy, telewizory..., samochody Ale... ograniczenia: Wydajnośd (200MB/s), pojemnośd (3 TB), niezawodnośd (MTBF itp.) Macierze dyskowe: Pokonują ograniczenia pojedynczych dysków twardych: Wydajnośd: akomodacja wydajności poszczególnych dysków Niezawodnośd: maskowanie błędów/awarii Skalowalnośd: wydajnośd, pojemnośd Sieci SAN/NAS: Dalsza konsolidacja zasobów pozwala na: Elastycznośd zarządzania Dalsze skalowanie wydajności i pojemności zasobów (poza ograniczenia macierzy)
Podsumowanie (2) Nowoczesne systemy dyskowe i sieci pamięci masowych: Zalety: Stosowane w dużej skali pozwalają na zbudowanie, wydajnego, pojemnego i niezawodnego systemu przechowywania danych Efekt skali pozwala na: relatywne zmniejszenie jednostkowych kosztów przechowywania, optymalną realizację technik takich jak:» replikacja danych,» maskowanie błędów, itp..» wydajnośd operacji efektywne kosztowo oferowanie usług:» kopii zapasowych» archiwizacji Trudności: Wymagają know-how i doświadczenia Wymagają sporych nakładów inwestycyjnych i na utrzymanie Wniosek: Warto korzystad z dużych systemów, w których ktoś bierze na siebie w/w trudności Użytkownik korzysta z wysokiej jakości przestrzeni przechowywania za rozsądne pieniądze (lub za darmo )
Pytania? Dziękujemy za uwagę http://royal.pingdom.com