Grid komputerowy dla nauki Michał Turała IFJ PAN/ ACK Cyfronet AGH, Kraków 2011-02-28 1
Grid komputerowy Plan referatu Europejskie projekty gridowe PL-Grid i EGI Światowy Grid komputerowy LHC Perspektywy 2011-02-28 2
GRID komputerowy 2011-02-28 3
W Stanach Zjednoczonych jest to popularne określenie sieci elektrycznej Rozległa sieć maszyn obliczeniowych i innych zasobów zarządzanych w sposób rozproszony i niezależny szybki, niezawodny i bezpieczny system połączonych komputerów i innych urządzeń, który umożliwia łatwy dostęp do dużych, rozproszonych mocy obliczeniowych, zasobów danych i usług, bez względu na to, gdzie te zasoby są zlokalizowane. Po co się to robi? Co to jest Grid? Dlatego że sieć połączonych komputerów, nawet niewielkich, może zastąpić jeden wielki (i drogi) komputer, konieczny do wykonania skomplikowanych obliczeń Grid to nowy paradygmat usług informatycznych realizowany przez zbiory nowych technologii informatycznych z takich sieci korzystają już fizycy, chemicy, biologowie, inżynierowie, lekarze, przedsiębiorcy ci, którzy dla swych obliczeń sporadycznie potrzebują setek komputerów Europa traktuje grid jako na nowe, bardzo przydatne narzędzie, a Unia Europejska planuje utworzenie europejskiej infrastruktury gridowej. wg. J. Kitowskiego 2011-02-28 4
Postęp w technologiach komputerowych Osiągnięcia na jednostkę kosztów w funkcji lat 10,000,000 1,000,000 100,000 10,000 Farm CPU box MIPS/$M Doubling in 1.2 years 1,000 100 Raid Disk GB/$M Doubling in 1.4 years Transatlantic WAN kb/s per $M/yr Doubling in 8.4 or 0.7 years 10 1 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 from R. Mount
Europejska Sieć Komputerowa GEANT 2011-02-28 6
Polska Sieć Komputerowa PIONIER 2011-02-28 R. Lichwała PCSS7
Europejskie projekty GRIDowe 2011-02-28 8
Polski udział w europejskich projektach sieciowych i gridowych (do r. 2008) PIONIER, CrossGrid (koordynowany przez ACK Cyfronet AGH) i EGEE odegrały bardzo istotną rolę w rozwoju polskiej infrastruktury dla gridu komputerowegodla e-nauki Michal Turala
Główne cele projektu CrossGrid (2002-05) Ustanowić europejski Grid włączając w infrastrukturę nowe kraje Umożliwić wykorzystanie Gridu dla aplikacji interaktywnych człowiek w pętli obliczeniowej Umożliwić aplikacje równoległe z wykorzystaniem MPI Demonstracja przydatność Gridu dla kilku ważnych zastosowań Biomedycznych (symulacja krążenia krwi) Wspomaganie przewidywań powodzi Sieci neuronowe dla fizyki cząstek Warunki meteorologiczne i skażenia powietrza M. Turala
Gridowe klastry PC ( testbeds ) CrossGrid M. Turala Klastry gridowe testbeds w 11 krajach 16 klastrów, z kilkuset PCs, połączone w jeden system Trzy rodzaje klastów (testowe, produkcyjne, badawcze) Polączenia poprzez sieci narodowe i GEANT Ten system dawał podstawy do dołączenia do projektu EGEE i do wykorzystania Grid u dla różnych aplikacji: fizyki cząstek, chemii, biomedicyny
Ośrodki uczestniczące w światowej prototypowej sieci LCG (2003-05) We wrześniu 2003 ACK Cyfronet był pomiędzy pierwszymi 14 ośrodkami, z trzech kontynentów, które stworzyły prototyp wspólnej światowej sieci komputerowej dla fizyki around the world around the clock Michal Turala 12
Projekt Enabling Grid for E-SciencE ACK Cyfronet AGH uczestniczył w tym projekcie w latach 2004-10 i pełnił role Regionalnego Centrum Koordynującego na kraje Europy Środkowo-Wschodniej Michal Turala z prezentacji I. Birda 13
ACK Cyfronet AGH koordynatorem Regionalnego Centrum Operacyjnego (ROC) EGEE Coordinated by Poland Polska była również członkiem projektów BalticGrid, w których uczestniczyły kraje Europy Północno-Wschodniej, Białoruś, Estonia, Litwa, Łotwa i Szwecja Michal Turala 14
LCG Monitorowanie pracy centrów komputerowych w czasie rzeczywistym ICM Warsaw PCSS Poznan ACK Cyfronet AGH i IFJ PAN Krakow RTM stan z 26 paźdz. 08. Michal Turala 15
Krakowskie Warsztaty Gridowe od GW01 do CGW10
Polski udział w europejskich projektach gridowych i sieciowych (do r. 2008) GEANT GEANT2 European e- Infrastructure EGI National Grid Initiative PL-Grid M. Turala
PL-GRID i EGI 2011-02-28 18
Początkowa działalność PL-Grid Utworzenie Konsorcjum Polskiego Gridu (PL-Grid) Porozumienie podpisane w styczniu 2007 Akademickie Centrum Komputerowe CYFRONET AGH w Krakowie (ACK CYFRONET AGH) koordynator Programu PL-Grid Poznańskie Centrum Superkomputerowo-Sieciowe w Poznaniu (PCSS) Wrocławskie Centrum Sieciowo - Superkomputerowe we Wrocławiu (WCSS) Centrum Informatyczne Trójmiejskiej Akademickiej Sieci Komputerowej w Gdańsku (TASK) Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego w Warszawie (ICM) Konsorcjum utworzone z pięciu największych polskich centrów superkomputerowo-sieciowych (założyciele) GEANT2 Projekt PL-Grid w ramach programu Innowacyjnej Gospodarki (2010-12)
Struktura PL-Grid Dziedzinowe systemy gridowe mogą być rozwijane i utrzymywane w ramach odrębnych projektów. Takie podejście powinno umożliwić efektywne wykorzystanie dostępnych środków finansowych. Zaawansowane Platformy Usługowe Aplikacja Aplikacja Aplikacja Aplikacja Grid Dziedzi nowy Grid Dziedzi nowy Grid Dziedzi nowy Grid Dziedzi nowy Infrastruktura gridowa (usługi gridowe) PL-Grid Klastry Komputery dużej mocy Repozytoria danych Krajowa sieć komputerowa PIONIER
Struktura PL-Grid Infrastruktura PL-Grid będzie bazą dla Gridów dziedzinowych, obejmujących usługi i narzędzia zorientowane na specyficzne typy aplikacji Użytkownicy Warstwa dostępowa/ tworzenia aplikacji Portale gridowe, narzędzia programistyczne Usługi gridowe System Wirtualnych organizacji i bezpieczeństwa LCG/gLite (EGEE) UNICORE (DEISA) Inne systemy gridowe Podstawowe usługi gridowe Zasoby gridowe Rozproszone repozytoria danych Krajowa sieć komputerowa Rozproszone zasoby obliczeniowe
Struktura PL-Grid Projekt PL-Grid jest podzielony na kilka zadań wg. J. Kitowskiego, ACK Cyfronet AGH Główne wskaźniki projektu: Moc obliczeniowa: 215 Tflops Pamięć dyskowa: 2500 TB
Oferta Sprzętowa Projektu PL-Grid ACK Cyfronet AGH (dane z czerwca 2010) ponad 5000 rdzeni dostępnych dla użytkowników (ok. 55 TFLOPs) Ponad 300 TB pamięci masowych Klaster Zeus najmocniejszym komputerem w Polsce (Top500 miejsce 161, czerwiec 2010) Projekt PL-Grid docelowo: Moc obliczeniowa: ok. 215 TFLOPs Ponad 2500 TB pamięci masowych Infrastruktura niezbędna do utrzymania zasobów w stanie produkcyjnym 7 dni w tygodniu Efektywna klimatyzacja zasobów System zabezpieczeń na wypadek awarii zasilania 23
Zasoby obliczeniowe PL-Grid lista Top500 z listopada 2010 Rank Site System Cores R max (TFlops) R peak (TFlops) 84 298 314 Cyfronet AGH Krakow Gdansk University of Technology, CI Task PCSS Poznan 373 WCSS Wrocław Cluster Platform 3000 BL2x220, L56xx, 2.26 GHz, Infiniband / 2010 Hewlett-Packard ACTION Cluster Xeon E5345 Infiniband / 2008 ACTION Cluster Platform 3000 BL 2x220, E5530 2.4 GHz, Infiniband GDR / 2010 Hewlett-Packard Cluster Platform 3000 BL2x220, L56xx, 2.26 GHz, Infiniband / 2010 Hewlett-Packard 9840 88.050 104.698 5336 38.170 49.731 4616 37.179 44.313 3840 34.729 40.857 Klaster gridowy ZEUS w ACK Cyfronet AGH Michal Turala 24
Oferta PL-Grid cd. Zestaw zaawansowanych narzędzi do organizacji eksperymentów obliczeniowych Pomoc w zrozumieniu zagadnień związanych z uruchamianiem aplikacji naukowych na rozległych zasobach obliczeniowych Wsparcie technologiczne i informatyczne przy projektowaniu własnych aplikacji naukowych i ich wdrażaniu na infrastrukturze PL-Grid Helpdesk wygodny system zgłaszania problemów i zapytań System zarządzania grantami obliczeniowymi (wkrótce) 25 wg. M. Sterzela, ACK Cyfronet AGH październik 2010
Wykorzystanie zasobów PL-Grid Użytkownicy (stan na 16.02.2011) Użytkownik = osoba mająca dostęp do zasobów zarejestrowanych użytkowników: 398 26 wg. M. Radeckiego, ACK Cyfronet AGH
Jak zostać użytkownikiem PL-Grid Każda osoba prowadząca działalność naukową, związana z jednostką naukową w rozumieniu ustawy z dnia 8 października 2004r. o zasadach finansowania nauki. Współpracownicy osoby prowadzącej działalność naukową (doktoranci, studenci, współpracownicy zagraniczni) Jak się zarejestrować? Procedura w pełni on-line System rejestracji i zarzadzania kontem użytkownika PL-Grid https://portal.plgrid.pl/ Wymagany aktualny, własny wpis w bazie Ludzie Nauki OPI bądź wpis opiekuna naukowego Weryfikacja zgłoszenia przez stronę internetową jednostki bądź telefonicznie Źródło: Tomasz Szepieniec, Marcin Radecki 27
www.plgrid.pl Zapraszamy do rejestracji na: https://portal.plgrid.pl Uwagi i pytania prosimy kierować na: Uwagi i pytania prosimy kierować na: helpdesk@plgrid.pl 28
Europejska Inicjatywa Gridowa EGI Michal Turala z prezentacji D. Kranzlmuellera 29
Europejska Projekt Enabling Inicjatywa Grid Gridowa for E-SciencE EGI Grid europejski (EGEE) był utrzymywany dzięki projektom europejskim; 38 europejskich Gridów Narodowych (NGI) wyraziło zainteresowanie udziałem w Europejskiej Inicjatywie Gridowej (EGI); zainteresowane są kraje Azji i obydwu Ameryk Michal Turala z prezentacji D. Kranzlmuellera 30
Europejska Inicjatywa Gridowa EGI.eu - organizacja 2 1 8 lutego 2010 ustanowiono fundację ( stichting ) EGI.eu z siedzibą w Amsterdamie Rada EGI.eu, pod przewodnictwem P. Öster a (1), wybrała Zarząd Na stanowisku dyrektora EGI.eu został zatrudniony S. Newhouse (2) Michal Turala 31 1
Forum Użytkowników EGI Wilno, 11-15 kwietnia 2011 http://uf2011.egi.eu/ 2011-02-28 32
Światowy GRID komputerowy LHC 2011-02-28 33
CERN - eksperymenty LHC ATLAS Uczestnik projektu (dla ustalenia skali ) CMS LHCb ALICE
Eksperyment ATLAS Ludzie! Stan we wrześniu 2005 W listopadzie 2006 prąd w magnesach osiągnął nominalną wartość 20.5 ka za pierwsza próbą.. 2011-02-28 Michał Turała 35
Eksperymenty LHC w CERN Problem doświadczalny Poszukiwanie bardzo rzadkich a złożonych zjawisk prawdopodobieństwo ich pojawienia się jest na poziomie 10-4 10-11 wszystkich oddziaływań (jeden ciekawy przypadek na 10 miliardów trywialnych zdarzeń!) -> poszukiwanie igły na ogromnym polu siana oddziaływania protonów, które są obiektami złożonymi, dają przy wysokich energiach skomplikowane obrazy oddziaływań -> analiza jest trudna Michal Turala 36
Preselekcja danych w czasie rzeczywistym Wiele różnych procesów fizycznych - kilka poziomów filtracji - wysoka wydajność dla ciekawych przypadków - całkowity współczynnik redukcji około 3x10 5 (10 6 ) Ograniczenie ze względu na koszt dysków i taśm - rocznie PB y informacji 37
Komputing LHC Strumień danych z oddziaływań p-p Typowe parametry Nominalna częstość zderzeń Częstość rejestracji Rozmiar przypadku Czas naświetlania Objętość surowych danych Dane Monte Carlo - 40 x 10 6 przyp./s ~ 150 przypadków/s ~ 1.5 M Byte ów/przypadek ~ 10 7 s/ rok (~ 4 miesiące w roku) ~ 2 Peta Byte y/rok/eksperyment ~ 2 Peta Byte/rok/eksperyment W ciągu roku jeden eksperyment będzie zapisywał ilość informacji odpowiadającą ok. miliardowi fotografii lub kilkudziesięciu milionom książek! Potrzebne na to byłoby ok. 1 miliona dyskietek CD ułożone obok siebie na półkach zajęły by ok. 1000 m! Michał Turała 2011-02-28 38
Pierwotny, wielo-stopniowy model analizy danych Na podstawie modelu projektu MONARC (Models of Networked Analysis at Regional Centres for LHC Experiments) lata 95-97 XX w. Wielkim problemem była dystrybucja danych koszt sieci komputerowych był b. wysoki
Rozwój projektów Grid owych Michal Turala 40
Nowy model komputingu LHC ( cloud ) W r. 2002 został zaproponowany i przyjęty w CERN projekt LHC Uni ComputingGrid(LCG) x Lab m mający na celu demonstrację realizacji tej USA Lab x Lab a Brookhaven koncepcji w dużej skali USA po kilku UK latach ten FermiLab projekt Tier3 wykazał iż Grid LHC jest możliwy France The LHC Physics Tier 1 Computing CERN Tier2 Department Facility Italy Tier0 Tier1 Desktop Porozumienie o budowie Worldwide LHC NL Germany γ ComputingGrid, Lab b uwzględniające wkład Lab c β Uni y α Uni b Uni n poszczególnych krajów, zostało opracowane i podpisane przez prawie wszystkie kraje uczestniczące w programie LHC
Ilości danych (do rejestracji i analizy) Rate [Hz] RAW [MB] ESD Reco [MB] AOD [kb] Monte Carlo [MB/evt] Monte Carlo % of real ALICE HI 100 12.5 2.5 250 300 100 ALICE pp 100 1 0.04 4 0.4 100 ATLAS 200 1.6 0.5 100 2 20 CMS 150 1.5 0.25 50 2 100 Dla obliczeń LHC potrzeba ok. 100M SpecInt2000 co LHCb 2000 0.025 0.025 0.5 20 oznacza ok. 100 tys. procesorów 3GHz Pentium 4! 50 days running in 2007 10 7 seconds/year pp from 2008 on ~10 9 events/experiment 10 6 seconds/year heavy ion Dla rejestracji danych potrzeba na rok ok. 20 Peta Bytów pamięci, czyli ok. 100 tys. dysków 200 GB! Michał Turała 42
Komputing LHC organizacja Gridu komputerowego LCG W tym polski rozproszony Tier2 (Kraków-Poznań-Warszawa) 2011-02-28 43
Komputing LHC podział funkcji pomiędzy poszczególne ośrodki Tier Michal Turala 44
Połączenie polskiego Tier2 ze Światowym Gridem LHC (WLCG) Michal Turala 45
Worldwide LHC Computing Grid produkcja 2011-02-28 46
Komputing LHC dostępność i wydajność polskiego Tier2 LCG Polska podpisała porozumienie (Memorandum of Understanding) o udziale w projekcie WLCG jako rozproszony Tier2, w skład którego wchodzą centra komputerowe Krakowa (ACK Cyfronet AGH), Poznania (PSNC) i Warszawy (ICM), Zgodnie z tym porozumieniem Polska winna udostępnić eksperymentom LHC w r. 2008 około 1300 procesorów i około 120 TB przestrzeni dyskowej; w roku 2009 te ilości winny zostać znacznie zwiększone. Praca poszczególnych ośrodków jest monitorowana; zestawienie dostępności i wydajności za wrzesień 2008: Reliability Availability Oct.07 Nov.07 Dec.07 Michal Turala 47
Perspektywy rozwoju Gridu LHC w tym i polskiego Tier2 Tier1 Tier2 Poland For ATLAS Disk/CPU=44% For ATLAS Disk/CPU=27% Michal Turala
Computing infrastructure and operation ATLAS wlcg world-wide computing: ~ 70 sites (including CERN Tier-0, 10 Tier-1s, ~ 40 Tier-2 federations) WLCG 49
MB/s per day Worldwide data distribution and analysis Total throughput of ATLAS data through the Grid: 1 st January yesterday 6 GB/s Jan Feb March April May 2009 data reprocessing Start of 7 TeV data-taking Data and MC reprocessing June July 10 11 p/bunch operation Aug multi-bunch operation Sep O c t bunch trains ~2 GB/s (design) Peaks of 10 GB/s achieved Grid-based analysis in Summer 2010: > 1000 different users; > 15M analysis jobs The excellent Grid performance has been crucial for fast release of physics results. E.g.: ICHEP: the full data sample taken until Monday was shown at the conference on Friday 50
51
First resonances popped up after a few days of collisions in November 2009 K 0 s π + π - Λ pπ - π 0 γγ η γγ 52
Nowe wyniki ATLAS (Pb-Pb)... CERN press realase, 26 November 2010:.the first direct observation of a phenomenon known as jet quenching has been made by both the ATLAS and CMS collaborations. This result is reported in a paper from the ATLAS collaboration accepted for publication yesterday in the scientific journal Physical Review Letters... 2011-02-28 Michał Turała 53
Perspektywy 2011-02-28 54
GAUSSIAN w Gridzie GAUSSIAN w Gridzie Gaussian VO - utworzona i wspierana przez 2 Partnerów (działalność EGEE ) Zaakceptowane przez dostawcę oprogramowania Rejestracja: https://voms.cyf-kr.edu.pl:8443/vo/gaussian/vomrs Kierownik VO: Mariusz Sterzel (CYFRONET), koordynator ds.chemii Obliczeniowej (EGEE II) m.sterzel@cyfronet.pl t.szepieniec@cyfronet.pl
Chemia kwantowa Oferujemy dostęp do komercyjnych i darmowych pakietów oprogramowania: Turbomole, ADF, Gaussian, GAMESS i inne 56
Never Born Protein Folding 4. Visualize 2. Transfer application AABTDDSAD User Interface Portal 1. Submit sequence Prof. Irena Roterman (CM UJ) i projekt EUChinagrid Storage Element PDB 1.32 3.23 3.44 2.77 4.33 5.66 1.32 3.23 3.44 3. Store protein Computing Element Euchina Virtual Organization (EGEE) t.szepieniec@cyfronet.pl
Biologia i pokrewne Dostępne pakiety Gromacs, NAMD, AutoDOCK oraz AMBER (wkrótce). Możliwość instalacji własnych pakietów użytkowników. Podziękowania: Jacek Czub, Anna Neumann, PG 58
Chmury komputerowe (Cloud computing) H. Pałka na CGW10
Cracow Cloud 1 H. Pałka/ M. Witek IFJ PAN
Do rozwoju polskiego Gridu dla nauki przyczynili się w zasadniczym stopniu:.. z CERN: I.Bird, F.Gagliardi, R.Jones, L.Robertson, W.von Rueden i wielu innych.. z Europy: D.Kranzlmueller (GUP Linz), J.Marco (CSIC Santander), P.Sloot (UvA Amsterdam), W.Gentzsch (D-Grid), H.Martin i K-P.Mickel (FZK Karlsruhe), J.Gomez (LIP Lisbon) i wielu innych. z Polski: R.Gokieli (IPJ), M. Niezgódka (ICM), N.Meyer (PCSS), J. Nabrzyski (PCSS), K.Nawrocki (ICM), J. Węglarz (PCSS), W.Wiślicki (ICM) i wielu innych.. z Krakowa: M.Bubak (ACK), J.Kitowski (ACK), K.Korcyl (IFJ), A.Kusznir (ACK), P.Lasoń (ACK), P.Malecki (IFJ), Z.Mosurska (ACK), J.Niwicki (ACK), M.Noga (ACK), P.Nyczyk (ACK), A.Olszewski (IFJ), A.Oziebło (ACK), H.Pałka (IFJ), M.Radecki (ACK), M.Sterzel (ACK), T.Szepieniec (ACK), T.Szymocha (IFJ), M.T. (IFJ), K.Wiatr (ACK), M.Witek (IFJ) i wielu innych.. 2011-02-28 Michał Turała 61
Dziękuję za uwagę 2011-02-28 Michał Turała 62