CERN i komputery dr hab. Szymon Gadomski Uniwersytet Genewski i IFJ PAN w Krakowie S. Gadomski, "CERN i komputery", 22.05.2007 1
Komputery w CERN - WWW i GRID 1. Historia WWW (wynalazek CERN) na czym polegał wkład CERNu dlaczego CERN odegrał decydującą rolę 2. Komputery dla współczesnej fizyki GRID (i nie tylko) wymagania eksperymentów LHC selekcja danych w czasie rzeczywistym online problem ilości danych do dalszej analizy GRID idea, stan rozwoju na czym polega analiza danych 3. Polonica GRID w Polsce i Polscy programiści w CERNie 4. Podsumowanie o S. Gadomski, "CERN i komputery", 22.05.2007 2
Internet przed wynalezieniem WWW 1959, ARPANET, University of California, Los Angeles 1978 1981, pierwsze sieci międzynarodowe i międzykontynentalne (np. dla poczty) 1983 sieć dla nauki (National Science Foundation, USA) już obecny protokół wymiany informacji (TCP/IP) koniec lat 80-tych internet szeroko używany przez fizyków cząstek podłączone większe laboratoria (CERN, DESY) i niektóre uniwersytety t z Krakowa przez telefon międzynarodowy do CERN, każda minuta cenna S. Gadomski, "CERN i komputery", 22.05.2007 3
Internet przed wynalezieniem WWW (2) Możliwości internetu w końcu lat 80-tych Poczta elektroniczna (pine) Przesyłanie danych (ftp) kontakt z użytkownikiem czysto tekstowy S. Gadomski, "CERN i komputery", 22.05.2007 4
Wynalazek WWW 1989, CERN, początki WWW najbardziej aktywe centrum internetu w Europie duża rotacja personelu (nadal) Tim Berners-Lee proponuje data management system - połączenie istniejącego standardu opisu informacji (hypertext) i internetu - dla potrzeb CERNu i eksperymentów Robert Caillau, plan projektu S. Gadomski, "CERN i komputery", 22.05.2007 5
Wynalazek WWW (2) 1989 1991, pierwsze prototypy w CERN Pierwszy ``server WWW Szkic architektury Tim Berners-Lee 1989 S. Gadomski, "CERN i komputery", 22.05.2007 6
Rozwój WWW 1991 WWW dostępne publicznie poza CERN 1993 deklaracja CERN o darmowym dostępie do technologii WWW 1993 pierwsza znana przeglądarka graficzna (Mosaic) University of Illinois, USA, początki graficznych stron internetowych 1995 przemysł (np. Microsoft) proponuje internet dla szerokiej publiczności 2005 index 19.2 miliardów stron interenetowych t (Yahoo) 2007 prawdopodobnie około 30 miliardów stron Niespotykana wcześniej łatwość dostępu do informacji. NP. strona publiczna CERN Fenomen społeczny definiujący nasze czasy narodził się w CERNie. Potrzeba łatwej, globalnej i nieformalnej wymiany informacji, typowa dla fizyki cząstek, dała tak znaczący (i nieoczekiwany) efekt. S. Gadomski, "CERN i komputery", 22.05.2007 7
Internet obecnie S. Gadomski, "CERN i komputery", 22.05.2007 8
Komputery dla współczesnej fizyki GRID i nie tylko S. Gadomski, "CERN i komputery", 22.05.2007 9
Komputery dla współczesnej fizyki wymagania Przy zderzeniach protonów na LHC interesujące nas nieznane jeszcze procesy będą rzadkie. cji reakc Częs stość Dlaczego? S. Gadomski, "CERN i komputery", 22.05.2007 10
Produkcja bozonu Higgsa w zderzeniach protonów p q q W Z 0 μ + μ - H e + e - Z 0 W q p q Istotna jest energia składników oddziałujących protonów. Obydwa kwarki (lub gluony) muszą nieść dużą część energii protonów. To zdarza się ę rzadko. Trzeba wybierać zderzenia interesujące! S. Gadomski, "CERN i komputery", 22.05.2007 11
Selekcja interesujących zderzeń. Zachować czy odrzucić? Odrzucić! S. Gadomski, "CERN i komputery", 22.05.2007 12
muon Selekcja interesujących zderzeń. muon Zachować czy odrzucić? Zachować! supersymetria sy et u~ ~ d R L u + ~ χ d + ~ χ 0 1 0 2 + d + μ + μ + ~ χ 0 1 S. Gadomski, "CERN i komputery", 22.05.2007 13
System selekcji danych ATLASa 40 MHz 75 khz ~3 khz RoI Builder L2 Supervisor L2 N/work L2 Proc Unit Event Filter Processors Trigger LVL1 H L T RoI LVL2 L2P ROIB Event Filter EFP EFP EFP EFP 40 MHz 2.5 μs RoI data = 1-2% ~ 10 ms L2SV L2N ~ sec Lvl1 acc = 75 khz RoI requests Lvl2 acc = ~3 khz ~4 GB/s EFacc = ~0.2 khz Calo MuTrCh Other detectors ROD ROD ROD 120 GB/s ROB ROB ROB ROS DFM EB SFI EFN SFO EBN DAQ D E T D A T A F L O W FE Pipelines Read-Out Drivers 120 GB/s Read-Out Links Read-Out Buffers Read-Out Sub-systems ~2+4 GB/s Dataflow Manager Event Building N/work Sub-Farm Input Event Builder Event Filter N/work Sub-Farm Output ~ 200 Hz ~ 300 MB/s S. Gadomski, "CERN i komputery", 22.05.2007 14
Selekcja danych przed rejestracją W eksperymencie ATLAS rejestrowane będzie jedno zderzenie na 200 000. Selekcja danych w czasie rzeczywistym ( online online ) tj t.j. przed rejestracją. Selekcja częściowo ś w elektronice, częściowo ś na komputerach. System w budowie, docelowo około 2000 komputerów PC. Kupić komputery jak najpóźniej! Podwojenie szybkości co 1.2 roku... S. Gadomski, "CERN i komputery", 22.05.2007 15
Farma dla ATLASa w budowie pre-series system racks being prepared airandwaterfor and ~100 PCs cooling (1 Mega Watt) S. Gadomski, "CERN i komputery", 22.05.2007 16
Farma komputerów do selekcji danych przed rejestracją Niezależność zderzeń (zwanych przypadkami przypadkami ) Jeden przypadek na jeden procesor - Cluster computing, wiele małych komputerów zamiast jednego super-komputera Linux panuje niepodzielnie i i S. Gadomski, "CERN i komputery", 22.05.2007 17
Ilość rejestrowanych danych Po selekcji jednego zderzenia na 200 000 ilość danych do zapisania i do dalszej analizy nadal stanowi problem. ATLAS: 300 MB/s, około 3 PB (3*10 15 B) na rok gdyby pisać na CD byłoby ich 4 miliony (około 20 km na półkach) około 6000 typowych dysków (500 MB w 2007) 4 eksperymenty LHC mają produkować do 15 PB na rok S. Gadomski, "CERN i komputery", 22.05.2007 18
Globalna współpraca nad analizą danych S. Gadomski, "CERN i komputery", 22.05.2007 19
Rozwiązanie (w budowie) - GRID internet (i WWW) umożliwiają globaly dostęp do informacji GRID ma umożliwić korzystanie z zasobów (przechowanie danych i procesory do ich przetwarzania) rozproszonych globalnie. l fizyka cząstek jest jedną z zainteresowanych dziedzin nauki S. Gadomski, "CERN i komputery", 22.05.2007 20
Historia GRIDu prehistoria w latach 70-tych idea porzucona w 80-tych (względy bezpieczeństwa) termin GRID w latach 90tych, analogia do sieci elektrycznej nikt nie musi wiedzieć skąd pochodzi prąd zasilający jego lampę Ian Foster, Carl Kesselman, Steve Tueck - ojcowie GRIDu projekt Globus (Chicago, 1997) obecne projekty używają ich narzędzi S. Gadomski, "CERN i komputery", 22.05.2007 21
GRID: komputery, sieci, oprogramowanie Oprogramowanie ( GRID middleware ) identyfikacja użytkownika certyfikaty i organizacje wirtualne zarządzanie zasobami (moc obliczeniowa i miejsce na dane) przepływ danych przepływ zadań obliczeniowych S. Gadomski, "CERN i komputery", 22.05.2007 22
Ośrodki GRID w Europie S. Gadomski, "CERN i komputery", 22.05.2007 23
Ośrodki GRID w Ameryce PN S. Gadomski, "CERN i komputery", 22.05.2007 24
Ośrodki GRID w Azji i Oceanii S. Gadomski, "CERN i komputery", 22.05.2007 25
GRID dla eksperymentów na LHC LHC Coputing GRID (LCG) współpraca centrów obliczeniowych i CERN jako Tier 0 11 Tier 1 każdy Tier 1 ma kilka Tier 2 komputery w instytutach badawczych jako Tier 3 S. Gadomski, "CERN i komputery", 22.05.2007 26
Przebudowa centrum obliczeniowego w CERN rola dla eksperymentów kilka lat temu obecnie S. Gadomski, "CERN i komputery", 22.05.2007 27
Komputery do analizy danych w Genewie Tier 2 k. Lugano (po drugiej stronie Alp) Lokalne farmy Tier 3 na uniwersytetach w Genewie i w Bernie 30 PC + dwa serwery Linux S. Gadomski, "CERN i komputery", 22.05.2007 28
Kwestie praktyczne na co dzień Stabilność GRIDu kłopoty z przepływem danych informacja dla użytkownika Trzy GRIDy (Europa, USA, kraje skandynawskie i Szwajcaria) różne oprogramowanie obecnie praca nad unifikacją (przepływ danych i zadań) Jakość i stan dokumentacji oprogramowania produkowanego przez eksperymenty. Prototypy! System w budowie! S. Gadomski, "CERN i komputery", 22.05.2007 29
Planowany wzrost zasobów WLCG Tier-1 Evolution Tier-2 Growth 50 30.00 16.0 3 MSI2K.. 45 40 35 30 25 20 15 25.00 20.00 15.00 10.00 PetaBytes s. MSI2K. 14.0 12.0 10.0 8.0 6.0 2.5 2 1.5 1 PetaBytes 10 5 5.00 4.0 2.0 0.5 0 0.00 2005 2006 2007 2008 0.0 2005 2006 2007 2008 Year Year CPU (MSI2K) Disk (PB) Tape (PB) CPU (MSI2K) Disk (PB) 0 S. Gadomski, "CERN i komputery", 22.05.2007 30
Grid w Polsce We wrześniu 2003 ACK Cyfronet był pomiędzy pierwszymi 14 ośrodkami, z trzech kontynentów, które stworzyły prototyp wspólnej światowej sieci komputerowej dla fizyki Ośrodki uczestniczące w światowej prototypowej sieci LCG (2003-05) S. Gadomski, "CERN i komputery", 22.05.2007 31
Polska infrastruktura WLCG GDAŃSK KOSZALIN OLSZTYN BASNET 34 Mb/s Tier1 FZK Karlsruhe GÉANT 10+10 Gb/s SZCZECIN Gorzów POZNAŃ Tier2 PCSS Poznań ZIELONA GÓRA BYDGOSZCZ TORUŃ BIAŁYSTOK Tier2 ICM Warszawa WARSZAWA ŁÓDŹ PIONIER S FIBERS 2 x 10 Gb/s 10 Gb/s (1 lambda) CBDF 10 Gb/s WROCŁAW OPOLE RADOM CZĘSTOCHOWA O KIELCE KATOWICE Tier2 ACK Cyfronet Kraków Bielsko-Biała KRAKÓW PUŁAWY LUBLIN RZESZÓW 1 Gb/s CESNET, SANET MAN S. Gadomski, "CERN i komputery", 22.05.2007 32
Polska infrastruktura WLCG Tier2: ACK Cyfronet ICM PSNC Trzy centra komputerowe uczestniczą w tworzeniu polskiego lki Tier2 2(jk (jako część polskiego lki EGEEROC) ACC Cyfronet Cracow ~200 procesorów Pentium, dyski ~10 TB połączenie do PSNC via 1 Gbs HEP VLAN ICM Warszawa ~270 procesorów AMD-64, dyski ~19 TB połączenie ą do PSNC via 1 Gbs HEP VLAN PSNC Poznań ~270 procesorów AMD-64 i IA-64, 3 TB połączenie do GEANT i DFN 10 Gbs W strukturze WLCG polski Tier2 jest połączony do Tier1 w FZK Karlsruhe Tier3 w instytutach FWE Krakowa i Warszawy Cracow-CYFRONET Poznan-PSNC Warsaw-ICM Kilkunastu polskich programistów obecnie w CERN IT, kilkudziesięciu pracowało. S. Gadomski, "CERN i komputery", 22.05.2007 33
Projekt CROSSGRID Cyfronet w Krakowie (prof.m.turała) kierował projektem CrossGrid S. Gadomski, "CERN i komputery", 22.05.2007 34
Co te wszystkie komputery będą robić? Analiza danych w fizyce cząstek. ą S. Gadomski, "CERN i komputery", 22.05.2007 35
Analiza danych pierwszy stopień surowe dane z elektroniki eksperymentu do punktów w przestrzeni przez informacje lokalne (punkt na płytce krzemu) S. Gadomski, "CERN i komputery", 22.05.2007 36
Analiza danych, dalsze stopnie rekonstrukcja torów cząstek i depozytów energii rozpoznanie cząstek, które powstały w zderzeniu (elektron, foton, mion) S. Gadomski, "CERN i komputery", 22.05.2007 37
proces powtarzany wielokrotnie zrozumienie detektora i systemu selekcji zajmuje często kilka lat symulacja komputerowa jest porównywana z danymi weryfikacja Analiza i symulacja dane symulacja (założenia) rekonstrukcja i analiza symulacja wynik wynik i i porównanie, weryfikacja S. Gadomski, "CERN i komputery", 22.05.2007 38
Symulacja jedno zderzenie wiązek w ATLASie jedna cząstka ą Higgsa 25 oddziaływań protonproton 750 torów cząstek S. Gadomski, "CERN i komputery", 22.05.2007 39
Pojedynczy przypadek nic nie znaczy Ilo ość przy ypadkó ów ATLAS 100 fb -1 oczekiwany (hipotetyczny) sygnał (pochodzący od cząstki Higgsa) H γγ Masa cząstki S. Gadomski, "CERN i komputery", 22.05.2007 40
Materiały dla nauczycieli i dla uczniów WWW co to jest WWW oraz internet, rola CERNu http://press.web.cern.ch/public/content/chapters/aboutcern/achievements/worldwideweb/www-en.html propozycja Tim Berners Lee, Information management system ( 89) http://www.nic.funet.fi/index/funet/history/internet/w3c/proposal.html Selekcja danych w czasie rzeczywistym Tryger eksperymentu CMS GRID http://cmsinfo.cern.ch/outreach/cmsdetectorinfo/tridas/page1.html popularyzacja GRID Café http://gridcafe.web.cern.ch/gridcafe/ strona główna LHC Computing GRID http://lcg.web.cern.ch/lcg/ S. Gadomski, "CERN i komputery", 22.05.2007 41
Podsumowanie Najpopularniejsze zastotowanie internetu (WWW) jest produktem ubocznym badań w CERNie. Środowisko fizyków cząstek ą odegrało rolę ę społeczeństwa przyszłości w miniaturze. Eksperymenty na LHC będą produkować ogromną ilość danych. Interesujące zderzenia są rzadkie. Selekcja w czasie rzeczywistym ( online ), rejestrowane 1 zderzenie na około 200 000. Nadal wielka ilość danych, rzędu 10 PB (10 16 B) rocznie. Analiza na całym ł świecie. i i GRID jako rozwiązanie (w stadium budowy). S. Gadomski, "CERN i komputery", 22.05.2007 42