Akceleracja obliczeń metodami sprzętowymi w ACK CYFRONET AGH. Prof. Kazimierz Wiatr

Podobne dokumenty
Tarnów. nowoczesne technologie. Tarnów - 27 marca 2007 r.

Akceleracja obliczeń metodami sprzętowymi

High Performance Computers in Cyfronet. Andrzej Oziębło Zakopane, marzec 2009

Nauka i społeczeństwo informacyjne a nauczanie Jana Pawła II

Wykorzystanie układów FPGA w implementacji systemów bezpieczeństwa sieciowego typu Firewall

Kazimierz Wiatr. Akademickie Centrum Komputerowe CYFRONET AGH. Konferencja Użytkowników KDM marca 2009 r. Zakopane

Programowalne Układy Logiczne Konfiguracja/Rekonfiguracja

Budowa komputera. Magistrala. Procesor Pamięć Układy I/O

Cyfronet w CTA. Andrzej Oziębło DKDM

Budowa komputera. Magistrala. Procesor Pamięć Układy I/O

Architektura Systemów Komputerowych. Rozwój architektury komputerów klasy PC

Sprzęt komputerowy 2. Autor prezentacji: 1 prof. dr hab. Maria Hilczer

Architektura komputerów

Infrastruktura PLGrid Nowa jakość usług informatycznych w służbie nauki

Program Obliczeń Wielkich Wyzwań Nauki i Techniki (POWIEW)

Konsolidacja wysokowydajnych systemów IT. Macierze IBM DS8870 Serwery IBM Power Przykładowe wdrożenia

Architektury komputerów Architektury i wydajność. Tomasz Dziubich

Wydajność systemów a organizacja pamięci. Krzysztof Banaś, Obliczenia wysokiej wydajności. 1

Komputer IBM PC niezależnie od modelu składa się z: Jednostki centralnej czyli właściwego komputera Monitora Klawiatury

Wykład 2. Temat: (Nie)zawodność sprzętu komputerowego. Politechnika Gdańska, Inżynieria Biomedyczna. Przedmiot:

NOWY OPIS TECHNICZNY PRZEDMIOTU ZAMÓWIENIA

Infrastruktura PLGrid dla młodych naukowców

Tarnów i nowoczesne technologie. Tarnów - 13 czerwca 2006 r.

ZASTOSOWANIA UKŁADÓW FPGA W ALGORYTMACH WYLICZENIOWYCH APPLICATIONS OF FPGAS IN ENUMERATION ALGORITHMS

Technika mikroprocesorowa. Linia rozwojowa procesorów firmy Intel w latach

System mikroprocesorowy i peryferia. Dariusz Chaberski

OPIS TECHNICZNY PRZEDMIOTU ZAMÓWIENIA

Tarnów i nowoczesne technologie. Tarnów - 13 czerwca 2006 r.

Sprzęt komputerowy 2. Autor prezentacji: 1 prof. dr hab. Maria Hilczer

SYSTEMY OPERACYJNE WYKŁAD 1 INTEGRACJA ZE SPRZĘTEM

1. Serwer. 2. Komputer desktop 9szt. Załącznik nr 1 do SIWZ

Klaster obliczeniowy

Składowanie, archiwizacja i obliczenia modelowe dla monitorowania środowiska Morza Bałtyckiego

Obliczenia Wysokiej Wydajności

RDZEŃ x86 x86 rodzina architektur (modeli programowych) procesorów firmy Intel, należących do kategorii CISC, stosowana w komputerach PC,

Wybrane bloki i magistrale komputerów osobistych (PC) Opracował: Grzegorz Cygan 2010 r. CEZ Stalowa Wola

2014 LENOVO INTERNAL. ALL RIGHTS RESERVED

Architektura komputerów

Programowalne Układy Logiczne. Wykład I dr inż. Paweł Russek

Systemy na Chipie. Robert Czerwiński

Infrastruktura PLGrid: narzędzia wsparcia w nauce i dydaktyce. Mariola Czuchry, Klemens Noga, Katarzyna Zaczek. ACK Cyfronet AGH

Spis treúci. Księgarnia PWN: Krzysztof Wojtuszkiewicz - Urządzenia techniki komputerowej. Cz. 1. Przedmowa Wstęp... 11

Zasoby i usługi Wrocławskiego Centrum Sieciowo-Superkomputerowego

Infrastruktura PLGrid Nowa jakość usług informatycznych dla Polskiej Nauki

Programowanie równoległe i rozproszone. Praca zbiorowa pod redakcją Andrzeja Karbowskiego i Ewy Niewiadomskiej-Szynkiewicz

Opis przedmiotu zamówienia / Formularz Oferty Technicznej (dokument należy złożyć wraz z ofertą)

OPIS PRZEDMIOTU ZAMÓWIENIA - PARAMETRY TECHNICZNE I OKRES GWARANCJI (formularz) - po modyfikacji

Laboratorium Chmur obliczeniowych. Paweł Świątek, Łukasz Falas, Patryk Schauer, Radosław Adamkiewicz

Systemy wbudowane. Uproszczone metody kosyntezy. Wykład 11: Metody kosyntezy systemów wbudowanych

Architektura komputerów

Część V - Serwery. UWAGA! Część V stanowi nierozerwalną całość. Ocena będzie łączna dla 4 zadań. Zadanie nr 1. SERWER BAZODANOWY KWESTURA

Architektura komputerów

Komputery Dużej Mocy w Cyfronecie. Andrzej Oziębło Patryk Lasoń, Łukasz Flis, Marek Magryś

IBM BladeCenter Niezwykle wydajny, elastyczny i kompaktowy system nowej koncepcji

Tom II: SZCZEGÓŁOWY OPIS PRZEDMIOTU ZAMÓWIENIA (SOPZ): Przedmiotem zamówienia jest dostawa sprzętu infrastruktury serwerowej i sieciowej.

Akademickie Centrum Komputerowe CYFRONET AGH

Alternatywa dla technologii BladeCenter. Kamil Pecio Inżynier Technicznego Wsparcia Sprzedaży

Wrocławskie Centrum Sieciowo-Superkomputerowe

Architektura mikroprocesorów TEO 2009/2010

Załącznik nr 3 do SIWZ DZP /2009-II

Infrastruktura PLGrid Nowa jakość usług informatycznych dla Polskiej Nauki

Z parametrów procesora zamieszczonego na zdjęciu powyżej wynika, że jest on taktowany z częstotliwością a) 1,86 GHz b) 540 MHz c) 533 MHz d) 1 GHz

Opis przedmiotu zamówienia

Prof. Kazimierz Wiatr - Dyrektor ACK Cyfronet AGH. ACK Cyfronet AGH w roku 2005

Autor: inż. Wojciech Zatorski Opiekun pracy: dr inż. Krzysztof Małecki

Obliczenia Wysokiej Wydajności

Infrastruktura PLGrid Nowa jakość usług informatycznych w służbie nauki

Serwer biznesowy o podwójnym zastosowaniu moc obliczeniowa i pamięć masowa w jednej obudowie

Zaawansowane technologie w nowoczesnych układach sterowania

Systemy operacyjne i sieci komputerowe Szymon Wilk Superkomputery 1

PROGRAMOWANIE WSPÓŁCZESNYCH ARCHITEKTUR KOMPUTEROWYCH DR INŻ. KRZYSZTOF ROJEK

16. Taksonomia Flynn'a.

Badanie właściwości wysokorozdzielczych przetworników analogowo-cyfrowych w systemie programowalnym FPGA. Autor: Daniel Słowik

Dyski, VAT 22%, gwarancja producenta. Opis:

Architektura komputerów

Infrastruktura informatyczna dla nauki w Polsce

Architektura systemu komputerowego

Stacja robocza TYP1A Zał. 8.1, pkt. 1.1) 2. Monitor LCD 21.3 Zał. 8.1, pkt. 1.1) 2. Zasilacz awaryjny UPS Zał. 8.1, pkt. 1.1) 2

Polityka wspierania prac naukowych i wdrożeniowych w obszarze informatyki jako element budowy społeczeństwa informacyjnego w Polsce

Działanie 2.3: Inwestycje związane z rozwojem infrastruktury informatycznej nauki

SZCZEGÓŁOWE INFORMACJE DOTYCZĄCE KONFIGURACJI OFEROWANEGO SPRZĘTU. Przetarg nieograniczony Dostawa sprzętu komputerowego

Infrastruktura PLGrid Nowa jakość usług informatycznych dla Polskiej Nauki

Infrastruktura PLGrid (nie tylko) dla młodych naukowców

USŁUGI HIGH PERFORMANCE COMPUTING (HPC) DLA FIRM. Juliusz Pukacki,PCSS

LPAR - logiczne partycjonowanie systemów

OFERTA NA SYSTEM LIVE STREAMING

DZIERŻAWA I KOLOKACJA SERWERÓW DEDYKOWANYCH

Układ sterowania, magistrale i organizacja pamięci. Dariusz Chaberski

Szczegółowy Opis Przedmiotu Zamówienia: Zestaw do badania cyfrowych układów logicznych

SPECYFIKACJA ISTOTNYCH WARUNKÓW ZAMÓWIENIA

Rozwiązania HPE Storage jak zapewnić pełne bezpieczeństwo Twoich danych?

Zapoznanie z technikami i narzędziami programistycznymi służącymi do tworzenia programów współbieżnych i obsługi współbieżności przez system.

Bajt (Byte) - najmniejsza adresowalna jednostka informacji pamięci komputerowej, z bitów. Oznaczana jest literą B.

Szczegółowy Opis Przedmiotu Zamówienia


Opis przedmiotu zamówienia CZĘŚĆ 1

Kinowa Biblioteka Filmowa KINOSERWER. KinoSerwer

Wykład I. Podstawowe pojęcia. Studia Podyplomowe INFORMATYKA Architektura komputerów

OFERTA. Załącznik nr 1 do zapytania ofertowego: Wzór oferty. Dane oferenta. Pełna nazwa oferenta: Adres:. REGON:.. Tel./fax.: .

Transkrypt:

Akceleracja obliczeń metodami sprzętowymi w ACK CYFRONET AGH Prof. Kazimierz Wiatr Dyrektor ACK Cyfronet AGH 27 marzec 2009 r.

Dzisiejsze wymagania systemów obliczeniowych szybkość!!!! cena wielkość niezawodność

Szybkość komputerów wczoraj dziś jutro

Metody zwiększania szybkości pracy komputerów szybszy zegar optymalizacja kodu wiele procesorów architektura wewnętrzna sprawne otoczenie procesora

Rodzaje komputerów komputery osobiste superkomuptery architektury specjalizowane

Akceleracja obliczeń g zbyt długie czasy obliczeń w procesorach GPP i DSP oraz komputerów HPC g poszukiwanie przyspieszenia-akceleracji obliczeń g ograniczenie rodzaju obliczeń i ich aplikacji g poszukiwanie nowych jakościowo metod szybkiej realizacji algorytmów S = t sys_klasycznego / t sys_specjalizowanego

Akceleracja obliczeń w systemach wieloprocesorowych Dla systemów wieloprocesorowych (Prawo Amdahl a) S = (s + p) / (s + p/n) gdzie: s - czas algorytmu w części szeregowej programu p - czas algorytmu w części równoległej

Akceleracja obliczeń w systemie wieloprocesorowym 16 14 12 10 8 6 4 2 S (n) s = 0% s = 5% s = 10% s = 15% 0 liczba procesorów (n) 0 4 8 12 16

Potrzeby obliczeniowe systemy on-line systemy off-line np. obliczenia symulacyjne DNA (ok.100 procesorów Itanium2): 20 atomów - 3 godziny 200 atomów - 34 lata np. medycyna z interakcją itp.

Sprzętowe metody akceleracji obliczeń Systemy obliczeniowe Wpływ architektury systemu na szybkość obliczeń Specjalizowane procesory sprzętowe Implementacja w układach FPGA Parametryzacja implementacji Rekonfigurowalne systemy obliczeniowe Dedykowane użytkownikowi platformy CCM Hardware/Software CoDesign Elementy IP Szybkość pracy systemów obliczeniowych

Kierunki badawcze poszukiwanie przyspieszenia obliczeń ograniczenie rodzaju obliczeń i ich aplikacji poszukiwanie nowych jakościowo metod szybkiej realizacji algorytmów poszukiwania w 2 kierunkach: specjalizowane elementy obliczeniowe - procesory dedykowane połączenia tych elementów - architektura prace badawcze oprzeć na realnych możliwościach implementacji w dostępnych technologiach

Sprzętowa akceleracja obliczeń wielkie ilości przetwarzanych danych bardzo szybkie systemy obliczeniowe algorytmy zdominowane przez dane algorytmy zdominowane przez instrukcje

Liczba przesłań operandów w operacjach przetwarzania obrazów OPERACJA 1 PIKSEL 1 OBRAZ 1 SEKUNDA LUT 1 262 144 6 553 600 MEDIANA-5 5 1 510 720 37 768 000 KONWOLUCJA 3x3 9 4 718 592 117 964 800

Liczba operacji w przetwarzaniu obrazów (w czasie 1 s) OPERACJA MNOŻENIA DODAWANIA PRZESŁANIA PORÓWNANIA LUT 0 6 553 600 13 107 200 MEDIANA-5 0 65 536 000 44 321 600 MEDIANA-9 0 294 912 000 124 518 400 KONWOLUCJA 3x3 117 964 800 4 718 592 124 518 400

Architektura MISD specjalizowanych procesorów sprzętowych FPGA FPGA FPGA JS JS... JS SR SR SR A/C SD SD SD JP JP JP SD PAMIĘĆ VIDEO SD BUS

Schemat blokowy architektury potokowej DePiAr L Sygnały Przerwan Procesor Dane Video WEJŚCIE P P P WYJŚCIE Sygnały Sterujące Magistrala Danych [8 bitów] Magistrala Adresowa [13 bitów] Magistrala VME

Moduł z architekturą potokową DePiAr

Architektura potokowa DePiAr Zalety: minimalizacja czasu transmisji minimalizacja czasu obliczeń przez dedykowane procesory sprzętowe procesory są autonomiczne: elastyczna zmiana kolejności operacji niezależne projektowanie procesorów implementacja w dowolnym otoczeniu sprzętowym dostęp do procesorów z zewnętrznej magistrali: dynamiczna zmiana parametrów przetwarzania dynamiczna rekonfiguracja kolejności operacji Wymagania: kolejnoliniowy sygnał wizyjny szybka transmisja na wyjściu potoku konieczność zachowania wymogów czasowych: jednakowe opóźnienia dla danych i sygnałów sterujących opóźnienie wielokrotnością czasu trwania piksela

Czasy realizacji operacji wizyjnych: DePiAr, DSP i GPP System Histogram Odejmowanie Konwolucja 3 3 Mediana LUT DePiAr 15 MHz 66,0 ns 132,0 ns 102,0 µs 68,0 µs 66,0 ns 198,0 ns 198,0 ns TMS320C80 4,3 ms 5,4 ms 19,4 ms 10,7 ms Dedykowany moduł Pentium II 466 MHz 4,0 ms 2,7 ms 6,8 ms 3,0 ms Akceleracja 60 000 20 000 34 000 54 000 45 000

Implementacja w układach FPGA

Parametryzacja implementacji w układach FPGA parametryzacja szybkości pracy parametryzacja użytych zasobów układu FPGA automatyczna generacja kodu VHDL optymalizacja implementacji struktur obliczeniowych DA

Dobór struktury elementów obliczeniowych układy mnożące bezmnożne MM układy mnożące LM z pamięcią LUT układy ze stałym współczynnikiem KCM układy ze zmiennym współczynnikiem VCM układy z dynamiczną rekonfiguracją DKCM

System z wielokrotnym wykorzystaniem do obliczeń jednego układu FPGA FPGA Linia transmisyjna FPGA 010110... 010110... A C C A Kamera Przyjęcie danych Kompresja Wstępne przetworzenie Modulacja Pamięć konfiguracyjna 1 2 3 4

Parametry rekonfiguracji układów FPGA Seria układu Komórki CLB Bramki [ 1000] Czas rekonfig. Rekonfig. częściowa Flex6000 1 960 24 100 [ms] Flex8000 1 296 16 100 [ms] Flex10000 12 160 250 320 [ms] XC3000 484 7,5 10 [ms] XC4000 7 448 85 240 [ms] XC4000EX/XL 7 448 180 50 [ms] XC6200 16 384 100 0,2 [ms] Y Spartan 1 862 40 32 [ms] Virtex 27 648 1 124 0,1 [ms] Virtex II 122 880 10 000 1 [ms] Y AT6000 6 400 30 8 [ms] Y AT40K 2 304 50 5 [ms] Y QL4000 1 584 90 40 [ms] DY8000 6 272 105 200 [ms]

Systemy CTR i RTR systemy rekonfigurowane przed wykonaniem całości obliczeń CTR (ang. Compile Time Reconfigurable), systemy rekonfigurowane w trakcie obliczeń w celu wielokrotnego wykorzystania tego samego sprzętu dla realizacji różnych fragmentów realizowanego algorytmu RTR (ang. Run Time Reconfigurable).

Efektywność stosowania systemów CTR i RTR f = T T R O E E RTR CTR max 1 f

Dedykowane użytkownikowi platformy obliczeniowe CCM Custom Computing Machines Elasty czność CISC RISC DSP CCM FPGA/CPLD Specjalizowane moduły ASIC Wydajność Wydajność a elastyczność układów obliczeniowych

Architektura karty procesorowej w systemie Splash2 SBus Poprzednia karta 36 M0 M1 M2 M3 M4 M5 M6 M7 M8 X1 X2 X3 X4 X5 X6 X7 X8 SIMD 36 X0 Matryca krzyżowa (crossbar switch) RBus 36 X16 X15 X14 X13 X12 X11 X10 X9 Następna karta 36 M16 M15 M14 M13 M12 M11 M10 M9

Implementacja detekcji obiektów i etykietowania Buforowanie danych Oznaczanie Scalanie Scalanie PE-0 PE-1 PE-2 PE-3 PE-4 PE-5 PE-6 PE-7 PE-8 Wejście wideo Wyjście wideo PE-16 Układy niewykorzystywane PE-15 PE-14 PE-13 PE-12 PE-11 PE-10 PE-9 Formatowanie danych wyjściowych

Implementacja transformacji Hough a Wejście wideo LUT i szeregowanie Hough P1 Hough P2 Hough P3 Hough P4 Hough P5 Hough P6 PE-0 PE-1 PE-2 PE-3 PE-4 PE-5 PE-6 PE-7 PE-8 Bufor wejścia Wyjście wideo PE-16 PE-15 PE-14 PE-13 PE-12 PE-11 PE-10 PE-9 Hough P14 Hough P13 Hough P12 Hough P11 Hough P10 Hough P9 Hough P8 Hough P7

Implementacja szybkiej transformaty Fouriera FFT Podwójne buforowanie Bank 1 lewy renumeracja Algorytm Butterfly PE-0 PE-1 PE-2 PE-3 PE-4 PE-5 PE-6 PE-7 PE-8 Wejście wideo Wyjście wideo PE-16 PE-15 PE-14 PE-13 PE-12 PE-11 PE-10 PE-9 Filtracja w dziedzinie częstotliwości Bank 2 prawy renumeracja

Projektowanie metodą Hardware/Software CoDesign Wczesne i późne rozdzielanie hardware u i software u w projektowaniu systemów a) b) Design Design Hardware Software Hardware Software

Hardware/Software CoDesign Kod źródłowy ( C ) Podział hardware/software Hardware (PLD, FPGA) Software (up, uc, DSP) Język opisu sprzętu (VHDL, Verilog) Język programowania (C, Asembler)

Wzrost pojemności układów programowalnych PLD RODZAJ FIRMA BRAMKI CLB I/O REJESTRY KONFIG. Classic Altera 900 48 48 48 EEPROM Max5000 Altera 3 800 192 64 192 EPROM Flex8000 Altera 24 000 1 296 204 1 500 SRAM APEX 20k Altera 526 000 8 320 376 SRAM APEX II Altera 5 250 000 67 200 1 060 SRAM ACT2 Actel 20 000 140 998 OTP A500k Actel 473 000 26 880 446 26 880 AX2000 Actel 2 000 000 21 504 684 21 504 ATV5100 Atmel 5 000 60 128 EPROM ATK40k Atmel 50 000 2 304 384 2 304 SRAM XC4000 Xilinx 250 000 8 464 448 18 400 SRAM XC9500 Xilinx 12 800 576 232 576 ISP(EEPROM) SPARTAN Xilinx 200 000 1 176 284 4 704 SRAM VIRTEX Xilinx 1 124 022 6 144 512 24 576 SRAM (2,5V) VIRTEX II Xilinx 10 000 000 15 360 1 108 61 440 SRAM (2,5V) VIRTEX Pro Xilinx 125 136 1 200 SRAM (1,5V)

Struktura układu FPGA serii Virtex-II Pro Pamięć blokowa BSRAM PowerPC Pamięć blokowa BSRAM Logika stała Logika rekonfigurowalna

Zasoby układów FPGA serii Virtex-II Pro Układ Rocket Power LC Slice Distr. RAM Mnożarki BSR DCM I/O I/O PC kb 18x18 kb XC2VP2 4 0 3 168 1 408 44 12 216 4 204 XC2VP4 4 1 6 768 3 008 94 28 504 4 348 XC2VP7 8 1 11 088 4 928 154 44 792 4 396 XC2VP20 8 2 20 880 9 280 290 88 1 584 8 564 XC2VP30 8 2 30 816 13 696 428 136 2 448 8 692 XC2VP40 12 2 43 632 19 392 606 192 3 456 8 804 XC2VP50 16 2 53 136 23 616 738 232 4 176 8 852 XC2VP70 20 2 74 448 33 088 1 034 328 5 904 8 996 XC2VP100 20 2 99 216 44 096 1 378 444 7 992 12 1164 XC2VP125 24 4 125 136 55 616 1 738 556 10 008 12 1200

Lokalizacja zasobów w układzie Virtex-II Pro

Przyłączenie wbudowanego procesora PowerPC do zasobów układu Virtex-II Pro

Blok łącz szeregowych Rocket I/O o przepustowości 3,125 Gb/s

Połączenie elementów IP poprzez interfejs IPIF z magistralą peryferyjną OPB i magistralą lokalną procesora PLB

Przyłączenie jednego z procesorów PowerPC 405 do magistrali lokalnej procesora PLB oraz układów peryferyjnych

Elementy IP - operacje przetwarzania obrazów Funkcja Biblioteka Firma Układ Użyte zasoby f [MHz] FFT/IFFT 1024 p-kty LogiCORE Xilinx XC2V500 62 % 100 FFT/IFFT 64 p-kty LogiCORE Xilinx XC2V500 38 % 100 FFT/IFFT 32 p-kty LogiCORE Xilinx XC2V500 29 % 110 FFT/IFFT 16 p-któw LogiCORE Xilinx XC2V500 37 % 130 2D DCT/IDCT AllianceCORE Barco-Silex XC2V250 77 % 133 2D FDCT AllianceCORE CAST XC2V500 42 % 83 2D DWT AllianceCORE CAST XC2V250 62 % 52 FIDCT AllianceCORE Telecom XCV200 77 % 78 MAC FIR LogiCORE Xilinx XCV250 16 % Dekoder Huffmana AllianceCORE CAST XC2V1000 22 % 25 Dekoder Reed Solomon AllianceCORE Telecom XC2V500 97 % 61 TMS32025 DSP core AllianceCORE CAST XC2V500 66 % 63

Wzrost liczby tranzystorów w układach różnego typu 200 150 100 50 0 FPGA Intel PowerPC AMD 1994 1995 1996 1997 1998 1999 2000 Lata

Mikroprocesor z rekonfigurowalnym koprocesorem Główny procesor Cache instrukcji Cache danych Globalna jednostka kontrolna Rejestry danych Matryca rekonfigurowalna Koprocesor rekonfigurowalny Interfejs jednostki

Potrzeby obliczeniowe systemów nieustannie rosną szybkość akwizycji 1000 do 5000 obrazów na sekundę rozdzielczość 128x128 i 256x256 napływ pikseli do 327,68 MHz (3,1 ns) standardowo 14,75 MHz (67,8 ns)

1280 x 1024 x 628 = 823 MHz (823 132 160 Hz) 10 bitów/piksel

Logika rekonfigurowana za pomocą internetu wykorzystywana do akceleracji obliczeń Host PAVE SIF WindRiver PAVE Payload Upgrade Portal Target PAVE API WindRiver TCP / IP Network PAVE C++ Application PAVE API VxWorks RTOS VxWorks Board Support Package (BSP) Microprocessor FPGA

Infrastruktura informatyczna Klaster HP Blade System C7000 20 TFLOPS Klaster IBM BladeCenter HS21XM 3,7 TFLOPS Klaster IBM BladeCenter HS21-2,4 TFLOPS Klaster komputerów PC RackSaver 2,1 TFLOPS SGI Altix 3700 1,5 TFLOPS 2x10 Gbps Klaster serwerów HP Integrity rx2600-291 GFLOPS SGI Altix 4700 212 GFLPOS SunFire 6800-43,2 GFLOPS SunFire V490 24 GFLOPS ~ 30 TFLOPS

Komputery Dużej Mocy Obliczeniowej KDMO

Komputery Dużej Mocy Obliczeniowej KDMO

HP Blade System 7000 System operacyjny Linux 512 procesorów 4-rdzeniowych Intel 4 TB pamięci operacyjnej 30 TB Pamięci dyskowej Teoretyczna moc obliczeniowa ~ 20 TFLOPS TOP500!

system operacyjny: Linux konfiguracja: 256 procesory Intel Itanium 2 z zegarem 1.5 GHz pamięć operacyjna 512 GB pamięć dyskowa 4,75 TB Moc obliczeniowa 1,5 Tflops SGI Altix 3700

SGI Altix 4700 system operacyjny: Linux konfiguracja: 32 procesory Intel Itanium 2 z zegarem 1.66 GHz pamięć operacyjna 64 GB pamięć dyskowa 1,8 TB Moc obliczeniowa 212 Gflops Dodatkowo zawiera węzeł z procesorami programowalnymi FPGA - Virtex do akceleracji obliczeń

IBM BladeCenter HS21 system operacyjny: Linux konfiguracja: 112 procesorów Intel z zegarem 2,66 GHz (2-rdzeniowe) pamięć operacyjna 448 GB pamięć dyskowa 5 TB Moc obliczeniowa 2,4 Tflops

IBM BladeCenter HS21XM system operacyjny: Linux konfiguracja: 98 procesorów Intel z zegarem 2,33 GHz (4-rdzeniowe) pamięć operacyjna 448 GB pamięć dyskowa 5 TB Moc obliczeniowa 3,65 Tflops

Klaster komputerów PC 384 procesorów Xeon 440 GB pamięci operacyjnej 17.4 TB pamięci dyskowej Moc obliczeniowa 2071 Gflops Klaster serwerów HP Integrity rx2600 56 procesorów Intel Itanium2 56 GB pamięci operacyjnej 2 TB pamięci dyskowej Moc obliczeniowa 291 Gflops

Sun Fire 6800 system operacyjny: Solaris konfiguracja: 24 procesorów UltraSparc III z zegarem 900 MHz pamięć operacyjna 24 GB pamięć dyskowa 3 TB Moc obliczeniowa 43,2 Gflops

HP Integrity SuperDome system operacyjny: HP-UX 11i konfiguracja: 8 procesorów Intel Itanium2 z zegarem 1.5 Ghz pamięć operacyjna - 8 GB pamięć dyskowa - 2 TB Moc obliczeniowa 48 Gflops SuperDome może pracować pod systemami operacyjnymi: HP-UX, Windows Serwer 2003 i Linux.

SGI Onyx 300 system operacyjny: IRIX 6.5 konfiguracja: 8 procesorów R14000 z zegarem 600Mhz pamięć operacyjna - 8 GB pamięć dyskowa - 218 GB Moc obliczeniowa 9,6 Gflops Serwer graficzny Onyx 300 wyposażony w grafikę Infinite Reality przeznaczony jest głownie do wizualizacji i obliczeń dużej skali. InfiniteReality4 to nowa generacja grafiki, łącząca narzędzia 2D, 3D i przetwarzanie danych video w jednolite środowisko graficzne. Wizualizacja systemów dużej skali i wirtualnej rzeczywistości w połączeniu z aplikacjami VizServer daje obrazy o wysokiej profesjonalnej jakości.

Hierarchiczny system składowania danych

Hierarchiczny system składowania danych W ACK CYFRONET AGH serwery obliczeniowe i sieciowe przyłączone są do centralnego zasobu pamięci dyskowej o pojemności 130 TB Macierze dyskowe: HP XP 12000-6 TB HP EVA 8000-120 TB Biblioteki taśmowe: ATL 2640 - pojemność 10 TB ATL 7100 - pojemność 7 TB HP ESL712e - pojemność 280 TB

Hierarchiczny system składowania danych Centralne zasoby pamięci dyskowej o pojemności 541 TB, w tym: 6 TB na dyskach FC 211 TB na dyskach FATA 324 TB na dyskach SATA Zasoby Systemu Składowania Danych: Macierz dyskowa HP XP12000: przestrzeń dyskowa 7 TB (dyski FC) Macierz dyskowa HP EVA 8000; przestrzeń dyskowa 120 TB (dyski FATA) Macierz dyskowa HP EVA 8100 przestrzeń dyskowa 96 TB (dyski FATA) zasoby

Hierarchiczny system składowania danych zasoby (c.d) Zasoby Systemu Składowania Danych c.d. Serwery storage owe SUN: 324 TB Serwer dyskowy SUN X4500: 2 dwurdzeniowe procesory AMD Opteron; 16 GB pamięci RAM; przestrzeń dyskowa serwera 36TB; jeden port 10 Gigabit Ethernet. Sześć serwerów dyskowych Sun X4540: 2 czterordzeniowe procesory AMD Opteron; 32 GB pamięci RAM; przestrzeń dyskowa pojedynczego serwera 48TB; dwa porty 10 Gigabit Ethernet. Biblioteka taśmowa HP ESL712e 6 napędów HP LTO-3 Ultrium; 4 napędy HP LTO-4 Ultrium; 636 slotów na taśmy LTO.

Niezawodnie zasilanie, zasilanie awaryjne i klimatyzacja technologiczna

Trafo

Trafo 1MW

Trafo

Agregat prądotwórczy 1MW

Agregaty -1 MW - 50 kw

Hala maszyn

Klimatyzacja

Klimatyzacja

Current diagram of CPU commitments ROC - ACK Polska Węgry Austria Słowacja Słowenia Czechy Chorwacja

Current diagram of storage commitments ROC - ACK Polska Węgry Austria Słowacja Słowenia Czechy Chorwacja

Konsorcjum PL-GRID W listopadzie 2006 roku w Warszawie, z inicjatywy ACK CYFRONET AGH, zostało zawarte porozumienie pomiędzy przedstawicielami: ACK CYFRONET AGH koordynator Programu PL-Grid, ICM UW, PCSS, CI TASK, WCSS - uczestnicy, będącymi członkami- założycielami Programu PL-Grid. Sygnatariusze niniejszego porozumienia powołali Radę Programu PL_Grid, która będzie czuwać nad tworzeniem i rozwojem polskiego gridu, wykorzystującego dotychczasowy dorobek polskich zespołów w tej dziedzinie i w pełni zintegrowanego z gridem europejskim.

Zestawienie oprogramowania aplikacyjnego Program SGI 2800 SGI Altix 3700 SUN Fire 6800 HP Super Dome SGI Onyx 300, SGI Octane/SE ABAQUS x x x x Accelrys/Insight II x Accelrys/Cerius2 x Accelrys/Catalyst x Accelrys/Quanta x ANSYS x x x ARC/INFO x ERDAS/IMAGINE x FIDAP x x FLUENT x x x x GAMESS x GAUSSIAN 03 x x MAPLE x x MATHEMATICA x MATLAB x x MSC/FATIGUE x x MSC/NASTRAN x x MSC/PATRAN x x OPERA-2d x x ORACLE x SAS x SYBYL x

Aplikacje chemiczne ACCELRYS InsightII - do modelowania dużych molekuł biologicznych Cerius2 - do modelowania małych molekuł i ciała stałego Quanta - do modelowania molekularnego przeznaczony z zakresu krystalografii Catalyst - pakiet do projektowania leków SYBYL - pakiet programów do modelowania i analizy struktur molekularnych. Celem oprogramowania jest budowanie, analiza i manipulacja molekułami. GAUSSIAN - system przeznaczony do obliczeń orbitali molekularnych przy użyciu metod półempirycznych i ab initio. GAMESS - wszechstronny pakiet do obliczeń chemii kwantowej.

SGI Altix 4700 i projekt Gaussian Pakiet Gaussian (82% obliczeń) Przyśpieszenie obliczeń kwantowo-chemicznych Operacje algebraiczne na macierzach

Problemy do rozwiązania Funktory FP Implementacja bibliotek BLAS i LAPACK Równoległe algorytmy operacji na macierzach Biblioteki softwer owe

SGI RASC Blade

SGI RASC Blade Pojedynczy moduł rekonfigurowany

SGI RASC Blade

RASC Technology

RASC Technology - NUMAlink

RASC Technology Różne konfiguracje pracy

Zagadnienia realizowane w ramach projektu Profiling Implementacja wytypowanych w profilingu funkcji Stworzenie własnego środowiska automatyzującego projektowanie oraz testowanie aplikacji HPTC

Prace badawczo-rozwojowe prowadzone obecnie przez Zespół Akceleracji Obliczeń Współpraca z wydziałem Chemii Teoretycznej UJ Rozwiązywanie równania Schroedingera metodą Hartree-Focka Potrzeba zrównoleglenia obliczeń funkcji najbardziej czasochłonnych oraz najczęściej pojawiających się, takich jak: Pierwiastek kwadratowy Eksponenta Logarytm Funkcja power Argumenty funkcji oraz uzyskane wyniki są zgodne ze standardem IEEE 754 double

Oprogramowanie Mitrion C Podstawowa składania jest taka sama jak dla języka C {},=,if, for, while.. Nie występują wskaźniki Brak możliwości dynamicznego przydzielania pamięci Zmienne mogą mieć nadaną wartość tylko raz (wynika z równoległości interpretacji zapisu kodu) Występują listy interpretowane jako implementacja potokowości Wszystkie funkcje są wywoływane przez wartość oraz są typu inline ZAPRASZAMY Dziękuję za uwagę