Analiza porównawcza wydajności prognozowania pogody na klastrze TRYTON z wykorzystaniem modelu WRF

Transkrypt

1 Analiza porównawcza wydajności prognozowania pogody na klastrze TRYTON z wykorzystaniem modelu WRF Mariusz J. FIGURSKI, Grzegorz NYKIEL Wydział Inżynierii Lądowej i Środowiska, Politechnika Gdańska INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

2 Plan prezentacji 1. Wprowadzenie co to jest model WRF. 2. Cele badawcze benchmarków z WRF. 3. Przetwarzanie danych w modelu WRF. 4. Dane do benchmarków. 5. Infrastruktura obliczeniowa i konfiguracja modelu. 6. Benchmark 3dhrlev i CONUS 2.5km. 7. Model METEOPG optymalizacja Tryton. 8. Podsumowanie i wnioski. 9. Dodatek portal pogodowy METEOPG. 10. Dodatek symulacja huraganu z 11 sierpnia INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

3 WRF - Weather Research and Forecast Zaprojektowany do badań i celów operacyjnych Dwie wersje Numeryczna prognoza pogody Symulacje atmosfery ARW zaawansowana wersja badawcza modelu WRF NMM niehydrostatyczny model mezoskalowy Elastyczny i przenośny kod Sekwencyjny Równoległy (MPI) bez lub z wielowątkowością Obsługuje dwa poziomy dekompozycji domen. Podział na podobszary (prostokąty) w pamięci rozproszonej Następnie w obrębie każdego wielowątkowego podobszaru jest stosowany podział dla pamięci współdzielonej. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

4 Cele badawcze Rozwój narzędzi ułatwiających wykonanie procedur symulacyjnych WRF na infrastrukturze HPC. Lokalne klastry HPC. Infrastruktura typu GRID, np. PL-GRID. Badanie skuteczności równoległego modelu WRF w celu znalezienia najlepszej konfiguracji zadanego scenariusza dla meteorologicznego modelowania w przestrzeni 3D. MPI, MPI+OpenMP, Liczba węzłów, rdzeni, procesów MPI, wątków OpenMP. Narzędzia zarządzania obliczeniami w modelu WRF wykorzystywane są również do ustalania (optymalizowania) parametrów modeli, które wymagają: Dziesiątek ocen parametrycznej (cykli symulacyjnych) dokładności modelu. Każda ocena parametrów modelu wymaga ponownego uruchomienia setek sytuacji meteorologicznych zebranych w ciągu wielu lat oraz porównania wyników modelu z danymi obserwacyjnymi. Wykorzystanie modelu WRF do benchmarków komputerów. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

5 Przetwarzanie danych w modelu WRF Obiekt 1: MPI/Serial WRF preprocessing Obiekt 2: MPI/MPI+OpenMP P i = MPI proces WRF model P 0,,P n P i =(T 0,,T m ) T m = wątek OpenMP Obiekt 3: Parametric MPI/Serial UPP postprocessing P 0,,P k UPP postprocessing P 0,,P k UPP postprocessing P 0,,P k Symulacje w modelu WRF składają się z szeregu programów różnego typu i złożoności, sekwencyjne i równoległe, wykorzystujące różną liczbę rdzeni i procesorów. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

6 Przetwarzanie danych w modelu WRF Przepływ informacji Obiekt 1 Przygotowanie danych WPS: konwersja danych z formatu GRIB do netcdf przy użyciu: GEOGRID.EXE (serial/mpi) UNGRIB.EXE (Serial) METGRID.EXE (Serial/MPI) Obiekt 2 Modelowanie WRF modelowanie numeryczne przy użyciu: REAL.EXE inicjalizacja przygotowanie danych rzeczywistych (MPI/MPI+OpenMP). WRF.EXE całkowanie numeryczne ARW (MPI/MPI+OpenMP). Obiekt 3 UPP post processing Konwersja danych wynikowych w formacie netcdf do formatu GRIB przy użyciu programu UNIPOST.EXE (Serial/MPI) dla okresu czasu objętego prognozą. Nie ma zależności pomiędzy opracowywanymi danymi z kolejnych godzin. Procesy można sparametryzować jako nienależne zadania. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

7 Dane do benchmarków WRF Dane do benchmarków przygotowywane są przez jedną z grup roboczych Rady Aplikacji Badawczych WRF (WG2 Software architecture, standard and implementation). Dostępne są dane dla dwóch pojedynczych siatek 12.5 km (2001) i 2.5 km (2005) sieci CONUS. Oprogramowanie WRF Symulacja o długości 3 godz. Problem z weryfikacją wyników. I/O serial/parallel. Rozdzielczość Liczba węzłów 12.5 km 425x300x35 = 4.46 mln 2.5 km 1500x1200x35 = 63 mln INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

8 Dane do benchmarków modelu WRF Arctic Region Supercomputing Center WRF Benchmarking. Dane dla siatek zanurzonych obejmujące obszar Europy i Alaski. WRF Symulacja o długości 3h na bazie danych z 2007 roku. Dane obecnie niedostępne. 3dhrlev Rozdzielczość Liczba węzłów 7.2 km 585x495x63 = 18.2 mln 2.4 km 823x652x63 = 33.8 mln 800 m 1777x1066x63 = mln INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

9 Superkomputery VSC PACMAN CHUGACH KRAKEN HPC academic system University of Vienna Sun Fire X2270 compute nodes, each equipped with 2 Quadcore processors (Intel, X5550, 2.66 GHz) and 24 GB memory (3 GB per core). Infiniband QDR network (40 Gbps). Filesystem ext3 Academic system, Arctic Region Supercomputing Center. Pacific Area Climate Monitoring and Analysis Network (PACMAN). Sixteen-core compute nodes consisting of 2 eight-core 2.3 GHz AMD Opteron processors with 64 GB memory (4 GB per core). Mellanox QDR Infiniband interconnect. Cray XE6 currently administered by ARSC for the DoD High Performance Computing and Modernization Program. 16-core compute nodes consisting of 2 eight-core 2.3 GHz AMD Opteron processors with 32 GB memory (2 GB per core). Cray Gemini interconnect. Lustre scalable filesystem used on compute nodes. Cray XT5 at National Institute for Computational Sciences. 12-core compute nodes consisting of 2 six-core 2.6 GHz AMD Opteron processors with 16 GB memory (1.5 GB per core). Cray SeaStar2+ interconnect. Lustre filesystem used on compute nodes. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

10 Superkomputery - Tryton Tryton - superkomputer w Centrum Informatycznym Trójmiejskiej Akademickiej Sieci Komputerowej (CI TASK) o architekturze klastrowej o następujących parametrach: Procesory: Intel Xeon Processor E5 2,3 GHz, 12-core (Haswell), 30MB cache Akceleratory: Pamięć: Sieć: Nvidia Tesla, Intel Xeon Phi, AMD FirePro 128/256 GB RAM DDR4 na serwer InfiniBand FDR 56 Gb/s, topologia fat tree, przełączniki Mellanox Razem: 1607 serwerów, 3214 procesorów, rdzeni, 48 akceleratorów, 218 TB RAM Szafy: System operacyjny: Moc obliczeniowa: 40 szt. linux 1,48 PFLOPS INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

11 WRF Konfiguracja Kompilator Intel fortran i c OpenMPI interfejs programowania aplikacji (API) umożliwiający tworzenie programów komputerowych dla systemów wieloprocesorowych z pamięcią dzieloną. HDF format plików i biblioteka do przechowywania danych naukowych z obsługą plików powyżej 2GB; wspiera równoległe We/Wy. Parallel-netcdf format zapisu danych; wspiera równoległe We/Wy. Netcdf Netcdf WRF oraz WRF 3.9 Wszystkie biblioteki muszą być kompilowane tym samym kompilatorem INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

12 WRF konfiguracja M.F. Standardowa instalacja modelu WRF dla procesorów Intel Xeon Zaawansowana instalacja modelu WRF z optymalizacją dla procesorów Haswell Optymalizacja kodu dostosowana do funkcji procesora. Np. flaga xcore_avx2 generuje instrukcje rozszerzenia wykorzystujące architekturę Haswell. Agresywna optymalizacja kodu wynikowego. Instalacja modelu WRF z obsługą seryjnego i równoległego zapisu i odczytu danych. Kompilacja ze zmienną środowiskową PNETCDF wskazującą położenie biblioteki równoległej netcdf. Instalacja hybrydowa smpar/dmpar. Wersja z równoległą biblioteką netcdf oraz z optymalizacją dla procesorów Haswell. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

13 Benchmark 3dhrlev - wyniki Wykorzystanie pamięci operacyjnej: ponad 200GB. Symulacje wykonane modelem WRF oraz Zwiększenie ilości rdzeni z 512 do 1920 nie przyspiesza symulacji problem skalowalności procesów. Brak danych dla nowszych wersji modelu WRF np. 3.8 lub 3.9. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

14 Benchmark CONUS 2.5km - wyniki Optymalizacja kompilacji z opcjami dla procesorów Intel Xeon-Haswell przyspiesza czas wykonania obliczeń o około 15-20% jeśli proces jest dobrze skalowalny. Występuje problem z długim czasem zapisu danych w wersji sekwencyjnej. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

15 Benchmark 3dhrlev Ethernet 1GB Klaster FENIX Centrum Geomatyki Stosowanej WAT Procesory: Intel Xeon Processor 2,93 GHz, 12-core, 12Mb cache Węzły: Pamięć: Sieć: 32 każdy po 12 rdzeni 12 GB RAM DDR3 na procesor Ethernet 1GB Razem: 16 serwerów, 32 procesorów, 384 rdzenie, 768 GB RAM Szafy: System operacyjny: 1 szt. Linux Superkomputer TRYTON mpirun np ${NPROC} --mca btl tcp,vader,self --mca btl_tcp_if_include eth0 INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

16 Benchmark 3dhrlev Ethernet 1GB - wyniki Symulacje bez optymalizacji kodu WRF standard. Sekwencyjny zapis wyników symulacji. Słaba skalowalność procesów. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

17 WRF METEOPG model operacyjno-badawczy Model z 3 siatkami zanurzonymi, możliwość aktywowania siatki 4 o rozdzielczości 100m. Modelowanie lokalnych zjawisk meteorologicznych w czasie i przestrzeni. Wysoka rozdzielczość modelu w czasie i przestrzeni. Meteorologiczne warunki początkowe i brzegowe. Globalny model GFS (Global Forecasting Systemof US National Weather Service) ERA-Interim/ERA5 (tylko analizy klimatyczne). Wysokorozdzielcze modele DTM (30m) i zagospodarowania terenu (100m). Rozdzielczość Liczba węzłów 12.5 km 146x146x62 = 1.27 mln 2.5 km 306x306x62 = 5.9 mln 500 m 245x245x62 = 3.7 mln INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

18 WRF METEOPG model operacyjno-badawczy Jeden sposób zanurzania siatek, 1:5 Schemat modelu mikrofizyki: WSM6 RRTMG schemat dla krótkofalowego i długofalowego promieniowania. Model konwekcji: Grell-Freitas (tylko siatka 1) Planetarna wartwa graniczna: siatki 1,2 i 3: model YSU Model powierzchni lądu: NOAh LSM Numeryczny model terenu - SRTM (Shuttle Radar Topography Mission) Numeryczny model pokrycia (zagospodarowania) terenu CORINE (CLC2012), program Copernicus INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

19 WRF METEOPG dane wejściowe Dane wejściowe Zgromadzenie danych wejściowych: Obserwacje meteo GFS Pola meteo Pre-processing Dane satelitarne WRF Model oceanu Modelowanie Dane geograficzne Model pokrycia terenu Wyniki

20 Całkowity czas symulacji 6h dwie siatki Dobra skalowalność procesów do około 200 rdzeni Optymalizacja kodu dla procesorów Haswell przyspiesza obliczenia o koło 12% INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

21 Całkowity czas symulacji 6h - trzy siatki Dla 3 siatek optymalizacja modelu dla procesorów Haswell przyspiesza obliczenia o około 20%. Skalowalność procesów do 350 rdzeni. Przyspieszenie jest obserwowane tylko dla procesów dobrze skalowalnych. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

22 Dekompozycja siatek WRF domyślnie wyznacza wartości nproc_x i nproc_y z pierwiastka kwadratowego przydzielonych przez ilość rdzeni/procesorów. Jeśli jest to niemożliwe używane są wartości zbliżone do siebie. Dekompozycja odnosi się do siatki nadrzędnej 2D. X Y Zadanie, proces obliczeniowy MPI/OpenMP komunikacja z sąsiednimi zadaniami INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

23 Dekompozycja siatek model METEOPG Z praktycznego punku widzenia przyjęcie takich samych wartości nproc_x i nproc_y nie jest optymalne. WRF lepiej pracuje jeśli dekompozycja ma bardziej prostokątny charakter. Prowadzi to do lepszego wykorzystania pamięci podręcznej i bardziej efektywnej komunikacji. W analizowanym przypadku domyślna wartość nproc_y=8 (nproc_x=8), zmieniając tą wartość na 16 (nproc_x=4), czas obliczeń zmniejsza się o około 8%. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

24 WRF I/O Compute processes I/O processes Compute process Node 0 Compute processes parallel file system Rysunek na podstawie artykułu Opportunities for WRF Model Acceleration, John Michalakes, Andrew Porter INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

25 WRF I/O I/O processes Compute processes Kiedy podzielimy pliki netcdf, każdy proces MPI zapisuje własny plik. Poprawa zależy od wielkości danych na proces. Dla modelu METEOPG wydajność zapisu danych wzrosła 10 razy dla 528 rdzeni. Wada: musimy połączyć wszystkie pliki. WRF oficjalnie nie wspiera tego rozwiązania. Rozwiązanie: Połączenie pnetcdf z warstwą Tryton MPI oznacza, że szeregi MPI są łączone w grupy, a następnie jeden z każdej grupy agregator wykonuje zapis do pliku. nproc = nproc_x*nproc_y+(nio_groups*nio_task_per_group), wartość nio_task_per_group nie może przekroczyć wartości nproc_y. Optymalne rozwiązanie nproc_y powinno być wielokrotnością nio_task_per_group. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

26 Koligacja procesorów Wykorzystanie wszystkich rdzeni procesora spowalnia proc obliczeniowy 11%!!! Optymalne rozwiązanie, zmniejszenie z 24 do rdzeni/procesor. Rozwiązanie. Zmiana przyporządkowanego rdzeni procesorów do konkretnego procesu lub wątku, działa poprawnie jeśli jest wystarczająca ilość pamięci podręcznej. mpirun bycore bind-to-core report-bindings./wrf.exe Procedura powyższa nie zezwala na migrację procesów. Jest to ważne ponieważ jeśli proces migruje, nie może odnaleźć wcześniej zapisanych danych w nowej pamięci podręcznej. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

27 METEOPG podsumowanie Proces Serial Parallel Pobieranie danych godzinnych GFS 0.25deg. Czas [s] Czas [s] GEOGRID METGRID Prognoza WRF I/O SUMA WRF forecast (parallel) Model operacyjny METEOPG 528 rdzeni, czas prognozy 60 godz. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

28 Podsumowanie i wnioski Benchmark superkomputerów z wykorzystaniem numerycznych modeli pogody jest wydajnym narzędziem, które może być stosowane na różnych platformach sprzętowych. Operacje wejścia/wyjścia ograniczają skalowalność procesów obliczeniowych dla dużej ilości rdzeni. Wprowadzając równoległy zapis i odczyt danych można redukować ten efektu. Stare dane do benchmarków z modelu WRF. Brak prostej możliwości wiarygodnej oceny wydajności superkomputerów dla nowych wersji WRF. W TASK zostanie przygotowany zestaw danych do benchmarku HPC z najnowszymi danymi wejściowymi i modelem WRF 3.9/ Nowy zestaw danych do benchmarku powinien być aktualizowany dla każdej wersji modelu. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września

29 Dziękuję za uwagę! Koniec części I kontakt: Mariusz Figurski, mariusz.figurski@pg.edu.pl Obliczenia wykonano na komputerach Centrum Informatycznego Trójmiejskiej Akademickiej Sieci Komputerowej. INFOBAZY 2017, VIII Konferencja Bazy Danych dla Nauki, GDAŃSK września