MESco Testy skalowalności obliczeń mechanicznych w oparciu o licencje HPC oraz kartę GPU nvidia Tesla c2075 Stanisław Wowra swowra@mesco.com.pl
Lider w dziedzinie symulacji na rynku od 1994 roku. MESco 42-600 Tarnowskie Góry, ul.górnicza 20a tel. (+48 32) 768-36-36 fax: (+48 32) 768-36-35 E-mail info@mesco.com.pl http://www.mesco.com.pl 2
Testy przyspieszenia obliczeń mechanicznych przy wykorzystaniu licencji ANSYS HPC, HPC Pack oraz procesorów graficznych nvidia Tesla C2075 Celem testów było sprawdzenie zakresu skalowalności przyspieszenia obliczeń na rzeczywistym i złożonym modelu nieliniowym w analizie mechanicznej. W czasie testu nie porównywano różnych modeli mechanicznych. Do testów został wykorzystany model dostarczony przez firmę Avio Polska.
Parametry techniczne stacji roboczej Stacja HP z800 Procesory: 2 x Intel Xeon x5690 (3.46 GHz, 6 core) Pamięć: 96 GB DDR3 Dyski: 1 TB SATA 7200 Oprogramowanie System: Windows 7 64 bit ANSYS: v13 SP2 Procesor graficzny GPU nvidia Tesla C2075 (wersja certyfikowana dla stacji HP) 4
Parametry techniczne stacji roboczej 5
Model wykorzystany do testów Analiza mechaniczna Analiza: statyka nieliniowa Model: 1.3 mln węzłów Elementy kontaktowe: 26 tyś elementów typu 52 Solver: Sparse i PCG 6
Wprowadzenie W analizach mechanicznych istnieje możliwość prowadzenia obliczeń na 2 rdzeniach w wersji komercyjnej oraz na 4 w wersji uniwersyteckiej Prowadzenie obliczeń na większej ilości rdzeni jest możliwe poprzez dokupienie licencji HPC Prowadzenie obliczeń ze wsparciem GPU jest możliwe wraz z licencją HPC Pack (dla komercji) oraz standardowo w wersjach uniwersyteckich Kolejne slajdy pokazują zestawienie czasu obliczeń i przyspieszenia na 1, 2, 4, 6, 8, 10, 11 i 12 rdzeniach. 7
Wyniki dla analiz z HPC (ANSYS 13.2) Solver Typ Liczba rdzeni Czas [s] Czas [min] Redukcja czasu obliczeń Sparse In-Core 1 10122.5 168.71 1.00 - Sparse In-Core 2 5670.3 94.51 0.56 1.79 Sparse In-Core 4 3577.1 59.62 0.35 2.83 Sparse In-Core 6 2905.8 48.43 0.29 3.48 Sparse In-Core 8 2525.5 42.09 0.25 4.01 Sparse In-Core 10 2374.4 39.57 0.23 4.26 Sparse In-Core 11 2288.3 38.14 0.23 4.42 Sparse In-Core 12 2259.8 37.66 0.22 4.48 PCG In-Core 6 6430 107.17 0.64 1.57 PCG In-Core 12 7320 122.00 0.72 1.38 8
Wyniki dla analiz z HPC (ANSYS 13.2) 180.00 Z800 Y-[min] X-[CPU] 160.00 140.00 120.00 100.00 80.00 z800 SPARSE 60.00 40.00 20.00 0.00 1 2 3 4 5 6 7 8 9 10 11 12 9
Wyniki dla analiz z HPC + GPU Solver Typ Liczba rdzeni Czas [s] Czas [min] Redukcja czasu obliczeń Sparse + GPU In-Core 2 2043 34.05 0.20 4.95 Sparse + GPU In-Core 4 1776 29.60 0.18 5.70 Sparse + GPU In-Core 5 1704 28.40 0.17 5.94 Sparse + GPU In-Core 8 1674 27.90 0.17 6.05 Sparse + GPU In-Core 9 1650 27.50 0.16 6.13 Sparse + GPU In-Core 11 1599 26.65 0.16 6.33 Sparse + GPU In-Core 12 1658 27.63 0.16 6.11 10
Wyniki dla analiz z HPC + GPU 40.00 Z800 Y-[min] X-[CPU] 35.00 30.00 25.00 20.00 z800 + GPU 15.00 10.00 5.00 0.00 1 2 3 4 5 6 7 8 9 10 11 12 11
Porównanie z i bez GPU (czas obliczeń) 180.00 Z800 Y-[min] X-[CPU] 160.00 140.00 120.00 100.00 80.00 Z800 z800+gpu 60.00 40.00 20.00 0.00 1 2 3 4 5 6 7 8 9 10 11 12 12
Porównanie z i bez GPU (przyspieszenie) 7.00 Z800 Y-[speedup] X-[CPU] 6.00 5.00 4.00 3.00 z800 z800 + GPU 2.00 1.00 0.00 1 2 3 4 5 6 7 8 9 10 11 12 13
Przyspieszenie po dołożeniu GPU do HPC 3.00 2.50 2.00 1.50 GPU sppedup 1.00 0.50 0.00 2 3 4 5 6 7 8 9 10 11 12 Stosunek czasu obliczeń z GPU do bez GPU vs liczba rdzeni. 14
Wnioski Wersji 12.0 ANSYS znacznie ulepszył rozwiązania obliczeń rozproszonych dla analiz mechanicznych. W wersji 13 zostały wprowadzone kolejne zmiany i obecnie posiadamy bardzo dobre, i skalowalne narzędzie, pozwalające znacznie przyspieszyć obliczenia mechaniczne. Dodatkowo została wprowadzona możliwość wykorzystania do obliczeń GPU w postaci kart nvidia Tesla (w wersji beta także ATI) Wyniki benchmarku wskazują na znaczne przyspieszenie obliczeń przez licencje HPC co przekłada się na możliwość przeprowadzenia większej liczby analiz a tym samym zwiększenie wydajności narzędzi ANSYS. - 16 -
Wnioski Po analizie ekonomicznej kosztów licencji HPC oraz karty GPU vs koszt licencji mechanicznej (poziom Structural) uzyskano maksimum zysków w okolicach 8-9 rdzeni. Optymalnym rozwiązaniem jest wyposażenie swojego stanowiska w licencję HPC Pack (4 krotna redukcja czasu) oraz kartę nvidia Tesla c2075 (dodatkowa 50% redukcja czasu). * Duże znaczenie ma także taktowanie i klasa procesora. Przeprowadzono testy dla różnych procesorów z rodziny Xeon i w ekstremalnym przypadku uzyskano 10 krotną różnicę w czasie obliczeń. * Wyniki testu przyspieszenia uzyskano dla konkretnego, rzeczywistego modelu. W przypadkach indywidualnych wyniki mogą się różnic od przedstawionych. - 17 -
Wnioski Przy pełnym obciążeniu maszyny (12 rdzeni) widać nieznaczne spowolnienie w stosunku do obliczeń z 1 rdzeniem wolnym (11 rdzeniach). Jest to spowodowane przez procesy systemowe, które minimalnie obciążają maszynę, ale w efekcie wstrzymują obliczenia. Godne uwagi przyspieszenie zostało uzyskane pomiędzy obliczeniami outcore (poza pamięcią RAM) a in-core (cały model w pamięci). Sugeruje to rozbudowę stacji roboczej o odpowiednią do przeliczanych modeli ilość pamięci operacyjnej. W czasie testów zaobserwowano również wpływ fragmentacji danych na dysku na czas obliczeń. Przy dużej fragmentacji obliczenia przebiegały nieznacznie wolniej. - 18 -
Dziękuję. Pytania? 21