OCENA SZYBKOŚCI I EFEKTYWNOŚCI OBLICZEŃ WYBRANYCH SYSTEMÓW KOMPUTEROWYCH W ZAKRESIE OBCIĄŻEŃ IMPULSOWYCH

MODELOWANIE INŻYNIERSKIE nr 57, ISSN 1896-771X OCENA SZYBKOŚCI I EFEKTYWNOŚCI OBLICZEŃ WYBRANYCH SYSTEMÓW KOMPUTEROWYCH W ZAKRESIE OBCIĄŻEŃ IMPULSOWYCH Robert Panowicz Katedra Mechaniki i Informatyki Stosowanej, Wojskowa Akademia Techniczna robert.panowicz@wat.edu.pl Streszczenie W artykule przedstawiono wyniki badań szybkości i efektywności obliczeń w zależności od liczby równocześnie prowadzonych obliczeń i liczby rdzeni na których obliczenia te są prowadzone. Rozważono typowe przypadki z zakresu dynamiki dla wybranych systemów komputerowych. Przedstawiono wyniki analiz szybkości i efektywności systemów obliczeniowych dla testu Taylora oraz obciążenia falą ciśnienia pochodzącą z detonacji materiału wybuchowego za pomocą funkcji ConWep deflektora. Przedstawiono również wyniki dla przypadku stosowanego do oceny najszybszych komputerów. W przypadku testu Taylora i obciążenia falą ciśnienia deflektora przebadano również wpływ liczby elementów na szybkość obliczeń. Słowa kluczowe: dynamika, metoda elementów skończonych, ConWep, przetwarzanie równoległe ASSESSMENT OF COMPUTATION SPEED AND EFFICIENCY OF SELECTED COMPUTER SYSTEMS WITH REGARD TO IMPULSE LOAD Summary The paper presents the results of computation speed and efficiency based on a number of calculations performed at the same time and on a number of cores on which the calculations are carried out. Typical cases of numerical analysis of dynamic phenomena for the selected computer systems are considered. The results of speed and efficiency analyses of computing systems for the Taylor test and a blast wave interacting with the deflector is presented. The ConWep function is used to model the blast wave. The paper presents also the results for the case applied for evaluation of hi-tech computers. In the case of the Taylor test and the blast wave interacting with the structure, an influence of a number of elements on the speed of calculations is examined, too. Keywords: dynamics, finite element method, ConWep, parallel data processing 1. WSTĘP Organizacja badań w zakresie metod komputerowych mechaniki składa się z kilku elementów, zaczynając od właściwego opisu zjawiska za pomocą praw zachowania masy, pędu i energii, poprzez budowę szczegółowego modelu, wprowadzanie w nim uproszczeń, aż do doboru typu i wielkości elementów skończonych, w przypadku wykorzystania metody elementów skończonych, kończąc na doborze rodzaju i parametrach kontaktu. 47

OCENA SZYBKOŚCI I EFEKTYWNOŚCI OBLICZEŃ WYBRANYCH SYSTEMÓW Od pewnego etapu rozwiązywania problemu zaczynając, a na końcowym etapie badań kończąc, przeprowadza się szereg analiz komputerowych. Do tego celu wykorzystuje się komputery stacjonarne lub klastry obliczeniowe. Każde z wymienionych rozwiązań posiada przynajmniej jeden wielordzeniowy, wielowątkowy procesor. Umożliwia to skrócenie czasu trwania analiz poprzez równoczesne wykonanie kilku, kilkunastu zadań lub poprzez wykonanie mniejszej liczby zadań, ale za to w krótszym czasie. Skrócenie czasu obliczeń uzyskuje się poprzez przetwarzanie równoległe. Zależy ono nie tylko od budowy procesorów i częstotliwości ich taktowania, ale również od przepustowości szyny danych wewnętrznych i zewnętrznych. Do oceny danego systemu komputerowego wykorzystuje się zwykle dwa parametry, a mianowicie szybkość i efektywność obliczeń. Szybkość obliczeń definiuje się jako stosunek czasu obliczeń wykonanych na jednym rdzeniu T1 do czasu obliczeń wykonanych na n rdzeniach Tn [1]: (1) Efektywność obliczeń definiuje się jako [1]: (2) W artykule przedstawiono wyniki badań szybkości i efektywności obliczeń w zależności od liczby równocześnie prowadzonych obliczeń i liczby wątków, na których obliczenia te są prowadzone. Rozważono typowe przypadki z zakresu dynamiki dla wybranych systemów komputerowych. Przedstawiono wyniki analiz szybkości i efektywności systemu obliczeniowego dla testu Taylora oraz obciążenia falą ciśnienia pochodzącą z detonacji materiału wybuchowego za pomocą funkcji ConWep deflektora. Przedstawiono również wyniki dla przypadku stosowanego do oceny najszybszych komputerów. W przypadku testu Taylora i obciążenia falą ciśnienia deflektora przebadano również wpływ liczby elementów na szybkość obliczeń 2. OPIS ANALIZOWANYCH UKŁADÓW W pracy analizowano trzy zagadnienia. Pierwsze polega na określeniu czasu trwania analizy procesu zderzenia samochodu z nieodkształcalną przeszkodą pod kątem prostym (rys. 1). Wykorzystany model dostępny jest w internecie i często wykorzystywany jest do określenia efektywności systemów obliczeniowych wykorzystujących program Ls-Dyna [2, 3]. Do budowy modelu samochodu wykorzystano ponad 0,5 mln elementów powłokowych. Rys. 1. Zderzenie samochodu z nieodkształcalną przeszkodą; (góra) stan początkowy, (dół) stan końcowy analizowanego układu [2] Drugie z analizowanych zagadnień polega na analizie uderzenia odkształcalnego pręta w nieodkształcalną przeszkodę test Taylora (rys. 2). Do analiz wybrano miedziany prostopadłościan o następujących wymiarach: 1 cm x 1 cm x 10 cm. Właściwości materiałowe opisano empirycznym modelem konstytutywnym Johnsona-Cooka, który umożliwia opis zachowania materiału w zakresie dużych odkształceń i szybkości odkształceń [4, 5]: gdzie:, (3) (4) (5) σflow naprężenie plastycznego płynięcia, T temperatura bieżąca, Tr temperatura otoczenia, Tm temperatura topnienia, szybkość odkształceń plastycznych, referencyjna szybkość odkształceń plastycznych, A, B, n, C, m stałe materiałowe. Stałe materiałowe użyte w analizach numerycznych zostały zaprezentowane w tabeli 1 [5]. Analizowano trzy przypadki różniące się rozmiarami elementów, a więc także ich liczbą (tab. 2). W pierwszym przypadku wszystkie elementy skończone miały boki o długości 1mm, co przełożyło się na całkowitą liczbę elementów równą 10 tys. Natomiast w przypadku modelu o największej liczbie elementów (80 tys.) ich boki miały 0,5 mm. 48

ROBERT PANOWICZ Tab. 1. Stałe materiałowe miedzi do modelu konstytutywnego Johnsona - Cooka [5] Parametr Jednostka Wartość MPa 90 B MPa 292 n - 0,31 C - 0,025 m - 1,09 Tab.4. Wymiary i liczba elementów zastosowanych do opisu modelu z deflektorem Model DA DB DC Rozmiar elementu Liczba elementów 5,35 2,68 1,34 22 840 30 904 63 160 Tab. 2. Wymiary i liczba elementów w teście Taylora Model TA TB TC Rozmiar elementu Liczba elementów 0,1 0,077 0,05 10 000 21 970 80 000 Ostatni z analizowanych układów składa się ze stanowiska badawczego, na którym umieszczony jest deflektor (rys. 3). Obciążony jest on impulsem ciśnienia pochodzącym z detonacji 100 g trotylu. Do opisu oddziaływania impulsu ciśnienia na strukturę wykorzystano funkcję ConWep, której opis można znaleźć między innymi w pracach [3, 6]. Wykorzystano również symetrię układu, przeprowadzając analizę ćwiartki układu. Rys. 3. Deflektor umieszczony na stanowisku pomiarowym; (góra) stan początkowy, (dół) stan końcowy analizowanego układu Rys. 2. Test Taylora; (góra) stan początkowy, (dół) stan końcowy analizowanego układu Zachowanie się wszystkich części układu, z wyjątkiem deflektora, opisano modelem ciała sprężystego nadając typowe dla stali parametry materiałowe: E = 207 GPa, ν = 0,27. Do opisu właściwości materiałowych stalowego deflektora wykorzystano model Johnsona- Cooka (3). Wykorzystane w obliczeniach stałe materiałowe przedstawiono w tabeli 3 [4]. Tab.3. Stałe materiałowe stali do modelu konstytutywnego Johnsona - Cooka [4] Parametr Jednostka Wartość A MPa 792 B MPa 510 n - 0,26 C - 0,014 m - 1,03 Również w tym przypadku analizowano trzy przypadki różniące się rozmiarami elementów deflektora (tab. 4). Elementy skończone miały boki o długości od 5,35 mm do 1,34 mm, w zależności od analizowanego układu. 3. ANALIZY NUMERYCZNE Wszystkie analizy zostały przeprowadzone na komputerach wyposażonych w system operacyjny Linux oraz tę samą wersję programu Ls-Dyna. Badania prowadzono na dwóch różnych systemach obliczeniowych: - komputer stacjonarny wyposażony w procesor IN- TEL I7-4930K 3,4GHz, - węzeł 24-wątkowy klastra obliczeniowego wyposażony w 4 procesory AMD OPTERON 8431 2,4 GHZ. Rezultaty analiz pierwszego przypadku polegającego na uderzeniu pojazdu w nieodkształcalną przeszkodę (rys. 1) zostały pokazane na rysunkach od 5 do 7. Dwa pierwsze z wymienionych rysunków dotyczą czasu obliczeń na komputerze wyposażonym w procesor INTEL, a dwa kolejne AMD. Na rysunkach 4 i 6 przedstawiono czas obliczeń w zależności od liczby rdzeni, na których obliczenia są wykonywane, natomiast na rysunkach 5 i 7 przedstawiono ten sam parametr, ale w funkcji liczby równocześnie wykonywanych analiz numerycznych tego samego typu. Czas analiz maleje początkowo przy zwiększaniu liczby rdzeni, na których wykonywane są obliczenia. 49

OCENA SZYBKOŚCI I EFEKTYWNOŚCI OBLICZEŃ WYBRANYCH SYSTEMÓW Minimum osiągane jest przy 6 rdzeniach, w przypadku procesora INTEL i 9 rdzeniach AMD dla pojedynczego zadania. Liczba ta maleje przy zwiększającej się liczbie wykonywanych zadań. Przy czterech równocześnie wykonywanych zadaniach optymalna liczba rdzeni, na których prowadzi się obliczenia wynosi od 2 do 4. Razem ze zwiększaniem się liczby rdzeni i liczby równocześnie prowadzonych obliczeń maleje ich efektywność. Jedynie w przypadku dwóch rdzeni i jednego zadania zbliżona jest do teoretycznej wartości (rys. 4-7). Odzwierciedleniem przedstawionych zależności jest efektywność systemu, która jest prawie stała dla systemu z procesorem INTEL, jeżeli obliczenia prowadzone są na liczbie rdzeni nie większej niż 6. W razie większej liczby rdzeni widoczna jest mocna tendencja malejąca. Efektywność drugiego z rozpatrywanych systemów jest bardziej zależna od liczby rdzeni, ale jej spadek wobec większej liczby jest mniejszy. W razie kilku równocześnie wykonywanych zadań, którym został przydzielony jeden rdzeń na zadanie, prędkość obliczeń jest stała, czyli efektywność całego systemu rośnie (rys. 5, 7). Jednak tak jak w poprzedniej sytuacji od pewnej liczby zadań czas obliczeń rośnie liniowo wraz ze wzrostem liczby zadań. Zarówno charakter zmian czasu obliczeń jak i optymalna liczba rdzeni, na których prowadzi się obliczenia, nie ulegają dużym zmianom w funkcji liczby elementów skończonych opisujących model (rys. 8). Analogiczne relacje występują w przypadku równocześnie wykonywanych obliczeń (rys. 9). Zmienia się natomiast szybkość i efektywność obliczeń (rys. 10, 11). Szybkość obliczeń wzrasta wraz z liczbą rdzeni użytych do obliczeń. Wzrost kończy się w momencie użycia optymalnej wartości liczby rdzeni. Dla większej liczby rdzeni szybkość obliczeń jest praktycznie stała. Jest ona wrażliwa na liczbę elementów opisujących model i maleje z ich wzrostem. Przekłada się to równocześnie na efektywność systemu zaprezentowaną na rys. 11. Analogicznie jest w przypadku systemu komputerowego wyposażonego w procesory firmy AMD. Ten system osiąga mniejszą maksymalną szybkość (rys. 12), a efektywność systemu dla mniejszej liczby rdzeni szybciej maleje (rys. 13). Maksymalna różnica pomiędzy rozpatrywanymi systemami nie jest większa niż 0,15. Odmienna sytuacja występuje w razie zastosowania testu Taylora (rys. 14 17). Dla tego modelu szybkość obliczeń w początkowej fazie jest liniową funkcją liczby elementów skończonych użytych do opisu modelu zarówno w przypadku systemu komputerowego Intel (rys. 14) jak i AMD (rys. 16). W przypadku systemu z procesorem AMD występują większe fluktuacje w szybkości obliczeń, ale system ten osiąga większe wartości maksymalne tego parametru (rys. 15). Maksymalna szybkość obliczeń wynosiła więcej niż 10, w porównaniu do drugiego systemu, który wykonał obliczenia z maksymalną szybkością niewiele większą od 6. Rys. 4. Czas wykonania obliczeń zderzenia samochodu z nieodkształcalną przeszkodą w zależności od liczby rdzeni; komputer z procesorem firmy INTEL Rys. 5. Czas wykonania obliczeń zderzenia samochodu z nieodkształcalną przeszkodą w zależności od liczby zadań; komputer z procesorem firmy INTEL Rys. 6. Czas wykonania obliczeń zderzenia samochodu z nieodkształcalną przeszkodą w zależności od liczby rdzeni, system komputerowy z procesorem firmy AMD 50

ROBERT PANOWICZ Rys. 7. Czas wykonania obliczeń zderzenia samochodu z nieodkształcalną przeszkodą w zależności od liczby zadań; system komputerowy z procesorem firmy AMD Rys. 11. Efektywność wykonania obliczeń oddziaływania impulsu ciśnienia na deflektor w zależności od liczby rdzeni i liczby elementów skończonych; komputer z procesorem firmy INTEL Rys. 8. Czas wykonania obliczeń oddziaływania impulsu ciśnienia na deflektor w zależności od liczby rdzeni i liczby elementów skończonych; komputer z procesorem firmy IN- TEL Rys. 12.Szybkość obliczeń oddziaływania impulsu ciśnienia na deflektor w zależności od liczby rdzeni i liczby elementów skończonych, komputer z procesorem firmy AMD Rys. 9. Czas wykonania obliczeń oddziaływania impulsu ciśnienia na deflektor w zależności od liczby zadań i liczby elementów skończonych; komputer z procesorem firmy IN- TEL Rys. 13.Efektywność obliczeń oddziaływania impulsu ciśnienia na deflektor w zależności od liczby rdzeni i liczby elementów skończonych, komputer z procesor firmy AMD Rys. 10.Szybkość obliczeń oddziaływania impulsu ciśnienia na deflektor w zależności od liczby rdzeni i liczby elementów skończonych, komputer z procesorem firmy INTEL Rys. 14. Szybkość obliczeń testu Taylora w zależności od liczby rdzeni i liczby elementów skończonych, komputer z procesorem firmy INTEL 51

OCENA SZYBKOŚCI I EFEKTYWNOŚCI OBLICZEŃ WYBRANYCH SYSTEMÓW 4. PODSUMOWANIE W artykule przedstawiono wyniki badań czasu obliczeń, szybkości i efektywności różnych modeli zjawisk przeprowadzanych na różnych systemach komputerowych. Przebadano zarówno wpływ równocześnie wykonywanych na systemie zadań jak i wpływ liczby rdzeni oraz liczby elementów skończonych opisujących model. Rys. 15. Efektywność wykonania obliczeń testu Taylora w zależności od liczby rdzeni i liczby elementów skończonych, komputer z procesorem firmy INTEL Z przeprowadzonych analiz trudno jest jednoznacznie określić tendencje zarówno w zakresie szybkości jak i efektywności obliczeń, które mocno zależą od rodzaju prowadzonych na danym sprzęcie badań. Mimo tego można określić pewne zalecenia: - żaden system nie powinien być obciążany obliczeniami w 100%, gdyż w tej sytuacji do obsługi systemu operacyjnego wykorzystywane są przerwania właściwych obliczeń, co skutkuje zarówno dużym spadkiem szybkości jak i efektywności obliczeń, Rys. 16. Szybkość obliczeń testu Taylora w zależności od liczby rdzeni i liczby elementów skończonych, system komputerowy z procesor firmy AMD - optymalna liczba rdzeni użytych do obliczeń ze względu na ich szybkość jest znacznie mniejsza niż ich maksymalna liczba i wynosi od 6 do 11. Jest ona ściśle związana z analizowanym modelem, jawną metodą całkowania użytą w analizie oraz liczbą stopni swobody danego modelu, - ze wzrostem liczby zadań równocześnie wykonywanych na systemie komputerowym powinna maleć liczba rdzeni przydzielonych do obliczeń. Praca została wykonana w ramach projektu Nr DO- BRBIO4/022/13149/2013, finansowanego przez NC- BiR w latach 2013-2016. Rys. 17. Efektywność obliczeń testu Taylora w zależności od liczby rdzeni i liczby elementów skończonych, system komputerowy z procesorem firmy AMD Literatura 1. Ben-Ari M.: Podstawy programowania współbieżnego i rozproszonego. Warszawa: WNT 2009. 2. http://www.topcrunch.org/. Dostęp: 4.11.2015. 3. Hallquist J. O.: Ls-Dyna theory manual. Livermore Software Technology Corporation, Livermore 2005. 4. Johnson G. R., Cook. W. H.: An constitutive model and data for metals subjected to large strains, high strain rates and high temperatures. In: 7th International Symposium on Ballistics, 1983, p. 541 547. 5. Janiszewski J., Panowicz R.: Selection of a constitutive model used for prediction of behaviour of ring material expanded by pulse electromagnetic field. Solid State Phenomena, 2009, Vols. 147-149, p. 444 449. 52

ROBERT PANOWICZ 6. Panowicz R., Nowak J., Konarzewski M.: Evaluation of impact of the deflector shape on effectiveness of weaking the blast wave originating from a mine or IED. Journal of KONES Powertrain and Transport 2013, Vol. 20, No. 2, p. 329 334. 53