ZASTOSOWANIE TECHNOLOGII GPGPU DO PRZYSPIESZENIA OBLICZEŃ W ZAGADNIENIACH BRZEGOWYCH ROZWIĄZYWANYCH ZA POMOCĄ PURC

Transkrypt

1 MODELOWANIE INŻYNIERSKIE nr 48, ISSN X ZASTOSOWANIE TECHNOLOGII GPGPU DO PRZYSPIESZENIA OBLICZEŃ W ZAGADNIENIACH BRZEGOWYCH ROZWIĄZYWANYCH ZA POMOCĄ PURC Andrzej Kużelewski 1a, Eugeniusz Zieniuk 1b 1 Zakład Metod Numerycznych, Wydział Matematyki i Informatyki, Uniwersytet w Białymstoku a akuzel@ii.uwb.edu.pl, b ezieniuk@ii.uwb.edu.pl Streszczenie Celem niniejszej pracy jest zbadanie możliwości zastosowania nowoczesnych rozwiązań równoległego przetwarzania danych w celu przyspieszenia procesu obliczeniowego pojawiającego się w trakcie numerycznego rozwiązywania PURC. Autorzy wzięli pod uwagę możliwość wykorzystania procesorów kart graficznych do obliczeń numerycznych w zastosowaniach ogólnych (general-purpose GPU GPGPU), a w szczególności technologię CUDA (ComputeUnified Device Architecture) firmy NVidia. Słowa kluczowe: PURC, CUDA, zagadnienia brzegowe APPLICATION OF GPGPU FOR ACCELERATION OF CALCULATIONS IN BOUNDARY VALUE PROBLEMS SOLVING USING PIES Summary The main purpose of this paper is examination of an application of modern parallel computing solutions to speed up the calculation in the numerical solution of parametric integral equations systems (PIES). The authors considered use of graphics cards programming in general-purpose applications (GPGPU), particularly NVidia CUDA(Compute Unified Device Architecture). Keywords: PIES, CUDA, boundary value problems 1. WSTĘP Autorzy pracy od wielu lat stosują parametryczne układy równań całkowych (PURC) do rozwiązywania zagadnień brzegowych. Dotychczas PURC wykorzystywane były do rozwiązywania zagadnień brzegowych 2D i 3D modelowanych równaniami różniczkowymi cząstkowymi takimi jak: Laplace a, Poissona, Helmholtza czy Naviera-Lamego [6-12]. PURC, stosowane do numerycznego rozwiązywania wspomnianych równań, w swoim formalizmie matematycznym uwzględniają kształt brzegu rozpatrywanego zagadnienia brzegowego. W celu uwzględnienia brzegu w PURC wykorzystano krzywe (np. Béziera, B-spline i inne) i płaty powierzchni (np. płaty Coonsa, Béziera i inne) stosowane w grafice komputerowej. Do praktycznego zdefiniowania kształtu brzegu zadawano niewielką liczbę punktów kontrolnych. Dotychczas autorzy w swoich pracach skupiali się na badaniu dokładności wyników uzyskiwanych za pomocą PURC w porównaniu z klasycznymi już metodami takimi jak MES czy MEB lub metodami analitycznymi. Jednakże należy zwrócić także uwagę na inny problem dotyczący każdego algorytmu numerycznego - jego czasochłonność obliczeniową. Zwiększanie liczby danych wejściowych skutkuje wydłużeniem czasu pracy algorytmu. Także w przypadku PURC zostało to zaobser- 86

2 Andrzej Kużelewski, Eugeniusz Zieniuk wowane, szczególnie przy bardziej złożonych równaniach (np. Naviera-Lamego) i zwiększeniu wymiarowości problemu z 2D na 3D. Zwiększenie szybkości działania algorytmu może być uzyskane na różne sposoby: wykorzystanie najwydajniejszych dostępnych maszyn, wykorzystanie maszyn wieloprocesorowych i klastrów lub procesorów graficznych. W ostatnich latach szczególnie zauważalny jest wzrost zainteresowania naukowców możliwością wykorzystania procesorów kart graficznych do obliczeń numerycznych w zastosowaniach ogólnych (GPGPU), ze względu na możliwość uzyskania bardzo dużych przyrostów wydajności aplikacji [3-5]. Jest to związane z architekturą kart graficznych (wieloprocesorowa i wielowątkowa), bardzo szybkimi zmiennoprzecinkowymi jednostkami arytmetycznymi oraz wykorzystaniem szybkich pamięci. Dlatego autorzy postanowili przyjrzeć się możliwości zastosowania nowoczesnych rozwiązań równoległego przetwarzania danych w celu przyspieszenia procesu obliczeniowego pojawiającego się w trakcie numerycznego rozwiązywania PURC. Wzięto pod uwagę technologię CUDA (ComputeUnified Device Architecture) firmy NVidia [1]. Celem niniejszej pracy jest przedstawienie możliwości przyspieszenia obliczeń numerycznych, niezbędnych do rozwiązywania zagadnień brzegowych 3D, modelowanych równaniami Naviera-Lamego i rozwiązywanych za pomocą PURC z wykorzystaniem technologii CUDA. 2. PURC DLA TRÓJWYMIAROWYCH RÓWNAŃ NAVIERA-LAMEGO PURC dla trójwymiarowych równań Naviera- Lamego jest wynikiem analitycznej modyfikacji klasycznych BRC. Szczegółowy opis metodologii takiej modyfikacji dla zagadnień 2D modelowanych różnymi równaniami różniczkowymi przedstawiono w pracach [6-9]. Uogólniając wspomnianą metodologię na zagadnienia 3D, uzyskano następującą postać PURC [7]: 1 2,,,,,,,,,,!! (1) przy czym: " # #, " # #, " # #, " # #, %&,'( 1,2,,*,gdzie n jest liczbą płatów powierzchniowych tworzących zamknięty trójwymiarowy obszar. Funkcje podcałkowe,,,,,,, w (1) są przedstawiane w następującej postaci macierzowej [7]: ,,, 0 1 +,"-./ (2) ,,, gdzie: 8 9 2: ,"-/ , (3) Jawną postać elementów macierzy (2) i (3) można odnaleźć w [7]. Funkcja, jest jakobianem, natomiast jądra (2) i (3) uwzględniają w sposób analityczny w swoim formalizmie matematycznym zamknięty kształt brzegu. Jest on kreowany za pomocą odpowiednich zależności pomiędzy płatami &,' 1,2,...,* zdefiniowanymi we współrzędnych kartezjańskich za pomocą następujących zależności [7]: < 7, 7,, < 2 7 2, 7 2,, < 3 7 3, 7 3,, < =< > < 2 > < 3, (4) gdzie 7,, 7 2,, 7 3, są skalarnymi składowymi wektorowego płata powierzchni,?7, 7 2, 7 3,@ A, zależnego od parametrów v, w. Powyższy zapis jest też słuszny dla płata oznaczonego indeksem l z parametrami v1, w1, tzn. dla j = l oraz dla parametrów v = v1 i w = w1. W zagadnieniach przestrzennych modelowanych z wykorzystaniem PURC, wektorowe cje,przyjmują postać znanych z grafiki komputerowej parametrycznych płatów powierzchni. Możliwość uwzględnienia opisu brzegu bezpośrednio w formule matematycznej jest podstawową zaletą metody obliczeniowej PURC w porównaniu z tradycyjnymi brzegowymi równaniami całkowymi (BRC). W klasycznych BRC opis brzegu nie jest uwzględniony w formalizmie matematycznym tego równania, lecz zdefiniowany bardzo ogólnie za pomocą całki brzegowej. Powstaje konieczność podziału brzegu na elementy, jak to ma miejsce w klasycznej MEB. Zalety modelowania brzegu bezpośrednio w równaniach matematycznych (PURC) były przedstawiane na zagadnieniach dwuwymiarowych [6-9] oraz trójwymiarowych [7,11,12]. Zastosowanie PURC do rozwiązywania zagadnień płaskich oraz przestrzennych pozwoliło na wyeliminowanie konieczności przeprowadzenia dyskretyzacji na poziomie zarówno wspomnianej już deklaracji brzegu, a także funkcji brzegowych. W ramach dotychczasowych prac badawczych funkcje brzegowe zarówno zadawane jako warunki brzegowe, jak również poszukiwane w wyniku rozwiązania PURC przyjmowały postać szeregów aproksymujących z funkcjami bazowymi Czebyszewa [6,7]. W odróżnieniu od zagadnień dwuwymiarowych (modelowanych równaniem Laplace a) problemy opisywane równaniem Naviera-Lamego wymagają uwzględnienia funkcji brzegowych w postaci wektorowej. W związku z tym uogólnione zostały wykorzystywane 87

3 ZASTOSOWANIE TECHNOLOGII GPGPU DO PRZYSPIESZENIA OBLICZEŃ dotychczas szeregi aproksymujące tak, aby reprezentowały one skalarne składowe wektora czeń,oraz naprężeń, [7]. Dla każdego płata powierzchni modelujących segment brzegu j zostały one przedstawione w następującej postaci:, H F CD E C E D CG DG, (5), H F I CD E C E D CG DG, (6) gdzie CD, I CD są poszukiwanymi współczynnikami, zaśe C,E D to funkcje bazowe, które mają postać wielomianów interpolacyjnych Lagrange a: E J K L"L M L"L L"L N L"L NO L"L P QL "L M RQL "L R QL "L N RQL "L NO R QL "L P R, (7) gdzie k={p, r}, l={m, N}, x={v, w}. Po podstawieniu (5) i (6) do PURC (1) i po zapisaniu go w tzw. punktach kolokacji [2] otrzymuje się układ równań algebraicznych względem niewiadomych współczynników, po rozwiązaniu którego otrzymamy współczynniki CD (5) lubi CD (6). Należy mieć na uwadze też to, że zawsze jedne z tych współczynników na poszczególnych segmentach będą otrzymywane w wyniku aproksymacji zadanych warunków brzegowych za pomocą szeregów aproksymujących (5) lub (6). Po rozwiązaniu PURC otrzymano rozwiązanie zagadnienia brzegowego tylko na jego brzegu, reprezentowane w postaci szeregów (5) lub (6). W celu znalezienia rozwiązań w obszarze klasyczna tożsamość całkowa znanaz BRC została analitycznie zmodyfikowana i przekształcona analogicznie jak w przypadku zagadnień dwuwymiarowych [6,7].Otrzymana została tożsamość całkowa, która wykorzystuje rozwiązania na brzegu (5) i (6), uzyskane uprzednio w wyniku rozwiązania PURC. Zmodyfikowana tożsamość całkowa przyjmuje następująca postać [7]: S TU S,,, U S,,,V,!! (8) Funkcje podcałkowe w tożsamości (8) przedstawiane są w następującej postaci: gdzie U S,, 1U 1U 2 1U 3 X 1U +,"-.DW 2 1U 22 1U 23 1U 3 1U 32 1U 33 Y, (9) 7Z 7Z 2 7Z 3 U " S,, X 7Z 5,"-DW 6 2 7Z 22 7Z 23 Y, (10) 7Z 3 7Z 32 7Z 33 [W 7, K, [W 2 7 2, K 2, [W 3 7 3, K 3, [W =[W > [W 2 > [W 3. Jawna postać elementów macierzy (9) i (10) jest przedstawiona w [7]. Funkcje podcałkowe w tożsamości całkowej (8) są wizualnie bardzo podobne do funkcji (2) i (3). Różnica polega na tym, że w funkcjach (9) i (10) poza płatami powierzchni definiującymi kształt brzegu występują współrzędne punktów w obszarze w którym interesuje nas rozwiązanie. 3. PROGRAMOWANIE KART GRAFICZNYCH W OGÓLNYCH ZASTOSOWANIACH TECHNOLOGIA CUDA Architektura procesorów graficznych (GPU) zdecydowanie odbiega od klasycznych procesorów (CPU). GPU składa się z wielu jednostek zmiennoprzecinkowych (FPU) i układów arytmetyczno-logicznych (ALU). Związane jest to z charakterem wykonywanych operacji te same operacje wykonywane są równolegle na dużej ilości danych (w grafice typowo: pikselach, tekselach lub wierzchołkach), stąd GPU są klasyfikowane jako SIMD (single instruction, multiple data). Technologia CUDA firmy Nvidia [1] jest dużo prostsza i bardziej intuicyjna w programowaniu w porównaniu do tradycyjnych metod programowania GPGPU. Jest rozszerzeniem klasycznego języka C posiadającym łatwe do przyswojenia odniesienia do paradygmatów programowania równoległego. Kod programu dzielony jest na dwie, mogące się przeplatać, części: obliczenia równoległe wykonywane na jednostce GPU (nazywanym device) oraz pozostałe operacje wykonywane na CPU (nazywanym host). Schemat blokowy działania technologii CUDA przedstawia rys. 1. Procedurę obliczeń można podzielić na cztery podstawowe kroki: 1. inicjacja programu (host), 2. skopiowanie danych z hosta na device, 3. wykonywanie obliczeń na GPU, 4. skopiowanie danych z device na host. Technologia CUDA opiera się na wykorzystaniu skalowalnej tablicy wielowątkowych procesorów strumieniowych (Streaming Multiprocessor SM). Najpopularniejsze podejście do programowania odbywa się na zasadzie podziału problemu na mniejsze zagadnienia, których instrukcje skupione są w funkcjach nazywanych jądrami (z ang. kernels). Jądra są wykonywane na pewnej części wątków (z ang. threads) podzielonych na bloki (z ang. blocks). Każde 32 wątki w bloku stanowią tzw. warp. Wszystkie wątki w obrębie bloku mogą komunikować się ze sobą i być synchronizowane za pomocą funkcji synchronizujących. W celu wykorzystania większej liczby wątków w ramach jednego jądra, bloki wątków grupowane są w kraty (z ang. grids). Wątki mogą pobierać dane z różnych rodzajów pamięci GPU. Każdy wątek ma dostęp do pamięci globalnej GPU (globalmemory), która ma dużą pojemność, ale niską przepustowość. Wątki w ramach jednego bloku mogą korzystać z pamięci współdzielonej (sharedmemo- 88

4 Andrzej Kużelewski, Eugeniusz Zieniuk ry) umieszczonej na mikroprocesorze (z ang. on-chip memory). Jest ona wspólna dla wszystkich wątków w ramach jednego bloku i ma rozmiar 16 kb. Jest nawet do 100 razy szybsza od pamięci globalnej. Kolejnym typem jest pamięć lokalna prywatna dla każdego wątku. Ma rozmiar 8192 bajty na multiprocesor. Istnieją jeszcze pamięć stała (constantmemory) oraz pamięć tekstur. Jeszcze jednym, ważnym z punktu widzenia obliczeń naukowych, problemem jest precyzja arytmetyki zmiennoprzecinkowej. Najnowsze karty graficzne pozwalają na operacje zmiennoprzecinkowe podwójnej precyzji, starsze tylko na pojedynczą precyzję. Decydując się na zastosowanie technologii CUDA, należy mieć ten fakt na uwadze, szczególnie w przypadku obliczeń wymagających bardzo wysokiej dokładności. 4. PRZYKŁAD NUMERYCZNY W celu zbadania przyspieszenia zrównoleglonego PURC w stosunku do jego niezrównoleglonej wersji wzięto pod uwagę kształt obszaru przedstawiony na rys. 2a, ale matematycznie modelowany równaniami Naviera-Lamego z warunkami brzegowymi zadanymi za pomocą funkcji analitycznych będących dokładnym rozwiązaniem równania: (11) W obliczeniach przyjęto moduł Younga E=1MPa oraz stałą Poissona ν=0.25. Wykonano testy porównawcze dla różnej liczby punktów kolokacji na płatach. Kształt brzegu zdefiniowany został za pomocą 24 prostokątnych oraz 6 trójkątnych płatów Béziera i 6 prostokątnych płatów Coonsa (rys. 2b). Pełna deklaracja brzegu złożonego w sumie z 36 płatów wymagała 236 punktów (kontrolnych dla płatów Béziera i narożnych dla Coonsa). W badaniach użyto karty NVidiaQuadro FX 580 z 512 MB pamięci, 4 multiprocesorami (SM) po 8 rdzeni CUDA każdy. Dopuszczalny typ operacji zmiennoprzecinkowych pojedynczej precyzji. Rys. 1. Schemat przepływu danych w CUDA. Pomimo że CUDA jest bardzo wygodnym narzędziem do zrównoleglenia obliczeń z wykorzystaniem mocy obliczeniowej kart graficznych, jednak optymalizacja wydajności programów jest dość trudna. Przede wszystkim należało skupić się na trzech zasadniczych problemach: optymalizacja dostępu do pamięci, konfiguracja parametrów uruchamiania jąder i optymalizacja kodu (instrukcji). Rys. 2. a) Kształt rozważanej geometrii brzegu, b) widok z podziałem na płaty 89

5 ZASTOSOWANIE TECHNOLOGII GPGPU DO PRZYSPIESZENIA OBLICZEŃ Autorzy w niniejszej pracy przedstawiają wyniki wstępnych badań nad problemem przyspieszenia obliczeń numerycznych w PURC za pomocą GPGPU i technologii CUDA. W celu oceny przydatności tej technologii zdecydowano się na przyspieszenie najbardziej czasochłonnej operacji jaką jest numeryczne obliczania całek w PURC. Nie dokonano optymalizacji obliczeń na GPU dane przechowywane są w pamięci globalnej. W związku z tym problem badawczy podzielono na dwie części: przyspieszenie generowania układu równań w PURC (wyniki zestawiono w tabeli 1) oraz przyspieszenie generowania rozwiązań (wyniki zestawiono w tabeli 2). Liczba punktów kolokacji ma wpływ na dokładność uzyskiwanych rozwiązań, a także na czas obliczeniowy. Więcej informacji na ten temat można odnaleźć w pracy [7]. Uzyskane przyspieszenie działania procedury generowania układu równań w PURC z wykorzystaniem CUDA w stosunku do wersji niezrównoleglonej jest niezależne od stosowanej liczby punktów kolokacji i bliskie 4. Liczba punktów kolokacji* Tabela 1. Przyspieszenie generowania układu równań Czas realizacji obliczeń [s] niezrównoleglona (C++) zrównoleglona (CUDA) Przyspieszenie *w dziedzinie płata Badania przyspieszenia generowania rozwiązań wykonano na podstawie obliczeń w 24 punktach we wnętrzu rozmieszczonych jak na rys 3. Liczba punktów kolokacji* Tabela 2. Przyspieszenie generowania rozwiązań Czas realizacji obliczeń [s] niezrównoleglona (C++) zrównoleglona (CUDA) Przyspieszenie *w dziedzinie płata Podobnie jak w przypadku generowania układu równań, uzyskane przyspieszenie działania procedury generowania rozwiązań z wykorzystaniem CUDA w stosunku do wersji niezrównoleglonej jest niezależne od stosowanej liczby punktów kolokacji i bliskie WNIOSKI W pracy przedstawiono możliwości przyspieszenia obliczeń numerycznych pojawiających się przy rozwiązywaniu zagadnień brzegowych 3D modelowanych równaniami Naviera-Lamego i rozwiązywanych za pomocą metody obliczeniowej PURC z jednoczesnym wykorzystaniem technologii CUDA. Zrównoleglenie aplikacji służącej do rozwiązywania zagadnień brzegowych za pomocą metody PURC i wykorzystaniu procesorów kart graficznych pozwala na uzyskanie blisko czterokrotnego przyspieszenia szybkości generowania układu równań oraz blisko sześciokrotnego przyspieszenia generowania rozwiązań. Rys. 3. Rozmieszczenie punktów wewnętrznych wykorzystanych w badaniach przyspieszenia generowania rozwiązań 90

6 Andrzej Kużelewski, Eugeniusz Zieniuk Należy przy tym mieć na uwadze fakt, że nie wykonano praktycznie żadnej optymalizacji wykorzystania pamięci GPU. Niniejsza praca stanowi jedną z pierwszych prób zmierzenia się autorów z zastosowaniem technologii CUDA w celu skrócenia czasu obliczeniowego aplikacji metody obliczeniowej PURC.W kolejnych badaniach autorzy zamierzają wykorzystać szybką pamięć współdzieloną (shared memory) oraz zoptymalizować dostęp do pamięci globalnej. Kolejnym kierunkiem rozwoju równoległej aplikacji PURC jest zrównoleglenie procedury rozwiązywania układu równań algebraicznych. Praca finansowana ze środków na naukę w latach jako projekt badawczy. Literatura 1. CUDA C Programming Guide. [dostęp ]. 2. Gottlieb D., Orszag S.A.: Numerical analysis of spectral methods: theory and applications. Philadelphia: SIAM, Kiss I., Gyimóthy S., Badics Z., Pávó J.: Parallel realization of the element-by-element FEM technique by CUDA. IEEE Transactions on Magnetics 2012, Vol. 48,p Owens J. D., Luebke D., Govindaraju N., Harris M., Kruger J., Lefohn A. E., Purcell T. J.: A survey of generalpurpose computation on graphics hardware. Eurographics 2005 State of the Art Reports, Dublin, 2005, p Takahashi T., Hamada T.: GPU-accelerated boundary element method for Helmholtz equation in three dimensions. International Journal of Numerical Methods in Engineering 2009, Vol. 80, p Zieniuk E.: Bézier curves in the modification of boundary integral equations (BIE) for potential boundary-values problems. International Journal of Solids and Structures 2003, Vol. 40, p Zieniuk E.: Metoda obliczeniowa PURC w rozwiązywaniu zagadnień brzegowych. Warszawa: PWN, Zieniuk E., Bołtuć A.: Bézier curves in the modeling of boundary geometries for 2D boundary problems defined by Helmholtz equation. Journal of Computational Acoustics 2006, Vol. 14, p Zieniuk E., Bołtuć A.: Non-element method of solving 2D boundary problems defined on polygonal domains modeled by Navier equation. International Journal of Solids and Structures 2006, Vol. 43, p Zieniuk E., Szerszeń K., Bołtuć A.: Globalne obliczanie całek po obszarze w PURCdla dwuwymiarowych zagadnień brzegowych modelowanych równaniem Naviera-Lamego i Poissona. Modelowanie Inżynierskie 2007,nr 33,s Zieniuk E., Szerszeń K., Bołtuć A.: PURC w rozwiązywaniu trójwymiarowych zagadnień brzegowych modelowanych równaniami Naviera-Lamego w obszarach wielokątnych. ModelowanieInżynierskie 2011,nr 42,s Zieniuk E., Szerszeń K.: Triangular Bézier patches in modelling smooth boundary surface in exterior Helmholtz problems solved by PIES. Archives of Acoustics 2009, Vol. 34,p