Biblioteka PCJ w wybranych zastosowaniach matematycznych - FFT i grafy Kroneckera



Podobne dokumenty
Jak ujarzmić hydrę czyli programowanie równoległe w Javie. dr hab. Piotr Bała, prof. UW ICM Uniwersytet Warszawski

Algorytmy i Struktury Danych

RECENZJA ROZPRAWY DOKTORSKIEJ DLA INSTYTUTU PODSTAW INFORMATYKI POLSKIEJ AKADEMII NAUK

Nowoczesne technologie przetwarzania informacji

Obliczenia równoległe i rozproszone. Praca zbiorowa pod redakcją Andrzeja Karbowskiego i Ewy Niewiadomskiej-Szynkiewicz

Opracowanie w modelu PGAS wybranych, równoległych algorytmów grafowych

Programowanie równoległe i rozproszone. Praca zbiorowa pod redakcją Andrzeja Karbowskiego i Ewy Niewiadomskiej-Szynkiewicz

Tworzenie programów równoległych cd. Krzysztof Banaś Obliczenia równoległe 1

Tworzenie programów równoległych. Krzysztof Banaś Obliczenia równoległe 1

Przetwarzanie Równoległe i Rozproszone

Współbieżność i równoległość w środowiskach obiektowych. Krzysztof Banaś Obliczenia równoległe 1

RECENZJA ROZPRAWY DOKTORSKIEJ

Porównanie wydajności CUDA i OpenCL na przykładzie równoległego algorytmu wyznaczania wartości funkcji celu dla problemu gniazdowego

Tworzenie programów równoległych. Krzysztof Banaś Obliczenia równoległe 1

Czym jest Java? Rozumiana jako środowisko do uruchamiania programów Platforma software owa

Autor: dr inż. Zofia Kruczkiewicz, Programowanie aplikacji internetowych 1

Programowanie w modelu równoległości danych oraz dzielonej globalnej pamięci wspólnej. Krzysztof Banaś Obliczenia równoległe 1

Procesy i wątki. Krzysztof Banaś Obliczenia równoległe 1

Programowanie obiektowe

HPC na biurku. Wojciech De bski

Zadanie polega na stworzeniu bazy danych w pamięci zapewniającej efektywny dostęp do danych baza osób.

Programowanie procesorów graficznych GPGPU

Dariusz Brzeziński. Politechnika Poznańska, Instytut Informatyki

61 Topologie wirtualne

Java - wprowadzenie. Programowanie Obiektowe Mateusz Cicheński

Tworzenie aplikacji w języku Java

Szablony funkcji i klas (templates)

Opracowanie nowych metod programowania równoległego w Javie w oparciu o paradygmat PGAS (Partitioned Global Address Space)

UML a kod w C++ i Javie. Przypadki użycia. Diagramy klas. Klasy użytkowników i wykorzystywane funkcje. Związki pomiędzy przypadkami.

Programowanie obiektowe

Wątek - definicja. Wykorzystanie kilku rdzeni procesora jednocześnie Zrównoleglenie obliczeń Jednoczesna obsługa ekranu i procesu obliczeniowego

Tworzenie programów równoległych. Krzysztof Banaś Obliczenia równoległe 1

Technologie i usługi internetowe cz. 2

Biblioteka PCJ do naukowych obliczeń równoległych

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

Wsparcie dla OpenMP w kompilatorze GNU GCC Krzysztof Lamorski Katedra Informatyki, PWSZ Chełm

Obliczenia równoległe i rozproszone w JAVIE. Michał Kozłowski 30 listopada 2003

PRZEWODNIK PO PRZEDMIOCIE

CUDA Median Filter filtr medianowy wykorzystujący bibliotekę CUDA sprawozdanie z projektu

IMPLEMENTACJA I PORÓWNANIE WYDAJNOŚCI WYBRANYCH ALGORYTMÓW GRAFOWYCH W WARUNKACH OBLICZEŃ RÓWNOLEGŁYCH

Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat

Aplikacje w Javie- wykład 11 Wątki-podstawy

Java. Wykład. Dariusz Wardowski, Katedra Analizy Nieliniowej, WMiI UŁ

Programowanie obiektowe

USŁUGI HIGH PERFORMANCE COMPUTING (HPC) DLA FIRM. Juliusz Pukacki,PCSS

Moc płynąca z kart graficznych

1 Wątki 1. 2 Tworzenie wątków 1. 3 Synchronizacja 3. 4 Dodatki 3. 5 Algorytmy sortowania 4

Obiektowe programowanie rozproszone Java RMI. Krzysztof Banaś Systemy rozproszone 1

Laboratorium 03: Podstawowe konstrukcje w języku Java [2h]

5. Model komunikujących się procesów, komunikaty

Dostęp do europejskich systemów obliczeniowych Tier-0 w ramach PRACE

Częstochowa, dn

Podstawy programowania. Wykład Funkcje. Krzysztof Banaś Podstawy programowania 1

Podstawy Programowania Obiektowego

Literatura. 11/16/2016 Przetwarzanie równoległe - wstęp 1

Ćwiczenie nr: 9 Obliczenia rozproszone MPI

Programowanie w Javie 1 Wykład i Ćwiczenia 3 Programowanie obiektowe w Javie cd. Płock, 16 października 2013 r.

Metody Metody, parametry, zwracanie wartości

Programowanie obiektowe zastosowanie języka Java SE

JAVA W SUPER EXPRESOWEJ PIGUŁCE

Wykład 7: Pakiety i Interfejsy

Programowanie obiektowe. Literatura: Autor: dr inŝ. Zofia Kruczkiewicz

Dokumentacja do API Javy.

WSNHiD, Programowanie 2 Lab. 2 Język Java struktura programu, dziedziczenie, abstrakcja, polimorfizm, interfejsy

Aplikacje w środowisku Java

Programowanie w modelu równoległości danych oraz dzielonej globalnej pamięci wspólnej. Krzysztof Banaś Obliczenia równoległe 1

Programowanie Komponentowe WebAPI

PODSTAWOWE ZASADY PROGRAMOWANIA OBIEKTOWEGO NA BAZIE PAKIETU ROOT

10/14/2013 Przetwarzanie równoległe - wstęp 1. Zakres przedmiotu

Prof. dr hab. inż. Zbigniew J. Czech Gliwice 25 lipiec 2018 r. Politechnika Śląska Instytut Informatyki

Marcin Luckner Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych

TEMAT : KLASY DZIEDZICZENIE

Ćwiczenie nr: 9 Obliczenia rozproszone MPI

2 WRZEŚNIA S t r o n a WROCŁAW

Programowanie obiektowe - 1.

msgbox("akcja: Początek, argument: " + argument.tostring()); Thread.Sleep(1000); //opóźnienie msgbox("akcja: Koniec"); return DateTime.Now.

Zaawansowane programowanie w języku C++

Programowanie obiektowe

Programowanie obiektowe

Zagadnienia egzaminacyjne INFORMATYKA. Stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

Raport Hurtownie Danych

Tryby komunikacji między procesami w standardzie Message Passing Interface. Piotr Stasiak Krzysztof Materla

PRZETWARZANIE RÓWNOLEGŁE I ROZPROSZONE. Mnożenie macierzy kwadratowych metodą klasyczną oraz blokową z wykorzystaniem OpenMP.

Przykładowe sprawozdanie. Jan Pustelnik

Interfejsy. Programowanie obiektowe. Paweł Rogaliński Instytut Informatyki, Automatyki i Robotyki Politechniki Wrocławskiej

Programowanie obiektowe

O superkomputerach. Marek Grabowski

Programowanie procesorów graficznych GPGPU. Krzysztof Banaś Obliczenia równoległe 1

Projektowanie algorytmów równoległych. Zbigniew Koza Wrocław 2012

Uwaga! Upadek! Opis zadania konkursowego

Aplikacje w środowisku Java

Język JAVA podstawy. Wykład 3, część 3. Jacek Rumiński. Politechnika Gdańska, Inżynieria Biomedyczna

Spis treści. I. Skuteczne. Od autora... Obliczenia inżynierskie i naukowe... Ostrzeżenia...XVII

Podstawy programowania. Wykład 7 Tablice wielowymiarowe, SOA, AOS, itp. Krzysztof Banaś Podstawy programowania 1

Klient-Serwer Komunikacja przy pomocy gniazd

Język JAVA podstawy. wykład 2, część 1. Jacek Rumiński. Politechnika Gdańska, Inżynieria Biomedyczna

Modelowanie i Programowanie Obiektowe

WIELOWĄTKOWOŚĆ. Waldemar Korłub. Platformy Technologiczne KASK ETI Politechnika Gdańska

Poziom kwalifikacji: I stopnia. Liczba godzin/tydzień: 2W E, 2L PRZEWODNIK PO PRZEDMIOCIE

SUPERKOMPUTER OKEANOS BADAWCZE GRANTY OBLICZENIOWEWE

Transkrypt:

Biblioteka PCJ w wybranych zastosowaniach matematycznych - FFT i grafy Kroneckera Toruńska Studencka Konferencja Matematyki Stosowanej M. Ryczkowska, Ł. Górski, M. Nowicki, P. Bała Uniwersytet Mikołaja Kopernika w Toruniu, Uniwersytet Warszawski gdama@mat.umk.pl, lgorski@mat.umk.pl, faramir@mat.umk.pl, bala@icm.edu.pl 4-6 kwietnia 2014 Streszczenie U podstaw bardziej zaawansowanych problemów obliczeniowych - takich jak wyrafinowana analiza danych obrazowych czy rekonstrukcja modelu sieci społecznościowych - leżą bardziej fundamentalne zagadnienia. Związane są chociażby z wydajnym obliczaniem dyskretnej transformaty Fouriera oraz zwartej reprezentacji grafów. Opracowywane przez nas rozwiązania wykorzystujące bibliotekę PCJ bardzo dobrze realizują te zadania. W niniejszej pracy przedstawiamy najważniejsze własności i założenia biblioteki PCJ, a także zaprezentujemy wyniki testów wydajnościowych dla FFT oraz obliczania zwartej reprezentacji grafu - CSR. 1 Wstęp Zaobserwować można obecnie rewolucyjną zmianę w metodyce tworzenia oprogramowania wywołaną przez pojawienie się sprzętu komputerowego intensywnie korzystającego z wielowątkowego modelu przetwarzania. Z tego też względu tradycyjne rozwiązania, jak OpenMP czy MPI są niewystarczające i konieczne jest opracowanie nowych paradygmatów i narzędzi software owych umożliwiających wykorzystanie możliwości przetwarzania wielowątkowego i rozproszonego. Wielokrotnie zauważono więc, że cały czas brakuje odpowiednio wysokopoziomowych abstrackji i konstrukcji, które ułatwiłyby programowanie[1]. Tego rodzaju braki dotyczą zarówno systemów równoległych, jak i przede wszystkim rozproszonych. Języki PGAS (Partitioned Global Address Space) mogłyby znakomicie zmitygować wskazane braki, zapewniając zarówno wygodne tworzenie aplikacji tak w środowisku równoległym, jak i rozproszonym, oferując za każdym razem uniwersalne abstrakcje programistyczne. Języki należące do tej kategorii zakładają bowiem, że pamięć zostanie podzielona pomiędzy wszystkie wątki wykonania. Domyślnie wszystkie zmienne w określonym obszarze pamięci są prywatne dla danego wątku. Programista może je jednak oznaczyć jako dzielone, a tym samym udostępnić innym wątkom do odczytu albo modyfikacji. Niektóre z nowoopracowanych języków, które implementują ten zyskujący na popularności paradygmat to X10 [2] i Chapel [3]. Elementy modelu PGAS zostały wprowadzone w nowej wersji standardu Fortranu, jako coarrays [4]. Dodatkowo, prowadzone są prace na językiem CoArray Fortran 2.0, w celu dalszego ulepszenia jego możliwości w ramach modelu SPMD [5]. Dialekt C implementujący model PGAS nosi nazwę UPC [6].

Celem niniejszego opracowania jest zademonstrowanie użyteczności rozszerzenia PGAS dla języka Java, które jest obecnie opracowywane przez autorów niniejszego opracowania: biblioteki PCJ [27]. Java jest językiem przenośnym, zapewniającym warstwę abstrakcji nad sprzętem komputerowym i posiadającym dużą grupę użytkowników. Wybraliśmy Javę ze względu na jej przenośność i rozległą grupę użytkowników. Programy napisane w Javie mają potencjalnie dłuższy cykl życia w porównaniu do sprzętu, na którym są wykonywane, a ich wydajność może być zwiększona po prostu poprzez przeniesienie na bardziej zaawansowany system komputerowy [7]. Język jest łatwy w użyciu dzięki odśmiecaniu, statycznej typizacji czy brakowi wskaźników. Podobnie, jak w wypadku innych języków, również dla Javy zaprojektowano rozwiązania wzmacniające jej równoległość. Wskazać należy na projekty takie, jak Parallel Java [8] i projekt Java Grande [9] [10] (które jednak nie zyskały szerszej popularności), Titanium [11] czy ProActive [12] (niestety ten ostatni miewa problemy z wydajnością ze względu na nieefektywne mechanizmy serializacji). Należy także wspomnieć równoległe strumienie wprowadzone w nowej wersji Javy [13]. Nasze rozwiązanie biblioteka PGAS dla Javy - charakteryzuje się dużą przenośnością, pozostaje więc w duchu Javy. W odróżnieniu od innych rozwiązań nie modyfikuje składni języka ani nie implementauje własnej wersji maszyny wirtualnej, nie opiera się też na specjalnych preprocesorach. Biblioteka PCJ jest oparta na czystej Javie 7 i nie wymaga żadnych zewnętrznych bibliotek do działania. Pozwala to też na łatwą migrację do następnych wersji języka. Zapewnienie przenośności naszego rozwiązania nie zostało okupione koncesjami co do wydajności[14] [15]. W następnej części opracowania opisujemy bibliotekę PCJ i podajemy przykłady jej wykorzystania. Zainteresowany dalszymi szczegółami użytkownik powinien sięgnąć do podręcznika użytkownika [16]. Końcowe rozdziały prezentują informacje o przykładowych zastosowaniach biblioteki: do obliczania FFT i postaci CSR (Compressed Sparse Row) grafu. 2 Biblioteka PCJ W bibliotece PCJ wątki reprezentowane są przez klasy implementujące interfejs StartPoint (listing 1). Metoda main() odpowiada metodzie run() standardowej klasy Thread. public interface StartPoint { public void main(); Listing 1. Interfejs StartPoint Domyślnie, zgodnie z założeniami modelu PGAS, wszystkie pola są lokalne dla wątku. Ich uwspólnienie następuje poprzez użycie adnotacji @Shared. Klasa, które korzysta ze zmiennych współdzielonych musi też dziedziczyć z abstrakcyjnej klasy Storage (por. listing 2; przykładowe kod używa też metod myid() oraz numthreads() w celu pobrania liczby identyfikującej wątek oraz liczby wszystkich wątków). class Example extends Storage implements StartPoint { private double local; @Shared private int[] table; public void main () { System.out.println("Thread #" + PCJ.myNode() + " of" + PCJ.numNodes() + " threads."); Listing 2. Aplikacja wyświetlająca liczę wątków PCJ

Rozpoczęcie obliczeń jest bardzo proste i sprowadza się do wywołania metody deploy(), której można przekazać identyfikatory maszyn, na których mają zostać uruchomione obliczenia. Mechanizm ten pozwala na uruchomienie programu w różnych scenariuszach użycia, jak wiele wątków w pojedynczej maszynie wirtualnej albo wiele maszyn wirtualnych na pojedynczym węźle fizycznym. Przykładowo, w listingu 3. uruchomiono trzy wątki lokalne oraz dodatkowy - zdalny (w domenie example.com). Dwa wątki lokalne korzystające z tego samego domyślnego numeru portu dla komunikacji zostaną uruchomione na tej samej maszynie wirtualnej; w wypadku pozostałych dwóch uruchomione zostaną dodatkowe. PCJ.deploy( Example.class, // StartPoint Example.class, // Storage new String[] { // Lista maszyn "localhost", "localhost", "example.com", "127.0.0.1:3003" ); Listing 3. Przykład wykorzystania metody deploy() Podstawowe operacje - odczyt i modyfikacje zmiennej dzielonej - zaimplementowano jako operacje get() i put(). Ich argumenty to: identyfikator wątku docelowego, etykieta zmiennej dzielonej (domyślnie określona przez jej nazwę), a w wypadku operacji put() - nowa wartość zmiennej. Składnia przedstawiona jest w listingu 4. Tamże taskid oznacza identyfikator zdalnego wątku (którego zmienna dzielona jest odczytywana bądź modyfikowana), variablename to nazwa zmiennej w klasie Storage, variabledata to przesyłane dane. Parametr indexes... jest opcjonalny i stosowany wyłącznie do tablic: wskazuje indeksy elementów, które mają być przesłane. PCJ.put(int taskid, String variablename, Object variabledata, int indexes...) PCJ.get(int taskid, String variablename, int indexes...) Listing 4. Składnia metod get() i put() W przykładowym listingu 5. wartość całkowita 42 zapisywana jest do zmiennej table w wątku o nr 4. W następnej linii cała tablica pobrana jest z wątku nr 6 (komunikacja synchroniczna). W dalszej części listingu 6. wykorzystana jest komunikacja asynchroniczna. PCJ.put(4, "table", 42, 10); int[] t = PCJ.get(6, "table"); FutureObject resp; resp = PCJ.getFutureObject(7, "table"); // nieblokujące /*... */ if (resp.isdone()) { int[] t = resp.get(); // blokujące Listing 5. Podstawy komunikacji Metoda barrier() stanowi implementację operacji synchronizacji wątków. Możliwe jest synchronizowanie tylko podzbioru wszystkich wątków. Jest to przydatne przy takich operacjach, jak wykonanie synchronicznego put/get (por. listing 6). if (PCJ.myId() == 3) { PCJ.putLocal("value", 42); PCJ.barrier(2); else if (PCJ.myId() == 2) {

PCJ.barrier(3); int answer = PCJ.get(3, "value"); Listing 6. Przykład wykorzystania bariery i synchronicznych operacji put/get Listing 7 przedstawia przykład wykorzystania operacji rozgłoszenia. W celu rozpoczęcia rozgłoszenia wątek wywołujący wykorzystuje metodę broadcast() i przesyła identyfikator rozgłaszanej zmiennej dzielonej, a także jej nową wartość. Wątek-odbiorca może poczekać na odebranie nowej wartości wykorzystując metodę waitfor(), która blokuje wątek aż monitorowana zmienna zostanie zmodyfikowana przez inny wątek. Monitorowanie zmiennych wprowadzone zostało ze względu na fakt, że biblioteka PCJ oparta jest na komunikacji jednostronnej. W wypadku listingu 7 należy także zauważyć, że również wątek nr 4 (inicjujący rozgłoszenie) korzysta z metody waitfor(). Komunikacja jest asynchroniczna, toteż bezpośrednio po wywołaniu metody broadcast() wątek 4 kontynuuje wykonanie. Wykorzystanie w tym wypadku metody waitfor() jest konieczne w celu upewnienia się, że zakończono zapis lokalnych danych. Co więcej, rozgłoszenie wykorzystuje topologię drzewa ukorzenionego w wątku o nr. 0, toteż zapis do zmiennej należącej do wątku nr 4 jest w istocie inicjowany przez jego rodzica. @Shared int a; /*... */ if (PCJ.myNode() == 4) { PCJ.broadcast("a", 42); PCJ.waitFor("a"); //wait for a message from thread #4 Listing 7. Rozgłoszenie wartość 42 przez wątek nr 4. Każdy wątek przechowuje rozgłoszoną wartość w zmiennej a Przedstawione do tej pory operacje mogą być wykonywane globalnie dla wszystkich wątków, ale możliwe jest też ograniczenie ich jedynie do grupy wątków. Tworzenie grup jest proste i przedstawione w listingu 8., gdzie utworzono dwie grupy w oparciu o parzystość identyfikatora odpowiednich wątków. Group g = PCJ.join("group:" + (PCJ.myNode() % 2)); Listing 8. Tworzenie grupy wątków 3 Przykładowa implementacja - szybka transformata Fouriera Zaimplementowana jednowymiarowa zespolona szybka transformata Fouriera wykonuje nakładające się na siebie obliczenia i komunikację, nadaje się więc szczególnie do testowania wydajności systemu komputerowego w warunkach zbliżonych do rzeczywistych scenariuszy użycia. Została też wykorzystana przez autorów zestawu testów HPC Benchmark jako element pakietu umożliwiającego ocenę szybkości przyszłych petaskalowych systemów komputerowych [17]. Z tych też względów wykorzystaliśmy kod obliczający FFT do przedstawienia wydajności naszego rozwiązania, przyjmując test HPC Challenge za punkt odniesienia. Zainteresowani byliśmy przede wszystkim skalowalnością biblioteki, toteż odstąpiliśmy od przyjętej w ramach testu HPC Challenge metodologii polegającej na wykorzystaniu rozmiarów danych wypełniających prawie całą dostępną pamięć. Testy zostały zmodyfikowane tak, aby działały na danych tego samego rozmiaru, niezależnie od liczby węzłów obliczeniowych i dostępnej pamięci. Dodatkowo sprawdziliśmy też wydajność znanej i powszechnie wykorzystywanej biblioteki FFTW [18], skompilowanej ze wsparciem dla MPI. Testy przeprowadzono na klastrze 64 węzłów obliczeniowych opartych o procesory Intel Xeon X5660 (dwunastordzeniowe) z połączeniem Infiniband, taktowane zegarem 2,8 GHz. Każdy węzeł posiada 24 GB

pamięci RAM. Jako implementację MPI wykorzystano OpenMPI 1.6.5 (kompatybilne z gcc 4.4.7). Biblioteka PCJ została uruchomiona z wykorzystaniem maszyny wirtualnej Oracle v. 1.7.0_40 oraz IBM v. 1.7.0_SR6. Praca została wykonana z wykorzystaniem infrastruktury PL-Grid [19]. Implementacja w wypadku HPC Challenge oparta jest o algorytmy opublikowane przez Takahashiego i Kanadę [20]. W wypadku biblioteki PCJ zdecydowano się zaadaptować wcześniejszą implementację wykorzystującą Coarray Fortran 2.0 opartą o radix-2, wykorzystującą do komunikacji wzorzec mechanizm all-to-all (tj. w trakcie komunikacji każdy wątek wysyła komunikat do wszystkich pozostałych) [21]. W naszej implementacji przetestowano dwa rozwiązania all-to-all. Oba opierają się na tym samym schemacie: każdy wątek przechowuje tablicę dzieloną blocks. Jej i-ta komórka jest wypełniania przez wątek, do którego ta przynależy danymi komunikowanymi dla i-tego wątku. Po zainicjowaniu tablicy blocks każdy wątek zaczyna odbierać odpowiednie dane od pozostałych. W tym miejscu obie implementacje się różnią. Przetestowaliśmy, po pierwsze, implementację wykorzystaną przez Manninena i Richardsona dla Fortranu [22]. Ta wykorzystuje prostą pętlę iterującą od myid() + 1 do numthreads() - 1, a następnie od 0 do myid() - 1. W trakcie każdej iteracji wykorzystywana jest komunikacja blokująca i odpowiednia wartość jest odbierana od odpowiedniego wątku (listing 9). Przetestowana została też implementacje nieblokująca (listing 10). block_size = local_n / PCJ.numThreads(); for (int image = (PCJ.myId() + 1) % PCJ.threadCount(), num = 0; num!= PCJ.threadCount() - 1; image = (image + 1) % PCJ. threadcount()) { double[] recv = (double[]) PCJ.get(image, "blocks", PCJ.myId()); System.arraycopy(recv, 0, dest, (int) (image * 2 * blocksize), (int) (2 * blocksize)); num++; Listing 9. Blokujące all-to-all //prepare the futures array FutureObject<double[]>[] futures =new FutureObject[PCJ.threadCount()]; //get the data (asynchronous) for (int i = 0; i < PCJ.threadCount(); i++) { if (i!= PCJ.myId()) { futures[i] = PCJ.getFutureObject(i, "blocks", PCJ.myId()); int numreceived = 0; while (numreceived!= PCJ.threadCount() - 1) { for (int i = 0; i < futures.length; i ++) { if (futures[i]!= null && futures[i].isdone()) { double[] recv = futures[i].getobject(); System.arraycopy(recv, 0, dest, 20 (int) (i * 2 * blocksize), (int) (2 * blocksize)); numreceived++; futures[i] = null; Listing 10. Nieblokujące all-to-all Wykres 1 przedstawia wyniki przyspieszenia dla danych złożonych z 2 25 liczb zespolonych. Dla testów wykorzystano hybrydową implementację z biblioteki FFTW (tzn. wykorzystującą MPI dla obliczeń rozproszonych i OpenMP dla zrównoleglenia na pojedynczym węźle). Biblioteka PCJ wypadała poprawnie, osiągając przyspieszenie porównywalne z FFTW (należy jednak zauważyć, że referencyjny czas działania na pojedynczym wątku jednak się różnił i wynosił ok. 3,3 s dla FFTW i ok. 10 s. dla PCJ). W wypadku

mniejszej liczby wątków (tj. obliczeń wykonywanych na pojedynczym węźle) znakomicie wypadło rozwiązanie z HPC Benchmark. Należy więc rozważyć w przyszłości implementację zastosowanego w nim algorytmu i ponowne wykonanie testów. Wykres 1. FFT - przyspieszenie 4 Przykładowa implementacja postać CSR dla grafu Kroneckera Grafy są jednym z najbardziej powszechnych modeli używanych do analizy. Są wykorzystywane do reprezentacji relacji i dlatego są obecne w wielu dziedzinach nauki między innymi w biologii (badanie łańcuchów pokarmowych w różnych ekosystemach, badanie interakcji między białkami HCV - ludzkim wirusem typu C zapalenia wątroby - oraz białkami człowieka), w analizie sieci dróg (oprogramowanie oparte na algorytmach analizujących grafy znalazło zastosowanie w przenośnych urządzeniach PDA wyposażonych w GPS ) oraz w analizie sieci społecznościowych takich jak Facebook czy Twitter. Podstawowe problemy grafowe znajdują zastosowania w wielu dziedzinach życia, dlatego analiza grafów i otrzymywanie szybkich rozwiązań stają się coraz ważniejsze. Wielkość i złożoność grafów stanowi jednak wyzwanie do ich efektywnego przetwarzania. Coraz bardziej na znaczeniu zyskują projekty które pomagają badać moc obliczeniową klastrów w kontekście algorytmów grafowych. Jednym z takich projektów jest projekt Graph500 przedstawiony na międzynarodowej konferencji ISC2010 [26]. Graph500 dostarcza testów do oceny superkomputerów na całym świecie [26]. Testy te wymuszają dużą ilość komunikacji i synchronizacji co pozwala na analizę bardziej realistycznych obciążeń obliczeniowych [24]. W benchmarku Graph500 można wyróżnić trzy główne części [25]: generator Grafu Kroneckera: tworzenie losowego Grafu Kroneckera w postaci listy krawędzi (każda krawędź jest nieskierowana)

kernel 1: utworzenie reprezentacji grafu z listy krawędzi otrzymanej z generatora Grafu Kroneckera kernel 2: BFS dla 64 losowo wybranych wierzchołków Grafy Kroneckera otrzymane z generatora benchmarku Graph500 dobrze symulują grafy społecznościowe [23], ponieważ posiadają wiele cech zgodnych z cechami sieci ze świata rzeczywistego np. występowanie podsieci, złożonych z grup dobrych znajomych, w których wszyscy się znają. Grafy Kroneckera tworzone są według rekurencyjnej konstrukcji opartej o produkt Kroneckara na macierzach sąsiedztwa. Sprawdziliśmy wydajność biblioteki PCJ w kontekście obliczeń grafowych. Zaimplementowaliśmy tworzenie reprezentacji grafu w postaci CSR z listy krawędzi otrzymanej z generatora Grafu Kroneckara benchmarku Graph500. Testy przeprowadziliśmy na losowym Grafie Kroneckara rozmiaru SCALE 21 (logarytm o podstawie dwa z liczby wierzchołków grafu). Wykres 2 przedstawia czas obliczeń (wraz z czasem zbierania danych) potrzebny do utworzenia reprezentacji CSR z listy krawędzi. Skalowalność PCJ dla wątków od 1 do 4 jest obiecująca. Przy ośmiu wątkach czas wykonania rośnie. Należałoby, więc powtórzyć badania dla większego grafu, a także porównać wydajność biblioteki PCJ z implementacjami w OpenMP oraz MPI. Wykres 2. CSR - czas obliczeń i zbierania danych dla Grafu Kroneckera SCALE 21. 5 Uwagi końcowe i dalsze prace Wykonane testy wskazują, że nasze rozwiązanie jest obiecujące pod względem wydajności, pod niektórymi względami dorównując uznanym i długo rozwijanym rozwiązaniom (por. FFTW). Więcej informacji o wydajności dostępnych będzie też w pracy [28]. Oprócz wskazanych w toku testów planów na przyszłość, aktualnie prowadzone są też prace związane z implementacją pozostałych testów HPC Benchmark i kerneli obliczeniowych Graph 500.

Bibliografia [1] T. Rauber, G. Rünger, Parallel Programming: for Multicore and Cluster Systems, Berlin Londyn 2010 [2] X10 - strona główna, [Online]. Available: http://x10-lang.org. [Data uzyskania dostępu: 18 01 2014]. [3] Chapel - strona główna, [Online]. Available: http://chapel.cray.com. [Data uzyskania dostępu: 18 01 014]. [4] J. Reid, Coarrays in the next Fortran Standard, [Online]. Available: ftp://ftp.nag.co.uk/sc22wg5/n1801-n1850. [Data uzyskania dostępu: 09 03 2014]. [5] Coarray Fortran 2.0 - strona główna, Rice university, [Online]. Available: http://caf.rice.edu. [Data uzyskania dostępu: 18 01 2014]. [6] UPC - strona główna, [Online]. Available: http://upc-lang.org/. [Data uzyskania dostępu: 10 04 2014]. [7] J. M. Bull, I. A. Smith, I. Pottage i R. Freeman, Benchmarking Java against C and Fortran for scientific apllications, w Proceedings of the 2001 joint ACM-ISOPE conference on Java Grande, 2001. [8] A. Kaminsky, Parallel Java: A unified api for shared memory and cluster parallel programming in 100% java, w Parallel and Distributed Processing Symposium, Long Beach, 2007. [9] J. M. Bull, L. A. Smith, M. D. Westhead, D. S. Henty i R. A. Davey, A Benchmark Suite for High Performance Java, Concurrency: Practice and Experience, tom 12, pp. 375-388, 2000. [10] Java Grande - strona główna, [Online]. Available: https://www.epcc.ed.ac.uk/research/computing/performance-characterisation-andbenchmarking/java-grande-benchmark-suite. [Data uzyskania dostępu: 19 01 2014]. [11] P. Hilfinger, D. Bonachea, K. Datta, D. Gay, S. Graham, B. Liblit, G. Pike, J. Su i K. Yelick, Titanium Language Reference Manual, [Online]. Available: http://titanium.cs.berkeley.edu/papers/eecs- 2005-15.pdf. [Data uzyskania dostępu: 03 03 2014]. [12] D. Caromel, C. Delbe, A. D. Costanzo i M. Leyton, Proactive: an integrated platform for programming and running applications on grids and p2p systems, Computational Methods in Science and Technology, tom 12, 2006. [13] [Online]. Available: http://docs.oracle.com/javase/tutorial/collections/streams/parallelism.html. [Data uzyskania dostępu: 02 03 2014]. [14] M. Nowicki i P. Bała, New Approach for Parallel Computation in Java, Lecture Notes in Computer Science, tom 7782, pp. 115-125, 2013. [15] M. Nowicki i P. Bała, Parallel computations in Java with PCJ library, w High Performance Computing and Simulation (HPCS), Madryt, 2012. [16] M. Nowicki i P. Bała, PCJ manual, [Online]. Available: http://pcj.icm.edu.pl. [Data uzyskania dostępu: 02 03 2013].

[17] HPC Challenge - strona główna, [Online]. Available: http://icl.cs.utk.edu/hpcc/. [Data uzyskania dostępu: 19 01 2014]. [18] FFTW - strona główna, [Online]. Available: http://www.fftw.org. [Data uzyskania dostępu: 20 01 2014]. [19] PL-Grid - strona główna, [Online]. Available: http://plgrid.pl. [Data uzyskania dostępu: 29 05 2014]. [20] D. Takahashi i Y. Kanada, High-performance radix-2, 3 and 5 parallel 1-d complex FFT algorithm for distributed-memory parallel computers, The Journal of Supercomputing, tom 15, nr 2, pp. 207-228, 2000. [21] J. Mellor-Crummey, L. Adhianto, G. Jin, M. Krentel, K. Murthy, W. Scherer i C. Yang, Class II Submission to the HPC Challenge Award Competition. Coarray Fortran 2.0, [Online]. Available: http://www.hpcchallenge.org/presentations/sc2011/hpcc11_report_caf2_0.pdf. [Data uzyskania dostępu: 29 05 2014]. [22] P. Manninem i H. Richardson, First experiences on collective operations with Fortran coarrays on the Cray XC30, w 7th International Conference on Pgas Programming Models, Edinburgh, 2013. [23] J. Leskovec, D. Chakrabarti, J. Kleinberg, Ch. Faloutsos, Z. Ghahramani Kronecker Graphs: An Approach to Modeling Networks, The Journal of Machine Learning Research archive, Volume 11, 3/1/2010, Pages 985-1042 [24] A.Yoo and I.Kaplan, Evaluating Use of Data Flow Systems for Large Graph Analysis, Proceedings of the 2nd Workshop on Many-Task Computing on Grids and Supercomputers, Article No. 5, ACM New York, USA, 2009 [25] The Graph500 Specification, [Online] http://www.graph500.org/specifications. [26] The Graph500 List, [Online] http://www.graph500.org/. [27] PCJ - strona główna, [Online] http://pcj.icm.edu.pl/. [28] M.Nowicki,Ł.Górski, P. Grabarczyk, P. Bała. PCJ Java library for high performance computing in PGAS model. HPCS 2014 (w druku) [29] M.Ryczkowska. Evaluating PCJ Library for Graph Problems Graph500 in PCJ (w druku)