Programowanie CUDA informacje praktycznie i przykłady. Wersja
|
|
- Mikołaj Sowiński
- 8 lat temu
- Przeglądów:
Transkrypt
1 Programowanie CUDA informacje praktycznie i przykłady problemów obliczeniowych Wersja
2 cudasetdevice() Podstawowe operacje na urządzeniu GPU Określenie GPU i ustanowienie kontekstu (analog w GPU procesudla CPU) dla GPU wykorzystywanego przez wątek CPU. Alokacje pamięci DEVICE I i uruchomienia kernela będą realizowane na wybranym urządzeniu, z nim związane są strumienie i zdarzenia. Domyślnie wybrane jest urządzenie o devid =0. cudagetdevice(&devid) służy do sprawdzenia efektu wykonania cudasetdevice(), zwraca ewentualnie błąd. cudadevicereset() usuwa kontekst GPU używany przez wątek, wywołanie niezbędne do zakończenie profilowania. 2
3 Informacja o błędach przetwarzania CUDA Wszystkie wywołania funkcji CUDA (oprócz uruchomienia kernela) zwracają kod błędu typu cudaerror_t cudaerror_t cudagetlasterror(void) Zwraca kod ostatniego błędu (braku błędu) char* cudageterrorstring(cudaerror_t code) Zwraca zakończony zerem ciąg znaków opisujący błąd. Użycie: printf( %s\n, cudageterrorstring( cudagetlasterror() ) ); Funkcje informacyjne cudagetdevicecount(),cudagetdeviceproperties() 3
4 Błędy uruchomienia kernela Uruchomienia kernela nie zwracają kodu błędu. Zerowanie zmiennej błędu - Wywołania cudapeekatlasterror() lub cudagetlasterror() powinny być zrealizowane dla uzyskania informacji o błędach przeduruchomieniowych ( parametrów, konfiguracji uruchomienia). Dla zapewnienia, że błąd zwracany przez cudapeekatlasterror() cudagetlasterror() nie pochodzi z wcześniejszych wywołań ważne jest wyzerowanie zmiennej błędu (ustawienie jej na cudasuccess) lub wywołanie cudagetlasterror() (funkcja zeruje błąd) przed wywołaniem kernela. Pobieranie błędu po synchronizacji / zakończeniu kernela - Wywołanie kernela jest asynchroniczne względem przetwarzania CPU i dlatego w celu odczytu danych należy je zsynchronizować (np. cudadevicesynchronize()) z przetwarzaniem CPU przed wywołaniami cudapeekatlasterror(), cudagetlasterror(), aby mieć pewność, że wywołanie kernela się zakończyło i pobierane błędy dotyczą wywołania kernela. 4
5 Pomiar czasu obliczeń kernela cudaevent_t start; error = cudaeventcreate(&start); if (error!= cudasuccess) { fprintf(stderr, Nie udało się utworzyć zdarzenia start (kod bledu %s)!\n, cudageterrorstring(error)); exit(exit_failure); } cudaevent_t stop; error = cudaeventcreate(&stop); if (error!= cudasuccess)... error = cudaeventrecord(start, 0); strumieniu zerowym // uruchomienie kernela error = cudaeventrecord(stop, 0); strumieniu zerowym error = cudaeventsynchronize(stop); if (error!= cudasuccess)... //zapisywanie zdarzenia startowego w if (error!= cudasuccess)... //zapisywanie zdarzenia końcowego w if (error!= cudasuccess)...//oczekiwanie na zakończenie float msectotal = 0.0f; error = cudaeventelapsedtime(&msectotal, start, stop); if (error!= cudasuccess)... //porządki cudaeventdestroy(start); cudaeventdestroy(stop); Zwracane wartości są mierzone w oparciu o zegar GPU i dlatego rozdzielczość pomiaru jest niezależna od sprzętu i systemu operacyjnego komputera host. 5
6 Mnozenie macierzy Warianty procedur: Jeden blok wątków Wiele bloków wątków Wykorzystanie pamięci współdzielonej Pamięć współdzielona - synchronizacja wspólna fazy obliczeń i pobierania danych globalnych Zwiększenie ilości przetwarzania między synchronizacjami gotowości danych. Wzrost ilości pracy dla wątku (skalowanie w dół przetwarzania) Zrównoleglenie transferów danych host-gpu, GPU-host z przetwarzaniem GPU 6
7 Dostęp do elementów tablic Tablica dwu wymiarowa: Ze względu na lokację tablic wierszami, pozycję: j-tego elementu w i-tym wierszu tablicy określamy wzorem: i*width+j width Kolejne elementy tablicy w przestrzeni adresowej pamięci karty 7
8 Wyznaczanie elementu macierzy A * B = C For (k=0, k<width,k++) C[i*width+j]+=A[i*width+k]*B[k*width+j]; //czyli C[i][j]=A[i][k]*B[k,j]; //kod dla jedengo wątku gdy liczy jeden wynik 8
9 Tworzenie warpów z wątków bloku - przykład Załóżmy blok wątków o wymiarach 7 na 7 dla CC 1.3 liczba wątków bloku wynosi 49 MAX liczba bloków na SM (cc 1.3) = 8 MAX liczba wątków na SM (cc 1.3) = 1024 = 32x32 49 wątków to będą 2 warpy max zajętość SM blokami to 8 bloków (obowiązuje gdy nie brakuje innych zasobów) 8 bloków po 2 warpy to 16 warpów zajętosc warpami 16/32 = 50%, zajętość wątkami 392/1024 = 38 % Może zabraknąć warpów do zapewnienia ciągłości obliczeń Blok wątków 7x7 (2 wymiarowy) 4wątki 32 wątki 17 wątków 3 wątki wątki Niewykorzystane pozycje warpu Przydział bloku wątków do warpów 9
10 // funkcja mnożenia macierzy GPU wer.1 Mnożenie macierzy PKG wer.1 global void MatrixMulKernel_1(float* Ad, float* Bd, float* Cd, int WIDTH) { // indeksy obliczanego elementu int tx = threadidx.x; int ty = threadidx.y; float C_local = 0; //obliczany wynik for (int k = 0; k < WIDTH; ++k) { float A_d_element = Ad[ty * WIDTH+ k]; // Ad[ty,k] transfer nieefektywny (potencjalnie) ta sama wartość potrzebna jednocześnie wątkom ½ warpa float B_d_element = Bd[k * WIDTH + tx]; // Bd[k,tx] transfer efektywny łaczone dostępy (potencjalnie) sąsiednie lokacje pamieci dla ½ warpa C_local += A_d_element * B_d_element; } Cd[ty * WIDTH + tx] = C_local; } Obliczenia za pomocą jednego bloku wątków (kluczowe są zmienne threadidx.x, threadidx.y) Każdy wątek oblicza jeden element wyniku liczba wątków równa liczbie elementów macierzy. Rozmiar bloku równy rozmiarowi macierzy lub więcej pracy (dodatkowa pętla po obliczanych elementach) dla każdego wątku (stosunek wielkości tablicy i bloku) 10
11 Uruchomienie przetwarzania - MM ver.1 // parametry konfiguracji uruchomienia kernela dim3 wymiarybloku(width, WIDTH); dim3 wymiarygridu(1, 1); // jeden blok // uruchomienie obliczeń MatrixMulKernel_1<<< wymiarygridu, wymiarybloku >>> (Ad, Bd, Cd,WIDTH); 11
12 Efektywność - MM ver.1 Jeden blok - obliczenia wykonywane na jednym SM. W każdej chwili obliczany jest maksymalnie tylko jeden warp 32 wątki (GTX260). Dla pozostałych wątków (z innych warp) możliwe jest pobieranie operandów z pamięci globalnej GPU. Maksymalna liczba wątków na SM i wielkość bloku wątków ograniczona przez parametry CC (zdolności obliczeniowej) i zasoby GPU. Max wydajność rozwiązania - obliczenia używamy tylko 1 SM: 1,4 *10 9 (częstotliwość) 32/4 X 3 (cykle - - szeregowanie wątków ) = 30 Gflop Max przepustowość pamięci dla karty: 112 GB/s (GTX260) Brak ograniczenia prędkości obliczeń przepustowością dostępu do pamięci. Ograniczenie prędkości obliczeń karty wykorzystaniem tylko jednego SM. Ograniczenie prędkości obliczeń SM czasem dostępu do pamięci i zbyt małą liczbą warpów (max 16) równolegle realizujących dostępy do pamieci (potrzeba ok.100) aby rdzenie były zajęte obliczeniami. 12
13 Analiza ograniczenia prędkości obliczeń MM ver.1 Współczynnik CGMA (compute to global memory access ratio) stosunek liczby operacji do liczby dostępów do pamięci. Dla mnożenia macierzy 2 operacje (+,*) przypadają na 2 dostępy do pamięci globalnej (pobranie operandów) CGMA =1 CGMA wyrażone w bajtach - 2/8 opearacji / bajt Model przetwarzania: Po zakończeniu obliczeń (2 operacje dla 32 watków ok. 4 cykli) warpu przechodzi on do pobierania danych z pamięci globalnej. Kolejna praca tego warpu możliwa po odebraniu danych cykli (czas dostępu do pamięci globalnej rzędu 100 cykli). Potrzeba 50 warpów (1600 wątków) realizujących obliczenia tego typu CGMA=1 dla zapewnienia ciągłości (efektywności obliczeń). (jest to niemożliwe w tej wersji kodu - mamy maksymalnie 16 warpów 1 blok watków) 13
14 Mnożenie macierzy wer.2 Określenie elementu dużej macierzy obliczanego przez wątek mniejszego bloku wątków Zakładamy, że wymiar macierzy WIDTH jest podzielny przez wymiar podmacierzy SUB_WIDTH Kwadratowy blok wątków oblicza kwadratowy blok elementów macierzy wynikowej, każdy wątek wyznacza jeden element podmacierzy, SUB_WIDTH= blockdim.x= blockdim.y Dla określenia lewego górnego elementu podtablicy obliczanej przez blok potrzebne są zmienne automatyczne środowiska - indeksy bloków blockid.x, blockid.y blockid.x* blockdim.x, blockid.y* blockdim.y Dla wyznaczenia elementu w ramach bloku potrzebne są indeksy wątków w bloku: threadid.x, threadid.y Indeksy elementów tablicy zatem dla wątku to: blockid.x* blockdim.x + threadid.x, blockidd.y* blockdim.y + threadid.y Zrzutowanie na elementy w macierzy jednowymiarowej: (blockid.y* blockdim.y + threadid.y )* WIDTH + (blockid.x* blockdim.x + threadid.x ) 1,1 0,0 0,1 0,2 1,0 1,1 1,2 2,0 2,1 2,2 blockid.x* SUB_WIDTH, blockid.y* SUB_WIDTH threadid.x threadid.y 14
15 Mnożenie macierzy wer2 Obliczenia za pomocą wielu bloków wątków o wielkości blockdim.x * blockdim.y Każdy wątek oblicza jeden element wyniku liczba wątków równa liczbie elementów macierzy. Liczba bloków równa (rozmiar_macierzy/ blockdim.x) 2 - zależna od wielkości macierzy i wielkości bloku Obliczenia mogą być wykonywane na wielu SM, gdyż warpy różnych bloków nie muszą być uruchomione tym samym SM. Liczba jednocześnie przetwarzanych warp zależy od: liczby SM ograniczenia sprzętu jeden warp w jednym SM równoczesnie, Liczby bloków - kolejny SM wymaga kolejnego bloku Liczby aktywnych warp im więcej warp można przydzielić do SM jednocześnie (ograniczenia zasobowe) tym większa możliwość ukrycia kosztu dostępu do pamięci zachowania ciągłości obliczeń. 15
16 global void MatrixMulKernel_2(float* Ad, float* Bd, float* Cd, int WIDTH) { // wyznaczenie indeksu wiersza/kolumny obliczanego elementu tablicy Cd int Row = blockid.y * blockdim.y + threadid.y; int Col = blockid.x * blockdim.x + threadid.x; float C_local= 0; // każdy wątek z bloku oblicza jeden element macierzy for (int k = 0; k < WIDTH; ++k) C_local += A_d[Row][k] * B_d[k][Col]; Cd[Row][Col] = C_local; } A_d[Row][k] dostęp nieefektywny - nie wykorzystuje przepustowości łącza jednocześnie potrzebna ta sama wartość B_d[k][Col] dostęp efektywny sąsiednie wątki warpu czytają sąsiednie słowa z pamięci globalnej. Efektywny zapis do pamięci sąsiednich wartości. MM wer. 2 16
17 Uruchomienie przetwarzania Mnożenie macierzy wer2 // parametry konfiguracji uruchomienia kernela dim3 wymiarybloku(sub_width, SUB_WIDTH); dim3 wymiarygridu(width / SUB_WIDTH, WIDTH / SUB_WIDTH); (uwaga na liczbę wątków aby ich starczyło (SUFIT) i wszystkie realizowały właściwą pracę czy wątek ze swoimi współrzędnymi jest w zakresie pracy do wykonania ) // uruchomienie obliczeń MatrixMulKernel_2<<< wym_gridu, wym_bloku >>>(Ad, Bd, Cd,WIDTH); 17
18 Ograniczenia na poziom równoległości przetwarzania Ograniczenia wydajnościowe: 1. Dla wielu SM - poziom równoległości (min, max, śr.) zależy od liczby bloków wątków przetwarzających grid. 2. Dla jednego SM poziom równoległości i efektywność obliczeń w ramach jednego SM zależy od liczby wiązek (warps), które można równocześnie przydzielić do jednego SM. Jest ona ograniczona: liczbą bloków w SM 8 problemem są małe bloki liczba warps w SM 32 - czyli max 1024 wątki (CC 1.3) wymaganiami na liczbę rejestrów bloku wątków (wielkość bloku * liczba rejestrów potrzebnych wątkowi) 3. Im więcej bloków tym większe zrównoważenie pracy SM. 4. Im więcej wątków w SM (bloków jednocześnie w SM) tym większe szanse zapewnienia ciągłości pracy jednostek wykonawczych. 18
19 Wydajność rozwiązania - mnożenie macierzy wer2 Różnice względem wersji 1: Można wykorzystać potencjalnie wszystkie SM wzrost maksymalnej prędkości obliczeń 27 x Można uzyskać większą maksymalną zajętość SM dla uruchomienia np. 4 bloki 256 wątków dają maksimum 1024 watki na SM maksymalna, bo zależna od wielkości instancji. Dwukrotny wzrost liczby wątków nie zapewni ciągłości obliczeń dla CGMA=1 dłużej trwa dostęp (pobieranie) do danych niż ich obliczenia. Nasz cel - zwiększyć CGMA liczba operacji arytmetycznych stała (złożoność), trzeba zmniejszyć liczbę dostępów do pamięci globalnej, aby rdzenie mogły pracować bez przestojów. 19
20 r x r Z innego wykładu: Mnożenie macierzy pamięć podręczna [operacje na fragmentach tablic] C A B for (int kk = k ; kk < k+r ; kk++) C[ii][jj] + = A[ii][kk] * B[kk][jj]; for (int jj = j ; jj < j+r ; jj++) for (int kk = k ; kk < k+r ; kk++) C[ii][jj] + = A[ii][kk] * B[kk][jj]; for ( int ii = i ; ii < i+r; ii++) for (int jj = j ; jj < j+r ; jj++) for (int kk = k ; kk < k+r ; kk++) C[ii][jj] + = A[ii][kk] * B[kk][jj]; for (int k = 0 ; k < n ; k+=r) for ( int ii = i ; ii < i+r; ii++) for (int jj = j ; jj < j+r ; jj++) for (int kk = k ; kk < k+r ; kk++) C[ii][jj] + = A[ii][kk] * B[kk][jj]; 20
21 MM wer.3 - przebieg Zastosujemy to samo podejście jak w mnożeniu macierzy algorytmem zagnieżdżonych 6 pętli i optymalizacją wykorzystania pamięci podręcznej. Zamiast lokalności czasowej dostępu do pamięci podręcznej wykorzystujemy czasowo lokalnie czasowo dane w pamięć współdzielona. Pobrania danych do pamięci współdzielonej realizują wątki kolektywnie przed obliczeniami. Konieczna synchronizacja zakończenia pobrania, gdyż wątki nie są wykonywane równocześnie. ETAPY pracy: Pobranie danych do pamięci współdzielonej bloku wątków możliwość łączenia dostępów (przepisywanie bloków danych realizować można w wygodnej dla efektywności kolejności) Każdy wątek wylicza wynik częściowy na podstawie danych w dostępnej mu pamięci współdzielonej. Synchronizacja każdego bloku wątków przed wymianą danych w pamięci współdzielonej. Kolejne kroki kolektywnego pobrania danych przez blok wątków do pamięci współdzielonej, a następnie uzupełnianie sum częściowych o wyniki mnożeń elementów z kolejno pobranych bloków. Kolektywny zapis wyników (każdy wątek jeden wynik) do pamięci. 21
22 MM wer.3 - efektywność Zysk mniej pobrań z pamięci globalnej, wielokrotne wykorzystanie danych dostępnych w pamięci podręcznej(rozmiar bloku) Strata - obliczenia konkretnego bloku wątków nie mogą być realizowane jednocześnie z pobieraniem danych dla tego bloku (synchronizacja miedzy etapami przetwarzania). Im większy blok tym większa krotność wykorzystania raz pobranych do pamięci współdzielonej danych - CGMA Im większy blok tym niższy stopień zrównoleglenia pobrań danych i obliczeń w ramach jednego SM. 22
23 Mnożenie macierzy wersja 3 cz.1 global void MatrixMulKernel_3(float* Ad, float* Bd, float* Cd, int Width) { shared float Ads[SUB_WIDTH][SUB_WIDTH]; shared float Bds[SUB_WIDTH][SUB _WIDTH]; // określenie obliczanego przez wątek elementu macierzy for (int m = 0; m < WIDTH/ SUB_WIDTH; ++m) { Ads[tx][ty] = Ad [Row][m*SUB_WIDTH + tx]; Bds[tx][ty] = Bd[m*SUB_WIDTH + ty][col]; } syncthreads(); for (int k = 0; k < SUB_WIDTH; ++k) C_local += Ads[tx][k] * Bds[k][ty]; syncthreads(); Cd[Row][Col] = C_local; } Mnożenie macierzy przez bloki wątków w przy użyciu pamięci współdzielonej 23
24 Mnożenie macierzy wersja 3 wyjaśnienia // wątki wspólnie bloku ładują podmacierze do pamięci współdzielonej // WĄTKI O SĄSIEDNICH ID ładują sąsiednie elementy z pamięci //oczekiwanie na dane podmacierzy w pamięci współdzielonej - synchronizacja //oczekiwanie na koniec obliczeń przed pobraniem nowych danych - synchronizacja 24
25 Efektywność MM wersji 3 Im większy blok ładowany do pamięć współdzielonej (SHM) tym mniej razy dane pobierane i mniejsze wymagania na przepustowość pamięci globalnej. Dla tego kodu rozmiar bloku danych równy rozmiarowi bloku wątków. Rozmiar bloku wątków wpływa na wielkość potrzebnej pamieci SHM i możliwości uruchamiania bloku w SM. W wewnętrznej pętli każdy wątek bloku o rozmiarach BLOCK_SIZE x BLOCK_SIZE wykonuje BLOCK_SIZE operacji MUL_ADD i dwa pobrania danych macierzy wejściowej, CGMA = BLOCK_SIZE Ograniczeniem na prędkość tych obliczeń są: synchronizacja pracy wątków w bloku wątków faza pobrań danych i faza obliczeń dla bloku wątków nie są równoległe, czas dostępu do pamięci globalnej. 25
26 Wersja 3 Pętla po blokach { Mnożenie macierzy wersja 4 Ładowanie kolejnego bloku danych do pamięci współdzielonej; Synchronizacja; Obliczenia; Synchronizacja; } Wersja 4 Pobranie pierwszego bloku danych A z pamięci globalnej (do rejestru lub pamięci współdzielonej) Pętla po blokach { Przepisanie danych A do pamięci współdzielonej B; Synchronizacja; Pobranie kolejnego bloku danych A z pamięci globalnej; Obliczenia na pamięci B; Synchronizacja; } Wzrost ilości operacji i większe wymagania zasobowe, lecz inna synchronizacja umożliwiająca nakładanie obliczeń i pobrania danych dla wątków jednego bloku. 26
27 Dalsze optymalizacje Rozwinięcie pętli zmniejsza ilość operacji (obsługujące pętle) #pragma unroll. Wzrost ilości pracy realizowanej przez wątek obliczanie większej liczby wyników. Obliczenia dla wielu tablic przesłanie danych do obliczeń na kartę równoczesne z obliczeniami dla poprzednio odebranych danych. Ocena efektywności wprowadzonych rozwiązań: CUDA_Occupancy_Calculator.xls Nvidia Visual profiler 27
28 Sterowanie realizacją instrukcji przez wątki warpu w SM Problemem efektywnościowym związanym z rozgałęzieniami w kodzie jest rozbieżność przetwarzania. Załóżmy, że różne wątki jednego warpu mają realizować inne ciągi instrukcji. Realizacja: różne ścieżki przetwarzania są pokonywane dla każdej grupy wątków po kolei spadek poziomu równoległości przetwarzania spadek efektywności. Rozbieżność przetwarzania może się pojawić jako efekt wystąpienia w kodzie warunku uzależnionego od identyfikatora wątku. Instrukcja if (threadidx.x >16) może tworzyć dwie ścieżki realizacji kodu dla wątków jednego warpu. Instrukcja if (threadidx.x / rozmiar_warpu >1) powoduje rozbieżność przetwarzania w ramach bloku (nie jest ona problemem efektywnościowym) lecz nie powoduje rozbieżności przetwarzania w ramach warpu. 28
29 Równoległa redukcja - problem Problem polega na wyznaczeniu scaleniu elementów wektora do jednej wartości. Przykładem redukcji równoległej może być wyznaczenie sumy elementów wektora danych dostępnego w pamięci współdzielonej systemu równoległego. Przetwarzanie odbywa się na procesorach kart graficznych. Dane przechowywane są w pamięci globalnej. Wyniki pośrednie przechowywane są w pamięci współdzielonej bloku wątków lub w pamięci globalnej. Wynik dostępny obliczeń jest przekazywany do pamięci komputera host na potrzeby testów poprawności obliczeń. 29
30 Równoległa redukcja etapy przetwarzania 1. Uruchomienie obliczeń w oparciu o niezbędną liczbę wątków wynikającą: z liczby sumowanych elementów i liczby sumowań przypadających na wątek. 2. Każdy blok wątków synchronizuje się w przetwarzaniu i generuje jeden wynik sumę częściową. 3. Uruchomienie obliczeń w oparciu o niezbędną liczbę wątków wynikającą z liczby bloków poprzednio uruchomionego gridu i liczby sumowań przypadających na wątek. 4. Powtarzanie procedury od kroku 2 do uzyskania jednego wyniku globalnego. 5. Ze względu na współdzielenie danych między wątkami bloku (w kolejnych etapach sumowania) konieczna synchronizacja pracy wątków bloku po każdym etapie sumowania. 30
31 Równoległa redukcja - Struktura przetwarzania 1 Pamięć globalna Zapis do pamięci globalnej Rysunek: Jeden etap przetwarzania dla bloku 16 wątków, okręgi oznaczają wątki, strzałki oznaczają pobrania danych z pamięci. Każdy wątek zapisuje w pamięci współdzielonej wartość, a następnie, jeśli jest odpowiedzialny za wygenerowanie wyniku realizuje operację sumowania. Kolejne wątki z wiązki nie uczestniczą w kolejnych etapach obliczeń warp zostaje uszeregowany do procesora, lecz coraz mniej wątków wykonuje obliczenia utrata efektywności przetwarzania. Wynik - pracy bloku (suma lokalna bloku) zapisany zostaje w pamięci globalnej dla wykorzystania w kolejnym etapie sumowania przez nowy grid. 31
32 Równoległa redukcja - Struktura przetwarzania 2 Pamięć globalna Rysunek: Jeden etap przetwarzania dla bloku 16 wątków. 0 1 Każdy wątek zapisuje w pamięci współdzielonej wartość, a następnie, jeśli jest odpowiedzialny za wygenerowanie wyniku 0 realizuje operację sumowania. Kolejne wątki wiązki uczestniczą w obliczeniach, warpy kończące przetwarzanie przestają współubiegać się o procesor. Wynik pracy bloku (suma lokalna bloku) zapisany zostaje w pamięci Zapis do globalnej dla wykorzystania w kolejnym etapie sumowania przez pamięci nowy grid. globalnej Równoczesne dostępy do oddalonych lokacji pamięci współdzielonej konflikt dostępu do tych samych banków pamięci współdzielonej. 32
33 Równoległa redukcja - Struktura przetwarzania 3 Pamięć globalna czas Zapis do pamięci globalnej Rysunek: Jeden etap przetwarzania dla bloku 16 wątków. Każdy wątek zapisuje w pamięci współdzielonej wartość, a następnie, jeśli jest odpowiedzialny za wygenerowanie wyniku realizuje operację sumowania. Wątek zerowy realizuje 4 sumowania. Wątki 8-15 nie sumują. Wynik pracy bloku (suma lokalna bloku) zapisany zostaje w pamięci globalnej dla wykorzystania w kolejnym etapie sumowania przez nowy grid. 33
34 Równoległa redukcja - struktura przetwarzania 3 Pamięć globalna czas Zapis do pamięci globalnej 34 Efektywność: Powyższa organizacja przetwarzania zapewnia: Przetwarzanie realizowane przez ciągły zakres wątków bloku ograniczenie dywergencji przetwarzania wątków warpu (dla bloków > 32 wątki). Dostęp w jednym kroku pracy wątków do kolejnych słów z pamięci: Globalnej odczyt współdzielonej odczyty i zapisy Pozwala na efektywny dostęp poprzez różne banki pamięci współdzielonej.
35 Warianty struktury przetwarzania Korzystanie z pamięci globalnej lub pamięci współdzielonej wątków do zapisu wyników pośrednich. Realizacja sumowań pierwszego etapu przez wszystkie wątki bloku. W pierwszym kroku zapis przez wszystkie wątki do pamięci współdzielonej sumy 2 wartości. Realizacja wielu sumowań przez wątki bloku łączone pobieranie z pamięci globalnej i sumowanie z wartością w pamięci współdzielonej. 35
36 Przykładowy kod kernela wg struktury pierwszej przetwarzania //sumowanie (w pamięci globalnej) przez blok wątków 2* blockdim.x elementów global void block_sum(float *dane, float *wyniki, const size_t rozmiar_danych) { unsigned int i = 2*(blockIdx.x * blockdim.x + threadidx.x); //identyfikator zapisywanego elementu zależny od identyfikatora wątku i bloku for(unsigned int odstep =1; odstep< 2*blockDim.x; odstep *=2) //odstęp dla sumowanych elementów { if (threadidx.x %odstep ==0) //wykluczenie wątków w kolejnych etapach co 2,4,8, if (i+odstep< rozmiar_danych) //test rozmiaru danych dane[i] += dane[i+odstep]; syncthreads(); //synchronizacja gotowości danych } if(threadidx.x == 0) // wątek 0 zapisuje wynik { wyniki[blockidx.x] = dane[2*blockidx.x * blockdim.x]; } } 36
37 Efektywność przetwarzania GTX MB 4B *4M elementy Instancja: 16MB 4B *4M elementów I uruchomienie kernela: Grid: 4K bloków, Blok: 512 wątków II uruchomienie kernela: Grid: 4 blok, Blok: 512 wątków III uruchomieniekernela: 2 wątki Wersja Użyta Czas Przepustowość Przyspieszenie Struktury pamięć obliczeń Obliczeń ms GB/s 1 G 13,6 1,17 1 S 12,6 1,27 2 G 9,2 1,74 2 S 8,6 1,86 3 G 3 S 3,1 5,16 37
38 38
39 39
Programowanie CUDA informacje praktycznie i. Wersja
Programowanie CUDA informacje praktycznie i przykłady Wersja 16.12.2013 Podstawowe operacje na GPU cudasetdevice() Określenie GPU i ustanowienie kontekstu (analog w GPU tego czym jest proces dla CPU) dla
Programowanie PKG - informacje praktycznie i przykłady. Wersja z Opracował: Rafał Walkowiak
Programowanie PKG - informacje praktycznie i przykłady problemów obliczeniowych Wersja z 7.05.2018 Opracował: Rafał Walkowiak cudasetdevice() Podstawowe operacje na urządzeniu GPU Określenie GPU i ustanowienie
Przygotowanie kilku wersji kodu zgodnie z wymogami wersji zadania,
Przetwarzanie równoległe PROJEKT OMP i CUDA Temat projektu dotyczy analizy efektywności przetwarzania równoległego realizowanego przy użyciu komputera równoległego z procesorem wielordzeniowym z pamięcią
Programowanie procesorów graficznych GPGPU. Krzysztof Banaś Obliczenia równoległe 1
Programowanie procesorów graficznych GPGPU Krzysztof Banaś Obliczenia równoległe 1 OpenCL projektowanie kerneli Przypomnienie: kernel program realizowany przez urządzenie OpenCL wątek (work item) rdzeń
ANALIZA EFEKTYWNOŚCI MNOŻENIA MACIERZY W SYSTEMACH Z PAMIĘCIĄ WSPÓŁDZIELONĄ
ANALIZA EFEKTYWNOŚCI MNOŻENIA MACIERZY W SYSTEMACH Z PAMIĘCIĄ WSPÓŁDZIELONĄ 1 Mnożenie macierzy dostęp do pamięci podręcznej [język C, kolejność - j,i,k][1] A,B,C są tablicami nxn for (int j = 0 ; j
EFEKTYWNOŚĆ MNOŻENIA MACIERZY W SYSTEMACH Z PAMIĘCIĄ WSPÓŁDZIELONĄ
EFEKTYWNOŚĆ MNOŻENIA MACIERZY W SYSTEMACH Z PAMIĘCIĄ WSPÓŁDZIELONĄ 1 Mnożenie macierzy dostęp do pamięci podręcznej [język C, kolejność - j,i,k][1] A[i][*] lokalność przestrzenna danych rózne A,B,C są
Programowanie kart graficznych
CUDA Compute Unified Device Architecture Programowanie kart graficznych mgr inż. Kamil Szostek AGH, WGGIOŚ, KGIS Wykorzystano materiały z kursu Programowanie kart graficznych prostsze niż myślisz M. Makowski
Zadania na zaliczenie przedmiotu Przetwarzanie równoległe Zebrał dla roku.ak. 2015/2016 Rafał Walkowiak,
Zadania na zaliczenie przedmiotu Przetwarzanie równoległe Zebrał dla roku.ak. 2015/2016 Rafał Walkowiak, 30.01.2016 Zagadnienia sprzętowe w przetwarzaniu równoległym 1.1 Procesory systemu równoległego
Programowanie procesorów graficznych NVIDIA (rdzenie CUDA) Wykład nr 1
Programowanie procesorów graficznych NVIDIA (rdzenie CUDA) Wykład nr 1 Wprowadzenie Procesory graficzne GPU (Graphics Processing Units) stosowane są w kartach graficznych do przetwarzania grafiki komputerowej
Wprowadzenie do programowania w środowisku CUDA. Środowisko CUDA
Wprowadzenie do programowania w środowisku CUDA Środowisko CUDA 1 Budowa procesora CPU i GPU Architektura GPU wymaga większej ilości tranzystorów na przetwarzanie danych Control ALU ALU ALU ALU Cache DRAM
Porównanie wydajności CUDA i OpenCL na przykładzie równoległego algorytmu wyznaczania wartości funkcji celu dla problemu gniazdowego
Porównanie wydajności CUDA i OpenCL na przykładzie równoległego algorytmu wyznaczania wartości funkcji celu dla problemu gniazdowego Mariusz Uchroński 3 grudnia 2010 Plan prezentacji 1. Wprowadzenie 2.
Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych
Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2013/14 Znajdowanie maksimum w zbiorze
CUDA. cudniejsze przyk ady
CUDA cudniejsze przyk ady Agenda: CPU vs. GPU Mnożenie macierzy CPU Mnożenie macierzy - GPU Sploty Macierze CPU vs. GPU CPU: GPU: Mnożenie wykonywane w kolejnych iteracjach pętli. Przechodzimy przez pierwszy
Programowanie Współbieżne
Programowanie Współbieżne Agnieszka Łupińska 5 października 2016 Hello World! helloworld.cu: #include global void helloworld(){ int thid = (blockidx.x * blockdim.x) + threadidx.x; printf("hello
Materiały pomocnicze do laboratorium. 1. Miary oceny efektywności 2. Mnożenie macierzy 3. Znajdowanie liczb pierwszych
Materiały pomocnicze do laboratorium 1. Miary oceny efektywności 2. Mnożenie macierzy 3. Znajdowanie liczb pierwszych 4. Optymalizacja dostępu do pamięci Miary efektywności systemów współbieżnych System
Programowanie aplikacji równoległych i rozproszonych
Programowanie aplikacji równoległych i rozproszonych Dr inż. Krzysztof Rojek krojek@icis.pcz.pl Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Strumienie operacji na GPU Domyślne
Przetwarzanie Równoległe i Rozproszone
POLITECHNIKA KRAKOWSKA - WIEiK KATEDRA AUTOMATYKI I TECHNOLOGII INFORMACYJNYCH Przetwarzanie Równoległe i Rozproszone www.pk.edu.pl/~zk/prir_hp.html Wykładowca: dr inż. Zbigniew Kokosiński zk@pk.edu.pl
Programowanie Równoległe wykład 12. OpenGL + algorytm n ciał. Maciej Matyka Instytut Fizyki Teoretycznej
Programowanie Równoległe wykład 12 OpenGL + algorytm n ciał Maciej Matyka Instytut Fizyki Teoretycznej CUDA z OpenGL 1. Dane dla kerneli znajdują się na karcie GFX. 2. Chcemy liczyć i rysować używając
Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych
Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2014/15 Znajdowanie maksimum w zbiorze
Przykładem jest komputer z procesorem 4 rdzeniowym dostępny w laboratorium W skład projektu wchodzi:
Przetwarzanie równoległe PROJEKT OMP Temat projektu dotyczy analizy efektywności przetwarzania równoległego realizowanego w komputerze równoległym z procesorem wielordzeniowym z pamięcią współdzieloną.
MATERIAŁY POMOCNICZE DO LABORATORIUM Z PRZETWARZANIA RÓWNOLEGŁEGO KWIECIEŃ 2018
Analiza efektywności mnożenia macierzy w systemach z pamięcią współdzieloną MATERIAŁY POMOCNICZE DO LABORATORIUM Z PRZETWARZANIA RÓWNOLEGŁEGO KWIECIEŃ 2018 1 Mnożenie macierzy dostęp do pamięci podręcznej
Programowanie procesorów graficznych GPGPU. Krzysztof Banaś Obliczenia równoległe 1
Programowanie procesorów graficznych GPGPU Krzysztof Banaś Obliczenia równoległe 1 Projektowanie kerneli Zasady optymalizacji: należy maksymalizować liczbę wątków (w rozsądnych granicach, granice zależą
JCuda Czy Java i CUDA mogą się polubić? Konrad Szałkowski
JCuda Czy Java i CUDA mogą się polubić? Konrad Szałkowski Agenda GPU Dlaczego warto używać GPU Budowa GPU CUDA JCuda Przykładowa implementacja Co to jest? GPU GPU Graphical GPU Graphical Processing GPU
CUDA obliczenia ogólnego przeznaczenia na mocno zrównoleglonym sprzęcie. W prezentacji wykorzystano materiały firmy NVIDIA (http://www.nvidia.
CUDA obliczenia ogólnego przeznaczenia na mocno zrównoleglonym sprzęcie W prezentacji wykorzystano materiały firmy NVIDIA (http://www.nvidia.com) 1 Architektura karty graficznej W porównaniu z tradycyjnym
Programowanie procesorów graficznych w CUDA.
Programowanie procesorów graficznych w CUDA. Kompilujemy program Alokacja zasobów gpgpu oraz załadowanie modułu CUDA odbywa się za pomocą komend: qsub -q gpgpu -I -l walltime=2:00:00,nodes=1:ppn=1:gpus=1
Algorytmy równoległe: prezentacja i ocena efektywności prostych algorytmów dla systemów równoległych
Algorytmy równoległe: prezentacja i ocena efektywności prostych algorytmów dla systemów równoległych Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2018/19 Problem: znajdowanie
Programowanie procesorów graficznych GPGPU
Programowanie procesorów graficznych GPGPU 1 GPGPU Historia: lata 80 te popularyzacja systemów i programów z graficznym interfejsem specjalistyczne układy do przetwarzania grafiki 2D lata 90 te standaryzacja
Programowanie kart graficznych. Architektura i API część 2
Programowanie kart graficznych Architektura i API część 2 CUDA hierarchia pamięci c.d. Globalna pamięć urządzenia: funkcje CUDA API takie jak cudamalloc() i cudafree() z założenia służą do manipulowania
i3: internet - infrastruktury - innowacje
i3: internet - infrastruktury - innowacje Wykorzystanie procesorów graficznych do akceleracji obliczeń w modelu geofizycznym EULAG Roman Wyrzykowski Krzysztof Rojek Łukasz Szustak [roman, krojek, lszustak]@icis.pcz.pl
Tworzenie programów równoległych cd. Krzysztof Banaś Obliczenia równoległe 1
Tworzenie programów równoległych cd. Krzysztof Banaś Obliczenia równoległe 1 Metodologia programowania równoległego Przykłady podziałów zadania na podzadania: Podział ze względu na funkcje (functional
Analiza efektywności przetwarzania współbieżnego. Wykład: Przetwarzanie Równoległe Politechnika Poznańska Rafał Walkowiak Grudzień 2015
Analiza efektywności przetwarzania współbieżnego Wykład: Przetwarzanie Równoległe Politechnika Poznańska Rafał Walkowiak Grudzień 2015 Źródła kosztów przetwarzania współbieżnego interakcje między procesami
Procesory kart graficznych i CUDA wer
wer 1.4 18.04.2016 Litreratura: CUDA textbook by David Kirk from NVIDIA and Prof. Wen-mei Hwu from UIUC. CUDA w przykładach. Wprowadzenie do ogólnego programowania procesorów GP, J.Sanders, E.Kandrot,
Tesla. Architektura Fermi
Tesla Architektura Fermi Tesla Tesla jest to General Purpose GPU (GPGPU), GPU ogólnego przeznaczenia Obliczenia dotychczas wykonywane na CPU przenoszone są na GPU Możliwości jakie daje GPU dla grafiki
Obliczenia na GPU w technologii CUDA
Obliczenia na GPU w technologii CUDA 1 Różnica szybkości obliczeń (GFLOP/s) pomiędzy CPU a GPU źródło NVIDIA 2 Różnica w przepustowości pamięci pomiędzy CPU a GPU źródło NVIDIA 3 Różnice architektoniczne
Programowanie procesorów graficznych GPGPU
Programowanie procesorów graficznych GPGPU 1 OpenCL projektowanie kerneli Przypomnienie: kernel program realizowany przez urządzenie OpenCL wątek (work item) rdzeń (processing element): jeden wątek wykonywany
Literatura. 11/16/2016 Przetwarzanie równoległe - wstęp 1
Literatura 1. Wprowadzenie do obliczeń równoległych, Zbigniew Czech, Wydawnictwo Naukowe PWN, 2010, 2013 2. Introduction to Parallel Computing; Grama, Gupta, Karypis, Kumar; Addison Wesley 2003 3. Designing
Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010
Algorytmy równoległe Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka Znajdowanie maksimum w zbiorze n liczb węzły - maksimum liczb głębokość = 3 praca = 4++ = 7 (operacji) n - liczność
Literatura. 3/26/2018 Przetwarzanie równoległe - wstęp 1
Literatura 1. Wprowadzenie do obliczeń równoległych, Zbigniew Czech, Wydawnictwo Naukowe PWN, 2010, 2013 2. Introduction to Parallel Computing; Grama, Gupta, Karypis, Kumar; Addison Wesley 2003 3. Designing
Podstawy Programowania C++
Wykład 3 - podstawowe konstrukcje Instytut Automatyki i Robotyki Warszawa, 2014 Wstęp Plan wykładu Struktura programu, instrukcja przypisania, podstawowe typy danych, zapis i odczyt danych, wyrażenia:
Projektowanie algorytmów równoległych. Zbigniew Koza Wrocław 2012
Projektowanie algorytmów równoległych Zbigniew Koza Wrocław 2012 Spis reści Zadniowo-kanałowy (task-channel) model algorytmów równoległych Projektowanie algorytmów równoległych metodą PACM Task-channel
Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1
Skalowalność obliczeń równoległych Krzysztof Banaś Obliczenia Wysokiej Wydajności 1 Skalowalność Przy rozważaniu wydajności przetwarzania (obliczeń, komunikacji itp.) często pojawia się pojęcie skalowalności
Systemy wbudowane. Uproszczone metody kosyntezy. Wykład 11: Metody kosyntezy systemów wbudowanych
Systemy wbudowane Wykład 11: Metody kosyntezy systemów wbudowanych Uproszczone metody kosyntezy Założenia: Jeden procesor o znanych parametrach Znane parametry akceleratora sprzętowego Vulcan Początkowo
Tablice mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Katowice, 2011
Tablice mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Katowice, 2011 Załóżmy, że uprawiamy jogging i chcemy monitorować swoje postępy. W tym celu napiszemy program, który zlicza, ile czasu
Lab 8. Tablice liczbowe cd,. Operacje macierzowo-wektorowe, memcpy, memmove, memset. Wyrażenie warunkowe.
Języki i paradygmaty programowania 1 studia stacjonarne 2018/19 Lab 8. Tablice liczbowe cd,. Operacje macierzowo-wektorowe, memcpy, memmove, memset. Wyrażenie warunkowe. 1. Wektory i macierze: a. Przykład
CUDA Median Filter filtr medianowy wykorzystujący bibliotekę CUDA sprawozdanie z projektu
CUDA Median Filter filtr medianowy wykorzystujący bibliotekę CUDA sprawozdanie z projektu inż. Daniel Solarz Wydział Fizyki i Informatyki Stosowanej AGH 1. Cel projektu. Celem projektu było napisanie wtyczki
10/14/2013 Przetwarzanie równoległe - wstęp 1. Zakres przedmiotu
Literatura 1. Introduction to Parallel Computing; Grama, Gupta, Karypis, Kumar; Addison Wesley 2003 2. Wprowadzenie do obliczeń równoległych, Zbigniew Czech, Wydawnictwo Naukowe PWN, 2010. 3. Designing
Zadania na zaliczenie przedmiotu Przetwarzanie równoległe Zebrał dla r.ak. 2014/2015 Rafał Walkowiak,
Zadania na zaliczenie przedmiotu Przetwarzanie równoległe Zebrał dla r.ak. 2014/2015 Rafał Walkowiak, 17.01.2015 Zagadnienia sprzętowe w przetwarzaniu równoległym 1.1 Procesory systemu równoległego wykonują
Wprowadzenie do programowania w środowisku CUDA. Środowisko CUDA
Wprowadzenie do programowania w środowisku CUDA Środowisko CUDA 1 Budowa procesora CPU i GPU Architektura GPU wymaga większej ilości tranzystorów na przetwarzanie danych Control ALU ALU ALU ALU Cache DRAM
Analiza efektywności przetwarzania współbieżnego
Analiza efektywności przetwarzania współbieżnego Wykład: Przetwarzanie Równoległe Politechnika Poznańska Rafał Walkowiak 1/4/2013 Analiza efektywności 1 Źródła kosztów przetwarzania współbieżnego interakcje
Wydajność systemów a organizacja pamięci, czyli dlaczego jednak nie jest aż tak źle. Krzysztof Banaś, Obliczenia wysokiej wydajności.
Wydajność systemów a organizacja pamięci, czyli dlaczego jednak nie jest aż tak źle Krzysztof Banaś, Obliczenia wysokiej wydajności. 1 Organizacja pamięci Organizacja pamięci współczesnych systemów komputerowych
Wskaźniki i dynamiczna alokacja pamięci. Spotkanie 4. Wskaźniki. Dynamiczna alokacja pamięci. Przykłady
Wskaźniki i dynamiczna alokacja pamięci. Spotkanie 4 Dr inż. Dariusz JĘDRZEJCZYK Wskaźniki Dynamiczna alokacja pamięci Przykłady 11/3/2016 AGH, Katedra Informatyki Stosowanej i Modelowania 2 Wskaźnik to
Numeryczna algebra liniowa
Numeryczna algebra liniowa Numeryczna algebra liniowa obejmuje szereg algorytmów dotyczących wektorów i macierzy, takich jak podstawowe operacje na wektorach i macierzach, a także rozwiązywanie układów
Wydajność systemów a organizacja pamięci. Krzysztof Banaś, Obliczenia wysokiej wydajności. 1
Wydajność systemów a organizacja pamięci Krzysztof Banaś, Obliczenia wysokiej wydajności. 1 Motywacja - memory wall Krzysztof Banaś, Obliczenia wysokiej wydajności. 2 Organizacja pamięci Organizacja pamięci:
Algorytm poprawny jednoznaczny szczegółowy uniwersalny skończoność efektywność (sprawność) zmiennych liniowy warunkowy iteracyjny
Algorytm to przepis; zestawienie kolejnych kroków prowadzących do wykonania określonego zadania; to uporządkowany sposób postępowania przy rozwiązywaniu zadania, problemu, z uwzględnieniem opisu danych
Organizacja pamięci w procesorach graficznych
Organizacja pamięci w procesorach graficznych Pamięć w GPU przechowuje dane dla procesora graficznego, służące do wyświetlaniu obrazu na ekran. Pamięć przechowuje m.in. dane wektorów, pikseli, tekstury
Architektura komputerów
Architektura komputerów Wykład 7 Jan Kazimirski 1 Pamięć podręczna 2 Pamięć komputera - charakterystyka Położenie Procesor rejestry, pamięć podręczna Pamięć wewnętrzna pamięć podręczna, główna Pamięć zewnętrzna
Co to jest sterta? Sterta (ang. heap) to obszar pamięci udostępniany przez system operacyjny wszystkim działającym programom (procesom).
Zarządzanie pamięcią Pamięć: stos i sterta Statyczny i dynamiczny przydział pamięci Funkcje ANSI C do zarządzania pamięcią Przykłady: Dynamiczna tablica jednowymiarowa Dynamiczna tablica dwuwymiarowa 154
Procesory kart graficznych i CUDA
4.05.2019 Litreratura: CUDA textbook by David Kirk from NVIDIA and Prof. Wen-mei Hwu from UIUC. CUDA w przykładach. Wprowadzenie do ogólnego programowania procesorów GP, J.Sanders, E.Kandrot, Helion Getting
Programowanie równoległe i rozproszone. Praca zbiorowa pod redakcją Andrzeja Karbowskiego i Ewy Niewiadomskiej-Szynkiewicz
Programowanie równoległe i rozproszone Praca zbiorowa pod redakcją Andrzeja Karbowskiego i Ewy Niewiadomskiej-Szynkiewicz 23 października 2009 Spis treści Przedmowa...................................................
Wiadomości wstępne Środowisko programistyczne Najważniejsze różnice C/C++ vs Java
Wiadomości wstępne Środowisko programistyczne Najważniejsze różnice C/C++ vs Java Cechy C++ Język ogólnego przeznaczenia Można programować obiektowo i strukturalnie Bardzo wysoka wydajność kodu wynikowego
Pętle i tablice. Spotkanie 3. Pętle: for, while, do while. Tablice. Przykłady
Pętle i tablice. Spotkanie 3 Dr inż. Dariusz JĘDRZEJCZYK Pętle: for, while, do while Tablice Przykłady 11/26/2016 AGH, Katedra Informatyki Stosowanej i Modelowania 2 Pętla w największym uproszczeniu służy
Wstęp do informatyki. Maszyna RAM. Schemat logiczny komputera. Maszyna RAM. RAM: szczegóły. Realizacja algorytmu przez komputer
Realizacja algorytmu przez komputer Wstęp do informatyki Wykład UniwersytetWrocławski 0 Tydzień temu: opis algorytmu w języku zrozumiałym dla człowieka: schemat blokowy, pseudokod. Dziś: schemat logiczny
PROGRAMOWANIE WSPÓŁCZESNYCH ARCHITEKTUR KOMPUTEROWYCH DR INŻ. KRZYSZTOF ROJEK
1 PROGRAMOWANIE WSPÓŁCZESNYCH ARCHITEKTUR KOMPUTEROWYCH DR INŻ. KRZYSZTOF ROJEK POLITECHNIKA CZĘSTOCHOWSKA 2 Trendy rozwoju współczesnych procesorów Budowa procesora CPU na przykładzie Intel Kaby Lake
Języki i paradygmaty programowania 1 studia stacjonarne 2018/19. Lab 9. Tablice liczbowe cd,. Operacje na tablicach o dwóch indeksach.
Języki i paradygmaty programowania 1 studia stacjonarne 2018/19 Lab 9. Tablice liczbowe cd,. Operacje na tablicach o dwóch indeksach. 1. Dynamiczna alokacja pamięci dla tablic wielowymiarowych - Przykładowa
Procesory kart graficznych i CUDA wer PR
wer 1.3 14.12.2016 PR Litreratura: CUDA textbook by David Kirk from NVIDIA and Prof. Wen-mei Hwu from UIUC. CUDA w przykładach. Wprowadzenie do ogólnego programowania procesorów GP, J.Sanders, E.Kandrot,
Stałe, tablice dynamiczne i wielowymiarowe
Stałe, tablice dynamiczne i wielowymiarowe tylko do odczytu STAŁE - CONST tablice: const int dni_miesiaca[12]=31,28,31,30,31,30,31,31,30,31,30,31; const słowo kluczowe const sprawia, że wartość zmiennej
Programowanie kart graficznych. Architektura i API część 1
Programowanie kart graficznych Architektura i API część 1 Literatura NVIDIA CUDA Programming Guide version 4.2 http//developer.download.nvidia.com/compute/devzone/ docs/html/c/doc/cuda_c_programming_guide.pdf
Programowanie Równoległe wykład, 21.01.2013. CUDA, przykłady praktyczne 1. Maciej Matyka Instytut Fizyki Teoretycznej
Programowanie Równoległe wykład, 21.01.2013 CUDA, przykłady praktyczne 1 Maciej Matyka Instytut Fizyki Teoretycznej Motywacja l CPU vs GPU (anims) Plan CUDA w praktyce Wykład 1: CUDA w praktyce l aplikacja
CUDA ćwiczenia praktyczne
CUDA ćwiczenia praktyczne 7 kwietnia 2011, Poznań Marek Błażewicz, marqs@man.poznan.pl Michał Kierzynka, michal.kierzynka@man.poznan.pl Agenda Wprowadzenie do narzędzi umożliwiających tworzenie programów
Wydajność systemów a organizacja pamięci. Krzysztof Banaś, Obliczenia wysokiej wydajności. 1
Wydajność systemów a organizacja pamięci Krzysztof Banaś, Obliczenia wysokiej wydajności. 1 Wydajność obliczeń Dla wielu programów wydajność obliczeń można traktować jako wydajność pobierania z pamięci
Architektura komputerów
Architektura komputerów Wykład 3 Jan Kazimirski 1 Podstawowe elementy komputera. Procesor (CPU) 2 Plan wykładu Podstawowe komponenty komputera Procesor CPU Cykl rozkazowy Typy instrukcji Stos Tryby adresowania
tablica: dane_liczbowe
TABLICE W JĘZYKU C/C++ tablica: dane_liczbowe float dane_liczbowe[5]; dane_liczbowe[0]=12.5; dane_liczbowe[1]=-0.2; dane_liczbowe[2]= 8.0;... 12.5-0.2 8.0...... 0 1 2 3 4 indeksy/numery elementów Tablica
PROJEKT 3 PROGRAMOWANIE RÓWNOLEGŁE. K. Górzyński (89744), D. Kosiorowski (89762) Informatyka, grupa dziekańska I3
PROJEKT 3 PROGRAMOWANIE RÓWNOLEGŁE K. Górzyński (89744), D. Kosiorowski (89762) Informatyka, grupa dziekańska I3 17 lutego 2011 Spis treści 1 Opis problemu 2 2 Implementacja problemu 3 2.1 Kod współdzielony........................
Informacje wstępne #include <nazwa> - derektywa procesora umożliwiająca włączenie do programu pliku o podanej nazwie. Typy danych: char, signed char
Programowanie C++ Informacje wstępne #include - derektywa procesora umożliwiająca włączenie do programu pliku o podanej nazwie. Typy danych: char, signed char = -128 do 127, unsigned char = od
Programowanie kart graficznych
Programowanie kart graficznych Sławomir Wernikowski swernikowski@wi.zut.edu.pl Wykład #1: Łagodne wprowadzenie do programowania w technologii NVIDIA CUDA Terminologia: Co to jest GPGPU? General-Purpose
Wydział Zarządzania AGH. Katedra Informatyki Stosowanej. Pętle. Programowanie komputerowe
Wydział Zarządzania AGH Katedra Informatyki Stosowanej Pętle 1 Program wykładu Pojęcie pętli Pętla FOR Pętla DO LOOP Pętle zagnieżdżone 2 Pojęcie pętli Suma lub iloczyn dowolnych n liczb wprowadzanych
Tablice i struktury. czyli złożone typy danych. Programowanie Proceduralne 1
Tablice i struktury czyli złożone typy danych. Programowanie Proceduralne 1 Tablica przechowuje elementy tego samego typu struktura jednorodna, homogeniczna Elementy identyfikowane liczbami (indeksem).
Szablony klas, zastosowanie szablonów w programach
Szablony klas, zastosowanie szablonów w programach 1. Szablony klas i funkcji 2. Szablon klasy obsługującej uniwersalną tablicę wskaźników 3. Zastosowanie metody zwracającej przez return referencję do
Ograniczenia efektywności systemu pamięci
Ograniczenia efektywności systemu pamięci Parametry pamięci : opóźnienie (ang. latency) - czas odpowiedzi pamięci na żądanie danych przez procesor przepustowość systemu pamięci (ang. bandwidth) - ilość
Wydajność programów sekwencyjnych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1
Wydajność programów sekwencyjnych Krzysztof Banaś Obliczenia Wysokiej Wydajności 1 Wydajność obliczeń Dla wielu programów wydajność obliczeń można traktować jako wydajność pobierania z pamięci i przetwarzania
Przetwarzanie Równoległe i Rozproszone
POLITECHNIKA KRAKOWSKA - WIEiK KATEDRA AUTOMATYKI I TECHNOLOGII INFORMACYJNYCH Przetwarzanie Równoległe i Rozproszone www.pk.edu.pl/~zk/prir_hp.html Wykładowca: dr inż. Zbigniew Kokosiński zk@pk.edu.pl
Procesy i wątki. Krzysztof Banaś Obliczenia równoległe 1
Procesy i wątki Krzysztof Banaś Obliczenia równoległe 1 Procesy i wątki Proces: ciąg rozkazów (wątek główny) i ewentualnie inne wątki stos (wątku głównego) przestrzeń adresowa dodatkowe elementy tworzące
Tworzenie programów równoległych. Krzysztof Banaś Obliczenia równoległe 1
Tworzenie programów równoległych Krzysztof Banaś Obliczenia równoległe 1 Tworzenie programów równoległych W procesie tworzenia programów równoległych istnieją dwa kroki o zasadniczym znaczeniu: wykrycie
Wysokowydajna implementacja kodów nadmiarowych typu "erasure codes" z wykorzystaniem architektur wielordzeniowych
Wysokowydajna implementacja kodów nadmiarowych typu "erasure codes" z wykorzystaniem architektur wielordzeniowych Ł. Kuczyński, M. Woźniak, R. Wyrzykowski Instytut Informatyki Teoretycznej i Stosowanej
Wykład 1_2 Algorytmy sortowania tablic Sortowanie bąbelkowe
I. Struktury sterujące.bezpośrednie następstwo (A,B-czynności) Wykład _2 Algorytmy sortowania tablic Sortowanie bąbelkowe Elementy języka stosowanego do opisu algorytmu Elementy Poziom koncepcji Poziom
INFORMATYKA Z MERMIDONEM. Programowanie. Moduł 5 / Notatki
INFORMATYKA Z MERMIDONEM Programowanie Moduł 5 / Notatki Projekt współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego. Realizator projektu: Opracowano w ramach projektu
Budowa Mikrokomputera
Budowa Mikrokomputera Wykład z Podstaw Informatyki dla I roku BO Piotr Mika Podstawowe elementy komputera Procesor Pamięć Magistrala (2/16) Płyta główna (ang. mainboard, motherboard) płyta drukowana komputera,
CUDA. obliczenia na kartach graficznych. Łukasz Ligowski. 11 luty Łukasz Ligowski () CUDA 11 luty / 36
CUDA obliczenia na kartach graficznych Łukasz Ligowski 11 luty 2008 Łukasz Ligowski () CUDA 11 luty 2008 1 / 36 Plan 1 Ogólne wrażenia 2 Obliczenia na kartach - wstęp 3 Wprowadzenie 4 CUDA Łukasz Ligowski
Programowanie współbieżne i rozproszone
Programowanie współbieżne i rozproszone WYKŁAD 1 dr inż. Literatura ogólna Ben-Ari, M.: Podstawy programowania współbieżnego i rozproszonego. Wydawnictwa Naukowo-Techniczne, Warszawa, 2009. Czech, Z.J:
Architektura potokowa RISC
Architektura potokowa RISC Podział zadania na odrębne części i niezależny sprzęt szeregowe Brak nawrotów" podczas pracy potokowe Przetwarzanie szeregowe i potokowe Podział instrukcji na fazy wykonania
Za pierwszy niebanalny algorytm uważa się algorytm Euklidesa wyszukiwanie NWD dwóch liczb (400 a 300 rok przed narodzeniem Chrystusa).
Algorytmy definicja, cechy, złożoność. Algorytmy napotykamy wszędzie, gdziekolwiek się zwrócimy. Rządzą one wieloma codziennymi czynnościami, jak np. wymiana przedziurawionej dętki, montowanie szafy z
Temat: Dynamiczne przydzielanie i zwalnianie pamięci. Struktura listy operacje wstawiania, wyszukiwania oraz usuwania danych.
Temat: Dynamiczne przydzielanie i zwalnianie pamięci. Struktura listy operacje wstawiania, wyszukiwania oraz usuwania danych. 1. Rodzaje pamięci używanej w programach Pamięć komputera, dostępna dla programu,
Programowanie w języku C++
Programowanie w języku C++ Część siódma Autor Roman Simiński Kontakt roman.siminski@us.edu.pl www.us.edu.pl/~siminski Niniejsze opracowanie zawiera skrót treści wykładu, lektura tych materiałów nie zastąpi
GTX260 i CUDA wer
GTX260 i CUDA wer 1.1 25.11.2014 Litreratura: CUDA textbook by David Kirk from NVIDIA and Prof. Wen-mei Hwu from UIUC. CUDA w przykładach. Wprowadzenie do ogólnego programowania procesorów GP, J.Sanders,
Autor: dr inż. Zofia Kruczkiewicz, Programowanie aplikacji internetowych 1
Wątki 1. Wątki - wprowadzenie Wątkiem nazywamy sekwencyjny przepływ sterowania w procesie, który wykonuje dany program np. odczytywanie i zapisywanie plików Program Javy jest wykonywany w obrębie jednego
MOŻLIWOŚCI PROGRAMOWE MIKROPROCESORÓW
MOŻLIWOŚCI PROGRAMOWE MIKROPROCESORÓW Projektowanie urządzeń cyfrowych przy użyciu układów TTL polegało na opracowaniu algorytmu i odpowiednim doborze i zestawieniu układów realizujących różnorodne funkcje
Instrukcja wyboru, pętle. 2 wykład. Podstawy programowania - Paskal
Instrukcja wyboru, pętle 2 wykład. Podstawy programowania - Paskal Tematy Instrukcja wyboru jeden z wielu wariantów: case Pętle while repeat for Instrukcje sterowania pętli break continue goto Instrukcja
16. Taksonomia Flynn'a.
16. Taksonomia Flynn'a. Taksonomia systemów komputerowych według Flynna jest klasyfikacją architektur komputerowych, zaproponowaną w latach sześćdziesiątych XX wieku przez Michaela Flynna, opierająca się
- - Ocena wykonaniu zad3. Brak zad3
Indeks Zad1 Zad2 Zad3 Zad4 Zad Ocena 20986 218129 ocena 4 Zadanie składa się z Cw3_2_a oraz Cw3_2_b Brak opcjonalnego wywołania operacji na tablicy. Brak pętli Ocena 2 Brak zad3 Ocena wykonaniu zad3 po