Libra.cs.put.poznan.pl/mailman/listinfo/skisrkolo.

Wielkość: px

Rozpocząć pokaz od strony:

Download "Libra.cs.put.poznan.pl/mailman/listinfo/skisrkolo."

Sławomir Patryk Przybylski
7 lat temu
Przeglądów:

1 Konrad Szałkowski

2 Libra.cs.put.poznan.pl/mailman/listinfo/skisrkolo

3 Po co? Krótka prezentacja Skąd? Dlaczego? Gdzie? Gdzie nie? Jak?

4 CPU Pamięć DDR ,2 GB/s Wydajność i7-3770k 120 GFLOPS Energia 120 GFLOPS / 120W = 1 GFLOPS/W (chłodzenie not included) GPU Pamięć GDDR5-224 GB/s Wydajność Radeon TFLOPS / 1 TFLOPS Energia 1000 GFLOPS / 314W = 3,1 GFLOPS/W

5 CPU (CORE 2 DUO QUAD Q6600 2,4GHZ 4GB DDR2) RayTracer 720p: 3-4 FPS SGEMM 1000: 5924 ms Sort 10^6: 43 ms Sort 10^8: 1 s GPU (NVIDIA GEFORCE GTX MB GDDR5) RayTracer 720p: 80 FPS SGEMM 1000: 528 ms Sort 10^6: 547 ms Sort 10^8: 800 ms

6 NBody simulation FluidSimulation2D MD5 Brute Force Attack

8 Piękne liczby, powodują dreszcze, ale gdzie jest haczyk?

9 Na początku było słowo Do komunikacji z komputerem wystarczały terminale znakowe. (nadal wystarczają ) Renderowanie obrazu składającego się z pixeli (piksli). Akceleracja 2D, rysowanie kształtów, z- bufory, sprite y.

10 Gry komputerowe zaczynają napędzać biznes Wejście w świat 3D obliczenia na wierzchołkach brył, wektorach, macierzach liczb zmiennoprzecinkowych. Akceleracja 3D coraz bogatsza grafika, coraz więcej smaczków, dynamiczne oświetlenie

11 Powstanie pierwszego GPU NV10. Karta graficzna przejmuje obliczenia Transform&Lightning. Pojawiają się shadery krótkie programiki ładowane do karty graficznej obrabiające znajdujące się w niej dane (NV30).

12 Coraz większe wymagania dla potoku przetwarzania i shaderów. Pomysł obrabiania zjawisk fizyki w grach na GPU. Pojawia się CUDA (chipset G80) dowolne programowanie na GPU z dostępem do prawie całej infrastruktury karty graficznej w kodzie pochodnym C.

13 Świat 3D jest konstruowany w karcie graficznej za pomocą liczb zmiennoprzecinkowych. Liczby te opisują wierzchołki brył które są rzutowane na ekran (lub inne urządzenia wyświetlające). Najczęściej są to liczby pojedynczej precyzji. Architektura GPU jest dostosowana do natury obliczeń obrazu 3D. Wiele wierzchołków, wiele pikseli, ale wszystkie obrabiane tym samym programem. GPU to procesory SIMD single instruction - multiple data

14 CONTROL UNIT CACHE DDR3 DRAM

15 CON TROL CACHE CON TROL CACHE GDDR5 DRAM

16 SHARED MEMORY INSTRUCTION MEMORY REGISTERS TEXTURE MEMORY CONSTANTS MEMORY REGISTERS GDDR5 DRAM

17 Symulacje objętościowe cieczy i gazów, Optymalizacja wydajności aerodynamicznej pojazdów, Analiza pogody, Wizualizacje, Obliczanie hashy, i wiele innych Gdziekolwiek gdzie zastosowanie znajdują algorytmy obliczeń równoległych najlepiej operujące na liczbach zmiennoprzecinkowych.

18 Nadzorowanie macierzy RAID Kontrola ruchu sieciowego Obliczenia wymagające dużej liczby rekurencji Bazy danych Gdziekolwiek, gdzie potrzebne są operacje IO.

19 Zwiększanie precyzji obliczeń (double naprawdę wchodzą do gry) Każdy producent chce mieć swoje GPU do liderów nvidii i ATI(AMD) dołączają Apple, Samsung, Intel, ARM Stopniowe odejście od typowych zastosowań rozrywkowych Programy użytkowe zaczynają czerpać korzyści z GPU: Photoshop, AutoCAD, ArchiCAD, pakery

20 C++ na kartach graficznych Rekurencja Pojawiają się struktury danych i rozwijają biblioteki (CuFFT, CuBLAS.) PRINTF!!! Debug na karcie graficznej

21 Kiepskie IO. (generalnie tylko O monitor komputera) Brak wydajnego mostu CPU-GPU. (PCI-E 16x jest za wolne) Ilość zużywanej energii. Sposób programowania.

22 Choose your destiny CUDA OpenCL ATI-Stream DirectCompute

23 Cytując stronę NVidii: CUDA jest opracowaną przez firmę NVIDIA, równoległą architekturą obliczeniową, która zapewnia radykalny wzrost wydajności obliczeń dzięki wykorzystaniu mocy układów GPU (graphics processing unit jednostka przetwarzania graficznego).

24 Jest to również synonim rozszerzenia standardowego języka C o składnię i biblioteki potrzebne do wygodnego przeprowadzania obliczeń na kartach graficznych.

25 Kup GeForce'a/Quadro/Tesla/Tegra... CUDA Zone - nvidia dba o devów html Duże community, dużo wykładów i tutoriali

26 Kernel - funkcja ładowana do pamięci instrukcji multiprocesora. Przykładowo

27 Jak się wywołuje kernele?

28 Jak się wywołuje kernele?

29 Jak się wywołuje kernele?

30 Jak się wywołuje kernele?

31 Organizacja kerneli: Blok Grid Grid Grid Grid Grid Grid Grid Grid Wątek Wątek Wątek Wątek Grid Grid Grid Grid Grid Grid Grid Grid Wątek Wątek Wątek Wątek

32 Organizacja kerneli: Grid Grid Grid Grid Grid Grid Grid Grid Grid Blok Blok Blok Blok Grid Grid Grid Grid Grid Grid Grid Grid Blok Blok Blok Blok

33 Organizacja kerneli: Wykonanie Grid Grid Grid Grid Grid Grid Grid Grid Grid Grid Grid Grid Grid Grid Grid Grid Grid Grid Grid Grid Grid Grid Grid Grid

34 Jak się wywołuje kernele?

35 Ilość wątków: 1024 na blok do ułożenia w 3 wymiarach w zakresach x,y:<1;1024> z: <1;64> (2^31-1)^3 bloków do ułożenia w 3 wymiarach na gridzie w zakresach x,y,z:<1;2^31-1>

36 Klucz do dobrego programowania w CUDA (moim zdaniem): Zmiana sposobu myślenia o programowaniu równoległym w bardziej masowy Opanowanie kruczków obsługi pamięci Opanowanie dobrego programowania w C

37 AMD x Intel Apple tion/performance/conceptual/opencl_macprogguid e/introduction/introduction.html ARM nvidia

38 Podobna koncepcja do CUDY: Thread work-item Block work-group Grid ND-range Dynamiczna kompilacja kerneli Dużo więcej formalizmu w zapisie programu

39 Krótka prezentacja

40 ZALETY Przodownik programowania na GPU Prędkość Dostęp do wszystkich smaczków programowania na GPU (zarządzanie pamięcią, wyrównywanie słów w pamięci) WADY You ll never know what next CUDA will be programy pisane są tylko na dany typ karty (chip) Monopol nvidii działa tylko na jej urządzeniach

41 ZALETY Stały standard Wszyscy go implementują Learn once Uniwersalny Dobrze integruje się z OpenGL em WADY Wolniejszy od CUDY Nie nadąża za sprzętem Formalny Dynamiczna kompilacja kerneli

42 Dziękuję za uwagę

43 ?

44 Libra.cs.put.poznan.pl/mailman/listinfo/skisrkolo

Podobne dokumenty

JCuda Czy Java i CUDA mogą się polubić? Konrad Szałkowski

JCuda Czy Java i CUDA mogą się polubić? Konrad Szałkowski Agenda GPU Dlaczego warto używać GPU Budowa GPU CUDA JCuda Przykładowa implementacja Co to jest? GPU GPU Graphical GPU Graphical Processing GPU