Procesory wielordzeniowe (multiprocessor on a chip) Krzysztof Banaś, Obliczenia wysokiej wydajności.

HTML
DOWNLOAD

Wielkość: px

Rozpocząć pokaz od strony:

Download "Procesory wielordzeniowe (multiprocessor on a chip) Krzysztof Banaś, Obliczenia wysokiej wydajności."

Roman Sobczyk
7 lat temu
Przeglądów:

1 Procesory wielordzeniowe (multiprocessor on a chip) 1

2 Procesory wielordzeniowe 2

3 Procesory wielordzeniowe 3

4 Konsekwencje prawa Moore'a 4

5 Procesory wielordzeniowe 5

6 Intel Nehalem 6

7 Architektura Intel Nehalem 7

8 Procesory wielordzeniowe Problem podstawowy: wielowątkowy dostęp do hierarchii pamięci L1 prywatna dla rdzenia L2 prywatna lub w pewien sposób współdzielona L3 wspólna (jeśli jest) Problemy konkretne: spójność pamięci podręcznej wydajność dostępu minimalizacja liczby chybień cache oblivious algorithms false sharing i wspólna sterta dla wątków 8

9 Procesory wielordzeniowe Problemy szeregowania zadań dla procesorów wielordzeniowych afiniczność i lokalność odniesień do pamięci podział zadań i iteracji pętli uwzględniający afiniczność Systemy NUMA lokalne chybienia pamięci podręcznej odległe (zdalne, remote) chybienia pamięci podręcznej koszt false sharing 9

10 NUMA Architektura AMD Opteron 10

11 Pamięć podręczna Działanie pamięci podręcznej: strategie utrzymywania zgodności pamięci podręcznej (cache coherence protocols) write through każdy zapis do pamięci podręcznej jest przenoszony do pamięci głównej copy back zapis do pamięci podręcznej jest przenoszony do pamięci głównej przy podmianie linii (linia musi wiedzieć czy była zmieniona) inne, bardziej złożone np. MESI 11

12 Protokoły zgodności pamięci podręcznej protokoły katalogowe (directory protocols) istnieje katalog z informacją o zawartości pamięci podręcznej i centralny sterownik katalogu pośredniczący w wymianie danych protokoły podglądania (snoopy protocols) procesory podglądają stan pamięci podręcznych i rozgłaszają zmiany zapis z aktualizacją (procesor dokonujący zmianę rozgłasza ją i wszystkie procesory aktualizują swoje pamięci podręczne) zapis z unieważnieniem (procesor dokonujący zmiany unieważnia zawartość pamięci podręcznych innych procesorów); przykład MESI 12

13 Protokół MESI Blok w pamięci podręcznej może być w jednym z czterech stanów: M (modified): zmodyfikowany w pamięci podręcznej, różny od odpowiedniego bloku w pamięci głównej E (exclusive): wyłącznie w jednej pamięci podręcznej, zawartość identyczna jak w pamięci głównej S (shared): w kilku pamięciach podręcznych, zawartość identyczna jak w pamięci głównej I (invalid): unieważniony przez zmiany dokonane w innej pamięci podręcznej 13

14 Pamięć odległa (zdalna) Jednym z najpoważniejszych ograniczeń systemów jedno i wieloprocesorowych (wielordzeniowych) o jednorodnym dostępie do pamięci jest zbyt mała przepustowość połączenia pamięć procesory Ograniczenie to można usunąć wyposażając procesory (lub grupy procesorów rdzeni) w lokalne pamięci Łączna przepustowość pamięć procesor takich systemów staje się wtedy skalowalna rośnie wraz z rosnącą liczbą procesorów 14

15 Pamięć odległa (zdalna) Systemy z pamięciami lokalnymi procesorów są systemami o niejednorodnym dostępie do pamięci W programach równoległych pojawia się kolejny szczebel hierarchii pamięci oprócz lokalnej pamięci głównej, pamięć główna odległa (remote memory) Dostęp do pamięci odległej można uzyskać, albo bezpośrednio jeśli system operacyjny i środowisko programowania i realizacji udostępnia taką możliwość, albo poprzez wymianę informacji z innym procesorem, dla którego pamięć jest pamięcią lokalną 15

16 Pamięć odległa (zdalna) W przypadku bezpośredniego dostępu do pamięci odległej (np. w rozszerzeniach standardu OpenMP dla klastrów) system może umożliwiać istnienie danych globalnych i ich (niejawnych) lokalnych kopii Dla zwiększenia wydajności procesory mogą wykonywać operacje (w tym zapis) na swoich lokalnych kopiach danych Pojawia się wtedy, podobnie jak w przypadku pamięci podręcznej, problem utrzymania zgodności pomiędzy lokalnymi kopiami i danymi globalnymi 16

17 Pamięć odległa (zdalna) Czas dostępu do pamięci odległej jest zawsze znacznie dłuższy od czasu dostępu do pamięci lokalnej (rzędu mikrosekund, a nie nanosekund) Należy projektować algorytmy i ich odwzorowanie na procesory w taki sposób, aby minimalizować liczbę odniesień do pamięci odległej Czas realizacji dostępu do pamięci odległej uwzględnia się przy analizie wydajności obliczeń równoległych jako czas komunikacji 17

18 Pamięć odległa (zdalna) W przypadku programowania w modelu przesyłania komunikatów każde odniesienie do pamięci jest odniesieniem lokalnym, każde odniesienie do pamięci odległej odbywa się w sposób jawny poprzez wymianę komunikatów ułatwia to szacowanie wydajności programów w fazach projektowania, analizy i optymalizacji 18

Wydajność pamięci 1 2 3 4 5 6 7 8 STREAM (GB/s) 5.57 10.71 8.53 11.03 9.

19 Wydajność pamięci STREAM (GB/s) mat_vec (sek.)

20 Tendencje Mało dużych rdzeni rozbudowane potoki wykonanie poza kolejnością wyrafinowane przewidywanie rozgałęzień wiele jednostek funkcjonalnych Dużo małych rdzeni prostsza budowa, krótsze potoki wykonanie w kolejności proste przewidywanie rozgałęzień mniej jednostek funkcjonalnych 20

21 ATI FireStream 21

22 NVIDIA Tesla 22

23 NVIDIA Fermi 23

24 Architektury hybrydowe 24

Podobne dokumenty

Procesory wielordzeniowe (multiprocessor on a chip) Krzysztof Banaś, Obliczenia wysokiej wydajności.

Procesory wielordzeniowe (multiprocessor on a chip) 1 Procesory wielordzeniowe 2 Procesory wielordzeniowe 3 Intel Nehalem 4 5 NVIDIA Tesla 6 ATI FireStream 7 NVIDIA Fermi 8 Sprzętowa wielowątkowość 9 Architektury