Pomiary efektywności dla komputerów z procesorami. Na podstawie dokumentacji AMD opracował: Rafał Walkowiak listopad 2015, zmiany listopad 2016

Podobne dokumenty
System obliczeniowy laboratorium oraz. mnożenia macierzy

Pomiary efektywności dla AMD. Na podstawie dokumentacji AMD opracował: Rafał Walkowiak Wersja wrzesień 2016

Pomiary efektywności dla AMD Family 10h. Na podstawie dokumentacji AMD opracował: Rafał Walkowiak Wersja listopad 2015

Pomiary efektywności dla komputerów z procesorami. Na podstawie dokumentacji AMD opracował: Rafał Walkowiak zmiany kwiecień 2018

Pomiary efektywności dla komputerów z procesorami. Opracował: Rafał Walkowiak marzec 2019

Analizator wydajności AMD CodeAnalyst

Pomiary efektywności dla AMD. Na podstawie dokumentacji AMD opracował: Rafał Walkowiak Listopad 2012

Przykładem jest komputer z procesorem 4 rdzeniowym dostępny w laboratorium W skład projektu wchodzi:

Przygotowanie kilku wersji kodu zgodnie z wymogami wersji zadania,

Wydajność systemów a organizacja pamięci. Krzysztof Banaś, Obliczenia wysokiej wydajności. 1

Przykłady praktycznych rozwiązań architektur systemów obliczeniowych AMD, Intel, NUMA, SMP

Systemy wieloprocesorowe. Sprzęt i oprogramowanie wspomagające perspektywa - Windows i Linux Wykład Przetwarzanie równoległe Listopad 2010

Ograniczenia efektywności systemu pamięci

Architektura komputerów

Wydajność systemów a organizacja pamięci. Krzysztof Banaś, Obliczenia wysokiej wydajności. 1

Wydajność systemów a organizacja pamięci. Krzysztof Banaś, Obliczenia wysokiej wydajności. 1

Ograniczenia efektywności systemu pamięci

System pamięci. Pamięć wirtualna

System pamięci. Pamięć wirtualna

Budowa komputera. Magistrala. Procesor Pamięć Układy I/O

Budowa komputera. Magistrala. Procesor Pamięć Układy I/O

RDZEŃ x86 x86 rodzina architektur (modeli programowych) procesorów firmy Intel, należących do kategorii CISC, stosowana w komputerach PC,

System pamięci. Pamięć wirtualna

UTK ARCHITEKTURA PROCESORÓW 80386/ Budowa procesora Struktura wewnętrzna logiczna procesora 80386

Wydajność obliczeń a architektura procesorów. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1

Architektura Systemów Komputerowych. Rozwój architektury komputerów klasy PC

Procesory wielordzeniowe (multiprocessor on a chip) Krzysztof Banaś, Obliczenia wysokiej wydajności.

Wydajność systemów a organizacja pamięci, czyli dlaczego jednak nie jest aż tak źle. Krzysztof Banaś, Obliczenia wysokiej wydajności.

Procesor ma architekturę rejestrową L/S. Wskaż rozkazy spoza listy tego procesora. bgt Rx, Ry, offset nand Rx, Ry, A add Rx, #1, Rz store Rx, [Rz]

Procesory. Schemat budowy procesora

Sprzęt komputerowy 2. Autor prezentacji: 1 prof. dr hab. Maria Hilczer

Literatura. 11/16/2016 Przetwarzanie równoległe - wstęp 1

ARCHITEKTURA PROCESORA,

Spis treœci. Co to jest mikrokontroler? Kody i liczby stosowane w systemach komputerowych. Podstawowe elementy logiczne

Procesory wielordzeniowe (multiprocessor on a chip) Krzysztof Banaś, Obliczenia wysokiej wydajności.

Literatura. 3/26/2018 Przetwarzanie równoległe - wstęp 1

Układ sterowania, magistrale i organizacja pamięci. Dariusz Chaberski

Architektura komputerów

10/14/2013 Przetwarzanie równoległe - wstęp 1. Zakres przedmiotu

Struktura i funkcjonowanie komputera pamięć komputerowa, hierarchia pamięci pamięć podręczna. System operacyjny. Zarządzanie procesami

PROGRAM TESTOWY LCWIN.EXE OPIS DZIAŁANIA I INSTRUKCJA UŻYTKOWNIKA

Sprzęt komputerowy 2. Autor prezentacji: 1 prof. dr hab. Maria Hilczer

Programowanie Niskopoziomowe

Budowa i zasada działania komputera. dr Artur Bartoszewski

PROGRAMOWANIE WSPÓŁCZESNYCH ARCHITEKTUR KOMPUTEROWYCH DR INŻ. KRZYSZTOF ROJEK

Organizacja pamięci współczesnych systemów komputerowych : pojedynczy procesor wielopoziomowa pamięć podręczna pamięć wirtualna

Materiały pomocnicze do laboratorium. 1. Miary oceny efektywności 2. Mnożenie macierzy 3. Znajdowanie liczb pierwszych

Spis treúci. Księgarnia PWN: Krzysztof Wojtuszkiewicz - Urządzenia techniki komputerowej. Cz. 1. Przedmowa Wstęp... 11

System pamięci. Pamięć podręczna

Stronicowanie w systemie pamięci wirtualnej

Architektura komputerów

Bajt (Byte) - najmniejsza adresowalna jednostka informacji pamięci komputerowej, z bitów. Oznaczana jest literą B.

Wydajność programów sekwencyjnych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1

Architektura mikroprocesorów z rdzeniem ColdFire

Programowanie Rozproszone i Równoległe

Zarządzanie zasobami pamięci

dr inż. Jarosław Forenc

2. Architektura mikrokontrolerów PIC16F8x... 13

Systemy operacyjne III

Budowa Mikrokomputera

Architektura komputerów

Wykład 7. Zarządzanie pamięcią

, " _/'--- " ~ n\l f.4e ' v. ,,v P-J.. ~ v v lu J. ... j -:;.",II. ,""", ",,> I->~" re. dr. f It41I r> ~ '<Q., M-c 'le...,,e. b,n '" u /.

Pamięć wirtualna. Przygotował: Ryszard Kijaka. Wykład 4

Architektura komputera. Cezary Bolek. Uniwersytet Łódzki. Wydział Zarządzania. Katedra Informatyki. System komputerowy

Mikroprocesory rodziny INTEL 80x86

Oprogramowanie IPCCTV. ipims. Podstawowa instrukcja obsługi

Rejestry procesora. Nazwa ilość bitów. AX 16 (accumulator) rejestr akumulatora. BX 16 (base) rejestr bazowy. CX 16 (count) rejestr licznika

Wstęp do informatyki. System komputerowy. Magistrala systemowa. Architektura komputera. Cezary Bolek

Architektury komputerów Architektury i wydajność. Tomasz Dziubich

Oprogramowanie. DMS Lite. Podstawowa instrukcja obsługi

Architektura komputerów egzamin końcowy

Wprowadzenie. Dariusz Wawrzyniak. Miejsce, rola i zadania systemu operacyjnego w oprogramowaniu komputera

Kurs Zaawansowany S7. Spis treści. Dzień 1

Wprowadzenie. Dariusz Wawrzyniak. Miejsce, rola i zadania systemu operacyjnego w oprogramowaniu komputera

Systemy operacyjne. Wprowadzenie. Wykład prowadzą: Jerzy Brzeziński Dariusz Wawrzyniak

Programowanie współbieżne Wykład 2. Iwona Kochańska

Magistrala systemowa (System Bus)

Pamięci półprzewodnikowe w oparciu o książkę : Nowoczesne pamięci. Ptc 2013/

Zrównoleglenie i przetwarzanie potokowe

Technika mikroprocesorowa. Linia rozwojowa procesorów firmy Intel w latach

Zarządzanie pamięcią w systemie operacyjnym

Pamięci półprzewodnikowe

Plan wykładu. Architektura systemów komputerowych. Strategie zapisu. Cezary Bolek

Technologia informacyjna. Urządzenia techniki komputerowej

Budowa komputera Komputer computer computare

Kurs Podstawowy S7. Spis treści. Dzień 1

architektura komputerów w. 8 Zarządzanie pamięcią

System pamięci. Pamięć podręczna

Architektura komputerów

Programowanie na poziomie sprzętu. Tryb chroniony cz. 1

Przetwarzanie potokowe pipelining

Przetwornik analogowo-cyfrowy

Architektura mikroprocesorów TEO 2009/2010

Wstęp do informatyki. Architektura co to jest? Architektura Model komputera. Od układów logicznych do CPU. Automat skończony. Maszyny Turinga (1936)

MATERIAŁY POMOCNICZE DO LABORATORIUM Z PRZETWARZANIA RÓWNOLEGŁEGO KWIECIEŃ 2018

Zarządzanie pamięcią operacyjną

MOŻLIWOŚCI PROGRAMOWE MIKROPROCESORÓW

EFEKTYWNOŚĆ MNOŻENIA MACIERZY W SYSTEMACH Z PAMIĘCIĄ WSPÓŁDZIELONĄ

Zapoznanie z technikami i narzędziami programistycznymi służącymi do tworzenia programów współbieżnych i obsługi współbieżności przez system.

Transkrypt:

Pomiary efektywności dla komputerów z procesorami AMD 10 h Na podstawie dokumentacji AMD opracował: Rafał Walkowiak listopad 2015, zmiany listopad 2016

Liczniki zdarzeń a program profilujący Procesory AMD 10h wyposażone są w 4 liczniki wydajności przeznaczone do zliczania zdarzeń (w badanym okresie) spowodowanych przez aplikacje użytkownika i system operacyjny: liczba cykli CPU, liczba zatwierdzonych instrukcji, braków trafień do pp i podobnych zdarzeń. Program profilujący konfiguruje liczniki - określa jakie zdarzenie oraz przy jakich warunkach dodatkowych ma być zliczane i badane. Pomiary efektywności dla AMD Family 10h 2

Metody pomiaru wydajności Podejście klamrowe (ang. caliper mode) odczyt wartości licznika zdarzeń przed wejściem i po zakończeniu przetwarzania w krytycznym efektywnościowo fragmencie kodu. W wyniku odjęcia wartość zmierzonej po od wartości zmierzonej przed uzyskujemy liczbę zdarzeń za których wystąpienie odpowiedzialny jest testowany kod. W podejściu tym: nie ma możliwości pomiaru dystrybucji mierzonych zdarzeń w badanym obszarze, nie ma możliwości powiązania wystąpienia zdarzenia z powodującą je instrukcją NIE WIADOMO JAKA PRZYCZYNA ZDARZENIA Podejście próbkowania wg licznika wydajności licznik wydajności ładowany jest wartością limitu lub progu. Zliczenie określonej w ten sposób liczby zdarzeń powoduje wywołanie procedury przerwania dla obsługi zdarzenia, która zapisuje: typ zdarzenia, ID procesu, ID wątku i IP ZNANY LICZNIK INSTRUKCJI W OKOLICY instrukcji BĘDĄCEJ PRZYCZYNĄ ZDARZENIA. Pomiary efektywności dla AMD Family 10h 3

Podejście próbkowania wg licznika wydajności Na podstawie zebranych próbek narzędzia budują histogram występowania poszczególnych zdarzeń w kodzie. Ze względu na wagę statystyczną uzyskanych pomiarów oraz działania uboczne procedury zbierania próbek ważne jest właściwe określenie progu zliczania. Wielkość ta jest uwarunkowana z jednej strony minimalizacją narzutu czasu zbierania próbek i ingerencji w zasoby systemu (pp, TLB, historię rozgałęzień kodu ), a z drugiej strony wymaganą rozdzielczością pomiaru i wagą statystyczną wyniku pomiaru. Przykładowe wartości progów to 50 tyś/500tyś w zależności od typu zdarzenia - częstości występowania zdarzeń. Pomiar jest obarczony poślizgiem różnica między rozkazem powodującym raportowane zdarzenie, a rozkazem, którego adres jest zapisywany pierwszym wykonywanym po powrocie z procedury obsługi przerwania. Ze względu na dynamiczne wykonywanie rozkazów informacja o lokalizacji przyczyny wystąpienia zdarzenia jest tylko przybliżona. Informacja o liczbie zdarzeń jest zatem bardziej adekwatna dla zbioru, niż pojedynczej instrukcji. Pomiary efektywności dla AMD Family 10h 4

Zdarzenia i wskaźniki Liczby zdarzeń raportowane przez program nie uwzględniają progów zliczania. Wskaźniki uwzględniają progi (uwaga możliwe błędy). W tej prezentacji: dla miar jakości podano koncepcyjne wzory progi zliczania nie są uwzględniane; w niektórych przypadkach dla uzyskania właściwej wartości parametru próg jest podany we wzorze. Waga zjawiska może zostać oceniona na podstawie porównania liczby jego wystąpień z liczbą zrealizowanych w określonym czasie instrukcji wyrażona stosunkiem tych wartości (wskaźniki ang. rate). Wskaźniki pozwalają na oceną skali zjawiska: tysiąc braków trafień na 1mln instrukcji nie jest niepokojące, natomiast tysiąc braków trafień na 10 tysięcy instrukcji stanowi duży problem efektywnościowy. Pomiary efektywności dla AMD Family 10h 5

Efektywność wykorzystania procesora Miary efektywności przetwarzania Instrukcje na cykl IPC / odwrotność - cykle na instrukcję CPI IPC jest miarą równoległości dla poziomu przetwarzania instrukcji Wyznaczenie wymaga określenia liczby: CPU Clocks Not Halted - CPU_clocks Retired Instructions - Ret_instructions IPC = Ret_instructions/ CPU_clocks CPI = CPU_clocks/ Ret_instructions Niska wartość IPC wskazuje na obecność czynników zmniejszających efektywność: słaba przestrzenna lub czasowa lokalność dostępów, błędy predykcji dla rozgałęzień kodu, wyjątki FPU Informacje o dystrybucji w regionach kodu wielkości CPU_cloks i Ret_instructions pozwala na określenie kodu, który wymaga dużej ilości czasu lub często wykonywanego kodu Pomiary efektywności dla AMD Family 10h 6

Miary efektywności przetwarzania Efektywność dostępu do pamięci Przepustowość odczytu, zapisu, dostępu do DRAM Mierzone zdarzenia: System_read, System_write, DRAM_accesses, (L3 miss) Wyznaczane wskaźniki: Ilość danych czytanych z RAM = System_read * próg*64 [bajty] Ilość danych zapisywanych do RAM = System_write * próg*16 [bajty] Wielkość transferu procesor RAM (dwukierunkowego) = DRAM_access * próg*64 Data bandwidth (B/s)= bytes_transfered/seconds rdzenie współdzielą dostępną przepustowość DRAM, procesor Phenom posiada dwa kontrolery pamięci testy specyficzne dla architektury wyznaczają maksymalną dostępną przepustowość pamięci Pomiary efektywności dla AMD Family 10h 7

Miary efektywności przetwarzania Efektywność dostępu do pamięci pamięć podręczna danych L1 liczba braków trafień do pp danych DC_misses = DC_refills_L2 + DC_refills_sys Żądania obsłużone przez L2 i przez pamięć systemową wskaźnik żądań dostępu: Data cache request rate = DC_accesses / Ret_instructions wskaźnik braku trafień Data cache miss rate = DC_Misses / Ret_instructions stosunek braku trafień: Data cache miss ratio = DC_Misses / DC_accessess ważna miara: DC_refills_sys / DC_misses ze względu na >90 cykli dostęp z pamięci operacyjnej i 12 cykli z L2 cache. Pomiary efektywności dla AMD Family 10h 8

Miary efektywności przetwarzania Efektywność dostępu do pamięci pamięć podręczna danych Kategorie braku trafień do pp Braki trafień pierwszego dostępu (compulsory misses) pierwsze odwołanie do jednostki danych, poprawa wyprzedzające pobranie danych. Braki trafień wynikające z pojemności pp (capacity misses ) poprawa - zmniejszenie wykorzystywanej przestrzeni danych (zagęszczenie danych). Braki trafień wynikające z konfliktów (conflict misses odwołanie do linii danych po jej unieważnieniu lub usunięciu), poprawa - przesunięcie pozycji danych do pozycji nie powodującej konfliktu dostępu usunięcie false sharing lub niekorzystnego odstępu równego wielkości sekcji wielosekcyjnej pp. Pomiary efektywności dla AMD Family 10h 9

Miary efektywności przetwarzania Efektywność dostępu do pamięci pamięć podręczna L2/L3 wskaźnik żądań dostępu do pp L2 L2 request rate = (L2_requests + L2_fill_write) / Ret_instructions L2_fill_write dostęp wtórny zapis danych w L2 powodowany usunięciem ich z pp L1 Wskaźnik/stosunek braku trafień do pp L2 L2 miss rate = L2_misses / Ret_instructions L2 miss ratio = L2_misses / (L2_requests + L2_fill_write) Analogicznie L3_requests, L3_misses Pamięci (L1i L2) pracują w trybie wyłącznym lub prawie wyłącznym (L3) Pamięci są zunifikowane pamięci danych i instrukcji Pomiary efektywności dla AMD Family 10h 10

Dostęp do pamięci translacja adresu danych wskaźnik żądań dostępu do L1 DTLB L1 DTLB request rate = DC_accesses / Ret_instructions Każdy dostęp (odczyt, zapis) do pp to dostęp do TLB stosunek braku trafień do L1 DTLB L1 DTLB miss ratio = (DTLB_L1M_L2H + DTLB_L1M_L2M) / DC_accesses Uwzględnia trafienia lub brak trafienia do DTLB L2 wskaźnik żądań dostępu do L2 DTLB L2 DTLB request rate = L1 DTLB miss rate Brak trafienia do DTLB L1 powoduje odwołanie do DTLB L2 stosunek braku trafień do L2 DTLB L2 DTLB miss ratio = DTLB_L1M_L2M / (DTLB_L1M_L2H + DTLB_L1M_L2M) W przypadku strony wirtualnej o rozmiarze 4KB jej przeglądanie sekwencyjne powoduje wskaźnik 1/L2 DTLB miss rate na poziomie 4 tyś zatem przykładowo wartość wskaźnika 100 świadczy o problemie efektywnościowym w lokalności przestrzennej dostępu do danych. Analogicznie miary dla translacji adresu instrukcji. Pomiary efektywności dla AMD Family 10h 11

Inne miary efektywności przetwarzania Miary dotyczące przekazywania sterowania: rozgałęzień, wywołań procedur: liczba, predykcje Przypadki szczególne: dostępy niewyrównane do rozmiaru linii pp, operacje i wyjątki FPU Pomiary efektywności dla AMD Family 10h 12

Analiza i optymalizacja kodu za pomocą analizatora wydajności CODE XL

Analizator wydajności AMD CodeXL Dostępny bezpłatnie dla Windows i Linux Pozwala na 4 tryby pracy oceny wydajności: Bazujące na upływie czasu próbkowanie aplikacji ze stałą częstością, zapisywanie licznika rozkazów i określanie statystycznie najbardziej czasochłonnych części kodu w postaci histogramu (time-based profiling) Bazujące na zdarzeniach określenie zdarzeń, których (orientacyjne) miejsce występowania ma być mierzone, określenie progu zliczania dla każdego badanego zdarzenia (tylko procesory AMD) (event-based profiling) CODE XL 14

CodeXL cd Próbkowanie pobrań kodu i raportowanie powiązanych zdarzeń (tylko procesory AMD) (instruction-base fetch sampling) Próbkowanie operacji procesora pod względem wywoływanych zdarzeń (tylko procesory AMD) (instruction-base operation sampling) CODE XL 15

Działanie analizatora wydajności Program oceny wydajności pracuje w ramach projektów składających się z sesji. Dla każdej sesji należy określić: badaną aplikację i katalog roboczy rodzaj realizowanej oceny wydajności, czas rozpoczęcia i zakończenia zbierania danych, częstotliwość próbkowania lub inne parametry w zależności od trybu pracy maskę powinowactwa wątków. Przygotowana sesja oceny wydajności może zostać uruchomiona. Efektem uruchomionia jest dodanie nowej sesji w oknie zarządzania projektem. Wybór tej sesji powoduje wyświetlenie wyników sesji profilowania. Wyniki prezentowane są w grupach informacji charakterystycznych do realizowanego typu sesji. Można obserwować zbierane wyniki w wartościach bezwzględnych lub w udziale procentowym dla poszczególnych modułów oprogramowania, procesów i rdzeni. Dostępne wyniki oceny można filtrować i prezentować wyrywkowo sposób prezentacji określa się w oknie dialogowym zarządcy widoku. Dane zebrane dla poszczegnych modułów kodu można analizować z rozbiciem na informacje dla linii kodu źródłowego i kodu asemblera. CODE XL 16

Ocena bazująca na upływie czasu Program oceny wydajności zbiera więcej próbek w obszarach kodu, w których program spędza więcej czasu gdyż pobranie próbki w tym obszarze jest bardziej prawdopodobne. Wynikowy histogram określa rozkład próbek, a wysokie wartości wskazują na czasochłonne fragmenty kodu. Standardowy okres próbkowania przetwarzania w CodeXL wynosi 1 ms i może zostać zmieniony poprzez: Profile/profile settings/cpu profile/custom. CODE XL 17

Ocena efektywności na upływie czasu konfiguracja CODE XL 18

Ocena efektywności oparta na upływie czasu wyniki pomiaru Prezentacja liczby próbek (miara upływu czasu) zebranych w ramach poszczególnych rdzeni dla przetwarzania modułów kodu. 19

Profile/profile settings/cpu profile/custom określanie eksperymentu, poznawanie parametrów predefiniowanego eksperymentu CODE XL 20

Ocena bazująca na zdarzeniach Możliwy jest wybór konfiguracji standardowej projektu oceny lub określenie własnego zestawu badanych zdarzeń (custom profile). Predefiniowane konfiguracje dotyczą: Assess performance - Wydajność dostępu do kodu i realizacji rozgałęzień, Investigate data access analiza dostępu do pp danych i DTLB, Investigate L2 cache access analiza dostepu do pp L2, Investigate instruction access analiza dostępu do pp instrukcji i ITLB, Investigate branching analiza realizacji kodu w rozgałęzieniach wraz z predykcją Predefiniowana konfiguracja zawiera wybór zliczanych zdarzeń wraz z krotnością ich wystąpienia powodującą próbkowanie przetwarzania. Niektóre zdarzenia umożliwiają określenie warunków dodatkowych związanych z ich kwalifikacją do zliczenia wyboru warunków dodatkowych można dokonać również w oknie edycji konfiguracji zdarzeń. Możliwa jest prezentacja wyników oceny na poziomie modułów kodu, linii kodu źródłowego i asemblera. Możliwe jest tematyczne filtrowanie zebranych wyników i wyświetlanie parametrów skonsolidowanych. CODE XL 21

Ocena efektywności bazująca na zliczaniu zdarzeń event based profiling CODE XL 22

Ocena efektywności bazująca na zliczaniu zdarzeń event based profiling 23

Ocena efektywności bazująca na zliczaniu zdarzeń wyniki CODE XL 24

Próbkowanie pobrań kodu (fetch sampling - instruction-base samp.) Parametrem sesji oceny wydajności jest okres próbkowania. Osiągnięcie określonego progu zliczania pobrań instrukcji powoduje monitorowanie aktualnej operacji pobrania. Zakończenie lub przerwanie pobrania powoduje zapisanie próbki na temat zrealizowanej operacji pobrania. Zapisywane a następnie raportowane informacje dotyczą: identyfikatora procesu, adresu wirtualnego pobranej instrukcji procesu, trafienia do ITLB L1 i L2, trafienie do pp IC, opóźnienie pobrania. CODE XL 25

Próbkowanie operacji procesora (operation based - instruction-base samp.) Parametrem sesji oceny wydajności jest okres próbkowania. Osiągnięcie określonego progu zliczania cykli procesora powoduje monitorowanie aktualnej makrooperacji do momentu jej zrealizowania lub usunięcia. Dla zakończonych makrooperacji zapisywane, a następnie raportowane informacje dotyczą: identyfikatora procesu, adresu wirtualnego instrukcji do której należy makrooperacja, czas realizacji makrooperacji do zakończenia czas realizacji makrooperacji do zatwierdzenia właściwej predykcji / realizacji rozgałęzienia, typu operacji odczyt, zapis, trafienie do DTLB, trafienie do DC opóźnienie w przypadku braku trafienia do DC lokalnego lub zdalnego dostępu, faktycznego źródła danych w przypadku korzystania ze sterownika pamięci. CODE XL 26

Ocena efektywności bazująca na zliczaniu zdarzeń instruction based sampling - konfiguracja CODE XL 27

Tryby pracy programu Code XL ocena kodu procesora 28

Przygotowano na podstawie: Basic Performance Measurements for AMD Athlon, Opteron, Phenom Processors (P.Drongowski AMD) An introduction to analysis and optimization with AMD CodeAnalyst CODE XL 29

SYSTEMY OBLICZENIOWE W LABORATORIUM Komputery znajdujące się w Laboratorium Systemów Równoległych sala 2.7.6 posiadają po jednym procesorze AMD typu PHENOM II X4 945 System składa się z 4 procesorów logicznych 4 rdzeni w ramach jednego procesora. System SMP. 30 PHENOM II X4 945

PROCESOR PHENOM Zgodność 32 bitowa X86 IA wspomaganie SSE, SSE2, SSE3, SSE4a, ABM, MMX, 3DNow! Technologia AMD64 rozszerzenia AMD64 technology instruction-set Adresowanie 48-bitowe 16 rejestrów 64-bit dla integer 16 rejestrów 128-bit SSE/SSE2/SSE3/SSE4a Architektura wielordzeniowa opcje: Triple-core, quad-core lub sixcore AMD Balanced Smart Cache oddzielne pp L1 i L2 dla każdego rdzenia współdzielona L3 Struktura procesora superskalarny 3 drożny (dekodowanie, wykonanie integer i FP, generacja adresu) 31 PHENOM II X4 945 Struktura pp 64-Kbyte 2 drożna dzielona asocjacyjna pp danych L1 dwa dostępy 64-bit na cykl, 3 cyklowe opóźnienie 64-Kbyte 2 drożna dzielona asocjacyjna pp kodu L1 32 bajtowe pobrania 512-Kbyte 16 drożna dzielona asocjacyjna pp L2 Zarządzanie pamięcią na zasadzie wyłączności przechowywania danych L1 i L2 6-Mbyte Maximum, maksymalnie 64 drożna dzielona asocjacyjna pp L3 współdzielona Technologia 45 nm Złącze HyperTransport Procesor zintegrowany ze sterownikiem pamięci

PROCESOR PHENOM PP KODU L1 Układ dynamicznego wykonania instrukcji posiada 64KB pp kodu L1 Dane w przypadku braku trafienia są pobierane do pp kodu L1 z L2, z L3 lub z pamięci systemowej w ilości 64 bajtów (pobranie) oraz kolejne 64 bajty (wstępne pobranie), po pobraniu realizowane jest wstępne dekodowanie instrukcji dla określenia granic między instrukcjami (zmiennej długości), usuwanie linii z pp jest realizowane zgodnie z algorytmem LRU (ang. least recently used) 32 PHENOM II X4 945

PROCESOR PHENOM PP DANYCH L1 64 kb dwu-sekcyjna, dwa porty 128 bitowe Strategia zapisu: Write-allocate cache zapis realizowany do pp (przeciwna strategia do nowrite alllocation) Writeback cache zapis poza pp realizowany w przypadku braku miejsca lub na skutek zlecenia zapisu stanu w pamięci głównej Algorytm LRU dla usuwania danych i protokół zapewnienia spójności MOESI 33 PHENOM II X4 945

PROCESOR PHENOM PP L2 I L3 PP L2 - victim i copy-back cache zapisuje dane usunięte z pp L1, dane w pp są w trybie wyłącznym w L1 lub w L2 PP L3 victim i copy-back cache dla pp L2, głównie non-inclusive cache w przypadku, gdy dane żądane są przez jeden z rdzeni i jest mało prawdopodobne, że będą potrzebne innym, lecz możliwe powielenie. 34 PHENOM II X4 945

Uwagi do wyników obliczeń Przyspieszenie to iloraz czasu obliczeń sekwencyjnych najlepszą z wykorzystywanych metod i czasu obliczeń równoległych badaną metodą. Skrócenie czasu obliczeń to iloraz czasu obliczeń sekwencyjnych i równoległych tą samą metodą. Obliczenia równoległe wykorzystują wszystkie procesory systemu, liczba wątków jest równa liczbie procesorów, zastosowano optymalizację kodu (Windows wersja Release, Linux O3) Tworzenie wątków odbywa się przed pętlami. Miejsce podziału pracy określa położenie dyrektywy #pragma omp for. W przypadku kodu z niebezpieczeństwem wyścigu umieszczono dyrektywę #pragma omp atomic lub zastosowano zmienną lokalną, gdy wątki równocześnie wyznaczały jeden wynik tablicy wyjściowej. 35

wielkość 12 10 8 6 4 2 0 Przyspieszenie i skrócenie czasu obliczeń równoległych dla mnożenia macierzy 1000x1000 Intel Core i5 8MB 1000x1000 AMD PHENOM II X4 945 6MB 2 0 fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy Wielkość 14 12 10 8 6 4 fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy wielkość 2000x2000 Intel Core i5 8MB 4 3,5 3 2,5 2 1,5 1 0,5 0 fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy wielkość 9 8 7 6 5 4 3 2 1 0 2000x2000 AMD PHENOM II X4 945 6MB fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy 36

Prędkość obliczeń równoległych i sekwencyjnych dla mnożenia macierzy GFlops GFlops 30 25 20 15 10 5 0 1000x1000 Intel Core i5 8MB fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy 14 12 10 8 6 4 2 0 2000x2000 Intel Core i5 8MB fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy GFlops 20 18 16 14 12 10 GFlops 8 6 4 2 0 8 7 6 5 4 3 2 1 0 1000x1000 AMD PHENOM II X4 945 6MB fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy 2000x2000 AMD PHENOM II X4 945 6MB fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy 37

30 Prędkość obliczeń równoległych dla mnożenia macierzy 1000x1000 Intel Core i5 8MB 25 20 lops GFl 15 prędkość obliczeń równoległych prędkość obliczeń sekwencyjnych 10 5 0 fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy 38

12 Przyspieszenie obliczeń równoległych dla mnożenia macierzy 1000x1000 Intel Core i5 8MB 10 8 wielkość 6 4 skrócenie czasu obliczeń przyspieszenie 2 0 fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy 39

14 Prędkość mnożenia macierzy 2000x2000 Intel Core i5 8MB 12 10 8 GFlops 6 prędkość obliczeń równoległych prędkość obliczeń sekwencyjnych 4 2 0 fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy 40

4 Przyspieszenie obliczeń równoległych dla mnożenia macierzy 2000x2000 Intel Core i5 8MB 3,5 3 2,5 wielk kość 2 1,5 skrócenie czasu obliczeń przyspieszenie 1 0,5 0 fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy 41

20 Prędkość obliczeń równoległych dla mnożenia macierzy 1000x1000 AMD PHENOM II X4 945 6MB 18 16 Tmin=0,11 s Tmax=32 s 14 GFlops 12 10 8 prędkość obliczeń równoległych prędkość obliczeń sekwencyjnych 6 4 2 0 fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy 42

14 Przyspieszenie obliczeń dla mnożenia macierzy 1000x1000 AMD PHENOM II X4 945 6MB 12 10 8 Wielk kość 6 skrócenie czasu obliczeń przyspieszenie 4 2 0 fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy 43

8 Prędkość obliczeń równoległych dla mnożenia macierzy 2000x2000 AMD PHENOM II X4 945 6MB 7 6 5 GFl lops 4 3 Prędkość obliczeń równoległych prędkość obliczeń sekwencyjnych 2 1 0 fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy 44

9 Przyspieszenie dla mnożenia macierzy 2000x2000 AMD PHENOM II X4 945 6MB 8 7 6 wie elkość 5 4 Skrócenie czasu obliczeń przyspieszenie 3 2 1 0 fijk ifjk ijfk fikj ifkj ikfj fjik jfik jifk fjki jfki jkfi fkij kfij kifj fkji kfji kjfi Kolejność pętli i miejsce podziału pracy 45

Prędkość obliczeń równoległych dla mnożenia macierzy 1000x1000 Intel Core i5 8MB fijk Czas obliczen: 0,115 sec predkosc 17,3877 Gflops ifjk Czas obliczen: 0,4192 sec predkosc 4,7711 Gflops ijfk Czas obliczen: 0,6663 sec predkosc 3,0015 Gflops fikj Czas obliczen: 0,0758 sec predkosc 26,396 Gflops ifkj Czas obliczen: 7,4889 sec predkosc 0,2671 Gflops ikfj Czas obliczen: 0,4254 sec predkosc 4,7015 Gflops fjik Czas obliczen: 0,4106 sec predkosc 4,8712 Gflops jfik Czas obliczen: 0,4172 sec predkosc 4,794 Gflops jifk Czas obliczen: 0,633 sec predkosc 3,1594 Gflops fjki Czas obliczen: 2,1942 sec predkosc 0,9115 Gflops jfki Czas obliczen: 3,6198 sec predkosc 0,5525 Gflops jkfi Czas obliczen: 0,8142 sec predkosc 2,4565 Gflops fkij Czas obliczen: 2,8723 sec predkosc 0,6963 Gflops kfij Czas obliczen: 0,1947 sec predkosc 10,2727 Gflops kifj Czas obliczen: 0,4705 sec predkosc 4,2507 Gflops fkji Czas obliczen: 3,3385 sec predkosc 0,5991 Gflops kfji Czas obliczen: 2,2168 sec predkosc 0,9022 Gflops kjfi Czas obliczen: 0,8582 sec predkosc 2,3305 Gflops 46