System obliczeniowy laboratorium oraz. mnożenia macierzy

Podobne dokumenty
Pomiary efektywności dla AMD. Na podstawie dokumentacji AMD opracował: Rafał Walkowiak Wersja wrzesień 2016

Pomiary efektywności dla komputerów z procesorami. Na podstawie dokumentacji AMD opracował: Rafał Walkowiak listopad 2015, zmiany listopad 2016

Pomiary efektywności dla komputerów z procesorami. Opracował: Rafał Walkowiak marzec 2019

Pomiary efektywności dla komputerów z procesorami. Na podstawie dokumentacji AMD opracował: Rafał Walkowiak zmiany kwiecień 2018

Pomiary efektywności dla AMD Family 10h. Na podstawie dokumentacji AMD opracował: Rafał Walkowiak Wersja listopad 2015

Przykłady praktycznych rozwiązań architektur systemów obliczeniowych AMD, Intel, NUMA, SMP

Systemy wieloprocesorowe. Sprzęt i oprogramowanie wspomagające perspektywa - Windows i Linux Wykład Przetwarzanie równoległe Listopad 2010

Architektura komputerów

Przykładem jest komputer z procesorem 4 rdzeniowym dostępny w laboratorium W skład projektu wchodzi:

Przygotowanie kilku wersji kodu zgodnie z wymogami wersji zadania,

Budowa komputera. Magistrala. Procesor Pamięć Układy I/O

Wydajność systemów a organizacja pamięci. Krzysztof Banaś, Obliczenia wysokiej wydajności. 1

Programowanie Rozproszone i Równoległe

RDZEŃ x86 x86 rodzina architektur (modeli programowych) procesorów firmy Intel, należących do kategorii CISC, stosowana w komputerach PC,

Literatura. 11/16/2016 Przetwarzanie równoległe - wstęp 1

Instruction Set Instruction Set Extensions Embedded Options Available. Recommended Customer Price TRAY: $999.00

Budowa komputera. Magistrala. Procesor Pamięć Układy I/O

UTK ARCHITEKTURA PROCESORÓW 80386/ Budowa procesora Struktura wewnętrzna logiczna procesora 80386

Wydajność systemów a organizacja pamięci. Krzysztof Banaś, Obliczenia wysokiej wydajności. 1

Bajt (Byte) - najmniejsza adresowalna jednostka informacji pamięci komputerowej, z bitów. Oznaczana jest literą B.

Literatura. 3/26/2018 Przetwarzanie równoległe - wstęp 1

PROGRAMOWANIE WSPÓŁCZESNYCH ARCHITEKTUR KOMPUTEROWYCH DR INŻ. KRZYSZTOF ROJEK

Wydajność systemów a organizacja pamięci. Krzysztof Banaś, Obliczenia wysokiej wydajności. 1

Procesory. Schemat budowy procesora

Procesory wielordzeniowe (multiprocessor on a chip) Krzysztof Banaś, Obliczenia wysokiej wydajności.

10/14/2013 Przetwarzanie równoległe - wstęp 1. Zakres przedmiotu

Architektura komputerów

Architektura Systemów Komputerowych. Rozwój architektury komputerów klasy PC

Nowinki technologiczne procesorów

Wykorzystanie architektury Intel MIC w obliczeniach typu stencil

Wstęp do informatyki. Architektura co to jest? Architektura Model komputera. Od układów logicznych do CPU. Automat skończony. Maszyny Turinga (1936)

System pamięci. Pamięć wirtualna

Układ sterowania, magistrale i organizacja pamięci. Dariusz Chaberski

Architektura systemów komputerowych. dr Artur Bartoszewski

System pamięci. Pamięć wirtualna

Budowa i zasada działania komputera. dr Artur Bartoszewski

Sprzęt komputerowy 2. Autor prezentacji: 1 prof. dr hab. Maria Hilczer

dr inż. Jarosław Forenc

Pamięć wirtualna. Przygotował: Ryszard Kijaka. Wykład 4

Rys. 1. Podłączenie cache do procesora.

MMX i SSE. Zbigniew Koza. Wydział Fizyki i Astronomii Uniwersytet Wrocławski. Wrocław, 10 marca Zbigniew Koza (WFiA UWr) MMX i SSE 1 / 16

Spis treúci. Księgarnia PWN: Krzysztof Wojtuszkiewicz - Urządzenia techniki komputerowej. Cz. 1. Przedmowa Wstęp... 11

Architektury komputerów Architektury i wydajność. Tomasz Dziubich

Architektura systemów komputerowych. dr Artur Bartoszewski

Architektura komputerów egzamin końcowy

Ograniczenia efektywności systemu pamięci

Wstęp do informatyki. System komputerowy. Magistrala systemowa. Architektura komputera. Cezary Bolek

Sprzęt komputerowy 2. Autor prezentacji: 1 prof. dr hab. Maria Hilczer

Ograniczenia efektywności systemu pamięci

Wysokowydajna implementacja kodów nadmiarowych typu "erasure codes" z wykorzystaniem architektur wielordzeniowych

Podstawy Informatyki Systemy sterowane przepływem argumentów

Procesory wielordzeniowe (multiprocessor on a chip) Krzysztof Banaś, Obliczenia wysokiej wydajności.

PROGRAMOWANIE WSPÓŁCZESNYCH ARCHITEKTUR KOMPUTEROWYCH DR INŻ. KRZYSZTOF ROJEK

SYSTEMY OPERACYJNE WYKŁAD 1 INTEGRACJA ZE SPRZĘTEM

Larrabee GPGPU. Zastosowanie, wydajność i porównanie z innymi układami

Mikroprocesory rodziny INTEL 80x86

ARCHITEKTURA PROCESORA,

Zapoznanie z technikami i narzędziami programistycznymi służącymi do tworzenia programów współbieżnych i obsługi współbieżności przez system.

Architektura komputera. Cezary Bolek. Uniwersytet Łódzki. Wydział Zarządzania. Katedra Informatyki. System komputerowy

Zarządzanie pamięcią w systemie operacyjnym

PRZYKŁADOWE PYTANIA NA PRÓBNY EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE ZAWODOWE

System pamięci. Pamięć wirtualna

Materiały dodatkowe do podręcznika Urządzenia techniki komputerowej do rozdziału 5. Płyta główna i jej składniki. Test nr 5

Architektura mikroprocesorów TEO 2009/2010

Programowanie Niskopoziomowe

Nowinki technologiczne procesorów

PROJEKT 3 PROGRAMOWANIE RÓWNOLEGŁE. K. Górzyński (89744), D. Kosiorowski (89762) Informatyka, grupa dziekańska I3

Analizator wydajności AMD CodeAnalyst

Architektura komputerów

Algorytmy dla maszyny PRAM

Technika mikroprocesorowa. Linia rozwojowa procesorów firmy Intel w latach

Organizacja pamięci współczesnych systemów komputerowych : pojedynczy procesor wielopoziomowa pamięć podręczna pamięć wirtualna

Dr inż. hab. Siergiej Fialko, IF-PK,

Zrównoleglenie i przetwarzanie potokowe

architektura komputerów w. 7 Cache

Bibliografia: pl.wikipedia.org Historia i rodzaje procesorów w firmy Intel

Magistrala systemowa (System Bus)

Plan wykładu. Architektura systemów komputerowych. Strategie zapisu. Cezary Bolek

Architektura systemów komputerowych. dr Artur Bartoszewski

Architektura komputerów

Pamięci masowe. ATA (Advanced Technology Attachments)

Budowa Mikrokomputera

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

Architektura mikroprocesorów z rdzeniem ColdFire

Programowanie z wykorzystaniem technologii CUDA i OpenCL Wykład 1

Stronicowanie w systemie pamięci wirtualnej

Architektura Systemów Komputerowych

Procesor ma architekturę rejestrową L/S. Wskaż rozkazy spoza listy tego procesora. bgt Rx, Ry, offset nand Rx, Ry, A add Rx, #1, Rz store Rx, [Rz]

Architektura Komputerów

Zarządzanie zasobami pamięci

Architektura komputerów

Wprowadzenie do informatyki i użytkowania komputerów. Kodowanie informacji System komputerowy

Informatyka - studium realizacji dźwięku -

Budowa komputera Komputer computer computare

Logiczny model komputera i działanie procesora. Część 1.

Programowanie aplikacji na iphone. Wstęp do platformy ios. Łukasz Zieliński

Architektura komputera wg Neumana

Zadania na zaliczenie przedmiotu Przetwarzanie równoległe Zebrał dla roku.ak. 2015/2016 Rafał Walkowiak,

Programowanie na poziomie sprzętu. Tryb chroniony cz. 1

Transkrypt:

System obliczeniowy laboratorium.7. oraz przykładowe wyniki efektywności mnożenia macierzy opracował: Rafał Walkowiak Materiały dla studentów informatyki studia niestacjonarne październik 1

SYSTEMY DLA LABORATORIUM Komputery znajdujące się w Laboratorium Systemów Równoległych sala.7. posiadają po jednym procesorze AMD typu PHENOM II X 95 System składa się z procesorów logicznych rdzeni w ramach jednego procesora. System SMP. PHENOM II X 95

PROCESOR PHENOM Zgodność 3 bitowa X IA wspomaganie SSE, SSE, SSE3, SSEa, ABM, MMX, 3DNow! Technologia AMD rozszerzenia AMD technology instruction-set Adresowanie -bitowe 1 rejestrów -bit dla integer 1 rejestrów 1-bit SSE/SSE/SSE3/SSEa Architektura wielordzeniowa opcje: Triple-core, quad-core lub sixcore AMD Balanced Smart Cache oddzielne pp L1 i L dla każdego rdzenia współdzielona L3 Struktura procesora superskalarny 3 drożny (dekodowanie, wykonanie integer i FP, generacja adresu) 3 PHENOM II X 95 Struktura pp -Kbyte drożna dzielona asocjacyjna pp danych L1 dwa dostępy -bit na cykl, 3 cyklowe opóźnienie -Kbyte drożna dzielona asocjacyjna pp kodu L1 3 bajtowe pobrania 51-Kbyte 1 drożna dzielona asocjacyjna pp L Zarządzanie pamięcią na zasadzie wyłączności przechowywania danych L1 i L -Mbyte Maximum, maksymalnie drożna dzielona asocjacyjna pp L3 współdzielona Technologia 5 nm Złącze HyperTransport Procesor zintegrowany ze sterownikiem pamięci

PROCESOR PHENOM PP KODU L1 Układ dynamicznego wykonania instrukcji posiada KB pp kodu L1 Dane w przypadku braku trafienia są pobierane do pp kodu L1 z L, z L3 lub z pamięci systemowej w ilości bajtów (pobranie) oraz kolejne bajty (wstępne pobranie), po pobraniu realizowane jest wstępne dekodowanie instrukcji dla określenia granic między instrukcjami (zmiennej długości), usuwanie linii z pp jest realizowane zgodnie z algorytmem LRU (ang. least recently used) PHENOM II X 95

PROCESOR PHENOM PP DANYCH L1 kb dwu-sekcyjna, dwa porty 1 bitowe Strategia zapisu: Write-allocate cache zapis realizowany do pp (przeciwna strategia do nowrite alllocation) Writeback cache zapis poza pp realizowany w przypadku braku miejsca lub na skutek zlecenia zapisu stanu w pamięci głównej Algorytm LRU dla usuwania danych i protokół zapewnienia spójności MOESI 5 PHENOM II X 95

PROCESOR PHENOM PP L I L3 PP L - victim i copy-back cache zapisuje dane usunięte z pp L1, dane w pp są w trybie wyłącznym w L1 lub w L PP L3 victim i copy-back cache dla pp L, głównie non-inclusive cache w przypadku, gdy dane żądane są przez jeden z rdzeni i jest mało prawdopodobne, że będą potrzebne innym, lecz możliwe powielenie. PHENOM II X 95

Uwagi do wyników obliczeń Przyspieszenie to iloraz czasu obliczeń sekwencyjnych najlepszą z wykorzystywanych metod i czasu obliczeń równoległych badaną metodą. Skrócenie czasu obliczeń to iloraz czasu obliczeń sekwencyjnych i równoległych tą samą metodą. Obliczenia równoległe wykorzystują wszystkie procesory systemu, liczba wątków jest równa liczbie procesorów, zastosowano optymalizację kodu (Windows wersja Release, Linux O3) Tworzenie wątków odbywa się przed pętlami. Miejsce podziału pracy określa położenie dyrektywy #pragma omp for. W przypadku kodu z niebezpieczeństwem wyścigu umieszczono dyrektywę #pragma omp atomic lub zastosowano zmienną lokalną, gdy wątki równocześnie wyznaczały jeden wynik tablicy wyjściowej. 7

wielkość 1 1 Przyspieszenie i skrócenie czasu obliczeń równoległych dla mnożenia macierzy 1x1 Intel Core i5 MB 1x1 AMD PHENOM II X 95 MB Wielkość 1 1 1 wielkość x Intel Core i5 MB 3,5 3,5 1,5 1,5 wielkość 9 7 5 3 1 x AMD PHENOM II X 95 MB

Prędkość obliczeń równoległych i sekwencyjnych dla mnożenia macierzy GFlops GFlops 3 5 15 1 5 1x1 Intel Core i5 MB 1 1 1 x Intel Core i5 MB GFlops 1 1 1 1 1 GFlops 7 5 3 1 1x1 AMD PHENOM II X 95 MB x AMD PHENOM II X 95 MB 9

3 Prędkość obliczeń równoległych dla mnożenia macierzy 1x1 Intel Core i5 MB 5 lops GFl 15 prędkość obliczeń równoległych prędkość obliczeń sekwencyjnych 1 5 1

1 Przyspieszenie obliczeń równoległych dla mnożenia macierzy 1x1 Intel Core i5 MB 1 wielkość skrócenie czasu obliczeń przyspieszenie 11

1 Prędkość mnożenia macierzy x Intel Core i5 MB 1 1 GFlops prędkość obliczeń równoległych prędkość obliczeń sekwencyjnych 1

Przyspieszenie obliczeń równoległych dla mnożenia macierzy x Intel Core i5 MB 3,5 3,5 wielk kość 1,5 skrócenie czasu obliczeń przyspieszenie 1,5 13

Prędkość obliczeń równoległych dla mnożenia macierzy 1x1 AMD PHENOM II X 95 MB 1 1 Tmin=,11 s Tmax=3 s 1 GFlops 1 1 prędkość obliczeń równoległych prędkość obliczeń sekwencyjnych 1

1 Przyspieszenie obliczeń dla mnożenia macierzy 1x1 AMD PHENOM II X 95 MB 1 1 Wielk kość skrócenie czasu obliczeń przyspieszenie 15

Prędkość obliczeń równoległych dla mnożenia macierzy x AMD PHENOM II X 95 MB 7 5 GFl lops 3 Prędkość obliczeń równoległych prędkość obliczeń sekwencyjnych 1 1

9 Przyspieszenie dla mnożenia macierzy x AMD PHENOM II X 95 MB 7 wie elkość 5 Skrócenie czasu obliczeń przyspieszenie 3 1 17

Prędkość obliczeń równoległych dla mnożenia macierzy 1x1 Intel Core i5 MB fijk Czas obliczen:,115 sec predkosc 17,377 Gflops ifjk Czas obliczen:,19 sec predkosc,7711 Gflops ijfk Czas obliczen:,3 sec predkosc 3,15 Gflops fikj Czas obliczen:,75 sec predkosc,39 Gflops ifkj Czas obliczen: 7,9 sec predkosc,71 Gflops ikfj Czas obliczen:,5 sec predkosc,715 Gflops fjik Czas obliczen:,1 sec predkosc,71 Gflops jfik Czas obliczen:,17 sec predkosc,79 Gflops jifk Czas obliczen:,33 sec predkosc 3,159 Gflops fjki Czas obliczen:,19 sec predkosc,9115 Gflops jfki Czas obliczen: 3,19 sec predkosc,555 Gflops jkfi Czas obliczen:,1 sec predkosc,55 Gflops fkij Czas obliczen:,73 sec predkosc,93 Gflops kfij Czas obliczen:,197 sec predkosc 1,77 Gflops kifj Czas obliczen:,75 sec predkosc,57 Gflops fkji Czas obliczen: 3,335 sec predkosc,5991 Gflops kfji Czas obliczen:,1 sec predkosc,9 Gflops kjfi Czas obliczen:,5 sec predkosc,335 Gflops 1