Rok akademicki 2010/2011, Wykład nr 6 2/56 Plan wykładu nr 6 Informatyka 1 Politechnika Białostocka - Wydział Elektryczny Elektrotechnika, semestr II, studia stacjonarne I stopnia Rok akademicki 2010/2011 Klasyfikacja systemów komputerowych (Flynna) SISD - Single Instruction Single Data SIMD - Single Instruction Multiple Data MISD - Multiple Instruction Single Data MIMD - Multiple Instruction Multiple Data Architektura von Neumanna Wykład nr 6 (28.03.2011) Rok akademicki 2010/2011, Wykład nr 6 3/56 Rok akademicki 2010/2011, Wykład nr 6 4/56 Klasyfikacja systemów komputerowych Klasyfikacja systemów komputerowych Pierwsza, najbardziej ogólna klasyfikacja architektur komputerowych to tzw. taksonomia Flynna (1972) SISD (Single Instruction Single Data) klasyczne, najtańsze komputery sekwencyjne (PC, laptopy) Klasyfikacja została przedstawiona w pracy: Flynn M.J.: Some Computer Organizations and Their Effectiveness, IEEE Transactions on Computers, Vol. C-21, No 9, 1972. Taksonomia Flynna opiera się na liczbie przetwarzanych strumieni rozkazów i strumieni danych: strumień rozkazów (Instruction Stream) - jest odpowiednikiem licznika rozkazów; system złożony z n procesorów posiada n liczników rozkazów, a więc n strumieni rozkazów strumień danych (Data Stream) - jest zbiorem operandów, np. system rejestrujący temperaturę mierzoną przez n czujników posiada n strumieni danych SIMD (Single Instruction Multiple Data) te same operacje wykonywane są na różnych danych SM-SIMD (Shared Memory) - komputery wektorowe DM-SIMD (Distributed Memory) - tablice procesorów MISD (Multiple Instruction Single Data) różne operacje wykonywane na tych samych danych (nie spotykane) MIMD (Multiple Instruction Multiple Data) różne operacje wykonywane na różnych danych, ale stanowiące część tego samego zadania obliczeniowego SM-MIMD - maszyny z pamięcią wspólną (wieloprocesory) DM-MIMD - maszyny z pamięcią lokalną (wielokomputery)
Rok akademicki 2010/2011, Wykład nr 6 5/56 Rok akademicki 2010/2011, Wykład nr 6 6/56 Klasyfikacja systemów komputerowych SISD (Single Instruction, Single Data) Przetwarzany jest jeden strumień danych przez jeden wykonywany program Klasyczne, najtańsze maszyny sekwencyjne, zbudowane według architektury von Neumanna Zawierają jeden procesor i jeden blok pamięci operacyjnej, w której znajduje się program - ciąg instrukcji wykonywanych sekwencyjnie Jeśli jeden komputer ma kilka procesorów, z których każdy wykonuje niezależny program, to można traktować go jako zestaw maszyn typu SISD Rok akademicki 2010/2011, Wykład nr 6 7/56 Rok akademicki 2010/2011, Wykład nr 6 8/56 SISD (Single Instruction, Single Data) SISD (Single Instruction, Single Data) W maszynach typu SISD występują elementy równoległości: przetwarzanie potokowe (pipelining) rozszerzenia strumieniowe (MMX, SSE, AltiVec, 3DNow!) do szybkiego przetwarzania grafiki i multimediów hiperwątkowość (HT, HyperThreading) - obsługa dwóch niezależnych wątków przez jedną jednostkę wykonawczą procesora Komputer IBM PC/AT Komputer PC Komputer PC Laptop
Rok akademicki 2010/2011, Wykład nr 6 9/56 Rok akademicki 2010/2011, Wykład nr 6 10/56 SIMD (Single Instruction, Multiple Data) SM-SIMDSIMD - Komputery wektorowe Przetwarzanych jest wiele strumieni danych przez jeden wykonywany program, czyli te same operacje wykonywane są na różnych danych Dzielą się na dwie grupy: SM-SIMD (Shared Memory SIMD) - komputery wektorowe DM-SIMD (Distributed Memory SIMD) - tablice procesorów Główny składnik to jeden lub kilka stanowiących logicznie jeden, procesor wektorowy, w którym w sposób równoległy wykonywane są ciągi tych samych operacji W momencie rozpoczęcia wykonywania instrukcji poszczególne procesory pobierają dane, a po jej zakończeniu wysyłają wyniki do tej samej globalnej pamięci Schemat blokowy maszyny wektorowej jest przedstawiony na rysunku źródło: A. Karbowski, E. Niewiadomska-Szynkiewicz: Obliczenia równoległe i rozproszone. Rok akademicki 2010/2011, Wykład nr 6 11/56 Rok akademicki 2010/2011, Wykład nr 6 12/56 SM-SIMDSIMD - Komputery wektorowe SM-SIMDSIMD - Komputery wektorowe Proste programowanie, gdyż program sekwencyjny jest automatycznie zrównoleglany przez kompilator Do podejścia Shared Memory SIMD można zaliczyć wprowadzenie do procesorów rozszerzeń strumieniowych zwiększających wydajność operacji graficznych i multimedialnych: CDC Cyber 205 (1981) Cray-1 (1976) MMX - MultiMedia extensions, 1997 rok, Intel Pentium MMX 3DNow!, 1998 rok, AMD K6-2 SSE - Streaming SIMD Extensions, 1999 rok, Intel Pentium III SSE2 - Streaming SIMD Extensions 2, 2001 rok, Intel Pentium 4 SSE3 - Streaming SIMD Extensions 3, 2004 rok, Pentium 4 Prescott SSSE3 - Supplemental Streaming SIMD Extensions 3 SSE4 - Streaming SIMD Extensions 4, 2007 rok AVX - Advanced Vector Extensions - planowane: 2010 rok SSE5 - Streaming SIMD Extensions 5 - planowane: 2011 rok Cray-2 (1985) Hitachi S3600 (1994)
Rok akademicki 2010/2011, Wykład nr 6 13/56 Rok akademicki 2010/2011, Wykład nr 6 14/56 DM-SIMD - Tablice procesorów DM-SIMD - Tablice procesorów Maszyny składające się z jednego procesora sterującego i dużej liczby prostych procesorów z pamięcią lokalną Każdy procesor wykonuje te same instrukcje (wydawane przez procesor sterujący), w tym samym czasie, na swych danych lokalnych Wymiana danych pomiędzy sąsiadującymi procesorami: left, right, up, down, (+ front, back dla 3D) Illiac IV (1976) Illiac IV (1976) MasPar MP-1/MP-2 (1990) Thinking Machines CM-2 (1987) Stosowane w latach 70-tych i na początku lat 80-tych źródło: A. Karbowski, E. Niewiadomska-Szynkiewicz: Obliczenia równoległe i rozproszone. Rok akademicki 2010/2011, Wykład nr 6 15/56 Rok akademicki 2010/2011, Wykład nr 6 16/56 DM-SIMD - Procesory graficzne CUDA - Architektura GPU (GeForce GTX 200) Do podejścia DM-SIMD można zaliczyć obliczenia ogólnego przeznaczenia realizowane na procesorach kart graficznych Podstawowym elementem architektury jest multiprocesor strumieniowy (SM): GPGPU General Purpose computing on Graphics Processing Units obliczenia ogólnego przeznaczenia realizowane za pomocą procesora graficznego NVIDIA CUDA (Compute Unified Device Architecture) równoległa architektura obliczeniowa bezpłatne środowisko zawierające: narzędzia do kompilacji, uruchamiania i testowania programów, biblioteki numeryczne pierwsza wersja: listopad 2006 umożliwia stworzenie programu w języku C/C++ wykonywanego jednocześnie na CPU (host) i GPU (device) firmy NVIDIA 8 x SP - osiem procesorów strumieniowych 2 x SFU (Special Function Unit) - dwie jednostki specjalne do obliczania funkcji trygonometrycznych, wykładniczych, logarytmicznych DP - jeden procesor podwójnej precyzji (fp64), (brak na rysunku!!!) Shared Memory - pamięć współdzielona (16 kb) I Cache - pamięć podręczna instrukcji C Cache - pamięć podręczna danych, tylko odczyt MT Issue - jednostka sterująca (Multithreaded Instruction Fetch And Issue) 16.384 rejestry 32-bitowe www.anandtech.com
Rok akademicki 2010/2011, Wykład nr 6 17/56 Rok akademicki 2010/2011, Wykład nr 6 18/56 CUDA - Architektura GPU (GeForce GTX 200) CUDA - Architektura GPU (GeForce GTX 200) 3 multiprocesory połączone razem tworzą klaster (TPC - Thread Processing Cluster) 10 klastrów tworzy macierz procesorów strumieniowych (SPA - Streaming Processor Array) Klaster zawiera również: odpowiednią logikę sterującą (Geometry Controller + SMC) jednostki tekstur (Texture Units) Jednostki tekstur zawierają: logikę adresowania i filtrowania tekstur pamięć podręczną tekstur (Texture L1) 1 GPU = 10 TCP 1 GPU = 30 SM 1 GPU = 240 SP www.anandtech.com www.anandtech.com Rok akademicki 2010/2011, Wykład nr 6 19/56 Rok akademicki 2010/2011, Wykład nr 6 20/56 CUDA - Architektura GPU (GeForce GTX 200) Produkty z obsługą CUDA GPU z dodatkowymi elementami (pamięć DRAM, interfejs PCIe) NVIDIA GeForce z serii 8, 9, 100, 200, 400 i 500 karty graficzne ogólnego zastosowania od GeForce 8400 GS do GeForce GTX 580 NVIDIA Quadro z serii Plex, FX, NVS systemy wizualizacji, CAD zastosowania biznesowe (systemy wielomonitorowe) www.anandtech.com NVIDIA Tesla dedykowane do zastosowań GPGPU Tesla C870, Tesla D870, Tesla S870 Tesla C1060, Tesla S1070, Tesla M1060 Tesla M2050/2070, C2050/2070, S2050
Rok akademicki 2010/2011, Wykład nr 6 21/56 Rok akademicki 2010/2011, Wykład nr 6 22/56 Produkty z obsługą CUDA Produkty z obsługą CUDA Tesla C870 Tesla S870 Tesla C1060 GeForce GTX 295 Tesla D870 Tesla S1070 Rok akademicki 2010/2011, Wykład nr 6 23/56 Rok akademicki 2010/2011, Wykład nr 6 24/56 MISD (Multiple Instruction, Single Data) MIMD (Multiple Instruction, Multiple Data) Wiele równolegle wykonywanych programów przetwarza jednocześnie jeden wspólny strumień danych Równolegle wykonywanych jest wiele programów, z których każdy przetwarza własne strumienie danych Tego typu systemy nie są spotykane Możliwe zastosowania: systemy uczące się - różne procesory odczytują i modyfikują w losowej kolejności te same dane Jest to najbardziej popularna grupa systemów równoległych Systemy te dzielą się na dwie grupy: SM-MIMD (Shared Memory) - wieloprocesory DM-MIMD (Distributed Memory) - wielokomputery, klastry, gridy
Rok akademicki 2010/2011, Wykład nr 6 25/56 Rok akademicki 2010/2011, Wykład nr 6 26/56 SM-MIMDMIMD - Wieloprocesory SM-MIMDMIMD - Wieloprocesory Maszyny posiadające niezbyt dużą liczbę procesorów działających niezależnie, z których każdy ma dostęp do wspólnej przestrzeni adresowej pamięci Procesory komunikują się ze sobą zapisując i odczytując dane w uzgodnionym obszarze wspólnej pamięci Praca wszystkich wieloprocesorów sterowana jest przez pojedynczą kopię systemu operacyjnego Do grupy tej zalicza się także wszystkie komputery z procesorami wielordzeniowymi Zależnie od sposobu realizacji pamięci współdzielonej, wieloprocesory dzielą się na trzy grupy: UMA (Uniform Memory Access) - jednolity dostęp do pamięci czas dostępu jest jednakowy dla każdej pary procesor-pamięć jeśli nie jest to możliwe, to szybsze odwołania są sztucznie spowalniane do wolniejszych NUMA (NonUniform Memory Access) - niejednolity dostęp do pamięci procesor uzyskuje szybszy dostęp do tych modułów pamięci, które są bliżej niego COMA (Cache Only Memory Access) - dostęp wyłącznie przez pamięć cache Rok akademicki 2010/2011, Wykład nr 6 27/56 Rok akademicki 2010/2011, Wykład nr 6 28/56 SM-MIMDMIMD - Architektura UMA z magistralą SM-MIMDMIMD - Architektura UMA z magistralą Architektura najprostszych systemów bazuje na pojedynczej magistrali, do której przyłączone są dwa lub więcej procesorów oraz kilka modułów pamięci Problem rywalizacji procesorów o dostęp do magistrali można złagodzić stosując w każdym procesorze pamięć podręczną cache CPU CPU M CPU cache CPU cache M Magistrala przed odczytem danych z pamięci procesor sprawdza czy magistrala jest wolna, jeśli tak to wysyła na magistralę adres słowa, ustawia odpowiednio stan sygnałów sterujących i oczekuje aż odczytywana wartość pojawi się na magistrali Magistrala z cache owaniem Większość odczytów następuje wtedy z pamięci cache i magistrala zostaje odciążona Zastosowanie pamięci cache wymaga zapewnienia spójności cache (cache consistency, cache coherence) Dużym problemem w tego typu układach jest rywalizacja procesorów o dostęp do magistrali
Rok akademicki 2010/2011, Wykład nr 6 29/56 Rok akademicki 2010/2011, Wykład nr 6 30/56 SM-MIMDMIMD - Architektura UMA z przełącznicą SM-MIMDMIMD - Architektura NUMA Innym rozwiązaniem zapewniającym jednakowy czas dostępu procesorów do pamięci jest przełącznica krzyżowa Skrzyżowanie linii poziomej z pionową nazywane jest punktem skrzyżowania Fizycznie punkt skrzyżowania ma postać małego przełącznika, który może być elektrycznie zamykany lub otwierany Przy umiarkowanej liczbie procesorów i modułów pamięci przełącznice krzyżowe spisują się bardzo dobrze W wieloprocesorach z niejednolitym czasem dostępu do pamięci (NUMA - NonUniform Memory Access) lokalne moduły pamięci są szybciej dostępne dla procesora niż pozostałe, zdalne moduły Gdy dostęp do zdalnej pamięci nie jest wspomagany cache owaniem, architekturę wieloprocesora określa się skrótem NC-NUMA (Non-Cached NUMA) Architektura wieloprocesora wspomagana systemem spójnego cache owania opatrywana jest skrótem ccnuma (cache-coherent NUMA) Konstruowanie dużych przełącznic jest bardzo kosztowne i z tego powodu nie są one stosowane Rok akademicki 2010/2011, Wykład nr 6 31/56 Rok akademicki 2010/2011, Wykład nr 6 32/56 SM-MIMDMIMD - Architektura COMA SM-MIMD MIMD - Wieloprocesory Wieloprocesory COMA (Cache Only Memory Access) wykorzystują główną pamięć każdego procesora jako dużą pamięć cache Cray YM-P (1988) Cray J90 (1994) Fizyczna przestrzeń adresowa podzielona zostaje na linie cache, które mogą na żądanie migrować po systemie Cray CS6400 (1993)
Rok akademicki 2010/2011, Wykład nr 6 33/56 Rok akademicki 2010/2011, Wykład nr 6 34/56 SM-MIMD MIMD - Wieloprocesory DM-MIMDMIMD - Wielokomputery NEC SX-4 (1994) NEC SX-6 (2002) Systemy w których każdy procesor wyposażony jest we własną pamięć operacyjną, niedostępną dla innych procesorów NEC SX-5 (1995) NEC SX-8 (2005) każdy procesor działa niezależnie i może operować tylko na swojej prywatnej pamięci procesory komunikują się za pomocą sieci połączeniowej wymieniając między sobą komunikaty jest to najpopularniejsza i najdynamiczniej rozwijająca się grupa maszyn równoległych do wielokomputerów zalicza się także klastry Rok akademicki 2010/2011, Wykład nr 6 35/56 Rok akademicki 2010/2011, Wykład nr 6 36/56 DM-MIMD MIMD - Wielokomputery DM-MIMD MIMD - Klastry Cray T3E (1995) Thinking Machines CM-5 (1991) Klaster (ang. cluster): równoległy lub rozproszonego system składający się z komputerów PC lub stacji roboczych komputery połączone są siecią używany jest jako pojedynczy, zintegrowany zespół obliczeniowy ncube 2s (1993) Meiko CS-2 (1993) Pojedynczy komputer przyłączony do struktury klastra i wykonujący zadania obliczeniowe nazywany jest węzłem klastra (ang. node)
Rok akademicki 2010/2011, Wykład nr 6 37/56 Rok akademicki 2010/2011, Wykład nr 6 38/56 DM-MIMDMIMD - Klastry DM-MIMDMIMD - Klastry Miejsce instalacji: Politechnika Białostocka Wydział Elektryczny KETiM Klastry Beowulf budowane były ze zwykłych komputerów PC Rok instalacji: 2004-2006 Typ klastra: homogeniczny dedykowany Liczba węzłów: 7 Sieć komputerowa: Gigabit Ethernet Odin II Beowulf Cluster Layout, University of Chicago, USA Rok akademicki 2010/2011, Wykład nr 6 39/56 Rok akademicki 2010/2011, Wykład nr 6 40/56 DM-MIMDMIMD - Klastry DM-MIMDMIMD - Klastry Klastry Beowulf budowane były ze zwykłych komputerów PC Klastry Beowulf budowane były ze zwykłych komputerów PC NASA 128-processor Beowulf cluster: A cluster built from 64 ordinary PC's 61 node Beowulf cluster with 122 2.4 GHz Xeon processors, Boise State University
Rok akademicki 2010/2011, Wykład nr 6 41/56 Rok akademicki 2010/2011, Wykład nr 6 42/56 DM-MIMDMIMD - Klastry DM-MIMDMIMD - Klastry Klaster zbudowany z 336 konsol Sony PlayStation 3 Early Aspen Systems Beowulf Cluster With RAID Air Force Research Laboratory's Rome Laboratory in Rome, N.Y. Rok akademicki 2010/2011, Wykład nr 6 43/56 Rok akademicki 2010/2011, Wykład nr 6 44/56 Nazwa: HLRB-II Miejsce: Leibniz Rechenzentrum, Garching (Technische Universität München) Model: SGI Altix 4700 Rok: 2007 URL: http://www.lrz-muenchen.de/services/compute/hlrb Charakterystyka: liczba rdzeni: 9782 pamięć główna: 38912 GB system operacyjny: SUSE Linux Enterprise Server 10 sieć komputerowa: NUMAlink 4 TOP 500: Rmax = 56520 GFlops 06/2007-10 miejsce, 11/2010-133 miejsce Technische Universität München, Garching
Rok akademicki 2010/2011, Wykład nr 6 45/56 Rok akademicki 2010/2011, Wykład nr 6 46/56 SGI Altix 4700 Technische Universität München, Garching Rok akademicki 2010/2011, Wykład nr 6 47/56 Rok akademicki 2010/2011, Wykład nr 6 48/56 SGI Altix 4700 Cube, 36 x 36 x 36 [m]
Rok akademicki 2010/2011, Wykład nr 6 49/56 Rok akademicki 2010/2011, Wykład nr 6 50/56 19 partycji / 9728 rdzeni Każda partycja zawiera 256 procesorów Itanium dual-core Intel Itanium2 Dual Core, 1.6 GHz 4 Flops / cykl / rdzeń 12.8 GFlops (6.4 GFlops / rdzeń) 13 partycji high-bandwidth blade zawiera 1 procesor (2 rdzenie) oraz 4 GB pamięci szyna 533 MHz (8.5 GB/sec) 6 partycji high-density blade zawiera 2 procesory (4 rdzenie) oraz 4 GB pamięci szyna 533 MHz (8.5 GB/sec) Rok akademicki 2010/2011, Wykład nr 6 51/56 Rok akademicki 2010/2011, Wykład nr 6 52/56 Architektura von Neumanna Architektura von Neumanna Architektura von Neumanna jest to rodzaj architektury komputera, opisanej w 1945 roku przez matematyka Johna von Neumanna Jednostka sterująca (CU - Control Unit) interpretuje rozkazy z pamięci i powoduje ich wykonanie Inne spotykane nazwy: architektura z Princeton, store-program computer (koncepcja przechowywanego programu) Jednostka arytmetyczno-logiczna (ALU - Arithmetic Logic Unit) wykonuje działania na liczbach binarnych Chociaż nazwa pochodzi od jego nazwiska, to tego typu architektura była znana już wcześniej Pamięć (Memory) przechowuje dane i program (instrukcje i rozkazy programu) Architektura von Neumanna zakłada podział komputera na kilka części: jednostkę sterującą jednostkę arytmetyczno-logiczną pamięć główną urządzenia wejścia-wyjścia Urządzenia wejścia-wyjścia (Input/Output) Jednostka arytmetyczno-logiczna oraz sterująca tworzą obecnie procesor (CPU - Central Processing Unit)
Rok akademicki 2010/2011, Wykład nr 6 53/56 Rok akademicki 2010/2011, Wykład nr 6 54/56 Architektura von Neumanna - podstawowe cechy Architektura von Neumanna - podstawowe cechy Informacje przechowywane są w komórkach pamięci (cell) o jednakowym rozmiarze, zawierających jednostki informacji zwane słowami (word) Program jest wprowadzany do systemu komputerowego poprzez urządzenia zewnętrzne i przechowywany w pamięci w sposób identyczny jak dane Komórki pamięci tworzą uporządkowany zbiór z jednoznacznie określonymi numerami zwanymi adresami Zawartość komórki pamięci może zmienić tylko procesor wykonując rozkaz przesłania słowa do pamięci Dane oraz instrukcje programu (rozkazy) przechowywane są w tej samej pamięci i są jednakowo dostępne dla procesora Dane i instrukcje zakodowane są za pomocą liczb - bez analizy programu trudno jest określić, czy dany obszar pamięci zawiera dane czy instrukcje Praca systemu komputerowego polega na sekwencyjnym odczytywaniu instrukcji z pamięci komputera i ich wykonywaniu w procesorze Wykonanie rozkazu polega na: pobraniu z pamięci słowa będącego kodem instrukcji pobraniu z pamięci danych przetworzeniu danych (wykonanie instrukcji) zapisaniu wyników do pamięci System komputerowy ma skończoną i funkcjonalnie pełną listę rozkazów Rok akademicki 2010/2011, Wykład nr 6 55/56 Rok akademicki 2010/2011, Wykład nr 6 56/56 Architektura von Neumanna - podstawowe cechy Koniec wykładu nr 6 Procesor komunikuje się z pamięcią przy wykorzystaniu jednej magistrali danych - nie może zatem w tym samym czasie odczytywać danych i instrukcji Wadą architektury von Neumanna jest ograniczony transfer pomiędzy procesorem a pamięcią (von Neumann bottleneck) procesor jest w stanie szybko przetwarzać dane, ale musi czekać na ich przesyłane do lub z pamięci rozwiązaniem tego problemu jest zastosowanie pamięci podręcznej Dziękuję za uwagę!