dr inż. Jarosław Forenc

Informatyka 1 Politechnika Białostocka - Wydział Elektryczny Elektrotechnika, semestr II, studia niestacjonarne I stopnia Rok akademicki 2009/2010 Wykład nr 6 (15.05.2010) dr inż. Jarosław Forenc

Rok akademicki 2009/2010, Wykład nr 6 2/46 Plan wykładu nr 6 Klasyfikacja systemów komputerowych (Flynna) SIMD - Single Instruction Multiple Data MISD - Multiple Instruction Single Data MIMD - Multiple Instruction Multiple Data Architektura von Neumanna i architektura harwardzka

Rok akademicki 2009/2010, Wykład nr 6 3/46 Produkty z obsługą CUDA NVIDIA GeForce z serii 8, 9, 100 i 200 karty graficzne ogólnego zastosowania od GeForce 8400 GS do GeForce GTX 295 NVIDIA Quadro z serii Plex, FX, NVS systemy wizualizacji, CAD zastosowania biznesowe (systemy wielomonitorowe) NVIDIA Tesla dedykowane do zastosowań GPGPU Tesla C870, Tesla D870, Tesla S870 Tesla C1060, Tesla S1070

Rok akademicki 2009/2010, Wykład nr 6 4/46 Produkty z obsługą CUDA Tesla C870 Tesla S870 Tesla D870

Rok akademicki 2009/2010, Wykład nr 6 5/46 Produkty z obsługą CUDA Tesla C1060 GeForce GTX 295 Tesla S1070

Rok akademicki 2009/2010, Wykład nr 6 6/46 MISD (Multiple Instruction, Single Data) Wiele równolegle wykonywanych programów przetwarza jednocześnie jeden wspólny strumień danych Tego typu systemy nie są spotykane Możliwe zastosowania: systemy uczące się - różne procesory odczytują i modyfikują w losowej kolejności te same dane

Rok akademicki 2009/2010, Wykład nr 6 7/46 MIMD (Multiple Instruction, Multiple Data) Równolegle wykonywanych jest wiele programów, z których każdy przetwarza własne strumienie danych Jest to najbardziej popularna grupa systemów równoległych Systemy te dzielą się na dwie grupy: SM-MIMD (Shared Memory) - wieloprocesory DM-MIMD (Distributed Memory) - wielokomputery, klastry, gridy

Rok akademicki 2009/2010, Wykład nr 6 8/46 SM-MIMDMIMD - Wieloprocesory Maszyny posiadające niezbyt dużą liczbę procesorów działających niezależnie, z których każdy ma dostęp do wspólnej przestrzeni adresowej pamięci Procesory komunikują się ze sobą zapisując i odczytując dane w uzgodnionym obszarze wspólnej pamięci Praca wszystkich wieloprocesorów sterowana jest przez pojedynczą kopię systemu operacyjnego Do grupy tej zalicza się także wszystkie komputery z procesorami wielordzeniowymi

Rok akademicki 2009/2010, Wykład nr 6 9/46 SM-MIMDMIMD - Wieloprocesory Zależnie od sposobu realizacji pamięci współdzielonej, wieloprocesory dzielą się na trzy grupy: UMA (Uniform Memory Access) - jednolity dostęp do pamięci czas dostępu jest jednakowy dla każdej pary procesor-pamięć jeśli nie jest to możliwe, to szybsze odwołania są sztucznie spowalniane do wolniejszych NUMA (NonUniform Memory Access) - niejednolity dostęp do pamięci procesor uzyskuje szybszy dostęp do tych modułów pamięci, które są bliżej niego COMA (Cache Only Memory Access) - dostęp wyłącznie przez pamięć cache

Rok akademicki 2009/2010, Wykład nr 6 10/46 SM-MIMDMIMD - Architektura UMA z magistralą Architektura najprostszych systemów bazuje na pojedynczej magistrali, do której przyłączone są dwa lub więcej procesorów oraz kilka modułów pamięci CPU CPU M Magistrala przed odczytem danych z pamięci procesor sprawdza czy magistrala jest wolna, jeśli tak to wysyła na magistralę adres słowa, ustawia odpowiednio stan sygnałów sterujących i oczekuje aż odczytywana wartość pojawi się na magistrali Dużym problemem w tego typu układach jest rywalizacja procesorów o dostęp do magistrali

Rok akademicki 2009/2010, Wykład nr 6 11/46 SM-MIMDMIMD - Architektura UMA z magistralą Problem rywalizacji procesorów o dostęp do magistrali można złagodzić stosując w każdym procesorze pamięć podręczną cache CPU cache CPU cache M Magistrala z cache owaniem Większość odczytów następuje wtedy z pamięci cache i magistrala zostaje odciążona Zastosowanie pamięci cache wymaga zapewnienia spójności cache (cache consistency, cache coherence)

Rok akademicki 2009/2010, Wykład nr 6 12/46 SM-MIMDMIMD - Architektura UMA z przełącznicą Innym rozwiązaniem zapewniającym jednakowy czas dostępu procesorów do pamięci jest przełącznica krzyżowa Skrzyżowanie linii poziomej z pionową nazywane jest punktem skrzyżowania Fizycznie punkt skrzyżowania ma postać małego przełącznika, który może być elektrycznie zamykany lub otwierany Przy umiarkowanej liczbie procesorów i modułów pamięci przełącznice krzyżowe spisują się bardzo dobrze Konstruowanie dużych przełącznic jest bardzo kosztowne i z tego powodu nie są one stosowane

Rok akademicki 2009/2010, Wykład nr 6 13/46 SM-MIMDMIMD - Architektura NUMA W wieloprocesorach z niejednolitym czasem dostępu do pamięci (NUMA - NonUniform Memory Access) lokalne moduły pamięci są szybciej dostępne dla procesora niż pozostałe, zdalne moduły Gdy dostęp do zdalnej pamięci nie jest wspomagany cache owaniem, architekturę wieloprocesora określa się skrótem NC-NUMA (Non-Cached NUMA) Architektura wieloprocesora wspomagana systemem spójnego cache owania opatrywana jest skrótem ccnuma (cache-coherent NUMA)

Rok akademicki 2009/2010, Wykład nr 6 14/46 SM-MIMDMIMD - Architektura COMA Wieloprocesory COMA (Cache Only Memory Access) wykorzystują główną pamięć każdego procesora jako dużą pamięć cache Fizyczna przestrzeń adresowa podzielona zostaje na linie cache, które mogą na żądanie migrować po systemie

Rok akademicki 2009/2010, Wykład nr 6 15/46 SM-MIMD MIMD - Wieloprocesory Cray YM-P (1988) Cray J90 (1994) Cray CS6400 (1993)

Rok akademicki 2009/2010, Wykład nr 6 16/46 SM-MIMD MIMD - Wieloprocesory NEC SX-4 (1994) NEC SX-6 (2002) NEC SX-5 (1995) NEC SX-8 (2005)

Rok akademicki 2009/2010, Wykład nr 6 17/46 DM-MIMDMIMD - Wielokomputery Systemy w których każdy procesor wyposażony jest we własną pamięć operacyjną, niedostępną dla innych procesorów każdy procesor działa niezależnie i może operować tylko na swojej prywatnej pamięci procesory komunikują się za pomocą sieci połączeniowej wymieniając między sobą komunikaty jest to najpopularniejsza i najdynamiczniej rozwijająca się grupa maszyn równoległych do wielokomputerów zalicza się także klastry

Rok akademicki 2009/2010, Wykład nr 6 18/46 DM-MIMD MIMD - Wielokomputery Cray T3E (1995) Thinking Machines CM-5 (1991) ncube 2s (1993) Meiko CS-2 (1993)

Rok akademicki 2009/2010, Wykład nr 6 19/46 DM-MIMD MIMD - Klastry Klaster (ang. cluster): równoległy lub rozproszonego system składający się z komputerów PC lub stacji roboczych komputery połączone są siecią używany jest jako pojedynczy, zintegrowany zespół obliczeniowy Pojedynczy komputer przyłączony do struktury klastra i wykonujący zadania obliczeniowe nazywany jest węzłem klastra (ang. node)

Rok akademicki 2009/2010, Wykład nr 6 20/46 DM-MIMDMIMD - Klastry Miejsce instalacji: Politechnika Białostocka Wydział Elektryczny KETiM Rok instalacji: 2004-2006 Typ klastra: homogeniczny dedykowany Liczba węzłów: 7 Sieć komputerowa: Gigabit Ethernet

Rok akademicki 2009/2010, Wykład nr 6 21/46 DM-MIMDMIMD - Klastry Klastry Beowulf budowane były ze zwykłych komputerów PC Odin II Beowulf Cluster Layout, University of Chicago, USA

Rok akademicki 2009/2010, Wykład nr 6 22/46 DM-MIMDMIMD - Klastry Klastry Beowulf budowane były ze zwykłych komputerów PC NASA 128-processor Beowulf cluster: A cluster built from 64 ordinary PC's

Rok akademicki 2009/2010, Wykład nr 6 23/46 DM-MIMDMIMD - Klastry Klastry Beowulf budowane były ze zwykłych komputerów PC 61 node Beowulf cluster with 122 2.4 GHz Xeon processors, Boise State University

Rok akademicki 2009/2010, Wykład nr 6 24/46 DM-MIMDMIMD - Klastry Early Aspen Systems Beowulf Cluster With RAID

Rok akademicki 2009/2010, Wykład nr 6 25/46 DM-MIMDMIMD - Klastry Klaster zbudowany z 336 konsol Sony PlayStation 3 Air Force Research Laboratory's Rome Laboratory in Rome, N.Y.

Rok akademicki 2009/2010, Wykład nr 6 26/46 National Supercomputer HLRB-II: SGI Altix 4700 Nazwa: HLRB-II Miejsce: Leibniz Rechenzentrum, Garching (Technische Universität München) Model: SGI Altix 4700 Rok: 2007 URL: http://www.lrz-muenchen.de/services/compute/hlrb Charakterystyka: liczba rdzeni: 9782 pamięć główna: 38912 GB system operacyjny: SUSE Linux Enterprise Server 10 sieć komputerowa: NUMAlink 4 TOP 500: Rmax = 56520 GFlops 06/2007-10 miejsce, 11/2009-82 miejsce

Rok akademicki 2009/2010, Wykład nr 6 27/46 National Supercomputer HLRB-II: SGI Altix 4700 Technische Universität München, Garching

Rok akademicki 2009/2010, Wykład nr 6 30/46 National Supercomputer HLRB-II: SGI Altix 4700 SGI Altix 4700

Rok akademicki 2009/2010, Wykład nr 6 31/46 National Supercomputer HLRB-II: SGI Altix 4700 SGI Altix 4700

Rok akademicki 2009/2010, Wykład nr 6 32/46 National Supercomputer HLRB-II: SGI Altix 4700 Cube, 36 x 36 x 36 [m]

Rok akademicki 2009/2010, Wykład nr 6 33/46 National Supercomputer HLRB-II: SGI Altix 4700 19 partycji / 9728 rdzeni Każda partycja zawiera 256 procesorów Itanium dual-core Intel Itanium2 Dual Core, 1.6 GHz 4 Flops / cykl / rdzeń 12.8 GFlops (6.4 GFlops / rdzeń) 13 partycji high-bandwidth blade zawiera 1 procesor (2 rdzenie) oraz 4 GB pamięci szyna 533 MHz (8.5 GB/sec) 6 partycji high-density blade zawiera 2 procesory (4 rdzenie) oraz 4 GB pamięci szyna 533 MHz (8.5 GB/sec)

Rok akademicki 2009/2010, Wykład nr 6 34/46 National Supercomputer HLRB-II: SGI Altix 4700

Rok akademicki 2009/2010, Wykład nr 6 35/46 Architektura von Neumanna Architektura von Neumanna jest to rodzaj architektury komputera, opisanej w 1945 roku przez matematyka Johna von Neumanna Inne spotykane nazwy: architektura z Princeton, store-program computer (koncepcja przechowywanego programu) Chociaż nazwa pochodzi od jego nazwiska, to tego typu architektura była znana już wcześniej Architektura von Neumanna zakłada podział komputera na kilka części: jednostkę sterującą jednostkę arytmetyczno-logiczną pamięć główną urządzenia wejścia-wyjścia

Rok akademicki 2009/2010, Wykład nr 6 36/46 Architektura von Neumanna Jednostka sterująca (CU - Control Unit) interpretuje rozkazy z pamięci i powoduje ich wykonanie Jednostka arytmetyczno-logiczna (ALU - Arithmetic Logic Unit) wykonuje działania na liczbach binarnych Pamięć (Memory) przechowuje dane i program (instrukcje i rozkazy programu) Urządzenia wejścia-wyjścia (Input/Output) Jednostka arytmetyczno-logiczna oraz sterująca tworzą obecnie procesor (CPU - Central Processing Unit)

Rok akademicki 2009/2010, Wykład nr 6 37/46 Architektura von Neumanna - podstawowe cechy Informacje przechowywane są w komórkach pamięci (cell) o jednakowym rozmiarze, zawierających jednostki informacji zwane słowami (word) Komórki pamięci tworzą uporządkowany zbiór z jednoznacznie określonymi numerami zwanymi adresami Zawartość komórki pamięci może zmienić tylko procesor wykonując rozkaz przesłania słowa do pamięci Dane oraz instrukcje programu (rozkazy) przechowywane są w tej samej pamięci i są jednakowo dostępne dla procesora Dane i instrukcje zakodowane są za pomocą liczb - bez analizy programu trudno jest określić, czy dany obszar pamięci zawiera dane czy instrukcje

Rok akademicki 2009/2010, Wykład nr 6 38/46 Architektura von Neumanna - podstawowe cechy Program jest wprowadzany do systemu komputerowego poprzez urządzenia zewnętrzne i przechowywany w pamięci w sposób identyczny jak dane Praca systemu komputerowego polega na sekwencyjnym odczytywaniu instrukcji z pamięci komputera i ich wykonywaniu w procesorze Wykonanie rozkazu polega na: pobraniu z pamięci słowa będącego kodem instrukcji pobraniu z pamięci danych przetworzeniu danych (wykonanie instrukcji) zapisaniu wyników do pamięci System komputerowy ma skończoną i funkcjonalnie pełną listę rozkazów

Rok akademicki 2009/2010, Wykład nr 6 39/46 Architektura von Neumanna - podstawowe cechy Procesor komunikuje się z pamięcią przy wykorzystaniu jednej magistrali danych - nie może zatem w tym samym czasie odczytywać danych i instrukcji Wadą architektury von Neumanna jest ograniczony transfer pomiędzy procesorem a pamięcią (von Neumann bottleneck) procesor jest w stanie szybko przetwarzać dane, ale musi czekać na ich przesyłane do lub z pamięci rozwiązaniem tego problemu jest zastosowanie pamięci podręcznej

Rok akademicki 2009/2010, Wykład nr 6 40/46 Architektura harwardzka Architektura komputera, w której pamięć danych programu jest oddzielona od pamięci instrukcji Nazwa architektury pochodzi komputera Harward Mark I: zaprojektowany przez Howarda Aikena pamięć instrukcji stanowiła taśma dziurkowana, zaś pamięć danych - elektromechaniczne liczniki

Rok akademicki 2009/2010, Wykład nr 6 41/46 Architektura harwardzka Pamięci przeznaczone do przechowywania danych i instrukcji nie muszą być takie same, mogą różnić się technologią wykonania, strukturą adresowania, długością słowa Pamięć na instrukcje jest zazwyczaj większa niż pamięć na dane Pamięć instrukcji i danych zajmują inną przestrzeń adresową Procesor może w tym samym czasie czytać instrukcje oraz uzyskiwać dostęp do danych Dzięki prostszej budowie oraz możliwości jednoczesnego odczytywania instrukcji i danych architektura harwardzka jest szybsza od architektury von Neumanna Architektura harwardzka jest stosowana w mikrokomputerach jednoukładowych, procesorach sygnałowych oraz przy dostępie procesora do pamięci podręcznej

Rok akademicki 2009/2010, Wykład nr 6 42/46 Architektura harwardzka i von Neumanna W architekturze harwardzkiej pamięć instrukcji i pamięć danych: zajmują różne przestrzenie adresowe mają oddzielne szyny (magistrale) do procesora zaimplementowane są w inny sposób Procesor Magistrala instrukcji Magistrala danych Pamięć programu (instrukcje programu) Pamięć danych (dane programu) Architektura von Neumanna Architektura harwardzka

Rok akademicki 2009/2010, Wykład nr 6 43/46 Zmodyfikowana architektura harwardzka Zmodyfikowana architektura harwardzka łączy w sobie cechy architektury harwardzkiej i architektury von Neumanna W architekturze tej oddzielone są pamięci danych i rozkazów, lecz wykorzystują one wspólną magistralę danych i adresową Architektura ta pozwala na dostęp do pamięci instrukcji tak jakby były to dane Część pamięci instrukcji może zawierać stałe dane, np. łańcuchy znaków, które mogą być przesyłane bezpośrednio do procesora z pominięciem pamięci na dane - zapewnia to oszczędność pamięci na dane

Rok akademicki 2009/2010, Wykład nr 6 44/46 Zmodyfikowana architektura harwardzka Zazwyczaj w architekturze harwardzkiej pamięć instrukcji jest tylko do odczytu, a pamięć danych do odczytu i zapisu Stwarza to problemy z inicjalizacją wartości w pamięci danych Rozwiązaniem powyższego problemu jest dodanie odpowiednich połączeń i instrukcji umożliwiających przesyłanie danych z pamięci instrukcji do pamięci danych

Rok akademicki 2009/2010, Wykład nr 6 45/46 Architektura von Neumanna i harwardzka W obecnie stosowanych procesorach występują elementy obu architektur: von Neumanna i harwardzkiej pamięć operacyjna komputera jest to typowa architektura von Neumanna pamięć podręczna podzielona jest na pamięć instrukcji i pamięć danych - jeśli danych nie ma w pamięci podręcznej to są ściągane z pamięci głównej Z punktu widzenia programisty posługujemy się architekturą von Neumana, zaś implementacje sprzętowe zawierają architekturę harwardzką Większość stosowanych obecnie mikrokontrolerów jest oparta na zmodyfikowanej architekturze harwardzkiej (AVR, ZiLOG Z8Encore!)

Rok akademicki 2009/2010, Wykład nr 6 46/46 Koniec wykładu nr 6 Dziękuję za uwagę!