Larrabee GPGPU. Zastosowanie, wydajność i porównanie z innymi układami

Podobne dokumenty
PROGRAMOWANIE WSPÓŁCZESNYCH ARCHITEKTUR KOMPUTEROWYCH DR INŻ. KRZYSZTOF ROJEK

Mikroprocesory rodziny INTEL 80x86

Architektura komputerów

Architektura mikroprocesorów TEO 2009/2010

RDZEŃ x86 x86 rodzina architektur (modeli programowych) procesorów firmy Intel, należących do kategorii CISC, stosowana w komputerach PC,

Sprzęt komputerowy 2. Autor prezentacji: 1 prof. dr hab. Maria Hilczer

Architektura komputerów

Sprzęt komputerowy 2. Autor prezentacji: 1 prof. dr hab. Maria Hilczer

Architektura Systemów Komputerowych. Rozwój architektury komputerów klasy PC

Zapoznanie z technikami i narzędziami programistycznymi służącymi do tworzenia programów współbieżnych i obsługi współbieżności przez system.

Budowa Mikrokomputera

Budowa komputera. Magistrala. Procesor Pamięć Układy I/O

Architektury komputerów Architektury i wydajność. Tomasz Dziubich

Budowa komputera. Magistrala. Procesor Pamięć Układy I/O

Bibliografia: pl.wikipedia.org Historia i rodzaje procesorów w firmy Intel

Budowa i zasada działania komputera. dr Artur Bartoszewski

Układy czasowo-licznikowe w systemach 80x86

Architektura komputerów

Architektura komputerów

Metody optymalizacji soft-procesorów NIOS

Sprawdzian test egzaminacyjny GRUPA I

Architektura systemów komputerowych. dr Artur Bartoszewski

Przetwarzanie potokowe pipelining

Implementacja sieci neuronowych na karcie graficznej. Waldemar Pawlaszek

Układ sterowania, magistrale i organizacja pamięci. Dariusz Chaberski

Podsystem graficzny. W skład podsystemu graficznego wchodzą: karta graficzna monitor

Procesory wielordzeniowe (multiprocessor on a chip) Krzysztof Banaś, Obliczenia wysokiej wydajności.

Wykład 6. Mikrokontrolery z rdzeniem ARM

Algorytmy dla maszyny PRAM

Obliczenia Wysokiej Wydajności

Budowa systemów komputerowych

System obliczeniowy laboratorium oraz. mnożenia macierzy

UTK ARCHITEKTURA PROCESORÓW 80386/ Budowa procesora Struktura wewnętrzna logiczna procesora 80386

Architektura komputerów egzamin końcowy

Budowa komputera Komputer computer computare

Architektura mikroprocesorów z rdzeniem ColdFire

Załącznik nr 6 do SIWZ nr postępowania II MJ Zaoferowany. sprzęt L P. Parametry techniczne

ARCHITEKTURA PROCESORA,

Technologia informacyjna. Urządzenia techniki komputerowej

Wykorzystanie architektury Intel MIC w obliczeniach typu stencil

Spis treúci. Księgarnia PWN: Krzysztof Wojtuszkiewicz - Urządzenia techniki komputerowej. Cz. 1. Przedmowa Wstęp... 11

Programowanie Niskopoziomowe

Architektura von Neumanna

SYSTEMY OPERACYJNE WYKŁAD 1 INTEGRACJA ZE SPRZĘTEM

Programowanie procesorów graficznych GPGPU

Nowinki technologiczne procesorów

Programowanie z wykorzystaniem technologii CUDA i OpenCL Wykład 1

Nowinki technologiczne procesorów

POLITECHNIKA WARSZAWSKA Wydział Elektroniki i Technik Informacyjnych. Instytut Telekomunikacji Zakład Podstaw Telekomunikacji

Technologie Informacyjne

LEKCJA TEMAT: Współczesne procesory.

Wykład 2. Mikrokontrolery z rdzeniami ARM

Układ wykonawczy, instrukcje i adresowanie. Dariusz Chaberski

Architektura systemów komputerowych. dr Artur Bartoszewski

Tesla. Architektura Fermi

Moc płynąca z kart graficznych

Julia 4D - raytracing

LEKCJA TEMAT: Zasada działania komputera.

Procesory rodziny x86. Dariusz Chaberski

16. Taksonomia Flynn'a.

Architektura komputerów

PROGRAMOWANIE WSPÓŁCZESNYCH ARCHITEKTUR KOMPUTEROWYCH DR INŻ. KRZYSZTOF ROJEK

Systemy operacyjne i sieci komputerowe Szymon Wilk Superkomputery 1

Procesor (ang. processor), także CPU (ang. Central Processing Unit) urządzenie cyfrowe sekwencyjne, które pobiera dane z pamięci, interpretuje je i

SSE (Streaming SIMD Extensions)

Podstawowe zagadnienia

Obliczenia Wysokiej Wydajności

Bibliografia: pl.wikipedia.org Historia i rodzaje procesorów w firmy Intel

Programowanie w asemblerze Architektury równoległe

Architektura i administracja systemów operacyjnych

Architektura systemów komputerowych. dr Artur Bartoszewski

Architektura systemów komputerowych. dr Artur Bartoszewski

Karty graficzne: budowa, zasada działania, standardy, parametry, dodatkowe funkcje

CUDA Median Filter filtr medianowy wykorzystujący bibliotekę CUDA sprawozdanie z projektu

Architektura Systemów Komputerowych

Systemy operacyjne III

Raport Hurtownie Danych

Programowanie Współbieżne

MAGISTRALE ZEWNĘTRZNE, gniazda kart rozszerzeń, w istotnym stopniu wpływają na

SYSTEMY OPERACYJNE I SIECI KOMPUTEROWE

Procesory wielordzeniowe (multiprocessor on a chip) Krzysztof Banaś, Obliczenia wysokiej wydajności.

Który z podzespołów komputera przy wyłączonym zasilaniu przechowuje program rozpoczynający ładowanie systemu operacyjnego? A. CPU B. RAM C. ROM D.

Pamięć wirtualna. Przygotował: Ryszard Kijaka. Wykład 4

Technologie informacyjne Wykład I-III

PR P E R Z E E Z N E T N A T C A JA C JA KO K RP R O P RA R C A Y C JN Y A JN ACTINA DATA MANAGER

155,35 PLN brutto 126,30 PLN netto

Architektura komputera wg Neumana

Procesory. Schemat budowy procesora

Pośredniczy we współpracy pomiędzy procesorem a urządzeniem we/wy. W szczególności do jego zadań należy:

Synteza i obróbka obrazu. Tekstury. Opracowanie: dr inż. Grzegorz Szwoch Politechnika Gdańska Katedra Systemów Multimedialnych

Architektura systemów komputerowych. dr Artur Bartoszewski

Materiały dodatkowe do podręcznika Urządzenia techniki komputerowej do rozdziału 5. Płyta główna i jej składniki. Test nr 5

Podstawy Informatyki Systemy sterowane przepływem argumentów

Architektura komputerów

Architektura systemów komputerowych. dr Artur Bartoszewski

System 32-Bit 1: Microsoft Windows 7 Home Premium 2;, Professional, Ultimate, Enterprise Microsoft Windows 8/8.1, Pro, Enterprise 2;

Programowanie procesorów graficznych GPGPU. Krzysztof Banaś Obliczenia równoległe 1

Gniazdo procesora. Gniazdo procesora to rodzaj złącza na płycie głównej komputera, w którym umieszczany jest procesor.

Rejestr HKEY_LOCAL_MACHINE

Karty graficzne możemy podzielić na:

Transkrypt:

Larrabee GPGPU Zastosowanie, wydajność i porównanie z innymi układami

Larrabee a inne GPU Różnią się w trzech podstawowych aspektach:

Larrabee a inne GPU Różnią się w trzech podstawowych aspektach: Larrabee korzysta z zestawu instrukcji zgodnego z x86 i posiada rozszerzenia specyficzne dla swojej platformy

Larrabee a inne GPU Różnią się w trzech podstawowych aspektach: Larrabee korzysta z zestawu instrukcji zgodnego z x86 i posiada rozszerzenia specyficzne dla swojej platformy Larrabee zapewnia spójność pamięci podręcznej (cache) dla wszystkich swoich rdzeni.

Cache Coherency Cache coherency spójność pamięci podręcznej. Każdy klient, czyli w przypadku Larrabee rdzeń, posiada własny cache. Dzięki temu zachowana jest spójność danych podczas przetwarzania równoległego. Wszystkie układy posiadają swoją kopię pamięci.

Larrabee a inne GPU Różnią się w trzech podstawowych aspektach: Larrabee korzysta z zestawu instrukcji zgodnego z x86 i posiada rozszerzenia specyficzne dla swojej platformy Larrabee zapewnia spójność pamięci podręcznej (cache) dla wszystkich swoich rdzeni.

Larrabee a inne GPU Różnią się w trzech podstawowych aspektach: Larrabee korzysta z zestawu instrukcji zgodnego z x86 i posiada rozszerzenia specyficzne dla swojej platformy Larrabee zapewnia spójność pamięci podręcznej (cache) dla wszystkich swoich rdzeni Larrabee zawiera bardzo mało komponentów sprzętowo obsługujących specyficzne dla grafiki zadania

Larrabee a inne GPU Różnią się w trzech podstawowych aspektach: Larrabee korzysta z zestawu instrukcji zgodnego z x86 i posiada rozszerzenia specyficzne dla swojej platformy Larrabee zapewnia spójność pamięci podręcznej (cache) dla wszystkich swoich rdzeni Larrabee zawiera bardzo mało komponentów sprzętowo obsługujących specyficzne dla grafiki zadania Z-buffering, cliping, blending są rozwiązywane w zamian programowo z użyciem tile rendering.

Tile Rendering Tile Rendering to technika generowania dużych obrazów w małych częściach. Dzięki temu zajmowane jest mniej pamięci Rdzenie Larrabee mogą generować każdą płytkę równolegle

Możliwości Larrabee Dzięki swojej elastyczności chip Intela umożliwia wykonywanie w czasie rzeczywistym wielu operacji, których przeliczenie nie jest możliwe na innych GPU. Render target read Order-independent transparency Irregular shadow mapping Real-time raytracing

Order-Independent Transparency

Irregular Shadow Mapping

Real-Time Raytracing

Larrabee a inne CPU Bazują na projekcie P54C Pentium dla systemów wbudowanych. Są superskalarne, ale bez mechanizmu out-of-order execution. Dzięki temu zajmują mniej miejsca.

Superskalarność To technika umożliwiająca ukończenie kilku instrukcji w pojedynczym cyklu. Jest to możliwe dzięki zwielokrotnienie jednostek wykonawczych.

Larrabee a inne CPU Bazują na projekcie P54C Pentium dla systemów wbudowanych. Są superskalarne, ale bez mechanizmu out-of-order execution. Dzięki temu zajmują mniej miejsca.

Larrabee a inne CPU Bazują na projekcie P54C Pentium dla systemów wbudowanych. Są superskalarne, ale bez mechanizmu out-of-order execution. Dzięki temu zajmują mniej miejsca. Każdy rdzeń zawiera 512-bitową jednostkę SIMD, co daje 16-elementowe wektory floatów przetwarzane jednocześnie.

SIMD SIMD Single Instruction Multiple Data SSE to technologia, która umożliwia wykonanie jednej instrukcji na całym wektorze danych w tym samym czasie Długość wektora w x86 to 4 W Larrabee wynosi 16

Larrabee a inne CPU Bazują na projekcie P54C Pentium dla systemów wbudowanych. Są superskalarne, ale bez mechanizmu out-of-order execution. Dzięki temu zajmują mniej miejsca. Każdy rdzeń zawiera 512-bitową jednostkę SIMD, co daje 16-elementowe wektory floatów przetwarzane jednocześnie.

Larrabee a inne CPU Bazują na projekcie P54C Pentium dla systemów wbudowanych. Są superskalarne, ale bez mechanizmu out-of-order execution. Dzięki temu zajmują mniej miejsca Każdy rdzeń zawiera 512-bitową jednostkę SIMD, co daje 16-elementowe wektory floatów przetwarzane jednocześnie Posiada jednostkę teksturującą, która wykonuje filtrowanie trójliniowe i anizotropowe oraz dekompresję tekstur

Larrabee a inne CPU Bazują na projekcie P54C Pentium dla systemów wbudowanych. Są superskalarne, ale bez mechanizmu out-of-order execution. Dzięki temu zajmują mniej miejsca Każdy rdzeń zawiera 512-bitową jednostkę SIMD, co daje 16-elementowe wektory floatów przetwarzane jednocześnie Posiada jednostkę teksturującą, która wykonuje filtrowanie trójliniowe i anizotropowe oraz dekompresję tekstur Wykorzystuje 1024-bitową magistralę do komunikacji między rdzeniami i pamięcią

Larrabee a GMA GMA to układy o niskim koszcie produkcji i małym poborze mocy

Larrabee a GMA GMA to układy o niskim koszcie produkcji i małym poborze mocy Idealne do laptopów i mało wymagających zadań

Intel GMA

Larrabee a GMA GMA to układy o niskim koszcie produkcji i małym poborze mocy Idealne do laptopów i mało wymagających zadań

Larrabee a GMA GMA to układy o niskim koszcie produkcji i małym poborze mocy Idealne do laptopów i mało wymagających zadań Larrabee to GPU oddzielne od płyty głównej

Larrabee a GMA GMA to układy o niskim koszcie produkcji i małym poborze mocy Idealne do laptopów i mało wymagających zadań Larrabee to GPU oddzielne od płyty głównej Osobny od GMA zespół tworzący Larrabee

Larrabee a GMA GMA to układy o niskim koszcie produkcji i małym poborze mocy Idealne do laptopów i mało wymagających zadań Larrabee to GPU oddzielne od płyty głównej Osobny od GMA zespół tworzący Larrabee Odrębna grupa ludzi pisząca sterowniki i oprogramowanie

Wydajność Larrabee

Wydajność Larrabee 32 rdzenie x 16-elementowy wektor dla jednostki SSE x 2 FLOP (jednoczesne mnożenie i dodawanie) x 2GHz

Wydajność Larrabee 32 rdzenie x 16-elementowy wektor dla jednostki SSE x 2 FLOP (jednoczesne mnożenie i dodawanie) x 2GHz 2 TFLOPS