Projektowane systemów nformatycznych System nformatyczny (SI) System oprogramowana (software) Program1 Program2... ProgramN PC Platforma sprzętowa (hardware) K P DSP FPGA ASIC Archtektura systemu SISD GPU SIMD MISD MIMD
Wstęp. Możlwośc technolog VLSI Osągnęca technolog VLSI jej wpływ na archtektury metody projektowana systemów komputerowych ( nformatycznych) Wymagana rynku wobec systemów komputerowych (SK): wzrost wydajnośc; wzrost wymagań dot. mocy poberanej przez SK; coraz wększe wykorzystane systemów wbudowanych (meszanych systemów analogowo-cyfrowych); zwększene jakośc projektowana SK. 2
Wstęp. Możlwośc technolog VLSI Nowoczesna technologa VLSI: 0,09 m ponad 80 mln bramek w 1 układze scalonym 0,065 m ponad 150 mln bramek/układ (ponad 500 mln tranzystorów) 0,045 m=45nm ponad 10 9 (mlard) tranzystorów możlwość umeszczena całego systemu w jednym układze SoC (System-on-Chp) Podstawowy problem: Zagospodarowane tak ogromnych resursów sprzętowych uwzględnając ogranczena: na poberaną moc oraz na czas projektowana z zachowanem wymaganej wydajnośc 3
Dlaczego warto? (tworzyć SoC) SoC frmy Texas Instruments dla telefon komórkowej technologa DRP -90nm cyfrowe analogowe układy radowe procesor DSP układy sterowana zaslanem układy pomocncze 4
W = 25 Dlaczego warto? (tworzyć SoC) c.d. mnaturyzacja pole kontaktowe nezawodność ( pad ) obnżene poboru mocy P~(U 2, f, C) W = 1 V DD zmnejszene lczby osobnych kontaktowe ( pad ) układów scalonych Gnd W = 5 V DD Gnd V DD pole zmnejszene lczby Gnd ln sygnałowych ch pojemnośc zwększene częstotlwośc zegara f~(1/c) elmnacja welu buforów I/O obnżene kosztów produkcj jednolty cykl procesów produkcyjnych 5
Projektowane jednoukładowych SK Co robć z 1 mlardem tranzystorów? Jaką platformę sprzętową wybrać? Jaka archtektura systemu będze najbardzej efektywna? Jak podzelć zadana (funkcje) systemu pomędzy software hardware? 6
Projektowane jednoukładowych SK, c.d. Wymagana rynku wobec systemów komputerowych: wzrost wydajnośc; zmnejszene pobóru mocy; Intel Core 2 Duo Extreme Edton X6800-2,93 GHz, FSB 1066 MHz, 4 MB L2 Cache, 75 W Intel Core 2 Extreme Quad QX6700-2,66 GHz, 286 mm2, 582 mln tranzystorów, 130 W równoległe przetwarzane danych specjalstyczna platforma sprzętowa stosowane nowoczesnych technolog VLSI 7
Projektowane jednoukładowych SK, c.d. Ogranczena stare wobec projektów SK: Moc jest za darmo, tranzystory są droge; Zaps (odczyt) danych jest szybk, mnożene jest wolne; Zwększene wydajnośc poprzez zwększene częstotlwośc zegara oraz wprowadzene równoległośc na pozome nstrukcj - IPL (za pomocą rozbudowanego komplatora przewdywane skoków, zmana kolejnośc wykonana rozkazów, td.) Ogranczena obecne wobec projektów SK: Tranzystory są za darmo, moc jest droga (PowerWall); Mnożene jest szybke, zaps/odczyt danych jest wolny (MemoryWall) ; Zwększene wydajnośc poprzez wprowadzene równoległych jednostek przetwarzających (multcore processors, processor arrays and parallel algorthms) (IPLWall). 8
Projektowane SK Power Wall 9
Projektowane SK Power Wall, c.d. Prawo Moore a: wydajność pojedynczego procesora podwaja sę co 18 mesęcy już ne dzała!!! 10
Projektowane SK nowe platformy sprzętowe Wymagana wobec projektów systemów komputerowych: wzrost wydajnośc; zmnejszene poboru mocy; równoległe przetwarzane danych specjalstyczna platforma sprzętowa stosowane nowoczesnych technolog VLSI 11
Projektowane SK główna dea przyspeszena: równoległość potokowość 12
Nowe platformy sprzętowe: GPU FPGA Graphcs Processng Unts (GPU Nvda, AMD, Intel, ) Intel Larrabee NVda GeForce (Tesla) Układy FPGA (Altera, Xlnx, ) 13
Nowe platformy sprzętowe: GPU FPGA GPGPU General Purpose computng on Graphcs Graphc Processng Processor Unts Unt (Nvda, AMD, Intel, ) 14
Nowe platformy sprzętowe: budowa CPU Intel a GPU NVda 15
Nowe platformy sprzętowe: CPU Intel a GPU NVda Zalety GPU: Wększy stosunek wydajność/powerzchna_układu; Wększy stosunek wydajność/pobór_mocy (Równoległość jest bardzej energetyczne efektywną formą zwększena wydajnośc nż podnoszene częstotlwośc zegara); Prostsze zarządzane energą (zaslanem poszczególnych fragmentów układu); Mnejsza cena defektów w układze; Szybsze łatwejsze projektowane weryfkacja 16
Budowa uproszczona GPU Nvda GeForce 17
NVda CUDA programowane, zastosowane 18
NVda CUDA programowane, zastosowane (c.d.) wykorzystane GPU CUDA w narzędzach programstycznych znanych frm (np. Adobe Photoshop); rozszerzene języka C++ (C for CUDA); darmowy komplator C sterownk (drver) wspołpracujacy z OpenGL DrectX; bblotek przyklady na CUDA Zone 19
Porównane maksymalnej wydajnośc GPU NVda a CPU Intel: 20
Hybryda: Intel Larrabee Podstawa Multtreaded Wde SIMD Processors: zmodyfkowane ( uproszczone) P Pentum; Larrabee - to hybryda zawerająca w sobe najlepsze cechy CPU GPU; możlwość uruchomena zwyczajnego kodu x86; 1024-btowa magstrala, 64-btowe dane. 21
Zasoby nowoczesnych układów FPGA rekonfgurowalny programowo układ (<1s); ponad 1000rekonfgurowalnych komórek; wbudowane szybke (ponad 500 MHz) blok mnożena stałoprzecnkowego 18x24 btów z akumulatoram 48-btowym; wbudowane blok pamęc RAM /lub FIFO (18Kb każdy); dowolna szerokość format przetwarzanych danych; przecętny pobór mocy 20-30W. 22
Wydajność FPGA Źródło: Magnus Peterson. FPGA Acceleraton for outstandng performance Challenges and Opportuntes. PPAM-2009 2009 Synectve Labs AB 23
FPGA jako koprocesor w SK Źródło: Magnus Peterson. FPGA Acceleraton for outstandng performance Challenges and Opportuntes. PPAM-2009 2009 Synectve Labs AB 24
Płyta główna z 2xCPU Opteron oraz 2xFPGA Źródło: Magnus Peterson. FPGA Acceleraton for outstandng performance Challenges and Opportuntes. PPAM-2009 2009 Synectve Labs AB 25
Sposoby zwększena jakośc projektowana - nowoczesne tendencje w projektowanu SoC Tendencje w projektowanu: wykorzystane gotowych projektów dla wększośc podukładów systemu (IPcore); hardware-software codesgn; zautomatyzowane procesu projektowana na wszystkch pozomach (szczególne na pozome strukturalnym); realzacja technologcznych wysp (nna technologa, napęce zaslana, częstotlwość zegara, td.); równoległe przetwarzane danych; mnmalzacja poboru mocy na pozomach projektowana strukturalnym logcznym. IP Core Generator Generc values 1 Generc values 2 Generc values 3 Formy IP-core : Hard-core (pozom topograf układu); Frm-core (pozom netlsty, np. format EDIF) Soft-core (pozom VHDL) 26
Nowoczesne tendencje w projektowanu SoC: (IP-core) Formy IP-core : Hard-core (pozom topograf układu); Frm-core (pozom netlsty, np. format EDIF) Soft-core (pozom HDL) 27
Nowoczesne tendencje w projektowanu SoC (codesgn) Tendencje w projektowanu: wykorzystane gotowych bloków ( komponentów IP-core); hardware-software codesgn; zautomatyzowane procesu projektowana na wszystkch pozomach (szczególne na pozome strukturalnym); realzacja technologcznych wysp-obszarów (nna technologa, napęce zaslana, częstotlwość zegara, td.); równoległe przetwarzane danych; mnmalzacja poboru mocy na pozomach projektowana strukturalnym logcznym. Cechy charakterystyczne: równoczesne projektowane częśc sprzętowej programowej systemu; proces teracyjny; cągła współpraca zespołów projektowych; odnalezene właścwego podzału funkcj systemu na 2 zbory: realzowane sprzętowo programowo; wykorzystane obszarów reprogramowalnych. 28
Nowoczesne tendencje w projektowanu SoC (automatyzacja) Tendencje w projektowanu: wykorzystane gotowych bloków ( komponentów IP-core); hardware-software codesgn; zautomatyzowane procesu projektowana na wszystkch pozomach (szczególne na pozome strukturalnym); realzacja technologcznych wysp-obszarów (nna technologa, napęce zaslana, częstotlwość zegara, td.); równoległe przetwarzane danych; mnmalzacja poboru mocy na pozomach projektowana strukturalnym logcznym. Automatyzacja projektowana na pozomach logcznym nższych: dobrze opracowane podstawy metodologczne; szerok wybór środowsk CAD; projektowane weryfkacja są bardzo czasochłonne. Projektowane strukturalne: szybsze projektowane; znaczne szybsza weryfkacja projektu; brak efektywnych metod projektowana środowsk CAD. 29
Nowoczesne tendencje w projektowanu SoC (wyspy technologczne) Tendencje w projektowanu: wykorzystane gotowych bloków ( komponentów IP-core); hardware-software codesgn; zautomatyzowane procesu projektowana na wszystkch pozomach (szczególne na pozome strukturalnym); realzacja technologcznych wysp-obszarów (nna technologa, napęce zaslana, częstotlwość zegara, td.) w tym obszarów reprogramowalnych; równoległe przetwarzane danych; mnmalzacja poboru mocy na pozomach projektowana strukturalnym logcznym. Zalety: możlwość ntegracj różnych komponentów hard -core na jednym podłożu; mnmalzacja poboru mocy poprzez tworzene wysp z różnym napęcem zaslana o różnej strukturze (np. RAM); Realzacja obszarów reprogramowalnych: wększa funkcjonalność nezawodność układu; możlwość modyfkacj; ułatwene procesu projektowana; zmnejszene poboru mocy 30
Nowoczesne tendencje w projektowanu SoC (przetwarzane równoległe) Tendencje w projektowanu: wykorzystane gotowych bloków ( komponentów IP-core); hardware-software codesgn; zautomatyzowane procesu projektowana na wszystkch pozomach (szczególne na pozome strukturalnym); realzacja technologcznych wyspobszarów (nna technologa, napęce zaslana, częstotlwość zegara, td.); równoległe przetwarzane danych; mnmalzacja poboru mocy na pozomach projektowana strukturalnym logcznym. Zalety przetwarzana równoległego: zapewnene pożądanej wydajnośc systemu; mnejsza aktywność A przełączeń bramek w układze /lub mnejsza częstotlwość zegara systemowego. P~(U 2, f, C, A) f~(1/c) Mnmalzacja poboru mocy na pozome logcznym: wybór właścwych IP-core; sterowane częstotlwoścą zegara w poszczególnych blokach systemu; mnmalzacja długośc połączeń w układze. 31
4 3 2 1 4 3 2 1 Przykład. Realzacja szeregowa operacj bazowej FFT (o podstawe 2 z podzałem w czase) nr taktu ImC ImC ReC ReC -- -- ImB ReB 4 3 2 1 Blok sterowana... ReW ImW ImW ReW MUX MUX SM ± SM ± A A+1 Re A B C Im A Re B Im B W ReC ReC ReW ImC ImW ImC A A +1 ImW ReW Re A 1 Re B ReC ReW ImC ImW Im A 1 Im B ReC ImW ImC ReW Parametry operacj bazowej 4 operacje mnożena; 8 operacj dodawana; Parametry urządzena: 1 blok mnożący; 2 sumatory; czas oblczeń - 4 takty. ReW ReC BS ImW ImC... ReB MUX MUX ImB MUX MUX MUX SM ± SM ± A A + 1 32
ReW ReC BS Przykład (c.d.): Realzacja równoległa operacj bazowej FFT (przetwarzane równoległe)... ImW ImC ReB MUX MUX ImB MUX MUX MUX SM ± SM ± A A +1 P~(U 2, f, C, A) Parametry urządzena szeregowego: 1 blok mnożący; 2 sumatory ( + ); 10 rejestrów; 5 multplekserów; blok sterowana (7 wyjść); czas oblczeń - 4 takty. ReC ReB ImW ImB Parametry urządzena równoległego: 4 blok mnożące; 8 sumatorów ( + lub ); 10 rejestrów; czas oblczeń - 1 takt. ReW SM SM SM SM ImC SM SM SM SM ReA ReA+1 ImA ImA+1 33
Ogranczena nowoczesnej technolog VLSI spowodowane efektam fzycznym Technologe 0,18 m 0,13 m 90nm 65nm: wzrost rezystancj ln (śceżek) łączących bramk; wzrost pojemnośc C mędzy sąsednm lnam; zmnejszene napęca zaslana (nawet ponżej 1V). 2l 2l śceżk na warstwe metalzacj 2l 2l 2l 2l C C 34
Ogranczena nowoczesnej technolog VLSI spowodowane efektam fzycznym (c.d.) relatywne zmnejszene częstotlwośc pracy systemu Negatywne skutk stosowana zaawansowanych technolog VLSI: relatywny wzrost opóźnena sygnałów w lnach; wzrost prawdopodobeństwa powstana zakłóceń w pracy systemu relatywny wzrost wzajemnego oddzaływana sygnałów; wzrost różncy pozomu sygnału na początku końcu ln. WYNIK. Dodatkowe wymagane do projektantów SoC stosowane zasady lokalnośc regularnośc połączeń 35
Projektowane systemów SoC Wybór typu archtektury systemu SoC: lokalność regularność połączeń wewnętrznych; realzacja w obszarze reprogramowalnym układu scalonego; regularne algorytmy przetwarzana danych; równoległe przetwarzane danych. Wynk: Archtektury macerzy procesorowych Najwększy współczynnk wydajność/złożoność sprzętowa wśród równoległych archtektur nnych typów Istneją teoretyczne podstawy systematycznego projektowana MP (metody odwzorowana algorytmów regularnych) 36
Przykładowe archtektury macerzy procesorowych 37
Przykładowe archtektury macerzy procesorowych m =1 m =2 m =2 5 1 2 6 0 7 3 1 6 0 9 2 8 3 38
Zagadnena podstawowe wykładu projektu : opracowane programów równoległych (wykład); zapoznane sę ze sposobam projektowana potokowych jednostek przetwarzających dla systemów SoC (wykład); zapoznane sę z analtycznym metodam projektowana równoległych jednostek przetwarzających dla systemów SoC na pozome strukturalnym (wykład); realzacja praktyczna (w tym komputerowa) w/w metod (projekt zespołowy). Założene wstępne : podstawowym archtekturam jednostek przetwarzających dla systemów SoC są archtektury macerzy procesorowych. 39