Metody, alternatywne metodzie wielofrontalnej

Podobne dokumenty
Metody, alternatywne metodzie wielofrontalnej

Rozwiązanie układów równań liniowych algebraicznych dla macierzy rzadkich: metody bezpośrednie

Rozwiązanie układów równań liniowych algebraicznych dla macierzy rzadkich: metody bezpośrednie

BLOKOWA WIELOFRONTALNA METODA PODSTRUKTUR DO ROZWIĄZYWANIA DUśYCH UKŁADÓW RÓWNAŃ MES

Metody uporządkowania

Metody uporządkowania

Sposoby tworzenia uwarunkowania wstępnego dla metody gradientów sprzężonych

MESco. Testy skalowalności obliczeń mechanicznych w oparciu o licencje HPC oraz kartę GPU nvidia Tesla c2075. Stanisław Wowra

Dr inż. hab. Siergiej Fialko, IF-PK,

WIDEOS O ER E WER E ÓW

Serwer biznesowy o podwójnym zastosowaniu moc obliczeniowa i pamięć masowa w jednej obudowie

Dom Oprogramowanie Sprzęt komputerowy Benchmarki Usługi Sklep Wsparcie Forum Strona główna CPU Benchmarki»procesory

Nazwa sprzętu Parametry Opis uszkodzenia Cena 1. Zestaw komputerowy CDN-PBV/7/2/09(1)

Architektura komputerów

Parametry techniczne. Testy

RDZEŃ x86 x86 rodzina architektur (modeli programowych) procesorów firmy Intel, należących do kategorii CISC, stosowana w komputerach PC,

Arkusz1. Wyniki Passmark CPU Mark z dn. 19 czerwca 2012 r.

ZAPYTANIE OFERTOWE NR 6

System pamięci. Pamięć wirtualna

WYKAZ NOTEBOOKÓW I TABLETÓW W DOSTAWIE SUKCESYWNEJ

System obliczeniowy laboratorium oraz. mnożenia macierzy

Procesory wielordzeniowe (multiprocessor on a chip) Krzysztof Banaś, Obliczenia wysokiej wydajności.

Dom Oprogramowanie Sprzęt komputerowy Benchmarki Usługi Sklep Wsparcie Forum Strona główna» CPU Benchmarki»procesory

Budowa komputera. Magistrala. Procesor Pamięć Układy I/O

Architektury komputerów Architektury i wydajność. Tomasz Dziubich

Bajt (Byte) - najmniejsza adresowalna jednostka informacji pamięci komputerowej, z bitów. Oznaczana jest literą B.

System 32-Bit 1: Microsoft Windows 7 Home Premium 2;, Professional, Ultimate, Enterprise Microsoft Windows 8/8.1, Pro, Enterprise 2;

Test dysku Intel SSD DC S GB. Wpisany przez Mateusz Ponikowski Wtorek, 22 Październik :22

Zainstalowany AutoCAD w pełnej wersji najlepiej Civil lub MAP 2007 lub wyższej.

Budowa komputera. Magistrala. Procesor Pamięć Układy I/O

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

27. oc, 2o/p. ' ",r GIl!. Strona 1 DZIUI Za.F.H;Wlen Publtoz ch STA~Y SPECJAL TA

Obliczenia równolegle w architekturze SMP

Szybka wielobiegunowa metoda elementów brzegowych w analizie układów liniowosprężystych

PRZETWARZANIE RÓWNOLEGŁE I ROZPROSZONE. Mnożenie macierzy kwadratowych metodą klasyczną oraz blokową z wykorzystaniem OpenMP.

Komputer DELL Optiplex 990 w obudowie MT (Midi Tower) Intel Core i x 3,4 GHz / 8 GB / 500 GB / DVD-RW / Windows 7 Professional

Sprzęt komputerowy 2. Autor prezentacji: 1 prof. dr hab. Maria Hilczer

Weryfikowana konfiguracja stanowiska roboczego: Lista weryfikowanych poprawek systemu operacyjnego:

Programowanie Rozproszone i Równoległe

(KB958690) Aktualizacje zabezpieczeń systemu Windows 7 (KB ) Aktualizacje zabezpieczeń :34 3 KB975467

Wysokowydajna implementacja kodów nadmiarowych typu "erasure codes" z wykorzystaniem architektur wielordzeniowych

Opis przedmiotu zamówienia

Procesory. Schemat budowy procesora

SYSTEMY OPERACYJNE WYKŁAD 1 INTEGRACJA ZE SPRZĘTEM

Programowanie Niskopoziomowe

Weryfikowana konfiguracja stanowiska roboczego: Sprzęt:

Komputer Dell 780 w obudowie MT (Mini-Tower) Intel Core 2 Quad Q x 2,83 GHz / 4 GB / 250 GB / DVD-RW / Windows 7 Professional

INSTRUKCJA instalacja landxpert v11

L.p. Poprawka Opis Kategoria Data instalacji

Kinowa Biblioteka Filmowa KINOSERWER. KinoSerwer

Instruction Set Instruction Set Extensions Embedded Options Available. Recommended Customer Price TRAY: $999.00

Konsolidacja i wirtualizacja na platformie IBM Power: najlepszą metodą obniżenia kosztów IT

Komputer DELL Optiplex 3020 MT (Midi Tower) Intel Core i QUAD 4 x 3,4 GHz / 8 GB / 120 GB SSD / DVD-RW / Windows 10 Professional

Komputer Dell Precision T1600 w obudowie Midi Tower (MT) Intel Xeon E x 3,30 GHz / 16 GB / 500 GB / DVD / Windows 7 Professional

Komputer PC Lenovo M57e - Cena netto 2 310,00 zł 1USD = 3,90 zł Kod produktu

Numeryczna algebra liniowa. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1

Wymagania systemowe oraz sposób instalacji systemu Lokale Spis treści

Komputer DELL 3020 w obudowie Tower. Intel Core i x 3,20 GHz / 4 GB / 500 GB / DVD-RW / Windows 10 Pro

Zrównoleglenie i przetwarzanie potokowe

Komputer DELL Optiplex 9010 w obudowie MT (Midi Tower) Intel Core i QUAD 4 x 3,4 GHz / 8 GB / 500 GB / DVD-RW / Windows 7 Professional

Bibliografia: pl.wikipedia.org Historia i rodzaje procesorów w firmy Intel

Komputer Lenovo ThinkStation E30 w obudowie Tower. Intel Xeon E QUAD 4 x 3,3 GHz / 4 GB / 500 GB / DVD-RW / Windows 7 Professional COA

AMD Ryzen recenzja procesora. Wpisany przez Mateusz Ponikowski Piątek, 11 Październik :47

Komputer DELL Optiplex 790 w obudowie SFF (Small Form Factor)

Konsolidacja. OPITZ CONSULTING Kraków

Komputer HP 800 G1 w obudowie SFF (Small Form Factor)

SYSTEMY OPERACYJNE I SIECI KOMPUTEROWE

Sprzęt komputerowy 2. Autor prezentacji: 1 prof. dr hab. Maria Hilczer

Załącznik nr 2A ZADANIE NR 1 OPIS PRZEDMIOTU ZAMÓWIENIA DLA POTRZEB KWP ZS W RADOMIU. Zestaw komputerowy z monitorem do prac biurowych z

SZCZEGÓŁOWY OPIS PRZEDMIOTU ZAMÓWIENIA

SPECYFIKACJA TECHNICZNA (minimalne parametry techniczne)

Komputer stacjonarny DELL Optiplex 7010 MT (Midi Tower) Intel Core i QUAD 4 x 3,4 GHz / 8 GB / HDD 250 GB / DVD-RW / Windows 10 Professional

LAN 10/100/1000 Mbps Wi-Fi a/b/g/n/ac Moduł Bluetooth

System pamięci. Pamięć wirtualna

Weryfikowana konfiguracja stanowiska roboczego: Sprzęt:

OCENA SZYBKOŚCI I EFEKTYWNOŚCI OBLICZEŃ WYBRANYCH SYSTEMÓW KOMPUTEROWYCH W ZAKRESIE OBCIĄŻEŃ IMPULSOWYCH

Architektura Systemów Komputerowych. Rozwój architektury komputerów klasy PC

Komputer Dell 790 w obudowie DT (Desktop Tower) Intel Pentium Dual-Core G620 2 x 2,6 GHz / 4 GB / 250 GB / DVD-RW / Windows 7 Professional

Komputer stacjonarny DELL Optiplex 7010 MT (Midi Tower) Intel Core i QUAD 4 x 3,4 GHz / 8 GB / 120 GB SSD / DVD-RW / Windows 10 Professional

Nowinki technologiczne procesorów

NOTEBOOK - 6 sztuk. PROCESOR Intel Core i5 generacji 7 powyżej 2.5 GHz (tryb Turbo powyżej 3.0 GHz)

Przegląd dostępnych hypervisorów. Jakub Wojtasz IT Solutions Architect

Komputer DELL 7020 w obudowie SFF (Small Form Factor)

Opis Przedmiotu Zamówienia

Podstawy Techniki Mikroprocesorowej wykład 13: MIMD. Dr inż. Jacek Mazurkiewicz Katedra Informatyki Technicznej

CENA BRUTTO ADAXPC ADAX ALFA VBS ,63 ADAXPC ADAX ALFA VBX ,87 ADAXPC ADAX ALFA W7PX ,45

Porównanie wydajności CUDA i OpenCL na przykładzie równoległego algorytmu wyznaczania wartości funkcji celu dla problemu gniazdowego

Komputer HP 8200 w obudowie SFF (Small Form Factor) Intel Pentium Dual-Core G620 2 x 2,6 GHz / 4 GB / 250 GB / DVD / Windows 7 Professional

Wstęp do metod numerycznych Eliminacja Gaussa Równania macierzowe. P. F. Góra

Strojenie systemu Linux pod k¹tem serwera bazy danych Oracle 9i

Systemy operacyjne. Systemy operacyjne. Systemy operacyjne. Zadania systemu operacyjnego. Abstrakcyjne składniki systemu. System komputerowy

INSTRUKCJA INSTALACJI

DZIERŻAWA I KOLOKACJA SERWERÓW DEDYKOWANYCH

Obliczenia równoległe w zagadnieniach inżynierskich. Wykład 6

Opis za pomocą wymagań funkcjonalnych. Metody określania wydajności komputerów osobistych. Tomasz Hodakowski Intel Warszawa, 11/12/2007

Studia II stopnia. studia stacjonarne. wspólny dla kierunku. Zakład Fizyki Jądrowej

Komputer HP Compaq 6000 Pro w obudowie MT (Midi Tower) Intel Pentium Dual-Core E x 2,93 GHz / 4 GB / 250 GB / DVD-RW / Windows 7 Professinal

Komputer Dell Optiplex 755 w obudowie DT (Desktop) Intel Pentium E x 2,0 GHz / 2 GB / 160 GB / DVD / Windows XP Professional

MAGISTRALE ZEWNĘTRZNE, gniazda kart rozszerzeń, w istotnym stopniu wpływają na

Wymagania systemowe Dla przedsiębiorstw i średnich firm

Transkrypt:

Metody, alternatywne metodzie wielofrontalnej Zalety. Metoda wielofrontalna oszczędnie pracuje z pamięcią główną, nadaje się do wirtualizacji jeśli rozmiar zadania przekracza możliwości pamięci głównej, dane, przeznaczone dla przechowywania macierzy poprawek, mogą być zapisane na dysk. Oprócz tego, bloki, zawierające części macierzy sfaktoryzowanej, też mogą być wyładowane na dysk. Wady. Metoda wielofrontalna wykonuje dużo transferów danych z jednego obszaru pamięci do innego, nawet jeśli zadanie mieści się w pamięci głównej. Występuje to przy kopiowaniu kompletnie sfaktoryzowanej części macierzy frontalnej, przy agregowaniu kolejnej macierzy frontalnej itd.

Metody, alternatywne metodzie wielofrontalnej Takie operacji należą do procedur niskiej wydajności, oprócz tego dla komputerów z pamięcią wspólną procedury kopiowania są przyspieszone bardzo słabo przy zwiększeniu ilości wątków. Obniża to wydajność solwerów wielofrontalnych oraz ich speed up. Powstaje interes do rozwinięcia metod alternatywnych, orientowanych w pierwszej kolejce na komputery wielordzeniowe.

PARDISO (Intel Math Kernel Library) Ograniczymy się rozważaniem solwera PARDISO dla macierzy symetrycznych, mających niezerowe elementy diagonalne. To są typowe macierzy sztywności MES dla zadań mechaniki ciała sztywnego oraz mechaniki konstrukcji. Takie macierzy nie wymagają wykonania permutacji w trakcie faktoryzacji numerycznej, ponieważ na każdym kroku wiodącym elementem służy odpowiedni element diagonalny. Liczne testy świadczą o to, że PARDISO wykazuje znacznie większą wydajność oraz speedup na komputerach wielordzeniowych w porównaniu do solwera wielofrontalnego. Formalnie PARDISO ma tryb OOC (out-of-core), jednak dla dużych zadań ten tryb nie działa.

PARFES Posłużyło to motywacją do opracowania solwera PARFES (Parallel Finite Element Solver), który o w trybie core mode (CM) powinien wykazywać wydajność i speedup, porównywalny do PARDISO o jeśli rozmiar zadania przekracza możliwości pamięci głównej, solwer powinien automatycznie przejść do trybu OOC podłączyć dysk. Nawet w trybie OOC solwer powinien wykazywać stabilny speedup.

Przykład ramy płaskiej Rama płaska Graf przyległości dla węzłów modelu obliczeniowego przed uporządkowaniem

Przykład ramy płaskiej Graf przyległości po uporządkowaniu algorytmem MDA w wersji MMD. Podparte węzły są oznaczone linią przerywaną. 12 11 10 9 8 7 6 4 2 Niezerowa struktura macierzy rzadkiej po wykonaniu uporządkowania i faktoryzacji symbolicznej

Trzeba podzielić macierz rzadką na prostokątne gęste bloki w taki sposób, żeby dołożyć minimalną ilość elementów zerowych technika superwęzłowa 2 4 6 7 8 9 10 11 12 6 2, 4 7, 8 9, 10, 11, 12 12 11 10 9 8 7 6 4 2 Drzewo eliminacji, drzewo superwęzłowe

Przygotowanie specjalnych struktur danych dla przechowywania prostokątnych gęstych podmacierzy Diagonal block Nonzero entries Zero entries Typical structure of block column

Faktoryzacja blokowa looking left jb ib= jb ib kb jb kolumna blokowa, która jest sfaktoryzowana na podanym kroku. Przed faktoryzacją powinna być poprawiona przez kolumny, umieszczone zlewa.

Faktoryzacja blokowa looking left [3] 1. if(core mode) przygotuj kolumną blokową jbϵ [1, N b ] 2. do jb = 1, N b 3. if(ooc OOC1) przygotuj kolumną blokową jb 4. Równoległe poprawienie kolumny jb: A T ib, jb Aib, jb Aib, kb Skb A kb List [ jb] = jb, kb ; ib jb, ib L 5. Faktoryzacja kolumny blokowej jb: A T jb, jb = L jb, jb S jb L jb, jb L S L = A T T jb, jb jb ib, jb ib, jb ib, jb L ;

Faktoryzacja blokowa looking left if(ooc OOC1) zapisz kolumnę blokową jb na dysk i zwolni RAM dla wiersza blokowego ib = jb. 6. Dodaj jb do List[lb], lb > jb, jeśli kolumna jb poprawia kolumnę lb. 7. end do.

Rzutowanie bloków A ib,kb na wątki [3]: kb 1 3 6 9 12 W ib = M kb LDA kb,ib kb kb 12 13 ip = 2; W 12 ip = 3; W 13 ib LDA kb,ib 14 15 16 17 18 19 20 21 22 ip = 1; W 15 ip = 3; W 16 ip = 1; W 18 ip = 2; W 19 ip = 0; W 20 ip = 0; W 22 M kb Sort: W 22 > W 15 > W 12 > W 13 > W 20 > W 18 > W 19 > W 16

Rzutowanie bloków A ib,kb na wątki [3]: o Defines the sum of weights: W ib = M kb LDA ib, kb kb kb o Descending sort of sum of weights o ip [ 0,1, K, Pr ocnumb 1] sumofweights[ ip] = 0 ib L jb o find min_ip ϵ[0, 1,, ProcNumb-1] (sumofweights[min_ip] is minimal) o sumofweights[min_ip] += W ib ; thread_numb[ib] = min_ip kb o end loop over ib o o kb Link[ jb] ib L kb (loop over kb) (loop over ib) o Q[thread_numb[ib] ] (A ib,kb ;A jb,kb ;kb)(put to queues Q[ip]) o end loops over ib, kb

Równoległe poprawienie kolumny blokowej jb o # pragma omp parallel ( ip ϵ [0, ProcNumb-1]) o o o o while(q[ip] is not empty) A ib,kb ; A jb,kb Q[ip]; Q[ip] (Q[ip] /(A ib,kb ; A jb,kb ; kb)) A end while = A A S A T ib, jb ib, jb ib, kb kb jb, kb ; o end of parallel region

Wirtualizacja [3] Tryb OOC włącza się automatycznie, jeśli rozmiar zadania przekracza możliwości RAM. Ten tryb doprowadzi do minimalnej ilości odwołań do dysku. Stored to disk and free jb Never allocated Allocated in RAM

Wirtualizacja Tryb OOC1 włącza się automatycznie, jeśli rozmiar zadania przekracza możliwości trybu OOC. Ilość odwołań do dysku istotnie się zwiększa, jednak powstaje możliwość rozwiązywać duże zadania na komputerach z małą pamięcią RAM. Stored to disk and free jb Never allocated Allocated in RAM

Wyniki numeryczne Zadanie schema_new_1, 3 198 609 równań

Wyniki numeryczne Tabela 3. Trwałość etapów rozwiązania zadania schema_new_1 problem (3,198,609 equations) na komputerze z procesorem a Core 2 Quad [3] Method NonZer Analysis, s Numerical factorization, s Solution phase, s Comment s (L), MB Number of processors Number of proc. 1 2 3 4 1 4 PARFES (ООС) 12 186 23.6 1 190 802 594 475 804 526 X64 PARDISO(ООС) 10 662 61.4 Numer. factorization phase: error = -11 X64 BSMFM (OOC) 10 869 9.0 2 011 1 482 1 286 1 232 497 64

Wyniki numeryczne: tryb OOC [3] 4 3 Sp=T1/Tp 2 1 0 0 1 2 3 4 PARFES BSMFM ideal Number of processors Zadanie Schema_new_1 na komputerze z procesorem Core 2 (numerical factorization phase)

Sp = T1/Tp 4 3 2 1 ideal PARFES OOC1 PARFES OOC PARFES CM Wyniki numeryczne 32 453 MFLOPS 12 186 MB RAM 22 898 MFLOPS 2 995 MB RAM 8 610 MFLOPS 706 MB RAM 0 0 1 2 3 4 number of processors Zadanie Schema_new_1 problem na komputerze z procesorem AMD Phenom II 4 995 (numerical factorization phase), RAM - 16 GB

Wyniki numeryczne Tab. 8. Trwałość etapu faktoryzacji zadania schema_new_1 (3,198,609 równań), stacja robocza DELL z dwoma procesorami Intel Xeon X5660 @ 2.8 GHz /3.2 GHz (12 cores), RAM 24 GB, DDR3, Core mode, platform 64 No s of proc. PARFES PARDISO BSMFM Anal., s Num. Fact., s Anal., s Num. Fact., s Anal., s Num. Fact., s 1 16.9 654 31.06 596 13 1406 2 16.9 337.8 23.59 305.3 13 1015 3 16.9 232.1 25.33 208.6 13 869 4 16.9 177.9 23.26 163.3 13 793 5 16.9 145.7 23.79 135.7 13 786 6 16.9 125.6 25.68 116 13 777 7 16.9 110.6 23.11 100.9 13 772 8 16.9 100.5 23.43 90.83 13 807 9 16.9 92.5 23.98 83.85 13 770 10 16.9 86.3 23.71 79.6 13 796 11 16.9 82.1 29.86 77.36 13 825 12 16.9 87.5 28.58 78.45 13 839

12 10 id-tb-fun ideal ideal-tb PARFES PARDISO BSMFM Wyniki numeryczne 12*2.8/3.2 8 Sp = T1/Tp 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 11 12 number of processors Zadanie Schema_new_1 na komputerze z procesorami Intel Xeon X5660 @ 2.8 GHz /3.2 GHz (numerical factorization phase) - CM

Wyniki numeryczne Notebook Toshiba Satellite: Processor: Intel Pentium Dual CPU T3200 @ 2.00 GHz Cache: L1: 32 KB, L2: 1024 KB RAM: DDR2 667 MT/s 4 GB Chipset: Intel GL40 rev. 07 OS Windows Vista TM Business (64-bit), Service Pack 2 Application ia32 OOC1 mode 2 threads Analysis : 26 s Assembling : 196 s = 3 16 Numerical factoring : 3 111 s = 51 51 Forward/Back reduction : 1 194 s = 19 54 Total time : 4 532 s = 75 32

REFERENCES 1. Amestoy PR, Duff IS, L Ecellent J-Y. Multifrontal parallel distributed symmetric and unsymmetric solvers. Comput. Meth. Appl. Mech. Eng., 184: 501 520, 2000. 2. Dobrian F, Pothen A. Oblio: a sparse direct solver library for serial and parallel computations. Technical Report describing the OBLIO software library, 2000. 3. Fialko S. PARFES: A method for solving finite element linear equations on multi-core computers. Advances in Engineering software. v 40, 12, 2010, pp. 1256 1265. 4. Fialko S. The block substructure multifrontal method for solution of large finite element equation sets. Technical Transactions, 1-NP, issue 8: 175 188, 2009. 5. Fialko S. The direct methods for solution of the linear equation sets in modern FEM software. Moscow: SCAD SOFT, 2009. (in Russian). 6. Schenk O, Gartner K. Two-level dynamic scheduling in PARDISO: Improved scalability on shared memory multiprocessing systems. Parallel Computing 28: 187 197, 2002.