Metody, alternatywne metodzie wielofrontalnej

Podobne dokumenty
Metody, alternatywne metodzie wielofrontalnej

Rozwiązanie układów równań liniowych algebraicznych dla macierzy rzadkich: metody bezpośrednie

Rozwiązanie układów równań liniowych algebraicznych dla macierzy rzadkich: metody bezpośrednie

BLOKOWA WIELOFRONTALNA METODA PODSTRUKTUR DO ROZWIĄZYWANIA DUśYCH UKŁADÓW RÓWNAŃ MES

Metody uporządkowania

Metody uporządkowania

Sposoby tworzenia uwarunkowania wstępnego dla metody gradientów sprzężonych

MESco. Testy skalowalności obliczeń mechanicznych w oparciu o licencje HPC oraz kartę GPU nvidia Tesla c2075. Stanisław Wowra

Arkusz1. Wyniki Passmark CPU Mark z dn. 19 czerwca 2012 r.

Dr inż. hab. Siergiej Fialko, IF-PK,

Dom Oprogramowanie Sprzęt komputerowy Benchmarki Usługi Sklep Wsparcie Forum Strona główna CPU Benchmarki»procesory

Budowa komputera. Magistrala. Procesor Pamięć Układy I/O

Budowa komputera. Magistrala. Procesor Pamięć Układy I/O

SYSTEMY OPERACYJNE WYKŁAD 1 INTEGRACJA ZE SPRZĘTEM

Dom Oprogramowanie Sprzęt komputerowy Benchmarki Usługi Sklep Wsparcie Forum Strona główna» CPU Benchmarki»procesory

Serwer biznesowy o podwójnym zastosowaniu moc obliczeniowa i pamięć masowa w jednej obudowie

System 32-Bit 1: Microsoft Windows 7 Home Premium 2;, Professional, Ultimate, Enterprise Microsoft Windows 8/8.1, Pro, Enterprise 2;

ZAPYTANIE OFERTOWE NR 6

Architektura komputerów

Procesory wielordzeniowe (multiprocessor on a chip) Krzysztof Banaś, Obliczenia wysokiej wydajności.

Home Software Hardware Benchmarks Services Store Support Forums About Us

Obliczenia równolegle w architekturze SMP

MMX i SSE. Zbigniew Koza. Wydział Fizyki i Astronomii Uniwersytet Wrocławski. Wrocław, 10 marca Zbigniew Koza (WFiA UWr) MMX i SSE 1 / 16

System pamięci. Pamięć wirtualna

RDZEŃ x86 x86 rodzina architektur (modeli programowych) procesorów firmy Intel, należących do kategorii CISC, stosowana w komputerach PC,

WIDEOS O ER E WER E ÓW

Instruction Set Instruction Set Extensions Embedded Options Available. Recommended Customer Price TRAY: $999.00

Sprzęt komputerowy 2. Autor prezentacji: 1 prof. dr hab. Maria Hilczer

Bajt (Byte) - najmniejsza adresowalna jednostka informacji pamięci komputerowej, z bitów. Oznaczana jest literą B.

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

Metody Obliczeniowe w Nauce i Technice

Nazwa sprzętu Parametry Opis uszkodzenia Cena 1. Zestaw komputerowy CDN-PBV/7/2/09(1)

WYKAZ NOTEBOOKÓW I TABLETÓW W DOSTAWIE SUKCESYWNEJ

Zainstalowany AutoCAD w pełnej wersji najlepiej Civil lub MAP 2007 lub wyższej.

Opis przedmiotu zamówienia

INSTRUKCJA instalacja landxpert v11

System obliczeniowy laboratorium oraz. mnożenia macierzy

Home Software Hardware Benchmarks Services Store Support Forums About Us

Wysokowydajna implementacja kodów nadmiarowych typu "erasure codes" z wykorzystaniem architektur wielordzeniowych

27. oc, 2o/p. ' ",r GIl!. Strona 1 DZIUI Za.F.H;Wlen Publtoz ch STA~Y SPECJAL TA

Parametry techniczne. Testy

Sprzęt komputerowy 2. Autor prezentacji: 1 prof. dr hab. Maria Hilczer

SZCZEGÓŁOWY OPIS PRZEDMIOTU ZAMÓWIENIA

Weryfikowana konfiguracja stanowiska roboczego: Lista weryfikowanych poprawek systemu operacyjnego:

Podstawy Techniki Mikroprocesorowej wykład 13: MIMD. Dr inż. Jacek Mazurkiewicz Katedra Informatyki Technicznej

Arkusz1. Wyniki CPUbenchmark.net na dzień

Komputer Dell Precision T1600 w obudowie Midi Tower (MT) Intel Xeon E x 3,30 GHz / 16 GB / 500 GB / DVD / Windows 7 Professional

Komputer DELL Optiplex 990 w obudowie MT (Midi Tower) Intel Core i x 3,4 GHz / 8 GB / 500 GB / DVD-RW / Windows 7 Professional

Kinowa Biblioteka Filmowa KINOSERWER. KinoSerwer

Komputer PC Lenovo M57e - Cena netto 2 310,00 zł 1USD = 3,90 zł Kod produktu

(KB958690) Aktualizacje zabezpieczeń systemu Windows 7 (KB ) Aktualizacje zabezpieczeń :34 3 KB975467

L.p. Poprawka Opis Kategoria Data instalacji

Weryfikowana konfiguracja stanowiska roboczego: Sprzęt:

Przegląd dostępnych hypervisorów. Jakub Wojtasz IT Solutions Architect

Szybka wielobiegunowa metoda elementów brzegowych w analizie układów liniowosprężystych

Architektury komputerów Architektury i wydajność. Tomasz Dziubich

Serwery IBM System x i DS3000 jako rozwiązania uzupełniające się

Wykorzystanie architektury Intel MIC w obliczeniach typu stencil

Komputer Dell 780 w obudowie MT (Mini-Tower) Intel Core 2 Quad Q x 2,83 GHz / 4 GB / 250 GB / DVD-RW / Windows 7 Professional

SPECYFIKACJA TECHNICZNA (minimalne parametry techniczne)

DVD MAKER USB2.0 Instrukcja instalacji

Najlepsze drukarki 3D

Product Design Suite. AutoCAD. Mechanical. Showcase. Autodesk. Autodesk. Designer. SketchBook. Autodesk. Mudbox Vault. Autodesk. Ultimate.

Konsolidacja. OPITZ CONSULTING Kraków

Załącznik nr 2A ZADANIE NR 1 OPIS PRZEDMIOTU ZAMÓWIENIA DLA POTRZEB KWP ZS W RADOMIU. Zestaw komputerowy z monitorem do prac biurowych z

PRZETWARZANIE RÓWNOLEGŁE I ROZPROSZONE. Mnożenie macierzy kwadratowych metodą klasyczną oraz blokową z wykorzystaniem OpenMP.

PassMark - CPU Benchmarks - List of Benchmarked CPUs

Komputer DELL Optiplex 3020 MT (Midi Tower) Intel Core i QUAD 4 x 3,4 GHz / 8 GB / 120 GB SSD / DVD-RW / Windows 10 Professional

Konsolidacja i wirtualizacja na platformie IBM Power: najlepszą metodą obniżenia kosztów IT

1. Notebook 14. Producent: ASUS Model: ASUS VivoBook S14 S410. Parametr Parametr graniczny Parametr oferowany - opisać

Kierunek: Informatyka rev rev jrn Stacjonarny EN 1 / 6

Niniejszy załącznik zawiera opis techniczny oferowanego przedmiotu zamówienia.

Załącznik nr 1 do zaproszenia do składania oferty cenowej

Podstawy obsługi komputerów. Budowa komputera. Podstawowe pojęcia

Różne potrzeby? Wiele obliczy kopii zapasowej! Janusz Mierzejewski Presales Consultant- Symantec Poland Sp. z o.o. Rodzina Backup Exec

Komputer DELL 3020 w obudowie Tower. Intel Core i x 3,20 GHz / 4 GB / 500 GB / DVD-RW / Windows 10 Pro

Parametr Parametr graniczny Parametr oferowany - opisać

OCENA SZYBKOŚCI I EFEKTYWNOŚCI OBLICZEŃ WYBRANYCH SYSTEMÓW KOMPUTEROWYCH W ZAKRESIE OBCIĄŻEŃ IMPULSOWYCH

Weryfikowana konfiguracja stanowiska roboczego: Sprzęt:

Komputer DELL Optiplex 9010 w obudowie MT (Midi Tower) Intel Core i QUAD 4 x 3,4 GHz / 8 GB / 500 GB / DVD-RW / Windows 7 Professional

Bibliografia: pl.wikipedia.org Historia i rodzaje procesorów w firmy Intel

DZIERŻAWA I KOLOKACJA SERWERÓW DEDYKOWANYCH

Home Software Hardware Benchmarks Services Store Support Forums About Us

Komputer Lenovo ThinkStation E30 w obudowie Tower. Intel Xeon E QUAD 4 x 3,3 GHz / 4 GB / 500 GB / DVD-RW / Windows 7 Professional COA

Zrównoleglenie i przetwarzanie potokowe

Test dysku Intel SSD DC S GB. Wpisany przez Mateusz Ponikowski Wtorek, 22 Październik :22

PROGRAMOWANIE WSPÓŁCZESNYCH ARCHITEKTUR KOMPUTEROWYCH DR INŻ. KRZYSZTOF ROJEK

Komputer DELL Optiplex 790 w obudowie SFF (Small Form Factor)

Algorytmy numeryczne 1

LAN 10/100/1000 Mbps Wi-Fi a/b/g/n/ac Moduł Bluetooth

Home Software Hardware Benchmarks Services Store Support Forums About Us

NOTEBOOK - 6 sztuk. PROCESOR Intel Core i5 generacji 7 powyżej 2.5 GHz (tryb Turbo powyżej 3.0 GHz)

Komputer HP 800 G1 w obudowie SFF (Small Form Factor)

Parametry wydajnościowe systemów internetowych. Tomasz Rak, KIA

Wydajność systemów a organizacja pamięci. Krzysztof Banaś, Obliczenia wysokiej wydajności. 1

Komputer stacjonarny DELL Optiplex 7010 MT (Midi Tower) Intel Core i QUAD 4 x 3,4 GHz / 8 GB / HDD 250 GB / DVD-RW / Windows 10 Professional

Programowanie Niskopoziomowe

SYSTEMY OPERACYJNE I SIECI KOMPUTEROWE

Wydajność systemów a organizacja pamięci. Krzysztof Banaś, Obliczenia wysokiej wydajności. 1

Home Software Hardware Benchmarks Services Store Support Forums About Us

Transkrypt:

Metody, alternatywne metodzie wielofrontalnej Zalety. Metoda wielofrontalna oszczędnie pracuje z pamięcią główną, nadaje się do wirtualizacji jeśli rozmiar zadania przekracza możliwości pamięci głównej, dane, przeznaczone dla przechowywania macierzy poprawek, mogą być zapisane na dysk. Oprócz tego, bloki, zawierające części macierzy sfaktoryzowanej, też mogą być wyładowane na dysk. Wady. Metoda wielofrontalna wykonuje dużo transferów danych z jednego obszaru pamięci do innego, nawet jeśli zadanie mieści się w pamięci głównej. Występuje to przy kopiowaniu kompletnie sfaktoryzowanej części macierzy frontalnej, przy agregowaniu kolejnej macierzy frontalnej itd.

Metody, alternatywne metodzie wielofrontalnej Takie operacji należą do procedur niskiej wydajności, oprócz tego dla komputerów z pamięcią wspólną procedury kopiowania są przyspieszone bardzo słabo przy zwiększeniu ilości wątków. Obniża to wydajność solwerów wielofrontalnych oraz ich speed up. Powstaje interes do rozwinięcia metod alternatywnych, orientowanych w pierwszej kolejce na komputery wielordzeniowe.

PARDISO (Intel Math Kernel Library) Ograniczymy się rozważaniem solwera PARDISO dla macierzy symetrycznych, mających niezerowe elementy diagonalne. To są typowe macierzy sztywności MES dla zadań mechaniki ciała sztywnego oraz mechaniki konstrukcji. Takie macierzy nie wymagają wykonania permutacji w trakcie faktoryzacji numerycznej, ponieważ na każdym kroku wiodącym elementem służy odpowiedni element diagonalny. Liczne testy świadczą o to, że PARDISO wykazuje znacznie większą wydajność oraz speedup na komputerach wielordzeniowych w porównaniu do solwera wielofrontalnego. Formalnie PARDISO ma tryb OOC (out-of-core), jednak dla dużych zadań ten tryb nie działa.

PARFES Posłużyło to motywacją do opracowania solwera PARFES (Parallel Finite Element Solver), który o w trybie core mode (CM) powinien wykazywać wydajność i speedup, porównywalny do PARDISO o jeśli rozmiar zadania przekracza możliwości pamięci głównej, solwer powinien automatycznie przejść do trybu OOC podłączyć dysk. Nawet w trybie OOC solwer powinien wykazywać stabilny speedup.

Przykład ramy płaskiej Rama płaska Graf przyległości dla węzłów modelu obliczeniowego przed uporządkowaniem

Przykład ramy płaskiej Graf przyległości po uporządkowaniu algorytmem MDA w wersji MMD. Podparte węzły są oznaczone linią przerywaną. 12 11 10 9 8 7 6 4 2 Niezerowa struktura macierzy rzadkiej po wykonaniu uporządkowania i faktoryzacji symbolicznej

Trzeba podzielić macierz rzadką na prostokątne gęste bloki w taki sposób, żeby dołożyć minimalną ilość elementów zerowych technika superwęzłowa 2 4 6 7 8 9 10 11 12 6 2, 4 7, 8 9, 10, 11, 12 12 11 10 9 8 7 6 4 2 Drzewo eliminacji, drzewo superwęzłowe

Przygotowanie specjalnych struktur danych dla przechowywania prostokątnych gęstych podmacierzy Diagonal block Nonzero entries Zero entries Typical structure of block column

Faktoryzacja blokowa looking left jb ib = jb ib kb jb kolumna blokowa, która jest sfaktoryzowana na podanym kroku. Przed faktoryzacją powinna być poprawiona przez kolumny, umieszczone zlewa.

Faktoryzacja blokowa looking left [3] 1. if(core mode) przygotuj kolumną blokową jb ϵ [1, N b ] 2. do jb = 1, N b 3. if(ooc OOC1) przygotuj kolumną blokową jb 4. Równoległe poprawienie kolumny jb: A T ib, jb Aib, jb Aib, kb Skb A kblist [ jb] = jb, kb ; ib jb, ib L 5. Faktoryzacja kolumny blokowej jb: A T jb, jb = L jb, jb S jb L jb, jb L S L = A T T jb, jb jb ib, jb ib, jb ib, jb L ;

Faktoryzacja blokowa looking left if(ooc OOC1) zapisz kolumnę blokową jb na dysk i zwolni RAM dla wiersza blokowego ib = jb. 6. Dodaj jb do List[lb], lb > jb, jeśli kolumna jb poprawia kolumnę lb. 7. end do.

Rzutowanie bloków A ib,kb na wątki [3]: kb 1 3 6 9 12 W ib = M kb LDA kb,ib kb kb 12 13 ip = 2; W 12 ip = 3; W 13 ib LDA kb,ib 14 15 16 17 18 19 20 21 22 ip = 1; W 15 ip = 3; W 16 ip = 1; W 18 ip = 2; W 19 ip = 0; W 20 ip = 0; W 22 M kb Sort: W 22 > W 15 > W 12 > W 13 > W 20 > W 18 > W 19 > W 16

Rzutowanie bloków A ib,kb na wątki [3]: o o Defines the sum of weights: W ib = M kb LDA ib, kb kb kb Descending sort of sum of weights o ip 0,1,,Pr ocnumb 1 sumofweights[ ip] = 0 o find min_ip ϵ [0, 1,, ProcNumb-1] (sumofweights[min_ip] is minimal) o sumofweights[min_ip] += W ib ; thread_numb[ib] = min_ip kb o ib L jb end loop over ib o o kb Link[ jb] ib L kb (loop over kb) (loop over ib) o o Q[thread_numb[ib] ] (A ib,kb ; A jb,kb ; kb) (put to queues Q[ip]) end loops over ib, kb

Równoległe poprawienie kolumny blokowej jb o o o o o o # pragma omp parallel ( ip ϵ [0, ProcNumb-1]) while(q[ip] is not empty) A ib,kb ; A jb,kb Q[ip]; Q[ip] (Q[ip] /(A ib,kb ; A jb,kb ; kb)) A = A T ib, jb ib, jb ib, kb kb jb, kb end while end of parallel region A S A ;

Wirtualizacja [3] Tryb OOC włącza się automatycznie, jeśli rozmiar zadania przekracza możliwości RAM. Ten tryb doprowadzi do minimalnej ilości odwołań do dysku. Stored to disk and free jb Never allocated Allocated in RAM

Wirtualizacja [6] Tryb OOC1 włącza się automatycznie, jeśli rozmiar zadania przekracza możliwości trybu OOC. Ilość odwołań do dysku istotnie się zwiększa, jednak powstaje możliwość rozwiązywać duże zadania na komputerach z małą pamięcią RAM. Stored to disk and free jb Never allocated Allocated in RAM

Wektoryzowanie (AVX) [7] Opracowane specjalnie dla PARFES mikrojądro microkernel_84_avx na podstawie techniki AVX na procesorach architektury AMD Opteron istotnie przyspiesza wydajność PARFES w porównaniu do zastosowania dgemm z Intel MKL oraz dgemm z ACML (AMD Core Math Lib). nr N j K k nr j lb mr mr -= i i k A'ib,jb Lib,kb Skb L T jb,kb Blokowanie rejestrów YMM w blokach lb 120

Wektoryzowanie (AVX) [7] Przepakowywanie danych: A'ib,jb Lib,kb Skb L T jb,kb Microkern_8 4_AVX: matri block multiplication for(j=0; j<n; j+=n r ) for(i=0; i<l b ; i+=m r ) A ij ib,jb += L i ib,kb B j jb,kb

Wyniki numeryczne Zadanie schema_new_1, 3 198 609 równań

Wyniki numeryczne Tabela 3. Trwałość etapów rozwiązania zadania schema_new_1 problem (3,198,609 equations) na komputerze z procesorem a Core 2 Quad [3] Method NonZer Analysis, s Numerical factorization, s Solution phase, s Comment s (L), MB Number of processors Number of proc. 1 2 3 4 1 4 PARFES (ООС) 12 186 23.6 1 190 802 594 475 804 526 X64 PARDISO(ООС) 10 662 61.4 Numer. factorization phase: error = -11 X64 BSMFM (OOC) 10 869 9.0 2 011 1 482 1 286 1 232 497 64

Sp=T1/Tp Wyniki numeryczne: tryb OOC [3] 4 3 2 1 0 0 1 2 3 4 PARFES BSMFM ideal Number of processors Zadanie Schema_new_1 na komputerze z procesorem Core 2 (numerical factorization phase)

Sp = T1/Tp Wyniki numeryczne 4 3 ideal PARFES OOC1 PARFES OOC PARFES CM 32 453 MFLOPS 12 186 MB RAM 22 898 MFLOPS 2 995 MB RAM 2 8 610 MFLOPS 706 MB RAM 1 0 0 1 2 3 4 number of processors Zadanie Schema_new_1 problem na komputerze z procesorem AMD Phenom II 4 995 (numerical factorization phase), RAM - 16 GB

Wyniki numeryczne Tab. 8. Trwałość etapu faktoryzacji zadania schema_new_1 (3,198,609 równań), stacja robocza DELL z dwoma procesorami Intel Xeon X5660 @ 2.8 GHz /3.2 GHz (12 cores), RAM 24 GB, DDR3, Core mode, platform 64 No s of proc. PARFES PARDISO BSMFM Anal., s Num. Fact., s Anal., s Num. Fact., s Anal., s Num. Fact., s 1 16.9 654 31.06 596 13 1406 2 16.9 337.8 23.59 305.3 13 1015 3 16.9 232.1 25.33 208.6 13 869 4 16.9 177.9 23.26 163.3 13 793 5 16.9 145.7 23.79 135.7 13 786 6 16.9 125.6 25.68 116 13 777 7 16.9 110.6 23.11 100.9 13 772 8 16.9 100.5 23.43 90.83 13 807 9 16.9 92.5 23.98 83.85 13 770 10 16.9 86.3 23.71 79.6 13 796 11 16.9 82.1 29.86 77.36 13 825 12 16.9 87.5 28.58 78.45 13 839

12 10 id-tb-fun ideal ideal-tb PARFES PARDISO BSMFM Wyniki numeryczne 12*2.8/3.2 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 11 12 number of processors Zadanie Schema_new_1 na komputerze z procesorami Intel Xeon X5660 @ 2.8 GHz /3.2 GHz (numerical factorization phase) - CM

Wyniki numeryczne Notebook Toshiba Satellite: Processor: Intel Pentium Dual CPU T3200 @ 2.00 GHz Cache: L1: 32 KB, L2: 1024 KB RAM: DDR2 667 MT/s 4 GB Chipset: Intel GL40 rev. 07 OS Windows Vista TM Business (64-bit), Service Pack 2 Application ia32 OOC1 mode 2 threads Analysis : 26 s Assembling : 196 s = 3 16 Numerical factoring : 3 111 s = 51 51 Forward/Back reduction : 1 194 s = 19 54 Total time : 4 532 s = 75 32

Wyniki numeryczne Duży model obliczeniowy budynku biurowego Ilość równań: 7 328 394 Komputer: 16-core processor AMD Opteron 6276, 2.3/3.2 GHz, 64 GB DDR3 RAM, OS Windows Server 2008 R2 Enterprise SP1, 64 bit.

Sp=T1/Tp Wyniki numeryczne 16 12 8 ideal id_tb microkern_8 4_AVX 4 0 0 4 8 12 16 number of processors p ideal przyspieszenie idealne id_tb oszacowanie idealnego przyspieszenia z uwzględnieniem TurboBust microkern_84_avx przyspieszenie rzeczywiste

Wyniki numeryczne Method Total solution time, seconds Number of threads RAM mode PARFES 1 294/2 568 16 CM BSMFM 9 935 16 CM PARDISO page fault in analysis phase CM PSICCG 2 006 5 CM PARFES: 1 294 s czas rozwiązania zadania przy użyciu mikrojądra microkern_84_avx 2 568 s - czas rozwiązania zadania przy użyciu dgemm z biblioteki Intel MKL 10.2.2.025

Wyniki numeryczne Method Time of numerical factorization, s Size of factorized matri, GB Ordering method Memory mode ANSYS 15.0 50 4.145? BSMFM 63 3.175 METIS CM PARDISO 26.5 3.679 METIS CM PARFES 28.8 3.771 METIS CM Duration of numerical factorization on four threads (Intel Core i7-27600qm, 2.4/3.4 GHz, RAM DDR3 8GB) for different solvers for elevenstory building (1 236 246 equations)

Wyniki numeryczne Duration of numerical factorization (four threads) for different solvers for twenty-one story building (2 360 106 equations) Method Time of numerical factorization, s Size of factorized matri, GB Ordering method Memory mode ANSYS 15.0 240 8.777? BSMFM 285 6.561 MMD OOC PARDISO Not enough memory (error -2) 7.513 METIS CM Read/write problems with the OOC data file (error -11) 7.530 METIS OOC PARFES 125 7.349 MMD OOC

REFERENCES 1. Amestoy PR, Duff IS, L Ecellent J-Y. Multifrontal parallel distributed symmetric and unsymmetric solvers. Comput. Meth. Appl. Mech. Eng., 184: 501 520, 2000. 2. Dobrian F, Pothen A. Oblio: a sparse direct solver library for serial and parallel computations. Technical Report describing the OBLIO software library, 2000. 3. Fialko S. Parallel direct solver for solving systems of linear equations resulting from finite element method on multi-core desktops and workstations. Computers and Mathematics with Applications 70 (2015) 2968 2987. doi:10.1016/j.camwa.2015.10.009 4. Fialko S. PARFES: A method for solving finite element linear equations on multi-core computers. Advances in Engineering software. v 40, 12, 2010, pp. 1256 1265. 5. Fialko S. The block substructure multifrontal method for solution of large finite element equation sets. Technical Transactions, 1-NP, issue 8: 175 188, 2009. 6. Fialko S. The direct methods for solution of the linear equation sets in modern FEM software. Moscow: SCAD SOFT, 2009. (in Russian).

REFERENCES 6. Fialko S. Parallel Finite Element Solver for Multi-Core Computers. Federated Conference on Computer Science and Information Systems, September 9 12, 2012. Wrocław, Poland. IEEE Xplore Digital Library, 978-83-60810-51-4, IEEE Catalog Number CFP1285N-USB. P. 525 532. URL: http://fedcsis.org/proceedings/fedcsis2012/pliks/101.pdf 7. Fialko S. Application of AVX (Advanced Vector Etensions) for Improved Performance of the PARFES Finite Element Parallel Direct Solver. Federated Conference on Computer Science and Information Systems, September 8 11, 2013. Kraków, Poland. IEEE Xplore Digital Library, pp. 447 454. https://fedcsis.org/proceedings/2013/pliks/98.pdf 8. Schenk O, Gartner K. Two-level dynamic scheduling in PARDISO: Improved scalability on shared memory multiprocessing systems. Parallel Computing 28: 187 197, 2002.