Zapis zmiennopozycyjny, arytmetyka, błędy numeryczne

Zapis zmiennopozycyjny, arytmetyka, błędy numeryczne Plan wykładu: 1. zapis zmiennopozycyjny 2. arytmetyka zmiennopozycyjna 3. reprezentacja liczb w standardzie IEEE754 4. błędy w obliczeniach numerycznych 5. definicje 1

Własności zapisu zmiennopozycyjnego Liczbę rzeczywistą w komputerze reprezentuje liczba zmiennoprzecinkowa: F = M E gdzie: M znacznik ( mantysa ) jest liczbą ułamkową ze znakiem stanowi bazę reprezentacji i jest liczbą całkowitą (np.: 2, 10, 16) E wykładnik ( cecha ) jest znakowaną liczbą całkowitą Powyższy zapis jest niejednoznaczny: F = M E = M i E+i = i = m; : : : ; 1; 0; 1; : : : ; m m jest liczbą pozycji znacznika w bazie. Można odróżnić k = mlog 2 różnych reprezentacji tej samej liczby. Ograniczeniem znacznika jest jmj < ale problem nadal pozostaje. (M i ) E+i Jednoznaczność osiągamy dla warunku wtedy dla dowolnego i 0 mamy w praktyce stosuje się Znaczniki spełniające powyższy warunek nazywamy znormalizowanymi (liczby znormalizowane). Nie ma liczb znormalizowanych w tym 0. Tworzą one osobną grupę zwana liczbami zdenormalizowanymi. 1 3 4 p 1 jmj < p p i 1 jmj i < p Znormalizowane wartości dla jmj i =2 [ p 1 ; p) p = 0; 1 jf j < p 1 E min 1 2 1 4 0 1 4 1 2 3 4 1 = 2; p = 0 2

Podstawowe operacje arytmetyczne. Wykonujemy operacje na dwóch znormalizowanych liczbach Czy przeprowadzenie 4 podstawowych operacji da znormalizowany wynik? Mnożenie F 1 = M 1 E1 ; F 1 F 2 = M 1 E1 M 2 E2 F 2 = M 2 E2 = (M 1 M 2 ) E1+E 2 = M W W sprawdzamy czy nie wystąpił nadmiar (E W >E max ) lub niedomiar (E W <E min ) zmiennopozycyjny. Jeśli wartość znacznika wychodzi poza dozwolony zakres tj.: 2p 2 jm W j = jm 1 M 2 j < p 1 to wykonujemy postnormalizację Dzielenie F 1 =F 2 = (M 1 E1 )=(M 2 E2 ) ponieważ = (M 1 =M 2 ) E1 E 2 jm W j = M 1 =M 2 2 ( 1 ; ) konieczna jest postnormalizacja ilorazu do postaci F 1 =F 2 = ( p " M 1 =M 2 ) E1 E 2 p+" 1 jm W j < 1 =) " = 0 1 jm W j < =) " = 1 Dodatkowo należy zapewnić obsługę liczb zdenormalizowanych, dzielenia przez 0 oraz próby dzielenia 0/0. F 1 F 2 = (M 1 M 2 p+" ) E1+E 2 +p " " = 0; 1 3

Dodawanie i odejmowanie Wymagane jest wstępne wyrównanie wykładników. Powoduje to denormalizację operandu z mniejszym wykładnikiem i utratę dokładności (na najmniej znaczących pozycjach znacznika). Załóżmy a) jeśli oraz to wówczas normalizacja doprowadzi do nadmiaru. b) jeśli oraz E 1 E 2 F 1 F 2 = (M 1 E1 ) (M 2 E2 ) = (M 1 M 2 (E 1 E 2 ) ) E1 E 1 = E max p jm W j < 2 p jm W j < i p 1 E 1 (p i) E min Jeśli spełniony jest warunek p i jmlog 2j wówczas może dojść do wyzerowania wszystkich znaczących pozycji znacznika sumy lub różnicy. Wybór reprezentacji Liczbę zmiennopozycyjną zapisujemy na n pozycjach, z czego: a) 1 pozycję przeznaczamy na znak liczby b) t pozycji na zapis znacznika c) d pozycji na zapis wykładnika n = 1 + d + t Ã tx! x = s m i i i=1 E s s : : : m 1 m : : : : : : : : : e e 0 e 1 e d 1 2 m t to wystąpi niedomiar. znak wykładnik znacznik 4

Dokładność reprezentacji Jeśli liczba zmiennopozycyjna jest reprezentowana przez skończoną liczbę bitów to dokładność reprezentacji określa liczba bitów znacznika a zakres reprezentowanych liczb zależy od liczby bitów wykładnika. Jeśli zachodzi warunek M E x (M + ulp) E; (ulp najmniej znacząca pozycja znacznika) wówczas zaokrąglając liczbę x do bliższej reprezentacji dostajemy błąd bezwzględny jfl(x) xj 1 2 ulp E x 2 R gdzie fl(x) oznacza reprezentację liczby x w zapisie zmiennopozycyjnym. 0 Wartość błędu bezwzględnego wynika z nierównomiernego rozłożenia liczb w reprezentacji zmiennopozycyjnej p 3 p 2 p 1 p Błąd względny j"(x)j = jfl(x) xj x rośnie ze zmniejszaniem znacznika aż do wartości MRRE maximum relative representation error. 1 ulp E 2 M E M = ulp 2M MRRE = max j"(x)j = 1 ulp p 1 2 M 5

Dobór zakresu wykładnika Jednym z wymagań jest aby dla każdej znormalizowanej liczby x możliwe było obliczenie jej odwrotności. Wykładnik kodowany jest na d pozycjach z czego pozycji musimy zarezerwować na 0 oraz wielkości nieznormalizowane (nieskończoności itp.). Rozpiętość wykładnika wynosi s = E max E min = 2 d i aby istniały znormalizowane reprezentacje odwrotności małych liczb. Dla =2, -1=1 i p=0 najmniejszy znacznik ma wartość 0,100000...000 a największy 0,111111...111 najbardziej znaczący bit nie musi być kodowany (bit ukryty). Pominięcie go prowadzi do pełnego wykorzystania przestrzeni kodowej znacznika (100%). W innych przypadkach liczby znormalizowane zajmują jedynie (1-1/ )100% przestrzeni. Bit ukryty jest odtwarzany w trakcie operacji arytmetycznych. Schematy zaokrąglania liczb Podczas wykonywania operacji arytmetycznych może dojść do zwiększenia się liczby bitów wynikowych, np. przy mnożeniu dwóch znaczników m w = 2m Aby zapisać wynik należy uciąć ostanie m bitów. Eliminacja nadmiarowych bitów nazywana jest zaokrąglaniem. Reguły zaokrąglania x y ) fl(x) fl(y) x 2 fl ) fl(x) = x F 1 = M E x (M + ulp) E = F 2 {z } x=f 1 _x=f 2 6

Odcięcie (najprostsze) M x < M + ulp, T (x) = M Jeśli m - liczba pozycji znacznika d - liczba uciętych bitów x = M + i2 d ulp; 0 i 2 d 1 i standaryzowanym błędem losowym obcinania znacznika jest T (x) x ulp = i2 d Dla równomiernego rozkładu wartości x w przedziale [M, M+ulp] miarą średniego standaryzowanego błędu obcinania jest ± T = 1 2X d 1 2 d ( i)2 d < 0 i=0 Błąd ten jest zawsze ujemny estymator T(x) jest ujemnie obciążony. Skutek obcinania: niedoszacowanie. Zaokrąglanie do najbliższej wartości Reguły zaokrąglania R(x) = ½ M; M + ulp; Ten typ zaokrąglania powoduje, że średnia wartość błędu standaryzowanego jest bliska 0, ale estymator R(x) jest obciążony dodatnio. Zaokrąglanie symetryczne Reguły zaokrąglania S(x) = 8 < : x M < ulp 2 x M ulp 2 M ulp; ulp x M < 1 2 ulp M; 1 2 ulp x M + 1 2 ulp M + ulp; ulp x M < +ulp + 1 2 Średnia wartość błędu standaryzowanego wynosi 0, a estymator S(x) jest niebciążony. Wadą zwykłego zaokrąglania oraz zaokrąglania symetrycznego jest konieczność wykonania 2mpozycyjnego dodawania. 7

Reprezentacja liczb w standardzie IEEE754 Formaty liczb zmiennopozyjcyjnych: 1) zwykły pojedynczej precyzji - single (real) 2) rozszerzony pojedynczej precyzji - single extended 3) zwykły podwójnej precyzji - double 4) rozszerzony podwójnej precyzji - double extended Wykładnik jest reprezentowany w kodzie z obciążeniem, a znacznik w kodzie znakmoduł. Wartość liczby w IEEE754 F = ( 1) s 2 E B B (1; f) gdzie: E B - wykładnik, B przesunięcie (dzięki niemu nie musimy pamietać znaku), (E=E B -B - prawdziwy wykładnik) (1,f) wartość modułu znacznika Jeśli d oznacza liczbę bitów wykładnika to wielkością przemieszczenia jest B = 2 d 1 Bez przesunięcia, najmniejszą wartością wykładnika jest E B =E min +B=00...001 2 a największą E B =E max +B=11...110 2 Zakres wykładnika jest ograniczony z obawy przed uzyskaniem nadmiaru podczas obliczania odwrotności liczb. Liczby zdenormalizowane z zakresu [-2 Emin,+2 Emin ] łącznie z zerami można zapisać F = ( 1) s 2 E min (0; f) 8

Rozmiar formatu Rozmiar znacznika Rozmiar wykładnika symbol single double n 32 64 m 23(+1) 52(+1) d 8 11 obciążenie B 127 1023 Zakres wykładnika dokładność E [-126,127] [-1022,1023] ulp 2 23 ¼ 10 7 2 52 ¼ 10 15 Zakres formatu RNG ¼ 2 128 ¼ 3; 8 10 38 ¼ 2 1024 ¼ 9 10 307 9

Nie-liczby Pojawiają się podczas wykonywania operacji np.: 0=0; p jxj Bez ich obsługi program przerywałby działanie. Obsługa nie-liczb pozwala je wykryć i np. zrestartować schemat iteracyjny z innym parametrem. Wyjątki w IEEE754 Standard zapewnia obsługę specyficznych wyników operacji: 1. nadmiar (F max, nieskończonośc) 2. niedomiar (F min, l. denormalizowane) 3. dzielenie przez 0 4. niepoprawna operacja (NAN) 5. niedokładność (zaokrąglenie wyniku) Znakowane zero Po co? Dla liczb rzeczywistych mamy 1= 1 = 0; 1=(1= 1) = +1 zatem relacja 1=(1=x) = x nie jest spełniona. Dla znakowanego 0 mamy x = 1; 1=x = 0 1=(1=x) = 1= 0 = 1 = x 10

Błędy numeryczne Najprostszy podział: 1. błędy wejściowe 2. błędy zaokrągleń 3. błędy obcięcia Błędy wejściowe Występują gdy dane liczbowe wprowadzane do pamięci komputera odbiegają od wartości dokładnych. Kiedy występują? - gdy wprowadzane dane pomiarowe są obarczone błędami pomiarowymi (np. pomiar wielkości fizycznych takich jak oporu czy napięcia) - gdy ze względu na skończoną długość słowa binarnego dochodzi do wstępnego zaokrąglenia liczb (ułamki dziesiętne lub zaokrąglanie liczb niewymiernych jak np.: e, ) Przykład zapis 8 bitowy Liczba ma reprezentację x (10) = 3:25 x (z2) = (0)1101 (0)10 {z } {z } M W Ale dla liczby x=0.2 pojawia się problem x (2) = 0:0011(0011):::: po zaokrągleniu wyniku do najbliższej liczby x 0 (z2) = (0)1100(1)10 x 0 (2) = 0:001100 x 0 (10) = 0:1875 co daje błąd bezwzględny równy 0.0125 i błąd względny na poziomie 6.25%. 11

Błędy obcięcia - powstają podczas zmniejszania liczby działań np.: a)przy obliczaniu wartości szeregów (ucięcie szeregu) b)wyznaczaniu granic (obliczanie wartości całki) c)zastępowaniu pochodnej funkcji ilorazem różnicowym Przykład Chcemy wyznaczyć wartość e x, więc korzystamy z rozwinięcia e x = 1X n=0 x n n! ; 1 < x < +1 ale numerycznie lepiej zrobić to tak e x = e E(x) e q gdzie: E(x) jest częścią całkowitą liczby x, q jest częścią ułamkową Pierwszy wyraz jest potęgą a drugi liczymy wg rozwinięcia. Do wyznaczenia pozostaje tylko błąd obcięcia. Szereg ucinamy na n-tym wyrazie. 0 x < 1 Reszta szeregu: R n (x) = eµq (n + 1)! qn+1 ; 0 < µ < 1 szacujemy maksymalny błąd obcięcia tj. µ ¼ 1; q ¼ 1 0 R n (q) < 3 (n + 1)! qn+1 widzimy że szereg jest więc szybko zbieżny. Dokładniejsze oszacowanie R n (q) = q n+1 (n + 1)! + qn+2 (n + 2)! + qn+3 (n + 3)! + : : : µ = qn+1 1 + q (n + 1)! n + 2 + q 2 < qn+1 (n + 1)! Ã 1 + q n + 2 + (n + 2)(n + 3) + : : : µ 2 q + : : :! n + 2 12

Stosując wzór na sumę szer. geom. dla oraz R n (q) < qn+1 (n + 1)! dostajemy warunek gdzie 0 q < 1 n + 2 n + 1 < n + 1 n 1 1 q n+2 q 0 < R n (q) < u n n ; 0 < q < 1 u n = qn n! jest ostatnim wyrazem użytym przy sumowaniu elementów. Wyrażenie na e x (małe x)przyjmuje postać: e x = u 0 + u 1 + u 2 + : : : + R n (x) gdzie u 0 = 1; u k = xu k 1 k Wówczas schemat iteracyjny obliczania wartości sumy jest następujący u k = x k u k 1 z warunkami s k = s k 1 + u k k = 0; 1; 2; : : : ; n ; k = 1; 2; 3; : : : ; n u 0 = 1; s 1 = 0; s 0 = 1 Załóżmy, że " jest maksymalną wartością błędu obcięcia szeregu. 13

Proces sumowania przerywamy gdy spełniony będzie poniższy warunek p e np. obliczmy wartość z dokładnością 2.5x10-6 jr n (x)j R n (jxj) < jxjn+1 (n + 1)! 1 1 jxj n+2 < 2jxjn+1 (n + 1)! = 2jxj n + 1 jxjn n! < ju n j " Ostatecznie warunek ten przyjmuje bardziej przystępną postać ju n (x)j < " wynik u 0 = 1 u 1 = 0:5000000 u 2 = 0:1250000 u 3 = 0:0208333 u 4 = 0:0026042 u 5 = 0:0002604 u 6 = 0:0000217 u 7 = 0:0000016 p e = 1:648721 14

Błędy zaokrągleń Pojawiają się podczas wykonywania operacji arytmetycznych. Wynikają z ograniczonej reprezentacji liczb zmiennopozycyjnych. Wielkość błędów zależy od: a) dokładności reprezentacji b) sposobu zaokrąglania wyniku c) rodzaju przeprowadzanej operacji Lemat Wilkinsona błędy zaokrągleń powstające podczas wykonywania działań zmiennopozycyjnych są równoważne zastępczemu zaburzeniu liczb, na których wykonujemy działania. Błędy względne zaokrągleń: mnożenia fl(x)fl(y) xy = (1 + " x )(1 + " y ) 1 = xy = " x + " y + " x " y ¼ " x + " y dzielenia fl(x)=fl(y) x=y x=y dodawania i odejmowania fl(x) fl(y) (x y) x y = 1 + " x 1 + " y 1 = = " x " y 1 " y ¼ " x " y = x" x y" y x y = x x y " x = y x y " y Po przeprowadzeniu operacji dostajemy fl(x) = x(1 + " x ); fl(y) = y(1 + " y ) Zwłaszcza przy odejmowaniu możemy dostać duży błąd, gdy x ¼ y; " x ¼ " y 15

Wykonywanie kolejnych operacji na wynikach poprzednich operacji prowadzi do kumulacji błędów zaokrągleń. Można je zmniejszyć ustalając odpowiednio sposób i kolejność wykonywanych działań lub zwiększając precyzję obliczeń (nie zawsze można). 16

Szacowanie błędów zaokrągleń a) Sumowanie liczb (jedna z częściej wykonywanych operacji) oznaczenie s = Zgodnie z lematem Wilkinsona: nx i=1 x i s k = fl s k 1 + x k = s 0 k 1 + x0 k Indeks s - suma indeks x - wartość Obliczona wartość sumy: 17

Obliczona suma jest sumą zaburzonych składników. Wielkość zaburzeń zależy od kolejności wykonywania sumowania. Nie znamy wielkości poszczególnych mnożników, ale możemy oszacować maksymalne dopuszczalne zmiany składników: x 1;min = x 1 (1 ") n x i;min = x i (1 ") n+1 i x 1;max = x 1 (1 + ") n x i;max = x i (1 + ") n+1 i Najmniej zaburzony jest składnik ostatni bo tylko (1+ ) lub (1- ) razy. Można stąd wysunąć wniosek odnośnie sumowania: liczby należy sumować od najmniejszej do największej wg wartości bezwzględnej - trzeba zmienić algorytm na dokładniejszy. 18

b) Obliczanie wartości wielomianu w(x) = x n + a 1 x n 1 + a 2 x n 2 + + a n 1 x + a n W tradycyjny ale nieoptymalny sposób: w(x) = xx x {z } n +a 1 x {z x } + + a n 1 x + a n n 1 Wykonujemy: -M operacji mnożenia - D operacji dodawania M = D = n (n 1)(n + 2) 2 Optymalny sposób obliczania wartość wielomianu zapewnia Schemat Hornera µ w(x) = x x ³x x + a 1 + a2 + + a n 1 + a n Wykonujemy tylko M=n-1 mnożeń i D=n dodawań. Uwaga: Wyniki uzyskane wg powyższych algorytmów mogą się różnić. Natomiast oszacowana największa możliwa wartość błędu w obu przypadkach jest taka sama. 19

Zadanie numeryczne to jasny i niedwuznaczny opis powiązania funkcjonalnego między danymi wejściowymi i danymi wyjściowymi. Dane te składają się ze skończonej liczby wielkości rzeczywistych. Algorytm numeryczny dla zadania numerycznego to opis poprawnie określonych operacji (arytmetycznych lub logicznych), które należy wykonać aby przekształcić wektor danych wejściowych na wektor danych wyjściowych. Przykład Określić największy pierwiastek rzeczywisty równania a 3 x 3 + a 2 x 2 + a 1 x + a 0 = 0 dla wektora danych wejściowych (a 0 ; a 1 ; a 2 ; a 3 ) jest to zadanie numeryczne. Daną wyjściową jest szukany pierwiastek. Algorytm dla tego zadania metoda Newtona, schemat iteracyjny, wzory Cardana. Uwarunkowanie zadania dla danych poszukujemy wyniku czyli Jeśli niewielkie względne zmiany danych zadania powodują duże względne zmiany rozwiązania, to zadanie takie jest źle uwarunkowane. Wskaźnikiem uwarunkowania zadania nazywamy wielkość charakteryzującą wpływ zaburzeń danych na zaburzenie rozwiazania. Zadanie jest: d = (d 1 ; d 2 ; : : : ; d n ) 2 R n w = (w 1 ; w 2 ; : : : ; w m ) 2 R m w = '(d); ' : R n! R m k'(d) '( ~ d ~ d~ d)k = cond('; d)kd ~ d ~ d~ dk cond('; d) ¼ 1 cond('; d) À 1 cond('; d)! +1 -dobrze uwarunkowane -źle uwarunkowane -źle postawione 20

Przykład Jakie jest uwarunkowanie obliczania iloczynu skalarnego? S = nx a i b i 6= 0 i=1 zaburzamy dane wejściowe a i ( ) = a i (1 + i ) b i ( ) = b i (1 + i) i i ¼ 0 i liczmy względną zmianę wyniku P n i=1 a i(1 + i )b i (1 + i) P n P i=1 a ib i n i=1 a ib i ¼ max i P n ¼ i=1 a ib i ( i + i) P n i=1 a ib i Ã n! X nx j i + ij ja i b i j= a i b i i=1 i=1 Za wskaźnik uwarunkowania przyjmujemy dla cond(a; b) = P n i=1 ja ib i j j P n i=1 a ib i j ja i b i j = a i b i! cond(a; b) = 1 czyli zadanie jest dobrze uwarunkowane. Algorytmy numerycznie poprawne Są to algorytmy numerycznie najwyższej jakości, dla których obliczone rozwiązanie jest nieznacznie zaburzonym rozwiązaniem dla nieznacznie zaburzonych danych. nieznaczne zaburzenie zaburzenie na poziomie reprezentacji (rd(d), rd(w)) kd rd(d)k ½ d kdk kw rd(w)k ½ w kwk 21

Algorytmy numerycznie stabilne - dokładne rozwiązanie: w = '(d); - dane zaburzone na poziomie reprezentacji: b d - dokładny wynik dla danych : bw = '( b d); kd b d b db dk ½d kdk - zaburzony wynik dla zaburzonych danych: b d kbw ewk ½ w k bwbwbwk ew = fl (bw) algorytm A jest numerycznie stabilny, jeśli dla każdego d 2 D istnieje stała K (ograniczenie od góry) i dla dostatecznie silnej arytmetyki zachodzi k'(d) fl(a(d))k K P (d; ') fl(a(d)) - realizacja odwzorowania przez algorytm A w arytmetyce zmiennopozycyjnej Dostajemy oszacowanie kw ewewewk kw bwbwbwk + k bwbwbw ewewewk gdzie (1 + ½ w )P (d; ') Wskaźnik stabilności K powinien być jak najmniejszy jego wielkość może służyć do oceny algorytmu. Stabilność numeryczna jest własnością jakiej powinniśmy oczekiwać od algorytmu. P (d; ') = ½ w kwk + max k'(d) '( b d b db d)k jest optymalnym poziomem błędu rozwiązania w danej arytmetyce (fl). 23

Złożoność obliczeniowa rozważamy problem w = '(d); ' : D ½ R n! R m Minimalną liczbę działań potrzebnych do obliczenia wyniku definiujemy jako z('; D) = sup z('; D) d2d Wielkość z(,d) nazywamy złożoności obliczeniową zadania. Jeśli zadanie ma n danych istotnych tj. _ ^ _ d + ±e j 2 D ) '(d) 6= '(d + ±e j ) d2d 1 j n ± e j = (0; : : : ; 0; 1; 0 : : : ; 0) T wówczas z('; D) n=2 i liczba istotnych danych określa oszacowanie z dołu złożoności obliczeniowej. Analiza algorytmów numerycznych powinna zawierać oprócz analizy dokładności metody również analizę jej złożoności obliczeniowej (pozwala oszacować koszt metody). 24