1 Pochodne wyższych rzędów Definicja 1.1 (Pochodne cząstkowe drugiego rzędu) Niech f będzie odwzorowaniem o wartościach w R m, określonym na zbiorze G R k. Załóżmy, że zbiór tych x G, dla których istnieje pochodna cząstkowa D i f(x) jest niepusty. Wówczas, jeśli istnieje pochodna cząstkowa D j (D i f)(x 0 ), to nazywamy ją drugą pochodną cząstkową (pochodną cząstkową drugiego rzędu) odwzorowania f w punkcie x 0 względem i-tej i j-tej zmiennej i oznaczamy ją przez D j D i f(x 0 ), (i, j = 1,..., k). Inne stosowane oznaczenia: f x j x i (x 0 ), lub f x i x j (x 0 ). Cząstkowe pochodne drugiego rzędu dla i j nazywa się pochodnymi mieszanymi. Pochodną D i D i f(x 0 ) oznaczamy również Di f(x 0 ), lub f (x 0 ). x i Przykład: Oblicz pochodne cząstkowe drugiego rzędu funkcji f(x, y) = x p y q, dla (x, y) R, (p, q N). Definicja 1. (Pochodna drugiego rzędu) Odwzorowanie f o wartościach w R m określone w otoczeniu G punktu x 0 R k nazywamy dwukrotnie różniczkowalnym w tym punkcie, jeśli: 1) jest ono różniczkowalne w każdym punkcie pewnego otoczenia punktu x 0 ; ) przy każdym ustalonym h R k odwzorowanie x Df(x)h (określone w pewnym otoczeniu punktu x 0, o wartościach w R m ) jest różniczkowalne w punkcie x 0. Wówczas dwuliniowe (tzn. liniowe ze względu na każdą z dwóch współrzędnych przy drugiej ustalonej) odwzorowanie: (h, h) D(Df(x)h)h określone na produkcie R k R k ( o wartościach w R m ) nazywamy pochodną drugiego rzędu odwzorowania f w punkcie x 0 i oznaczamy D f(x 0 ): D f(x 0 )h h. Twierdzenie 1.1 Warunkiem dostatecznym dwukrotnej różniczkowalności odwzorowania f w punkcie x 0 jest istnienie w pewnym otoczeniu punktu x 0 ciągłych pochodnych cząstkowych pierwszego rzędu oraz istnienie w pewnym otoczeniu tego punktu drugich pochodnych cząstkowych i ich ciągłość w punkcie x 0. 1
Twierdzenie 1. Jeśli odwzorowanie f jest dwukrotnie różniczkowalne w punkcie x 0, to istnieją drugie pochodne cząstkowe D j D i f(x 0 ) (i, j = 1,..., k) oraz zachodzi wzór D f(x 0 )h h = k i,j=1 dla dowolnych h = (h 1,..., h k), h = (h 1,..., h k ) Dotąd zrobiłem na ostatnim wykładzie h jh i D j D i f(x 0 ) Twierdzenie 1.3 (Schwarza o symetrii drugiej pochodnej) Jeśli odwzorowanie f (przy oznaczeniach jak poprzednio) jest dwukrotnie różniczkowalne w punkcie x 0 to pochodna jest odwzorowaniem dwuliniowym symetrycznym, tzn zachodzi: D fhh (x 0 ) = D fk h(x 0 ), w szczególności: D i D j f(x 0 ) = D j D i f(x 0 ) przy dowolnych h, h R k. Twierdzenie 1.4 (Wzór Taylora drugiego rzędu) Jeśli odwzorowanie f : G R m jest dwukrotnie różniczkowalne w punkcie x 0 R k, to zachodzi wzór: f(x 0 + h) = f(x 0 ) + Df(x 0 )h + 1 D f(x 0 )hh + α(h) gdzie α(h) = o(h ), tzn lim h 0 α(h) h = 0. Uwaga: Pochodne cząstkowe wyższych rzędów definiujemy indukcyjnie jako pochodne cząstkowe pochodnych cząstkowych rzędu o jeden mniejszego. Odwzorowanie nazywamy n krotnie różniczkowalnym jeśli jego pochodna rzędu n 1 jest różniczkowalna przy ustalonych wektorach na których obliczamy wartość tej pochodnej. Zachodzą analogiczne twierdzenia dotyczące zależności między różniczkowalnością a istnieniem i ciągłością pochodnych cząstkowych. Zachodzi twierdzenie Schwarza o symetrii. Twierdzenie 1.5 (Wzór Taylora) Jeśli odwzorowanie f jest n krotnie różniczkowalne (przy danym n N) w punkcie x 0, to zachodzi wzór: f(x 0 + h) = f(x 0 ) + 1 1! Df(x0 )h +... + 1 n! Dn f(x 0 )h n + α(h) gdzie α(h) = o(h n ), tzn lim h 0 α(h) h n = 0. Macierz drugiej pochodnej Załóżmy, że funkcja rzeczywista f określona w otoczeniu G punktu x 0 R k jest dwukrotnie różniczkowalna w tym punkcie oraz oznaczamy a ij = D i D j f(x 0 ), (i, j = 1,..., k). Niech A: R k R k oznacza odwzorowanie liniowe o macierzy (a ij ). Odwzorowanie to jest symetryczne i nazywamy je odwzorowaniem liniowym drugiej pochodnej funkcji f w punkcie x 0 a macierz A macierzą tej pochodnej. Mamy: D f(x 0 )hh = h T Ah, (h, h R k ).
Twierdzenie 1.6 (Warunek konieczny ekstremum lokalnego) Niech G R k będzie otoczeniem punktu p. Wówczas jeśli funkcja f : G R przyjmuje w tym punkcie ekstremum lokalne oraz istnieje pochodna kierunkowa f (p), to jest ona równa zeru; dotyczy to w h szczególności pochodnej cząstkowej D i f(p). Dowód Przeprowadzimy dowód nie wprost. Załóżmy, że f ma w punkcie p ekstremum lokalne. Załóżmy ponadto, że istnieje w p niezerowa pochodna kierunkowa.bez straty ogólności załóżmy, że f (p) > 0. (1) h Z definicji pochodnej kierunkowej oznacza to iż f(p + th) f(p) lim t 0 t Skoro tak, to dla t dostatecznie bliskich 0 (zarówno ujemnych jak i dodatnich) mamy > 0. Stąd wynika, że dla t jak wyżej mamy f(p + th) f(p) t > 0. f(p + th) f(p) > 0 dla t > 0 oraz f(p + th) f(p) < 0 dla t < 0 a to przeczy istnieniu ekstremum lokalnego w punkcie p. Definicja 1.3 Formą kwadratową B na R k nazywamy wielomian k k B(x) = a ij x i x j, gdzie a ij = a ji. i=1 j=1 Zauważmy, że symetryczna macierz drugiej pochodnej A zadaje formę kwadratową: h h T Ah. Definicja 1.4 Forma kwadratowa B na R k jest dodatnio (ujemnie) określona, jeśli B(h) > 0 (B(h) < 0) dla każdego h 0, h R k. Forma jest nieokreślona jeśli przyjmuje zarówno ujemne jak i dodatnie wartości. Uwaga: nie zapominamy o ważnym narzędziu służącym do badania określoności formy kwadratowej jakim jest Twierdzenie Sylwestera omówione dokładnie na I roku! Uwaga: wiedząc, że macierz drugiej pochodnej zadaje formę kwadratową możemy mówić o określoności macierzy drugiej pochodnej. Twierdzenie 1.7 (Warunek wystarczający ekstremum lokalnego) Niech f będzie funkcją rzeczywistą określoną w otoczeniu G punktu p R k, dwukrotnie różniczkowalną w tym punkcie, przy czym Df(x 0 ) = 0. Wówczas jeśli forma kwadratowa zadana macierzą drugiej pochodnej jest w p dodatnio (ujemnie) określona, to funkcja f przyjmuje w punkcie p minimum (maksimum) lokalne. Jeśli forma ta jest nieokreślona to f nie ma ekstremum w tym punkcie. 3
Dowód Załóżmy, że f spełnia założenia twierdzenia. Niech B(h) = D fhh oznacza formę kwadratową wyznaczoną przez drugą pochodną w punkcie p. Załóżmy, że B jest dodatnio określona, tzn B(h) > 0 dla h 0. Wynika stąd, że dla h 0 mamy B( h h ) > 0 Ponieważ dla h 0 wektory h należą do sfery jednostkowej, która jest zwarta, B jest h ciągła, istnieje więc M > 0 takie, że B( h h ) > M. Stąd dla wszystkich h R k mamy B(h) M h. Rozwińmy funkcję f w szereg Taylora rzędu w otoczeniu punktu p, uwzględniając zerowanie się pierwszej pochodnej f(p + h) = f(p) + 1 B(h) + α(h) gdzie α(h) = o(h ). Stąd dla dowolnego h R k mamy f(p + h) f(p) = 1 B(h) + α(h) 1 M h + h + α(h) h = h ( M + α(h) h ) > 0 dla h dostatecznie małego (wynika to z własności α(h)). Zadanie Zbadaj ekstrema lokalne f(x, y) = 4xy + 1 + 1. (Odp: minimum lokalne równe 3 x y 3 w punkcie ( 3, 3 ).) Ekstrema związane Zajmiemy się teraz zagadnieniem istnienia ekstremów warunkowych (związanych). Przyjmijmy następujące oznaczenia: U R n - zbiór otwarty, f : U R - funkcja, której ekstremum warunkowe chcemy zbadać.zakładamy, że f jest klasy C 1 w otoczeniu pewnego punktu p. Warunek przy którym będziemy badać ekstremum związane określamy jako zbiór M składający się z zer pewnego przekształcenia G: U R l, tzn M = G 1 (0). Zauważmy że w ten sposób mamy l warunków ograniczających - zakładamy, że l < n. Zakładamy, że p M - stąd dostaniemy l równań pozwalających odnaleźć punkty w których może istnieć ekstremum warunkowe. Ponadto konieczne jest założenie że rzdg(p) = l - tzn rząd pochodnej G w p jest maksymalny i równy l. Wówczas prawdziwe jest następujące Twierdzenie 1.8 (Lusternika) Przy powyższych oznaczeniach i założeniach, jeśli funkcja f ma w punkcie p ekstremum lokalne związane, to istnieje wektor Λ = [λ 1,..., λ l ] T taki, że spełnia dla i = 1,..., n. L(x, Λ) := f(x) Λ, G(x) D i L(p, Λ) = 0 4
Podamy od razu warunek dostateczny istnienia ekstremum związanego. Przyjmiemy oznaczenie D X L(p, Λ) - oznacza to drugą pochodną odwzorowania L obliczoną jedynie w kierunku przestrzeni X - tzn w macierz drugich pochodnych uwzględniamy jedynie pochodne po zmiennych x (a nie po λ i ). KerDG(p) oznacza jądro pochodnej odwzorowania G w punkcie p (czyli zbiór tych wektorów h R n na których DG(p) się zeruje. Twierdzenie 1.9 (Warunek dostateczny istnienia ekstremum związanego) Zachowujemy powyższe oznaczenia. Niech ponadto spełnione będą założenia Twierdzenia Lusternika oraz zarówno f jak i G są klasy C w otoczeniu punktu p. Wówczas jeśli D X L(p, Λ) jest dodatnio (ujemnie) określona na KerDG(p) to f ma minimum (maksimum) związane w punkcie p. Dowody ze względu na ich złożoność pomijamy. Zadanie Znajdź ekstrema lokalne funkcji f(x, y, x) = xyz na zbiorze M = {(x, y, z) R 3 : x + y + z = x + y + z = 1}. 5