2. Definicja pochodnej w R n Niech będzie dana funkcja f : U R określona na zbiorze otwartym U R n. Pochodną kierunkową w punkcie a U w kierunku wektora u R n nazywamy granicę u f(a) = lim t 0 f(a + tu) f(a) t = d f(a + tu), dt t=0 o ile ta granica istnieje. Pochodną cząstkową nazywamy pochodną kierunkową w kierunku wektora bazy standardowej {e j } n j=1. Piszemy j f(a) = ej f(a). Zauważmy, że jeśli f ma pochodną w kierunku u, to dla każdego α R αu f(a) = α u f(a). Mówimy, że funkcja f : U R jest różniczkowalna w punkcie a U, jeśli istnieje funkcjonał liniowy λ : R n R, taki że f(a + h) f(a) λ(h) 0. Jeśli tak jest, to funkcjonał λ = f (a) nazywamy pochodną f w a, a wektor f(a), taki że f (a)h =< f(a), h >, h R n, nazywamy gradientem funkcji f w a. Nietrudno się przekonać, że ( ) f(a) = 1 f(a), 2 f(a),..., n f(a) oraz u f(a) = f (a)u =< f(a), u) >= j f(a)u j. j=1 2.1. Jeśli f jest stała w U, to f (x) = 0 dla każdego x U. 2.2. Jeśli ϕ jest funkcjonałem liniowym, to dla każdego x R n ϕ (x) = ϕ. A oto ważna interpretacja pojęcia różniczkowalności. 2.3. Funkcja f : U R jest różniczkowalna w punkcie a U wtedy i tylko wtedy, gdy istnieje funkcja afiniczna g : R n R, taka że f(x) g(x) (2.4) lim = 0. x a x a Dwie funkcje f i g spełniające warunek (2.4) nazywamy stycznymi w punkcie a. 2.5. Jeśli f : U R jest różniczkowalna w a U, to jest też w tym punkcie ciągła.
Interpretacja geometryczna: Niech będzie dana funkcja f określona na zbiorze otwartym U R n i niech a U. Rozważmy wykres f: S = {(x, y) U R : y = f(x)}. Możemy myśleć, że S jest n-wymiarową powierzchnią w R n+1. Zauważmy, że hiperpłaszczyzna H o równaniu (2.6) y f(a) = c k (x k a k ), c 2 k = 1, jest wykresem funkcjonału afinicznego m Φ(h) = c k (h k a k ) + f(a) = ϕ(h a) + f(a), k=1 k=1 gdzie ϕ : R n R jest funkcjonałem liniowym o normie 1. Powiemy, że H jest styczna w punkcie P 0 = (a, f(a)) do wykresu S, jeśli (2.7) lim d(p h, H) d(p h, P 0 ) = 0, gdzie P h = (a + h, f(a + h)) jest punktem na powierzchni dążącym do P 0. 2.8. Funkcja f jest różniczkowalna w punkcie a, wtedy i tylko wtedy gdy jej wykres S ma hiperpłaszczyznę styczną w punkcie P 0. Dowód. Przypuśćmy najpierw, że S ma hiperpłaszczyznę styczną (2.6). Warunek styczności (2.7) można wyrazić tak: k=1 f(a + h) f(a) ϕ(h) (2.9) lim 2 + f(a + h) f(a) = 0. 2 Wykażemy najpierw, że z warunku tego wynika, że istnieje stała C > 0, taka że f(a + h) f(a) C dla małych h. Gdyby takiej stałej nie było, to istniałby ciąg 0, taki że f(a + ) f(a) i proste przekształcenia doprowadziłyby nas do wniosku, że granica (2.9) wynosi 1, a nie 0. W takim razie f(a + h) f(a) ϕ(h) = d(p ( ) h, S) f(a + h) f(a) 2 d(p h, P 0 ) 1 +, gdzie pierwszy czynnik dąży do zera, a drugi jest ograniczony. Zatem f jest różniczkowalna. Jeśli natomiast f jest różniczkowalna i f (a) = ϕ, to drugą implikację otrzymujemy dzięki nierówności d(p h, S) d(p h, P 0 ) f(a + h) f(a) ϕ(h). 2
2.10 (arytmetyka pochodnych). Jeśli f, g : U R są różniczkowalne w punkcie a U, to także f + g i f g są różniczkowalne w tym punkcie i (f + g) (a) = f (a) + g (a), (f g) (a) = f(a)g (a) + g(a)f (a). Mówimy, że funkcja f jest różniczkowalna w zbiorze otwartym U, jeśli jest różniczkowalna w każdym punkcie tego zbioru. Natomiast sformułowanie f jest różniczkowalna na zbiorze X, gdzie X R n jest zbiorem niekoniecznie otwartym, oznacza, że f jest określona na pewnym zbiorze otwartym zawierającym X i różniczkowalna w każdym punkcie x X. 2.11. Twierdzenie (o wartości średniej). Jeśli [a, b] U R n i f : U R ma pochodną kierunkową w kierunku wektora h = b a w każdym punkcie x U, to istnieje punkt c [a, b], taki że f(b) f(a) = h f(c). Mówimy, że funkcja f jest klasy C 1 (U), jeśli ma wszystkie pochodne pochodne cząstkowe w każdym punkcie zbioru U i każda z pochodnych cząstkowych j f : U R jest funkcją ciągłą. Powiemy, że f jest klasy C 1 (X), gdzie X jest niekoniecznie otwarty, jeśli f jest określona na pewnym zbiorze otwartym X U i ma ciągłe pochodne cząstkowe na na zbiorze X. 2.12. Twierdzenie. Jeśli funkcja f : U R jest klasy C 1 w zbiorze otwartym U, to jest różniczkowalna w U. Dowód. Przypuśćmy, że dla pewnych wektorów u i v pochodne kierunkowe u (x) i v f(x) są funkcjami ciągłymi w U. Wtedy f(a + t(u + v)) f(a) = f((a + tu) + tv) f(a + tu) + f(a + tu) f(a) = t v (a + tu + θtv) + f(a + tu) f(a), czyli f(a + t(u + v)) f(a) = v (a + tu + θtv) + t co przy założonej ciągłości v f(x) daje W takim razie funkcja jest liniowa względem h R n i spełnia Stąd zaś u+v f(a) = u f(a) + v f(a). h f(x) = h j j f(x) j=1 f(a + tu) f(a), t ( n h f(x) h f(y) j f(x) j f(y) 2) 1/2. f(a + h) f(a) h f(a) co pokazuje, że f (a)h = h f(a). j=1 = hf(a + θh) h f(a) 0, 3
4 Przykład. Rozważmy funkcję f(x, y) = { x 2 y x 4 +y, 2 (x, y) (0, 0) 0, (x, y) = (0, 0). Łatwo sprawdzić, że funkcja ta ma wszystkie pochodne kierunkowe w a = (0, 0) równe { u 2 (u,v) f(0, 0) = v, v 0 0, v = 0. Tymczasem, lim f(x, y) nie istnieje, (x,y) (0,0) więc f nie jest ciągła w a, a tym bardziej nie jest różniczkowalna. Trochę inny przykład stanowi funkcja xy, (x, y) (0, 0) g(x, y) = x 2 +y2 0, (x, y) = (0, 0). Znowu widzimy, że funkcja g ma wszystkie pochodne kierunkowe w a = (0, 0) równe (u,v) f(0, 0) = uv u 2 + v 2, które jednak nie zależą liniowo od (u, v), więc g nie jest różniczkowalna w a, chociaż więc jest ciągła. lim g(x, y) = 0, (x,y) (0,0) Niech będzie dane odwzorowanie F otwartego zbioru U R n w przestrzeń R m. Wtedy F (x) = ( F 1 (x), F 2 (x),..., F m (x) ), gdzie F j : U R są funkcjami składowymi F. Odwzorowanie F nazywamy różniczkowalnym w punkcie a U, jeśli istnieje odwzorowanie liniowe A : R n R m, takie że F (a + h) F (a) Ah Odwzorowanie to oznaczamy przez F (a) = A. 0. 2.13. Odwzorowanie F jest różniczkowalne w punkcie A wtedy i tylko wtedy, gdy dla każdego 1 j m funkcja F j jest różniczkowalna. Wtedy też F j(a) = A j = F (a) j. Macierz odwzorowania F (a) składa się z wierszy, w których stoją gradienty F i (a). Innymi słowy, F (a) = ( j F i (a) ) ij.
5 Przykład. Niech F : C C będzie zadana wzorem F (z) = z 2. Utożsamiając C z = x + iy (x, y) R 2, możemy zapisać F jako odwzorowanie R 2 w R 2 zadane wzorem F (x, y) = (x 2 y 2, 2xy). Nietrudno się przekonać, że jest to odwzorowanie różniczkowalne (ciągłe pochodne cząstkowe składowych) i ( ) F 2x 2y (x, y) =. 2y 2x 2.14. Jeśli F : U R m jest różniczkowalne na zbiorze otwartym U R n i [a, b] U, to F (b) F (a) sup F (c) b a. c [a,b] 2.15. Twierdzenie (o pochodnej odwzorowania złożonego). Niech U R m i V R n będą zbiorami otwartymi. Niech G : U R n będzie różniczkowalne w a U, a F : V R k w b = G(a). Wtedy H = F G jest różniczkowalne w a i Dowód. Niech H (a) = (F G) (a) = F (b)g (a). r(h) = G(a + h) G(a) Bh, ρ(k) = F (b + k) F (b) Ak. Wtedy F (G(a + h)) F (G(a)) ABh = F (b + k) F (b) Ak A(r(h)), gdzie k = k(h) = Bh + r(h). Zatem gdzie F (G(a + h)) F (G(a)) ABh jest ograniczone. = F (b + k) F (b) Ak k k Bh + r(h) = k + A(r(h), Zapisując G przy pomocy składowych i biorąc za F funkcję f otrzymujemy 2.16. Wniosek (reguła łańcucha). Niech U R m i V R n będą zbiorami otwartymi. Niech G : U R n będzie różniczkowalne w a U, a f : V R w b = G(a). Jeśli H = G f, to m k {f(g(x))} = H (x) = ( j f)(g(x)) k G j (x). j=1
Pochodne drugiego rzędu Będziemy mówili, że funkcja różniczkowalna w zbiorze otwartym U R n jest klasy C k (U), gdzie k > 1, jeśli pochodne cząstkowe j f są różniczkowalne klasy C k 1 (U). Ponieważ znamy już pojęcie klasy C 1 (U) powyższa definicja jest poprawną definicją indukcyjną. 2.17. Lemat. Jeśli f C 2 (R 2 ), to dla każdych t, s R 1 2 f(t, s) = 2 1 f(t, s). Dowód. Mamy f(t +, s) f(t, s) a więc także po zastąpieniu f przez 2 f (2.18) Ale 2 f(t +, s) 2 f(t, s) 2 f(t +, s) 2 f(t, s) = 2 1 f(t, s), 1 2 f(t, s), { f(t + hn, s) f(t, s) więc wydaje się, że granica w (2.18) powinna być także równa 2 1 f(t, s), co jest naszym celem. Jeśli ustalimy t i oznaczymy g n (s) = f(t +, s) f(t, s), to g n (s) 1 f(t, s) punktowo. Jeśli pokażemy jeszcze, że g n(s) 1 2 f(t, s) niemal jednostajnie, to na mocy twierdzenia o różniczkowaniu granicy, osiągniemy nasz cel. Tak rzeczywiście jest, bo g n(s) 1 2 f(t, s) 2 f(t +, s) 2 f(t, s) 1 2 f(t, s) 1 2 f(t + θ, s) 1 2 f(t, s), a ostatnie wyrażenie dąży niemal jednostajnie do zera dzięki jednostajnej ciągłości funkcji 1 2 f na domkniętych prostokątach w R 2. 2.19. Wniosek. Jeśli f jest funkcją klasy C 2 (U) na otwartym zbiorze U R n, to dla każdych u, v R n i każdego a U Dowód. Wystarczy zauważyć, że jeśli u v f(a) = v u f(a). ϕ(t, s) = f(a + tu + sv), }, 6 to u v f(a) = t s ϕ(0, 0).
7 Przypuśćmy, że f C 2 (U). Niech K(a, r) U, < r i niech ϕ(t) = f(a + th), t 1 + ε, Oczywiście ϕ C 1 ( 1 ε, 1 + ε), więc możemy ją rozwinąć we wzór Taylora: gdzie na mocy reguły łańcucha ϕ(t) = ϕ(0) + ϕ (0)t + 1 2 ϕ (0)t 2 + o(t 2 ), ϕ (t) = f (a + th)h = k f(a + th)h k, k=1 skąd dalej ϕ (0) = j k f(a)h k h j. k=1 j=1 Symetryczną formę dwuliniową o macierzy f (a) = ( ) ) α k,j ( 1 k,j n = k j f(a) 1 k,j n będziemy nazywali drugą pochodną f. Zatem druga pochodna jest formą dwuliniową. Podsumujmy: 2.20. Twierdzenie (wzór Taylora). Jeśli f jest funkcją klasy C 2 na zbiorze otwartym U R n, to dla każdego a U i dla dostatecznie małych h f(a + h) = f(a) + f (a)h + 1 2 f (a)(h, h) + o(). Mówimy, że funkcja f określona w otoczeniu punktu a R n ma w a maksimum lokalne, jeśli istnieje kula K(a, r) zawarta w jej dziedzinie, taka że f(x) f(a), x K(a, r). Podobnie definiujemy pozostałe rodzaje ekstremów lokalnych. 2.21 (warunek konieczny ekstremum lokalnego). Jeśli funkcja f określona w otoczeniu punktu a R n jest w tym punkcie różniczkowalna i ma w nim ekstremum lokalne, to f (a) = 0. Dowód. Niech h 0. Niech ϕ będzie funkcją jednej zmiennej zdefiniowaną jako ϕ(t) = f(a + th). Jak widać, ϕ jest określona w pewnym małym otoczeniu 0, jest różniczkowalna i ma w 0 ekstremum lokalne. Zatem ϕ (0) = 0. Ale skąd wobec dowolności asza teza. ϕ (0) = h f(a) = f (a)h, 2.22 (warunek dostateczny ścisłego minimum lokalnego). Jeśli funkcja f klasy C 2 w otoczeniu punktu a R n spełnia warunki: a) Forma liniowa f (a) jest zerowa, b) Forma dwuliniowa f (a) jest dodatnio określona, to funkcja f ma w punkcie a ścisłe minimum lokalne.
Dowód. Niech K(a, r) zawiera się w dziedzinie f i niech f C 2 (K(a, r)). Zgodnie ze wzorem Taylora dla 0 < < r mamy Skoro f (a) = 0, f(a + h) = f(a) + f (a)h + f (a)(h, h) + ω(h) 2, f(a + h) f(a) = f (a)(h, h) + ω(h) 2 C 2 ω(h) 2 ( ) = C ω(h) 2 C 2 2 > 0, lim ω(h) = 0. 8 dla < r 1, gdzie r 1 jest dostatecznie małe. 2.23. Przykład. Niech f(x, y) = x 2 y x y 2, (x, y) R 2. Mamy ( ) f 2xy 1 (x, y) = x 2 2y oraz ( ) f 2y 2x (x, y) =. 2x 2 Rozwiązując układ równań 2xy = 1, x 2 = 2y, otrzymujemy jeden punkt krytyczny (x 0, y 0 ) = (1, 1/2). W tym punkcie det f (x 0, y 0 ) = 2, a więc jest to punkt minimum lokalnego, w którym wartość funkcji wynosi f(x 0, y 0 ) = 3/4.