Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności Dane są wyniki pomiarów dwóch wielkości x i y: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Przypuśćmy, że nanieśliśmy je na wykres w układzie współrzędnych i okazało się, że w przybliżeniu układają się one na pewnej prostej. To znaczy, że w przybliżeniu y = ax + b. Ale takich prostych przybliżajacych może być wiele. Jak znaleźć najlepsze przybliżenie? Co to znaczy najlepsze? Jak zmierzyć, które przybliżenie jest lepsze? Różne sposoby porównywania przybliżeń Za miarę jakości przybliżenia możnaby wziąć na przykład sumę różnic wartość dokładnia wartość przybliżona. Ale taka suma różnic może się zerować nawet, gdy składniki są duże! A może wziąć wartość dokładna wartość przybliżona? Każdy, kto badał funkcję, w której występują wartości bezwzględne wie, że takie badanie może być trudne. Dobrym miernikiem jest suma wyrażeń typu (wartość dokładnia wartość przybliżona) 2. Metoda najmniejszych kwadratów Przypuśćmy, że dane są punkty (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Chcemy znaleźć prostą y = ax + b, której wykres najlepiej w sensie najmniejszych kwadratów przybliża dane punkty. Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji n f(a, b) = (ax i + b y i ) 2. Jak szukać minimum funkcji dwóch (lub więcej) zmiennych? Dana jest f(a, b), różniczkowalna wszędzie (bo to suma kwadratów!). Szukamy takich a i b, dla których ta funkcja osiaga wartość najmniejszą. Albo taka wartość osiągana jest na brzegu zbioru, albo w takim punkcie (a, b), w którym { a = 0 b = 0 Przykład Metodą najmniejszych kwadratów znaleźć równanie prostej, która najlepiej przybliża poniższe dane: x i 1 2 3 4 y i 2 4 5 7 Szukamy takiego równania prostej y = ax + b, czyli współczynników a, b, aby funkcja f(a, b) = ((a 1 + b) 2) 2 + ((a 2 + b) 4) 2 + ((a 3 + b) 5) 2 + ((a 4 + b) 7) 2 osiągnęła wartość najmniejszą. Zastosujemy pochodne. c.d. Jak łatwo obliczyć 1

b a = 2(a + b 2) + 2(2a + b 4) 2 + 2(3a + b 5) 3+ + 2(4a + b 7) 4 = 2(30a + 10b 53). = 2(a + b 2) + 2(2a + b 4) + 2(3a + b 5) + 2(4a + b 7) = = 2(10a + 4b 18). Obie pochodne należy przyrównać do zera. c.d. Z układu otrzymujemy a = 1, 6, b = 0, 5. { 30a + 10b = 53 10a + 4b = 18 Odpowiedź: szukaną prostą jest y = 1, 6x + 0, 5. Można obliczyć wartości y dla x = 1, 2, 3, 4 i porównać z danymi z tabelki. Co to za krzywa? Metodą najmniejszych kwadratów znaleźć równanie krzywej, która najlepiej przybliża poniższe dane: x i 0 1 2 3 y i 0, 2 0, 8 2, 4 4, 6 Nanieśmy dane na wykres. Może taka krzywą jest parabola? Szukamy krzywej o równaniu y = ax 2 + c. Układamy funkcję 4 f(a, c) = (ax 2 i + c y i ) 2 = = (a 0 + c 0, 2) 2 + (a 1 + c 0, 8) 2 + (a 2 + c 2, 4) 2 + (a 3 + c 4, 6) 2. Obliczamy jej pochodne cząstkowe. a = 2(97a + 14c 51, 8). c = 2(14a + 4c 10) I rozwiązujemy układ równań liniowych. Z drugiego równania c = 2, 5 3, 5a, zatem 2

a = 0, 35, c = 1, 275. Prawo Keplera Kepler dysponował takimi danymi Planeta Merkury Wenus Ziemia Mars Jowisz Saturn Odl. od Sł. 0,39 0,72 1 1,52 5,20 9,59 Czas obiegu 0,24 0,62 1 1,88 11,86 29,46 Na wykresie jakiej funkcji leżą punkty o tych współrzędnych? Jaka to funkcja? Znalezienie wzoru linii wydaje się bardzo trudne, ponieważ TO NIE JEST wykres prostej! Pomysł: przejdźmy do logarytmów liczb z tabelki (log x lub ln x). Planeta Merkury Wenus Ziemia Mars Jowisz Saturn Odl. od Sł. 0, 41 0, 14 0 0,18 0,72 0,98 Czas obiegu 0, 62 0, 21 0 0,27 1,07 1,47 Na wykresie jakiej funkcji leżą punkty o tych współrzędnych? Teraz odpowiedź można odgadnąć w pamięci, bez wykonywania jakichkolwiek obliczeń. Policzmy jednak: szukamy prostej y = ax + b metodą najmniejszych kwadratów. Ponieważ prosta przechodzi przez punkt (0, 0), więc ma równanie y = ax. Metoda najmniejszych kwadratów: szukamy minimum funkcji Obliczamy pochodną: f(a) = ( 0, 41a ( 062)) 2 + ( 0, 14a ( 0, 21)) 2 + Pochodna f (a) = 2 [( 0, 41a ( 062)) ( 0, 41)+ Po uproszczeniu f (a) = 0, gdy 1, 6989a = 2, 5432, skąd a = 1, 4969... + (0, 18a 0, 27) 2 + (0, 72a 1, 07) 2 + (0, 98a 1, 47) 2. +( 0, 14a ( 0, 21)) ( 0, 14) + (0, 18a 0, 27) 0, 18+ +(0, 72a 1, 07) 0, 72 + (0, 98a 1, 47) 0, 98]. Odpowiedź Wszystkie dane astronomiczne w tabelce są zaokrąglone, więc tutaj też możemy przyjąć (z całkiem dobrym przybliżeniem) a = 3 2. Mamy zatem dla logarytmów zależność log y = 3 log x, 2 3

a stąd prawo Keplera y = x 3/2. Metoda największej wiarygodności Zadanie: Wiadomo, że liczba wypadków drogowych ma rozkład Poissona z pewnym parametrem λ. W pewnym mieście zaobserwowano w kolejnych n tygodniach następujące liczby wypadków: x 1, x 2, x 3, x 4,..., x n Dla jakiej wartości parametru λ otrzymane wyniki są najbardziej prawdopodobne? Prawdopodobieństwo tego, że zmienna o rozkładzie Poissona z parametrem λ przyjmie wartość x k, dane jest wzorem p(x k, λ) = λx k x k! e λ. Szukamy takiej wartości parametru λ, zależnej od wartości otrzymanych wyników, dla której funkcja przyjmie maksimum. Stosujemy rachunek różniczkowy. L(x 1,..., x n, λ) = p(x 1, λ)p(x 2, λ)...p(x n, λ) W celu zmiany iloczynu w sumę, logarytmujemy iloczyn. Fakt: Jeśli log L(λ) ma w λ 0 ekstremum, to L(λ) też. A ponieważ więc ( λ x 1 ) log L(x 1,..., x n, λ) = log x 1! e λ λx2 x 2! e λ... λxn x n! e λ ( λ x k ) log x k! e λ = x k log λ log(x k!) λ log L(x 1,..., x n, λ) = (x 1 + x 2 +... + x n ) log λ nλ log(x k!) skąd. log L λ = x 1 +... + x n λ n = 0 Wniosek: Gdy λ = 1 n n x k, k=1 to zaobserwowane wartości są najbardziej prawdopodobne. Funkcję (statystykę) X = 1 n nk=1 X k nazywamy estymatorem wartości nieznanego parametru λ. A gdy rozkład ma gęstość? Wtedy zamiast prawdopodobieństw mnożymy gęstości, np. dla rozkładu normalnego z gęstością g(x, m, σ) = 1 e (x m)2 2σ 2 2π σ mamy L(x 1,..., x n, m) = g(x 1, m, σ)g(x 2, m, σ)...g(x n, m, σ). Dalej jak poprzednio: 4

Logarytmujemy, liczymy pochodną po m (gdy badamy średnią) i przyrównujemy do zera, po σ (gdy badamy wariancję) i przyrównujemy do zera. Czym różnią się S i Ŝ? Estymator Z n parametru θ nazywa się nieobciążony, gdy E(Z n ) = θ. Na przykład X = 1 n n X i jest nieobciążonym estymatorem średniej m, bo Mamy E(S 2 ) = E( 1 n E( 1 n X i ) = 1 n n (E(X 1) +... + E(X n )) = m. n (X i X) 2 ) = n 1 n σ2 i ten estymatror jest obciążony. Natomiast E(Ŝ2 ) = E( 1 n 1 n (X i X) 2 ) = σ 2, więc Ŝ2 jest nieobciążonym estymatorem wariancji i dlatego stosuje się go częściej. 5