istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy



Podobne dokumenty
Wprowadzenie do analizy korelacji i regresji

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Analiza regresji - weryfikacja założeń

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Definicje i przykłady

Aproksymacja funkcji a regresja symboliczna

166 Wstęp do statystyki matematycznej

Temat 1. Analiza regresji jednej zmiennej

Estymacja w regresji nieparametrycznej

POD- I NADOKREŚLONE UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Ważną rolę odgrywają tzw. funkcje harmoniczne. Przyjmujemy następującą definicję. u = 0, (6.1) jest operatorem Laplace a. (x,y)

3a. Wstęp: Elementarne równania i nierówności

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

RÓWNANIA RÓŻNICZKOWE WYKŁAD 2

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Wykład z równań różnicowych

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

ANALIZA MATEMATYCZNA Z ELEMENTAMI STATYSTYKI MATEMATYCZNEJ

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Natalia Neherbecka. 11 czerwca 2010

FUNKCJA KWADRATOWA. 1. Definicje i przydatne wzory. lub trójmianem kwadratowym nazywamy funkcję postaci: f(x) = ax 2 + bx + c

Metoda najmniejszych kwadratów

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Wprowadzenie do technik analitycznych Metoda najmniejszych kwadratów

Zagadnienia brzegowe dla równań eliptycznych

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Statystyka i Analiza Danych

Metoda najmniejszych kwadratów

1 Funkcje dwóch zmiennych podstawowe pojęcia

Geodezja i Kartografia I stopień (I stopień / II stopień) akademicki (ogólno akademicki / praktyczny) podstawowy (podstawowy / kierunkowy / inny HES)

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada

Rozdział 8. Regresja. Definiowanie modelu

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Statystyka matematyczna i ekonometria

Geodezja i Kartografia I stopień (I stopień / II stopień) akademicki (ogólno akademicki /praktyczny) kierunkowy (podstawowy/ kierunkowy/ inny HES)

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

WYKŁAD 8 ANALIZA REGRESJI

Ćwiczenia nr 7. TEMATYKA: Krzywe Bézier a

Definicja i własności wartości bezwzględnej.

27. RÓWNANIA RÓŻNICZKOWE CZĄSTKOWE

S YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne. Nie dotyczy

Programowanie matematyczne

Podstawowe struktury algebraiczne

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Pojęcie funkcji. Funkcja liniowa

PDF created with FinePrint pdffactory Pro trial version

Regresja linearyzowalna

6.4 Podstawowe metody statystyczne

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska

ZASTOSOWANIE PROGRAMOWANIA LINIOWEGO W ZAGADNIENIACH WSPOMAGANIA PROCESU PODEJMOWANIA DECYZJI

Prognoza terminu sadzenia rozsady sałaty w uprawach szklarniowych. Janusz Górczyński, Jolanta Kobryń, Wojciech Zieliński

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Rozwiązania zadań z kolokwium w dniu r. Zarządzanie Licencjackie Zaoczne, Sieradz WDAM

Wykład 4 Przebieg zmienności funkcji. Badanie dziedziny oraz wyznaczanie granic funkcji poznaliśmy na poprzednich wykładach.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Znaleźć wzór ogólny i zbadać istnienie granicy ciągu określonego rekurencyjnie:

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

Układy równań liniowych

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

Zajęcia nr. 3 notatki

Wykład z równań różnicowych

Matematyka stosowana i metody numeryczne

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Projekt Era inżyniera pewna lokata na przyszłość jest współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

LABORATORIUM Z FIZYKI

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Logarytmy. Funkcje logarytmiczna i wykładnicza. Równania i nierówności wykładnicze i logarytmiczne.

WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH

Definicja problemu programowania matematycznego

Estymacja wektora stanu w prostym układzie elektroenergetycznym

Estymacja parametrów w modelu normalnym

Otrzymaliśmy w ten sposób ograniczenie na wartości parametru m.

Zbiory liczbowe i funkcje wykład 1

6. FUNKCJE. f: X Y, y = f(x).

Regresja i Korelacja

Ćwiczenie 5 PROGNOZOWANIE

ZASTOSOWANIE ZASADY MAKSIMUM PONTRIAGINA DO ZAGADNIENIA

Transkrypt:

MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze odzwierciedla tę zależność. Takiego badania dokonujemy na podstawie przeprowadzenia doświadczeń i analizy ich wyników. Przykłady: zależność wydajności ziemi od różnych nawozów mineralnych; zależność poziomu zysku banku od liczby klientów, wysokości inwestycji, wielkości wydanych kredytów itd. Warto zaznaczyć, że słowo regresja w tłumaczeniu z łaciny oznacza cofanie. Stosowanie w nazwie tej dziedziny słowa regresja jest historyczne i raczej niefortunne. Nazwa ta została, prawdopodobnie, po raz pierwszy użyta w 1885 r. przez angielskiego naukowca Sir F. Galtona (ucznia K. Darwina) pod czas badania zależności wzrostu potomstwa od wzrostu rodziców. Wykazał on bowiem, że niezwykle wysocy rodzice (znacznie wyżsi od przeciętności), mają dzieci niższego wzrostu, natomiast rodzice o wzroście znacznie niższym, niż przeciętny, mają dzieci wyższe od nich. Galton nazwał to zjawisko cofaniem w kierunku przeciętności. Ale w 1

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy francuscy (szczególnie P.-S. Laplace) w XVIII wieku przeprowadzały analizy, które nazwalibyśmy regresją. Niech więc interesuje nas zależność zmiennej Y od zmiennych X (1),..., X (m), m 1. Zmienna Y jest nazywana zmienną zależną, zaś zmienne X (1),..., X (m) zmiennymi niezależnymi. Pytanie, na które chcielibyśmy dostać odpowiedź, to: czy ta zależność istnieje, i jeżeli tak, to chcielibyśmy wyrazić ją za pomocą pewnego modelu (równania). Warto zaznaczyć, iż zmienne mogą być powiązane między sobą zależnością funkcyjną lub statystyczną. Związek funkcyjny Y = f(x (1),..., X (m) ) odznacza się tym, że każdemu naboru wartości zmiennych X (1),..., X (m) odpowiada tylko jedna, jednoznacznie określona wartość zmiennej Y (np. pole kwadratu jest funkcją jego boku). Bardzo rzadko jednak mamy do czynienia z danymi, które dokładnie opisują się podobną zależnością. Częściej mamy do czynienia z tzw. zależnością statystyczną. Związek statystyczny polega na tym, że określonemu naboru wartości zmiennych X (1),..., X (m) odpowiadają ściśle określone średnie wartości zmien- 2

nej Y. W przypadku zależności statystycznej naturalnie jest zakładać, że wartości zmiennej zależnej są losowe, wartości zaś zmiennych niezależnych są nielosowe. Załóżmy, że możemy przeprowadzić n pomiarów wartości zmiennej Y w zależności od pewnych wartości zmiennych X (1),..., X (m). Wartości powyższych zmiennych, uzyskane w trakcie doświadczeń, będziemy oznaczać odpowiednimi malymi literami. Więc punktem wyjścia w naszych rozumowaniach będą obserwacje (x 1) i,..., x(m) i, y i ), i = 1,..., n. Przykład. Rozpatrzmy rezultaty kolokwium (skala od 0 do 25 punktów) i egzaminu koncowego (skala od 0 do 50 punktów) ze statystyki matematycznej. W kolokwium i egzaminie brało udział 19 studentów pewnej szkoły technicznej. Wyniki kolokwium i egzaminu: Numer stud. 1 2 3 4 5 6 7 8 9 10 11 Kolokwium 7 11 12 14 17 15 21 22 19 13 5 Egzamin 20 24 25 30 35 30 43 42 41 24 14 Numer stud. 12 13 14 15 16 17 18 19 Kolokwium 12 16 14 21 20 17 10 17 Egzamin 27 35 28 42 40 34 23 40 Zależność pomiędzy wynikiem egzaminu końcowego (zmienna zależna) a kolokwium (zmienna niezależna) przed- 3

40 35 30 25 20 15 0 5 10 15 20 kolokwium Rysunek 1: Wykres rozrzutu. stawiono na Rysunku 1. Rysunek taki nazywa się wykresem rozrzutu i jest użytecznym graficznym przedstawieniem zależności między zmiennymi. Tworzy się on za pomocą par punktów (x i, y i ), i = 1,..., 19. Zaznaczmy, że w przypadku, gdy mamy do czynienia z jedną zmienną niezależną, zagadnienie konstrukcji modelu należy zawsze zaczynać od sporządzenia wykresu rozrzutu. Widzimy, że istotnie mamy tutaj do czynienia z zależnością statystyczna, a nie funkcyjną, bowiem mamy studentów, których wynik kolokwium jest taki sam, ale wynik egzaminu różni się (np. studenci o numerach 5, 17 i 19 mają ten sam wynik kolokwium - 17 punktów, lecz różny wynik egzaminu - odpowiednio 35, 34 i 40 punktów). Wykres rozrzutu sugeruje istnienie prostej, wokół której koncentrują się obserwacje. 4

Ogólnie proces konstrukcji modelu przebiega następujące etapy. Etap 1. Specyfikacja modelu. Dokonujemy wybór typu modelu (liniowy, wielomianowy, nieliniowy itd), który będziemy rozważać. Wyboru tego dokonujemy na podstawie wykresu rozrzutu, bądź jakiejś wiedzy o możliwym charakterze zależności. Możemy też sugerować się poszukiwaniem rozwiązania jak najprostszego. Etap 2. Estymacja modelu. Stosując odpowiednie metody statystyczne i w oparciu o dane, które posiadamy, dokonujemy estymacji parametrów modelu, czyli wyboru takiej funkcji wśród rozważanych, która najlepiej pasuje do danych. Etap 3. Weryfikacja modelu. Sprawdzamy, czy skonstruowany na poprzednim etapie model dobrze pasuje do posiadanych danych oraz czy spełnione są założenia modelu. Jeśli model nie spełnia stawianych mu wymagań, formułujemy nowy model i wracamy do poprzedniego etapu. Etap 4. Używanie modelu. Jeżeli stworzony model uznajemy za poprawny, to możemy wykorzystać go, np. dla prognozowania wartości zmiennej zależnej w przypadku innych, aniżeli uzyskane dotychczas, wartości zmiennych niezależnych, lub do sterowania - czyli wyznaczenia wartości zmiennych niezależnych dla uzyskania od- 5

powiedniej wartości zmiennej zależnej. Zgodnie z etapem 1, zawężamy krąg rozważanych funkcji, opisujących zależność, do pewnej parametrycznej klasy funkcji H, tzn. zakładamy, że model opisuje się funkcją z klasy H = {h(x, θ), θ Θ R k, x = (x (1),..., x (m) ) R m }, gdzie h : R m R k R jest zadaną funkcją ciągłą. Funkcja h jest nazywana funkcją regresji. W tej sytuacji problem poszukiwania dobrego modelu opisującego zależność sprowadza się do poszukiwania (szacowania) wektora parametrów θ. Jeśli funkcja h jest liniowa względem θ, to regresja (i odpowiedni model) nazywa się liniową, w przeciwnym przypadku - nieliniową. Ogólna postać funkcji regresji liniowej, to: h(x, θ) = k j=1 θ jf j (x), gdzie f j : R m R są zadanymi funkcjami ciągłymi, j = 1,..., k. Rozważmy najprostszą sytuację, gdy mamy jedną zmienną niezależną, a funkcją regresji jest postaci h(x, θ 0, θ 1 ) = θ 0 + θ 1 x. Przy poszukiwaniu odpowiednich ( najlepszych ) wartości parametrów θ 0, θ 1 zazwyczaj stosujemy tzw. metodę najmniejszych kwadratów (MNK), wprowadzoną jeszcze na początku XIX wieku przez A.-M. Legendre a i C. F. Gaussa. Polega ona na tym, 6

5 4 y 3 2 1 2 4 6 8 10 x Rysunek 2: Metoda najmniejszych kwadratów. że mając obserwacje (x i, y i ), i = 1,..., n, rozwiązujemy następujący problem matematyczny: (y i (θ 0 + θ 1 x i )) 2 min. θ 0,θ 1 Wartości θ 0, θ 1, które określają rozwiązanie tego problemu, uważamy za poszukiwane. Powyższy problem jest równoważny do problemu: θ 2 1 x 2 i +2θ 1 θ 0 x i +nθ0 2θ 2 1 y i x i 2θ 0 Przyrównujemy do zera pochodne po θ 1 i θ 0 : θ n 1 x2 i + θ n 0 x i = n y ix i θ 1 n x i + nθ 0 = n y i 7 y i min θ 0,θ 1.

skąd, rozwiązując ten układ równań liniowych, dostajemy: n θ 1 = (x i x)(y i ȳ) n (x, i x) 2 θ0 = ȳ θ 1 x. Rozwiązanie to jest jednoznaczne pod warunkiem, że nie wszystkie {x i } są jednakowe. 8