ANALIZA KORELACJI IREGRESJILINIOWEJ

Podobne dokumenty
Ćwiczenia nr 5. TEMATYKA: Regresja liniowa dla prostej i płaszczyzny

Statystyka opisowa. () Statystyka opisowa 24 maja / 8

3. Regresja liniowa Założenia dotyczące modelu regresji liniowej

Statystyka w analizie i planowaniu eksperymentu

Modele tendencji rozwojowej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

Metody numeryczne Laboratorium 5 Info

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

tek zauważmy, że podobnie jak w dziedzinie rzeczywistej wprowadzamy dla funkcji zespolonych zmiennej rzeczywistej pochodne wyższych rze

Miary rozproszenia. Miary położenia. Wariancja. Średnia. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Miary położenia. Miary rozproszenia. Średnia. Wariancja. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Jarosław Wróblewski Analiza Matematyczna 1, zima 2016/17

STATYSTYKA OPISOWA PODSTAWOWE WZORY

O pewnych zastosowaniach rachunku różniczkowego funkcji dwóch zmiennych w ekonomii

EKONOMETRIA. Liniowy model ekonometryczny (regresji) z jedną zmienną objaśniającą

MACIERZE STOCHASTYCZNE

Korelacja i regresja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 12

STATYSTYKA OPISOWA PODSTAWOWE WZORY

Wyk lad 2 W lasności cia la liczb zespolonych

Charakterystyki liczbowe zmiennych losowych: wartość oczekiwana i wariancja

Zadania domowe z Analizy Matematycznej III - czȩść 2 (funkcje wielu zmiennych)

X i. X = 1 n. i=1. wartość tej statystyki nazywana jest wartością średnią empiryczną i oznaczamy ją symbolem x, przy czym x = 1. (X i X) 2.

KADD Metoda najmniejszych kwadratów

d wymiarowy wektor losowy Niech (Ω, S, P) przestrzeń probabilistyczna Definicja Odwzorowanie X: Ω R nazywamy 1-wymiarowym wektorem

Rekursja 2. Materiały pomocnicze do wykładu. wykładowca: dr Magdalena Kacprzak

COLLEGIUM MAZOVIA INNOWACYJNA SZKOŁA WYŻSZA WYDZIAŁ NAUK STOSOWANYCH. Kierunek: Finanse i rachunkowość. Robert Bąkowski Nr albumu: 9871

UKŁADY RÓWNAŃ LINOWYCH

Znajdowanie pozostałych pierwiastków liczby zespolonej, gdy znany jest jeden pierwiastek

Estymacja przedziałowa

Podstawowe oznaczenia i wzory stosowane na wykładzie i laboratorium Część I: estymacja

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

Zeszyty naukowe nr 9

Analiza wyników symulacji i rzeczywistego pomiaru zmian napięcia ładowanego kondensatora

METODY NUMERYCZNE dr inż. Mirosław Dziewoński

Laboratorium Sensorów i Pomiarów Wielkości Nieelektrycznych. Ćwiczenie nr 1

Wyk lad 9 Podpierścienie, elementy odwracalne, dzielniki zera

Trzeba pokazać, że dla każdego c 0 c Mc 0. ) = oraz det( ) det( ) det( ) jest macierzą idempotentną? Proszę odpowiedzieć w

STATYSTYKA OPISOWA I PROJEKTOWANIE EKSPERYMENTU dr inż Krzysztof Bryś

θx θ 1, dla 0 < x < 1, 0, poza tym,

ma rozkład złożony Poissona z oczekiwaną liczbą szkód równą λ i rozkładem wartości pojedynczej szkody takim, że Pr( Y

Przykładowe zadania dla poziomu rozszerzonego

Rozdział 8. Regresja. Definiowanie modelu

0.1 ROZKŁADY WYBRANYCH STATYSTYK

P = 27, 8 27, 9 27 ). Przechodząc do granicy otrzymamy lim P(Y n > Y n+1 ) = P(Z 1 0 > Z 2 X 2 X 1 = 0)π 0 + P(Z 1 1 > Z 2 X 2 X 1 = 1)π 1 +

Wykład 11. a, b G a b = b a,

STATYSTYKA OPISOWA WYKŁAD 1 i 2

Metrologia: miary dokładności. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

STATYSTYKA I ANALIZA DANYCH

n k n k ( ) k ) P r s r s m n m n r s r s x y x y M. Przybycień Rachunek prawdopodobieństwa i statystyka

Arkusz ćwiczeniowy z matematyki Poziom podstawowy ZADANIA ZAMKNIĘTE. W zadaniach od 1. do 21. wybierz i zaznacz poprawną odpowiedź. 1 C. 3 D.

Ciągi liczbowe wykład 3

2. Schemat ideowy układu pomiarowego

Wyk lad 14 Formy kwadratowe I

Wyższe momenty zmiennej losowej

1. Wnioskowanie statystyczne. Ponadto mianem statystyki określa się także funkcje zmiennych losowych o

Ćwiczenia rachunkowe TEST ZGODNOŚCI χ 2 PEARSONA ROZKŁAD GAUSSA

3. Tworzenie próby, błąd przypadkowy (próbkowania) 5. Błąd standardowy średniej arytmetycznej

Statystyka Wzory I. Analiza struktury

Pierwiastki z liczby zespolonej. Autorzy: Agnieszka Kowalik

Miary położenia (tendencji centralnej) to tzw. miary przeciętne charakteryzujące średni lub typowy poziom wartości cechy.

1 Układy równań liniowych

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

a 1, a 2, a 3,..., a n,...

I. Podzielność liczb całkowitych

Wprowadzenie do laboratorium 1

Rachunek prawdopodobieństwa i statystyka W12: Statystyczna analiza danych jakościowych. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

STATYSTYKA MATEMATYCZNA

WYK LAD 2: PODSTAWOWE STRUKTURY ALGEBRAICZNE, PIERWIASTKI WIELOMIANÓW, ROZK LAD FUNKCJI WYMIERNEJ NA U LAMKI PROSTE

Wektory Funkcje rzeczywiste wielu. Matematyka Studium doktoranckie KAE SGH Semestr letni 2008/2009 R. Łochowski

ZDARZENIE ELEMENTARNE to możliwy wynik doświadczenia losowego. Wszystkie takie możliwe wyniki tworzą zbiór zdarzeń elementarnych.

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Elementy statystyki opisowej Izolda Gorgol wyciąg z prezentacji (wykład I)

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych (w zakresie materiału przedstawionego na wykładzie organizacyjnym)

Model ciągły wyceny opcji Blacka Scholesa - Mertona. Wzór Blacka - Scholesa na wycenę opcji europejskiej.

Dyskretne modele populacji

x t 1 (x) o 1 : x s 3 (x) Tym samym S(3) = {id 3,o 1,o 2,s 1,s 2,s 3 }. W zbiorze S(n) definiujemy działanie wzorem

Numeryczny opis zjawiska zaniku

Zadanie 2 Niech,,, będą niezależnymi zmiennymi losowymi o identycznym rozkładzie,.

ANALIZA KORELACJI I REGRESJI

ZADANIA Z ALGEBRY LINIOWEJ LISTA ZADAŃ NR 1. do f oznaczamy f 1. Dla f, g z zadania 1 wyznaczyć f 1, g 1 oraz g f 1 g.

Identyfikacja i modelowanie struktur i procesów biologicznych

Elementy modelowania matematycznego

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Matematyka ubezpieczeń majątkowych r. Zadanie 1. Rozważamy proces nadwyżki ubezpieczyciela z czasem dyskretnym postaci: n

ĆWICZENIA NR 1 Z MATEMATYKI (Finanse i Rachunkowość, studia zaoczne, I rok) Zad. 1. Wyznaczyć dziedziny funkcji: 1 = 1, b) ( x) , c) h ( x) x x

BADANIA DOCHODU I RYZYKA INWESTYCJI

Materiał ćwiczeniowy z matematyki Marzec 2012

Ekonometria Mirosław Wójciak

Lista 6. Estymacja punktowa

Statystyka i Opracowanie Danych. W7. Estymacja i estymatory. Dr Anna ADRIAN Paw B5, pok407

Wokół testu Studenta 1. Wprowadzenie Rozkłady prawdopodobieństwa występujące w testowaniu hipotez dotyczących rozkładów normalnych

z przedziału 0,1. Rozważmy trzy zmienne losowe:..., gdzie X

Statystyka matematyczna. Wykład II. Estymacja punktowa

Klucz odpowiedzi do zadań zamkniętych oraz schematy oceniania zadań otwartych. Matematyka. Poziom podstawowy

Podstawowe testy statystyczne i analiza zależności zjawisk

Podprzestrzenie macierzowe

STATYSTYKA MATEMATYCZNA

ZAGADNIENIE ESTYMACJI. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA

ROZDZIAŁ 5 WPŁYW SYSTEMU OPODATKOWANIA DOCHODU NA EFEKTYWNOŚĆ PROCESU DECYZYJNEGO

Transkrypt:

ANALIZA KORELACJI IREGRESJILINIOWEJ 1. ZALEŻNOŚCI STOCHASTYCZNE Badajac zjawiska o charakterze masowym, w tym szczególie zjawiska spo leczo-ekoomicze, stwierdzamy, że każde z ich jest uwarukowae dzia laiem iych zjawisk. Na przyk lad, produkt krajowy brutto (ozaczmy go przez Y ) zależy od takich zmieych, jak: stopa bezrobocia (X 1 ), liczba mieszkańców (X 2 ), stopa iwestycji (X 3 )itp. Na ogó lpowiazaia pomiedzy cechami ie majacharakterumatematyczego, który da loby siezapisaćwpostaci Y = f(x 1,X 2,...,X s ), gdzie f ozacza pewa fukcjezmieychx 1,X 2,...,X s. Zapis taki ozacza lby, że zależość pomiedzy cecha Y a pozosta lymi cechamy jest ściśle fukcyja, tj. kokretym wartościom x 1,x 2,...,x s cech X 1,X 2,...,X s,zwaychzmieymi objaśiajacymi, odpowiada dok ladie jeda wartość cechy Y,zwaejzmieaobjaśia a. W praktyce ściśle fukcyje zależości miedzy zmiea objaśiaa Y a zmieymi objaśiajacymi X 1,X 2,...,X s rzadko siezdarzaj a, gdyż ay a ogó l oddzia lujaróże dodatkowe zmiee, czestooróżokierukowych wp lywach. Ztegopowoduzależość pomiedzy zmieymi zapisujemy w postaci Y = f(x 1,x 2,...,x s )+ɛ, (1) gdzie x 1,x 2,...,x s reprezetuja tu kokrete (ustaloe) wartości zmieych objaśiajacych X 1,X 2,...,X s, atomiast ɛ jest tzw. sk ladikiem b l edu, reprezetujacym sumaryczy wp lyw iych zmieych, które ie sa bezpośredio obserwowae. Na ogó l zak lada sie, że sk ladik ɛ ma wartość średiarów a0 oraz pewadodati awariacj e. Uwzgledieie w modelu (1) sk ladika b l edu ɛ powoduje, że kokretym wartościom x 1,x 2,...,x s zmieych objaśiajacych moga odpowiadaćietakie same, ale róże wartości zmieej objaśiaej Y. O zależości tego rodzaju mówimy, że jest zależościa stochastycza. W przypadku, gdy przyajmiej zmiea objaśiaa jest zmiea ilościowa, zależość określamy miaem korelacyjej. 1

2. MODEL REGRESJI LINIOWEJ W dalszych rozważaiach przyjmiemy, że fukcja f ależy do klasy fukcji liiowych oraz za lożymy, że mamy (obok ilościowej zmieej objaśiaej Y )tylko jeda ilościowazmie aobjaśiaj ac a X. Wówczas rówaie (1) sprowadza sie do postaci Y = a + b x + ɛ, (2) gdzie a i b sapewymista lymi. Rówaie (2) azywamy modelem regresji liiowej zmieej Y wzgledem zmieej X. Fukcje f(x) =a + bx azywamy prostaregresjii ozaczamy w skrócie symbolem ŷ. Wartość ŷ i = a + bx i, wyzaczoa dla zadaej wartości x i, azywamy przewidywaawartości a zmieej objaśiaej Y, w przypadku gdy zmiea objaśiajaca X rówa jest x i. Wspó lczyiki a i b azywamy odpowiedio wyrazem wolym i wspó lczyikiem regresji. 3. METODA NAJMNIEJSZYCH KWADRATÓW Podstawowym problemem, jaki pojawia sie w badaiu zależości stochastyczych, jest określeie wartości wspó lczyików a i b w modelu (2). Dokoujemy tego a podstawie obserwacji wartości cech Y i X. Niech (y 1,x 1 ), (y 2,x 2 ),...,(y,x ), bedzie ciagiem wartości zmieych Y oraz X zaobserowowaych w -elemetowej zbiorowości (wartości x i moga być zadae z góry). Jako kryterium dopasowaia fukcji f do daych empiryczych przyjmiemy sumepostaci S(a, b) = (y i ŷ i ) 2 = (y i (a + bx i )) 2. (3) Prostaregresjiŷ = a + bx, której wartości wspó lczyików a i b wyzaczoe zosta ly w drodze miimalizacji sumy (3), azywamy prosta regresji oparta a metodzie ajmiejszych kwadratów lub w skrócie prostaregresji MNK. W celu zalezieia miimum fukcji S(a, b) obliczymy pochode czastkowe wzgledem iewiadomych a i b S(a, b) a S(a, b) b = 2 = 2 (y i (a + bx i )), x i (y i (a + bx i )). 2

Po przyrówaiu obu pochodych do 0 i po dokoaiu prostych przekszta lceń, otrzymujemy astepuj acy uk lad dwóch rówań y i a b x i =0, (4) x i y i a x i b x 2 i =0. (5) Zrówaia (4) atychmiast otrzymujemy, że ( a = 1 ) y i b x i =ȳ b x, (6) gdzie x = 1 x i, ȳ = 1 y i. Wstawmy powyższe wyrażeie do rówaia (5). Mamy x i y i (ȳ b x) x i b x 2 i =0, co po prostych przekszta lceiach daje b = (x i x)(y i ȳ) (x i x) 2, przy za lożeiu, że (x i x) 2 0. (7) Tak wiec prosta regresji ŷ = a+bx oparta a metodzie MNK jest jedozaczie wyzaczoa przez wspó lczyiki a i b określoe wzorami (6), (7). Wspó lczyik regresji b iformuje, o ile średio zmieia sie(rośie lub maleje) wartość zmieej Y,jeśli x zwiekszymy o jedostke. Fukcje regresji możemy wykorzystać do przewidywaia wartości zmieej objaśiaej Y dla zadaych wartości x zmieej objaśiajacej X (przy za lożeiu, że postać zależości korelacyjej zmieej Y wzgledem zadaych wartości zmieej X ie ulega zmiaie). Przewidywaie to musi dodatkowo uzwglediaćtzw. b l ad przewidywaia. B l ad te przybliżamy za pomocaśredie- go b l edu szacuku S ɛ,októrym mowa w astepym pukcie. 3

4. OCENA DOBROCI DOPASOWANIA FUNKCJI REGRESJI Wiadomo, że zmieość dowolej cechy ilościowej moża oceić zapomocajej wariacji. Dyspoujac wartościami y 1,y 2,...,y zmieej objaśiaej Y,wariacje s 2 y tej cechy wyzaczymy ze wzoru s 2 y = 1 (y i ȳ) 2 lup pomijajac sk ladik 1/, zapomoca sumy kwadratów (total sum of squares) SST = (y i ȳ) 2. Moża pokazać, że SST daje si eroz lożyćadwiesumy,które też iterpretujemy w kategoriach zmieości, miaowicie SST = ɛ 2 i {}}{ (y i ŷ i ) 2 + (ŷ i ȳ) 2, gdzie ŷ i = a + bx i. Pierwsza suma osi azwe sumy kwadratów b l edów (error sum of squares) i jest ozaczaa symbolem SSE, a druga suma osi miao regresyjej sumy kwadratów (regressio sum of squares) i jest ozaczaa przez SSR. Sume SSR możemy iterpretować jakomiare zmieości wartości przewidywaych ŷ i wokó l ichpoziomuśrediego, rówego ȳ. Zatem SSR określa te cześci a zmieości ca lkowitej SST,któramoża objaśić zapomoca wyzaczoej fukcji regresji (opisujacej charakter zależości miedzy zmieaobjaśia a Y iobjaśiajac a X). Druga suma SSE ozacza tecz eść zmieości ca lkowitej SST, która ie jest wyjaśioa przez model regresji. Tym samym iloraz R 2 = SSR SST = (ŷ i ȳ) 2 (y i ȳ) 2, (zak ladamy tu, że ) (y i ȳ) 2 0 zway wspó lczyikiem determiacji, określa, w jakim stopiu ca lkowita zmieość zmieej Y jest objaśiaa przez fukcjeregresji. Mówimy, że wspó lczyik determiacji jest miara dobroci dopasowaia fukcji regresji do daych empiryczych. Rozważmy jeszcze pierwiastek kwadratowy z sumy kwadratów b l edów SSE podzieloej przez liczebość badaej zbiorowości, pomiejszoa o liczbe parametrów fukcji regresji (w przypadku regresji liiowej jedej zmieej mamy tylko dwa parametry a i b). Ozaczmy te pierwiastek symbolem S ɛ.mamy SSE S ɛ = 2 = 1 (y i ŷ i ) 2 2 = 1 ɛ 2 i 2. (8) 4

Wielkość (8)azywamyśredim b l edem szacuku i iterpretujemy jako średi b l ad przewidywaia poziomu zmieej Y a podstawie fukcji regresji. 5. ANALIZA SI LY I KIERUNKU KORELACJI LINIOWEJ Za lóżmy, że miedzy cechami ilościowymi Y i X wystepuje zależość korelacyja o charakterze liiowym. Możemy mieć do czyieia z korelacja liiowa dodatia lub korelacja liiowa ujema. Jeśli wraz ze wzrostem wartości zmieej X rosa średie wartości zmieej Y,wówczas mówimy o korelacji liiowej dodatiej, w przeciwym przypadku, tj. gdy wraz ze wzrostem wartości zmieej X maleja średie wartości zmieej Y,wówczas mamy do czyieia z korelacja liiowaujem a. Wspó lczyikiem s lużacym do pomiaru si ly korelacji liiowej i ustaleia jej zaku (kieruku) jest wspó lczyik korelacji liiowej Pearsoa, zdefiioway wzorem 1 r XY = (x i x)(y i ȳ), (zak ladamy, że s X 0,s Y 0) (9) s X s Y gdzie s X = 1 (x i x) 2, s Y = 1 (y i ȳ) 2, x = 1 x i, ȳ = 1 y i. Wspó lczyik r XY jest uormoway, przyjmuje wartości z przedzia lu [ 1, 1]. Zak wspó lczyika iformuje o kieruku, atomiast wartość bezwzgleda o sile korelacji liiowej. Wartość r XY = 0 ozacza brak korelacji liiowej (ale może mieć miejsce korelacja krzywoliiowa). Gdy r XY =1lubr XY = 1, wówczas mówimy o fukcyjej zależości liiowej pomiedzy cechami Y i X (ma to miejsce wtedy, gdy a wykresie pukty empirycze uk ladajasi edok ladie wzd luż liii prostej). Porówujac formu ly (7) i (9), zauważymy, że pomiedzy wspó lczyikiem regresji b w modelu regresji liiowej (2) i wspó lczyikiem korelacji r XY wystepuje zwiazek b = r XY sy, s X przy za lożeiu aalogiczym, jak w formule (9). Poieważ odchyleia stadardowe s X i s Y, z defiicji, ie mogabyćujeme,wi ec wioskujemy z ostatiego wzoru, że wspó lczyiki b oraz r XY sa zawsze tego samego zaku. Warto zauważyć, że b ie musi zawierać sie w przedziale [ 1, 1], tak jak ma to miejsce w przypadku wspó lczyika korelacji liiowej r XY. 5