Regresja liniowa oraz regresja wielokrotna w zastosowaniu zadania predykcji danych. Agnieszka Nowak Brzezińska Wykład III-VI
|
|
- Dominik Witek
- 7 lat temu
- Przeglądów:
Transkrypt
1 Regresja liniowa oraz regresja wielokrotna w zastosowaniu zadania predykcji danych. Agnieszka Nowak Brzezińska Wykład III-VI
2
3 Analiza regresji Analiza regresji jest bardzo popularną i chętnie stosowaną techniką statystyczną pozwalającą opisywać związki zachodzące pomiędzy zmiennymi wejściowymi (objaśniającymi) a wyjściowymi (objaśnianymi). Innymi słowy dokonujemy estymacji jednych danych korzystając z innych. Istnieje wiele różnych technik regresji.
4 Linia regresji zapisana w postaci: nazywana jest równaniem regresji lub oszacowanym równaniem regresji, gdzie: y b 0 b 1 b 0,b 1 Szacowana wartość zmiennej objaśnianej Punkt przecięcia linii regresji z osią y Nachylenie linii regresji Współczynniki regresji y b0 b1 x
5 Regresja liniowa Metoda zakłada, że pomiędzy zmiennymi objaśniającymi i objaśnianymi istnieje mniej lub bardziej wyrazista zależność liniowa. Mając zatem zbiór danych do analizy, informacje opisujące te dane możemy podzielić na objaśniane i objaśniające. Wtedy też wartości tych pierwszych będziemy mogli zgadywać znając wartości tych drugich. Oczywiście tak się dzieje tylko w sytuacji, gdy faktycznie między tymi zmiennymi istnieje zależność liniowa. Przewidywanie wartości zmiennych objaśnianych (y) na podstawie wartości zmiennych objaśniających (x) jest możliwe dzięki znalezieniu tzw. modelu regresji. W praktyce polega to na podaniu równania prostej, zwanej prostą regresji o postaci: y = b0 + b1 x gdzie: y - jest zmienną objaśnianą, zaś x - objaśniającą. W równaniu tym bardzo istotną rolę odgrywają współczynniki b0 i b1, gdzie b1 jest nachyleniem linii regresji, zaś b0 punktem przecięcia linii regresji z osią x (wyrazem wolnym) a więc przewidywaną wartością zmiennej objaśnianej gdy zmienna objaśniająca jest równa 0.
6
7
8 Cereals.data Name nazwa płatków Manuf wytwórca płatków Type typ płatków ( na ciepło (hot), na zimno (cold)) Calories kalorie w porcji Protein 0 białko (w gramach) Fat tłuszcz (w gramach) Sodium sód Fiber błonnik Carbo węglowodany Sugars cukry Potass potas ( w miligramach) Vitamins procent zalecanego dziennego spożycia witamin (0%, 25 %, 100%) Shelf położenie półki (1=dolna, 2=środkowa, 3 = górna) Weight waga porcji Cups liczba łyżek na porcję Rating wartość odżywcza, obliczona przez Customer Reports
9
10 Wartość odżywcza Kalorie Kalorie Białko tłuszcz Sód Błonnik Węglowodany Cukry Potas Białko Tłuszcz Sód Błonnik Węglowodany Cukry Potas Witaminy Szukamy zmiennej o największej korelacji ze zmienną wartość odżywcza płatków. Największą korelację znajdujemy dla zmiennej cukry
11 Wartość odżywcza Kalorie Kalorie Białko tłuszcz Sód Błonnik Węglowodany Cukry Potas Białko Tłuszcz Sód Błonnik Węglowodany Cukry Potas Witaminy Szukamy zmiennej o największej korelacji ze zmienną wartość odżywcza płatków. Największą korelację znajdujemy dla zmiennej cukry Jest to korelacja ujemna, wynosi Oznacza, że w miarę wzrostu wartości cukrów w płatkach, wartość odżywcza takich płatków maleje.
12
13
14
15 A więc najpierw zajmiemy się zależnościami między dwiema zmiennymi: objaśnianą (wartość odżywcza płatków, rating) oraz objaśniającą (cukry, sugars). Analiza regresji pozwoli nam oszacować wartości odżywcze (rating) różnych typów płatków śniadaniowych, mając dane zawartości cukrów (sugars).
16 rating sugars sugars
17 rating sugars Liniowy (sugars) sugars
18 To wykres rozrzutu wartości odżywczych względem zawartości cukrów dla 77 rodzajów płatków śniadaniowych, razem z linią regresji najmniejszych kwadratów. Jest to linia regresji otrzymana za pomocą metody najmniejszych kwadratów. Linia regresji jest zapisana w postaci równania y b, które 0 b1 x nazywa się równaniem regresji lub oszacowanym równaniem regresji, przy czym: y Szacowana wartość zmiennej objaśnianej b 0 b 1 b 0,b 1 Punkt przecięcia linii regresji z osią y Nachylenie linii regresji Współczynniki regresji
19
20
21
22
23
24
25 Regresja liniowa w Rattle dla R a
26 Regresja liniowa w środowisku R W środowisku R procedura znajdowania równania regresji dla podanego zbioru danych możliwa jest dzięki wykorzystaniu funkcji lm. Komenda R postaci lm(y ~ x) mówi, że chcemy znaleźć model regresji liniowej dla zmiennej y w zależności od zmiennej x.
27 Wariant z 1 zmienną objaśniającą rating = -2.4 * sugars+ 59.3
28 rating * sugars więc b b Estymowane równanie regresji może być interpretowane jako oszacowana wartość płatków jest równa 59,4 2,42 * masa cukru w gramach Linia regresji i y (oszacowane równanie regresji) są używane jako liniowe przybliżenie relacji pomiędzy zmiennymi x (wartością objaśniającą) a y (objaśnianą), tj. między zawartości cukru a wartością odżywczą.
29 y b0 b1 x rating * sugars A więc: b b Jak to czytać? Oszacowana wartość odżywcza płatków (rating) jest równa 59.4 i 2.42 razy waga cukrów (sugars) w gramach Czyli linia regresji jest liniowym przybliżeniem relacji między zmiennymi x (objaśniającymi, niezależnymi) a y (objaśnianą, zależną) w tym przypadku między zawartością cukrów a wartością odżywczą. Możemy zatem dzięki regresji: SZACOWAĆ, PRZEWIDYWAĆ
30 Po co przewidywać? Gdy np. chcemy oszacować wartości odżywcze nowego rodzaju płatków (nieuwzględnionych dotąd w tej próbie 77 różnym badanych płatków śniadaniowych), które zawierają x=1 gram cukrów. Wówczas za pomocą oszacowanego równania regresji możemy wyestymować wartość odżywczą płatków śniadaniowych zawierającym 1 gram cukrów: y *
31 Po co przewidywać? Gdy np. chcemy oszacować wartości odżywcze nowego rodzaju płatków (nieuwzględnionych dotąd w tej próbie 77 różnym badanych płatków śniadaniowych), które zawierają x=5 gram cukrów. Wówczas za pomocą oszacowanego równania regresji możemy wyestymować wartość odżywczą płatków śniadaniowych zawierającym 5 gram cukrów: y *5 47.3
32 Jak widać, niestety oszacowanie zgodne z równaniem regresji jest nie do końca zgodne z rzeczywistą wartością odżywczą płatków.
33 Wyraz wolny b0 jest miejscem na osi y gdzie linia regresji przecina tę oś, czyli jest to przewidywana wartość zmiennej objaśnianej, gdy zmienna objaśniająca jest równa 0. W wielu przypadkach zerowa wartość nie ma tu sensu. Przypuśćmy np. że chcielibyśmy przewidzieć wagę ucznia szkoły podstawowej (y) na podstawie jego wzrostu (x). Wartość zerowa wzrostu jest niejasna, a więcej interpretacji znaczenia wyrazu wolnego nie ma sensu w tym przypadku. Jednak dla naszego zbioru danych zerowa wartość cukrów w płatkach jak najbardziej ma sens, ponieważ istnieją płatki niezawierające cukrów. Zatem w naszym zbiorze danych wyraz wolny b0=59.4 reprezentuje przewidywaną wartość odżywczą płatków z zerową zawartością cukrów. Ale w naszym zbiorze nie mamy płatków o zerowej zawartości cukru które mają oszacowaną wartość odżywczą równą dokładnie Właściwe wartości odżywcze razem z błędami oszacowania przedstawiono poniżej.
34 Wszystkie przewidywane wartości są takie same. Bo wszystkie wymienione płatki mają identyczną wartość zmiennej objaśniającej (x=0). Współczynnik kierunkowy prostej regresji oznacza oszacowaną zmianę wartości y dla jednostkowego wzrostu x. Wartość b1 = 2.42 interpretujemy jako: Jeżeli zawartość cukrów wzrośnie o 1 gram, to wartość odżywcza zmniejszy się o 2.42 punktu.
35 Płatki o zerowej wartości SUGARS Proszę sprawdzić ile z tych płatków które faktycznie miały 0 wartość cukrów (sugars) miały wartość odżywczą (rating) równą 59.4? Odp: żadne Co sugeruje, że nasz model regresji nie do końca dobrze przewiduje w tym przypadku wartość odżywczą płatków.
36 Załóżmy np. że jesteśmy zainteresowani szacowaniem wartości odżywczych nowych płatków (nie zawartych w początkowych danych), które zawierają x=1 gram cukru. Za pomocą oszacowanego równania regresji możemy znaleźć oszacowaną wartość płatków zawierających 1 gram cukru jako * 1 = Zauważmy, że ta oszacowana wartość dla wartości odżywczej leży bezpośrednio na linii regresji, w punkcie (x=1, y = 56.98). W rzeczywistości dla każdej danej wartości x (sugars) oszacowana wartość y (rating) będzie znajdować się dokładnie na linii regresji. W naszych zbiorze są płatki Cheerios, w których zawartość cukru jest równa 1 gram. Jednak ich wartość odżywcza to a nie jak oszacowaliśmy powyżej dla nowych płatków zawierających 1 gram cukru. Na wykresie rozrzutu punkt płatków Cheerios jest umiejscowiony w (x=1, y = ) wewnątrz owalu. Górna strzałka wskazuje na położenie na linii regresji dokładnie powyżej punktu dla płatków Cheerios. Jest to punkt który przewidziała linia regresji dla wartości odżywczych, jeżeli zawartość cukru wynosi 1 gram. Wartość szacowana była zbyt duża o = co jest odległością w pionie punktu reprezentującego płatki Cheerios od linii regresji. Ta pionowa odległość równa w ogólności ( y y) jest nazywana np. błędem predykcji, błędem szacowania lub resztą.
37 Czyli każde płatki mające 1 gram cukru powinny mieć wartość odżywczą równą 56,98 ale jak widać tak nie jest. Płatki Cheerios mają wartość odżywczą równą 50,765. Czyli nastąpiło PRZESACOWANIE wartości odżywczej płatków o 6,215. Graficznie tę odległość widzimy jako odległość punktu reprezentującego te płatki od jego rzutu pionowego na linię regresji.
38
39 Co wówczas? Odległość tą mierzoną jako: ( y y) Nazywać będziemy błędem predykcji (błędem oszacowania, wartością resztową, rezyduum). Oczywiście powinno się dążyć do minimalizacji błędu oszacowania. Służy do tego metoda zwana metodą najmniejszych kwadratów. Metoda polega na tym, że wybieramy linię regresji która będzie minimalizować sumę kwadratów reszt dla wszystkich punktów danych.
40 Które residua (suma kwadratów) są najmniejsza? Proste sumowanie: I =0; II =0; III MNK: I =38; II: 1+4+1=6; III 4+4=8
41 Metoda MNK Metoda MNK pozwala nam jednoznacznie wybrać linię regresji, która minimalizuje sumę kwadratów reszt dla wszystkich punktów danych. y x 0 1 Jeśli mamy n obserwacji z modelu danego równaniem powyżej, wówczas i 1,2,...,n y x i 0 1 i Linia NK jest linią, która minimalizuje sumę kwadratów błędów dla populacji () SSE p n i1 i n i1 ( y x i 0 i 1 i ) 2
42 Czy to równanie będzie spełnione dla innych płatków niż te z badanego zbioru? Odpowiedź: pewnie NIE. Prawdziwą liniową zależność między wartością odżywczą a zawartością cukrów dla WSZYSTKICH rodzajów płatków reprezentuje równanie: y x Losowy błąd
43 Dla n obserwacji y x i 0 1 i i i=1,,n Linia najmniejszych kwadratów minimalizuje sumę kwadratów błędów SSE (population sum of squared errors): SSE p n R i n i1 i1 ( y x ) i 0 1 i 2
44 1. Różniczkujemy to równanie by oszacować Co dalej? 0 1 i ) ( * i n i i p x y SSE ) ( * i n i i i p x y x SSE 2. Przyrównujemy wynik do zera: 0 ) ( i n i i x b b y 0 ) ( i n i i i x b b y x
45 3. Rozbijamy sumę: Co dalej? 4. Powstaje n i i n i i x b nb y n i i n i i n i i i x b x b y x n i i n i x i y b nb n i i i n i i n i i y x x b x b
46 Co dalej? 5. Rozwiązując te równania otrzymujemy: x i yi ( xi )( yi ) / n b1 2 2 x ( x ) / n b0 y b1 x n liczba obserwacji x y A sumy są od i=1 do n. b i 1 0 i - Średnia wartość zmiennej objaśniającej - Średnia wartość zmiennej objaśnianej b i -estymatory najmniejszych kwadratów dla 0i 1 Czyli wartości które minimalizują sumę kwadratów błędów.
47 Jak znaleźć w Excelu wartości b 0 =59.4 i b 1 =-2.42 z tych równań? 1. Obliczamy wartości x i,y i,x i y i,x i 2
48 1. Obliczamy wartości: x i =534 y i = x i y i = x i2 = Podstawiamy do wzorów: b * / / b0 y b1 x *
49 Wnioski Wyraz wolny b0 jest miejscem na osi y gdzie linia regresji przecina tę oś czyli jest to przewidywana wartość zmiennej objaśnianej gdy objaśniająca równa się zeru. Współczynnik kierunkowy prostej regresji oznacza szacowaną zmianę wartość y dla jednostkowego wzrostu x wartość b 1 =-2.42 mówi, że jeśli zawartość cukrów wzrośnie o 1 gram to wartość odżywcza płatków zmniejszy się o 2.42 punktu. Czyli płatki A których zawartość cukrów jest o 5 większa niż w płatkach B powinny mieć oszacowaną wartość odżywczą o 5 razy 2.42 = 12.1 punktów mniejszą niż płatki typu B.
50 Interpretacja Widać z nich, że między zmienną objaśniającą sugars a zmienną objaśnianą rating istnieje pewna zależność (w miarę wzrostu wartości sugars spada wartość rating). Z kolei analizując rozrzut obserwacji ze względu na wartości zmiennej objaśniającej fiber oraz objaśnianej rating już tak silnej zależności nie dostrzegamy. Sprawdźmy jak będzie się zachowywać rozrzut wartości zmiennych objaśnianych w oparciu o te dwie zmienne objaśniające razem.
51 Regresja wielokrotna Omawiając regresję liniową (prostą) rozpatrywaliśmy dotąd jedynie takie przypadki zależności między zmiennymi objaśniającymi a objaśnianymi gdzie zmienna objaśniana była zależna tylko od jednej konkretnej zmiennej objaśniającej. Jednak w praktyce niezwykle często zmienna objaśniana zależna jest nie od jednej ale od kilku (wielu) zmiennych objaśniających. Będziemy zatem rozważać ogólne równanie regresji postaci: y b 0 b x 1 1 b 2 x 2... gdzie m oznacza liczbę (najczęściej kilku) zmiennych objaśniających. b m x m
52 Wykres rozrzutu dla zmiennej sugars
53 Wykres rozrzutu dla zmiennej fiber
54 Wariant z 2 zmiennymi objaśniającymi rating = * sugars * fiber
55 Aby zinterpretować współczynnik nachylenia prostej regresji: Rating = * sugars * fiber b 1 = wartość odżywcza maleje o 2.18 punktu, jeśli zawartość cukru rośnie o jedną jednostkę. Zakładamy przy tym, że zawartość błonnika (fiber) jest stała. b 2 = 2.86 wartość odżywcza rośnie o 2.86 punktu, jeśli zawartość błonnika rośnie o jedną jednostkę a zawartość cukru (sugars) jest stała. Uogólniając będziemy mówić, że dla m zmiennych objaśniających zachodzi reguła, zgodnie z którą: oszacowana zmiana wartości zmiennej odpowiedzi to b i, jeśli wartość zmiennej x i rośnie o jednostkę i zakładając, że wszystkie pozostałe wartości zmiennych są stałe.
56 Teraz możemy przewidywać, że gdy poziom cukrów wynosi np 1 to wartość odżywcza płatków będzie wynosić 56.9 zaś gdy poziom cukrów będzie wynosił 10 wówczas wartość odżywcza zmaleje do wartości 35.3 (patrz poniżej). > predict(model,data.frame(sugars=10), level = 0.9, interval = "confidence") fit lwr upr > predict(model,data.frame(sugars=1), level = 0.9, interval = "confidence") fit lwr upr
57 Błędy predykcji są mierzone przy użyciu reszt Uwaga: w prostej regresji liniowej reszty reprezentują odległość (mierzoną wzdłuż osi pionowej) pomiędzy właściwym punktem danych a linią regresji, zaś w regresji wielokrotnej, reszta jest reprezentowana jako odległość między właściwym punktem danych a płaszczyzną lub hiperpłaszczyzną regresji. Przykładowo płatki Spoon Size Shredded Wheat zawierają x 1 =0 gramów cukru i x 2 = 3 gramy błonnika, a ich wartość odżywcza jest równa podczas gdy wartość oszacowana, podana za pomocą równania regresji: > predict(model, data.frame(sugars=0,fiber=3),level=0.95, interval="confidence") fit lwr upr y y Zatem dla tych konkretnych płatków reszta jest równa = Zwróćmy uwagę na to, że wyniki, które tutaj zwraca funkcja R: predict są bardzo istotne. Mianowicie, oprócz podanej (oszacowanej, przewidywanej) wartości zmiennej objaśniającej, otrzymujemy również przedział ufności na zadanym poziomie ufności równym 0.95, który to przedział mieści się między wartością (lwr) a (upr).
58 Wariant z wieloma zmiennymi objaśniającymi Rating = *calories +2.9*protein+1.03*carbo- 0.84*sugars-2.00*fat- 0.05*vitamins+2.54*fiber- 0.05*sodium
59 Rating = *calories +2.9*protein+1.03*carbo-0.84*sugars- 2.00*fat-0.05*vitamins+2.54*fiber-0.05*sodium Załóżmy np., że jest dostępny nowy rodzaj płatków śniadaniowych, których porcja ma 80 kalorii, 2 gramy białka, nie ma tłuszczu i sodu, ma 3 gramy błonnika, 16 gramów węglowodanów, nie ma cukrów i pokrywa 0% dziennego zapotrzebowania na witaminy (podobnie jak Shredded Wheat). Wtedy przewidywana wartości odżywcza to * * *0-0.05*0+2.54* * *0-0.05*0 = 68.49
60 To przewidywanie jest niezwykle bliskie właściwej wartości odżywczej płatków Shredded Wheat równej zatem błąd szacowania = = Oczywiście szacowanie punktu ma wady analogiczne do tych w przypadku prostej regresji liniowej, zatem również możemy znaleźć przedziały ufności dla średniej wartości odżywczej wszystkich takich płatków (o właściwościach podobnych do Shredded Wheat: 80 kalorii, 2 gramy białka) na poziomie ufności 95 % to (66.475,70.764). Jak poprzednio, przedział ufności dla losowo wybranego rodzaju płatków jest większy niż dla średniej wartości. Następnie omówimy dalsze wyniki regresji wielokrotnej. Wartość R2 równa 99.5 % jest niezwykle duża, prawie równa maksymalnej wartości równej 100%. To pokazuje, że nasz model regresji wielokrotnej przedstawia prawie całą zmienność wartości odżywczej. Błąd standardowy szacowania s jest równo około 1, co oznacza, ze typowy błąd przewidywania wynosi około jednego punktu w skali wartości odżywczej, a blisko 95% (na podstawie rozkładu normalnego błędów) przewidywań będzie w obrębie dwóch punktów od aktualnej wartości. Porównajmy to z wartością s równą około 9 dla modelu prostej regresji liniowej. Użycie większej liczby atrybutów w naszym modelu regresji pozwoliło nam na zredukowanie błędu przewidywania o czynnik równy 9.
61 Czy wybrana metoda regresji jest przydatna? Można znaleźć taką linię regresji MNK, która modeluje zależność pomiędzy dwoma dowolnymi ciągłymi zmiennymi. Jednak nie ma nigdy gwarancji, że taka regresja będzie przydatna. W jaki sposób można stwierdzić, czy oszacowane równanie regresji jest przydatne do przewidywania? Jedną z miar jest współczynnik determinacji R 2, będący miarą dopasowania regresji. Określa on stopień, w jakim linia regresji NK wyjaśnia zmienność obserwowanych danych.
62 SSE Nr Czas, x Odległość, y Oszacowana wielkość y y 6 2x Błąd oszacowania y y (Błąd oszacowania)2 ( y y)
63 Pokazano odległość przebytą przez 10 zawodników biegu na orientację oraz czas trwania biegu każdego zawodnika. Pierwszy zawodnik przebył 10 km w 2 godziny. Na podstawie danych z tej tabeli oszacowane równanie regresji przyjmuje postać: y 6 2x.A więc estymowana odległość jest równa 6 km plus 2 razy liczba godzin. Oszacowane równanie regresji może być użyte do przewidywania przebytej odległości przez zawodnika, o ile znamy czas trwania biegu tego zawodnika. Estymowane wartości y znajdują się w kolumnie 3 tabeli można zatem obliczyć błąd oszacowania oraz jego kwadrat. Suma kwadratów błędu oszacowania lub suma kwadratów błędów reprezentuje całkowitą wartość błędu oszacowania w przypadku użycia równania regresji. Tutaj mamy wartość SSE = 12. Nie jesteśmy jeszcze teraz w stanie stwierdzić czy to wartość duża, bo w tym miejscu nie mamy żadnej innej miary.
64 Jeśli teraz chcemy oszacować przebytą odległość bez znajomości liczby godzin, a nie mamy dostępu do informacji o wartości zmiennej x, którą moglibyśmy wykorzystać do oszacowania wartości zmiennej y, nasze oszacowania przebytej odległości będą oczywiście mało wartościowe, gdyż mniejsza ilość dostępnym informacji zwykle skutkuje mniejszą dokładnością szacowań. Skoro nie mamy dostępu do informacji o zmiennych objaśniających, to najlepszym oszacowaniem dla y będzie po prostu średnia przebyta odległość. W takim przypadku, oszacowaniem przebytej odległości dla każdego zawodnika, niezależnie od jego czasu, byłaby wartość średnia = 16. Szacowania przebytej odległości, gdy ignorowana jest informacja o czasie, pokazuje pozioma linia średniej = 16.
65 Rysunek, strona 43.
66 Przewidywana przebyta odległość średnia y = 16, niezależnie od tego czy wędrowali tylko 2 czy 3 godziny, czy też nie było ich cały dzień. Czyli nie uwzględniając czasu. Jest to rzecz jasna rozwiązanie nieoptymalne. Punkty danych na rysunku jak widzimy skupiają się wokół oszacowanej linii regresji, a nie wokół tej linii y=16.to sugeruje, że błędy przewidywania są mniejsze, kiedy uwzględniamy informację o zmiennej x, aniżeli wtedy, gdy tej informacji nie wykorzystujemy. Weźmy przykład zawodnika nr 10. Przebył odległość y=25 km w ciągu x=9 godzin. Jeżeli zignorowalibyśmy informację o wartości zmiennej objaśniającej x, błąd szacowania byłby równy y y = = 9 km. Ten błąd przewidywania jest reprezentowany przez pionową linię pomiędzy punktem danych dla tego zawodnika, a poziomą linią, co oznacza odległość pomiędzy obserwowaną wartością y i jej rzutem pionowych na prostą o równaniu na średnią y = 16, która przecież określa wartość estymowaną. Chcemy teraz znaleźć y y dla każdego rekordu w zbiorze danych, a następnie sumę kwadratów tych miar, tak jak zrobiliśmy to dla,kiedy obliczaliśmy sumę kwadratów błędów. y y Otrzymujemy w ten sposób całkowitą sumę kwadratów SST.
67 Współczynnik determinacji r 2 Pozwala stwierdzić czy oszacowane równanie regresji jest przydatne do przewidywania. Określa stopień w jakim linia regresji najmniejszych kwadratów wyjaśnia zmienność obserwowanych danych. x y y y y 2 ( y y)
68 Na ile dobra jest regresja? Współczynnik determinacji jest opisową miarą siły liniowego związku między zmiennymi, czyli miarą dopasowania linii regresji do danych współczynnik determinacji ---przyjmuje wartości z przedziału [0,1] i wskazuje jaka część zmienności zmiennej y jest wyjaśniana przez znaleziony model. Na przykład dla R2=0.619 znaleziony model wyjaśnia około 62% zmienności y.
69 Współczynnik determinacji Oczywiście zawsze można znaleźć taką linię regresji metodą najmniejszych kwadratów, która modeluje zależność pomiędzy dwoma dowolnymi ciągłymi zmiennymi. Jednak nie ma gwarancji, że taka regresja będzie przydatna. Zatem powstaje pytanie, w jaki sposób możemy stwierdzić, czy oszacowane równanie regresji jest przydatne do przewidywania. Jedną z miar dopasowania regresji jest współczynnik determinacji R 2. Określa on stopień, w jakim linia regresji najmniejszych kwadratów wyjaśnia zmienność obserwowanych danych. Przypomnijmy, że y oznacza estymowaną wartość zmiennej objaśnianej, a lub resztą. y y jest błędem oszacowania
70 Suma kwadratów błędu oszacowania lub suma kwadratów błędów reprezentuje całkowitą wartość błędu oszacowania w przypadku użycia równania regresji. Jeśli nie znamy wartości zmiennej objaśniającej do oszacowania wartości zmiennej objaśnianej- nasze oszacowania będą oczywiście mało wartościowe. Lepszym oszacowaniem dla y będzie po prostu średnia(y). To zazwyczaj prezentuje pozioma linia na wykresie. Punkty danych jednak koncentrują się bardziej wokół oszacowanej linii regresji a nie wokół tej linii poziomej, co sugeruje, że błędy przewidywania są mniejsze, kiedy uwzględniamy informację o zmiennej x, aniżeli wtedy, gdy tej informacji nie wykorzystujemy. Jeśli liczymy różnice x średnia(x) dla każdego rekordu, a następnie sumę kwadratów tych miar, tak jak przy oszacowanej wartości y (), y y kiedy obliczaliśmy sumę kwadratów błędów otrzymujemy całkowitą sumę n n kwadratów SST (sum of squares total): 2 2 SST ( y i y) SST yi y) ( n 1) Var ( y) ( i1 i1 Stanowi ona miarę całkowitej zmienności wartości samej zmiennej objaśnianej bez odniesienia do zmiennej objaśniającej. Zauważmy, że SST jest funkcją wariancji zmiennej y, gdzie wariancja jest kwadratem odchylenia standardowego. 2 ( n 1) y
71 Wszystkie trzy miary: SST, wariancja oraz odchylenie standardowe są jednowymiarowymi miarami zmienności tylko dla y. Czy powinniśmy oczekiwać, że SST jest większe czy też mniejsze od SSE? Wykorzystując obliczenia mamy SST dużo większe niż SSE. Mamy więc teraz z czym porównać SSE. Wartość SSE jest dużo mniejsza od SST, co wskazuje, że uwzględnienie informacji ze zmiennej objaśniającej w regresji skutkuje dużo dokładniejszą estymacją niż gdybyśmy zignorowali tę informację. Sumy kwadratów są błędami przewidywań, zatem im ich wartość jest mniejsza tym lepiej. Innymi słowy, zastosowanie regresji poprawia nasze szacowania zmiennej objaśnianej. Jeśli chcemy określić, jak bardzo oszacowane równanie regresji poprawia estymację, obliczymy teraz sumę kwadratów y y Otrzymamy w ten sposób regresyjną sumę kwadratów (SSR, sum of squares regression) miarę całkowitej poprawy dokładności przewidywań w przypadku stosowania regresji w porównaniu do przypadku, gdy informacja zmiennej objaśniającej jest ignorowana: SSR n i1 ( y y) 2
72 Odległość dzielimy na dwie części: y y y y y y ) ( ) ( y y y y y y ) ( ) ( ) ( y y y y y y SSE SSR SST
73 SST mierzy całkowitą zmienność zmiennej objaśnianej, zatem o SSR możemy myśleć jak o części zmienności zmiennej objaśniającej, która jest wyjaśniona przez regresję (SSR). Innymi słowy, SSR mierzy tę część zmienności zmiennej objaśniającej, która jest wyjaśniana przez liniową zależność między zmienną objaśniającą a objaśnianą. Ponieważ nie wszystkie punkty danych leżą dokładnie na linii regresji, więc pozostaje jeszcze pewna część zmienności zmiennej y, która nie została wyjaśniona przez regresję (tej części odpowiada wartość SSE). Możemy tu SSE traktować jako miarę całej zmienności y ze wszystkich źródeł, łącznie z błędem, po wyjaśnieniu liniowej zależności między x a y za pomocą regresji. Tutaj SSE jest nazywane zmiennością niewyjaśnioną.
74 Ponieważ współczynnik determinacji przyjmuje postać ilorazu SSR i SST możemy go interpretować jako tę część zmienności zmiennej y, która została wyjaśniona przez regresję, czyli przez liniowy związek pomiędzy zmienną celu a zmienną objaśniającą.
75 Jaka jest maksymalna wartość R 2? Maksymalna wartość może być osiągnięta wtedy, gdy regresja idealnie pasuje do danych, co ma miejsce wówczas, gdy każdy z punktów danych leży dokładnie na oszacowanej linii regresji. W tej optymalnej sytuacji nie ma błędów oszacowania podczas stosowania regresji, a zatem każda wartość resztowa jest równa 0, co z kolei oznacza, że SSE jest =0. Jeżeli SSE = 0 to SST = SSR zatem współczynnik R 2 jest równy SSR/SST = 1. Taka sytuacja ma miejsce gdy regresja idealnie modeluje dostępne dane.
76 Jaka jest minimalna wartość R 2? Jeśli regresja nie wykazała żadnej poprawy, czyli nie wyjaśniła żadnej części zmienności zmiennej y. Wówczas wartość SSR jest równa zero, a więc również wartość R 2 = 0. Zatem wartość współczynnika R 2 jest z zakresu od 0 do 1. Im wyższa wartość R 2, tym lepsze dopasowanie regresji do danych. Wartości R 2 bliskie 1 oznaczają niezwykle dobre dopasowanie regresji do danych, wartości bliskie 0, oznaczają bardzo słabe dopasowanie.
77 Współczynnik determinacji r 2 Współczynnik determinacji r 2 : 2 r SSR SST Mierzy stopień dopasowania regresji jako przybliżenia liniowej zależności pomiędzy zmienną celu a zmienną objaśniającą. Jaka jest wartość maksymalna współczynnika determinacji r 2? Jest ona osiągana wtedy, gdy regresja idealnie pasuje do danych, co ma miejsce wtedy gdy każdy z punktów danych leży dokładnie na oszacowanej linii regresji. Wówczas nie ma błędów oszacowania, a więc wartości resztowe (rezydua) wynoszą 0, a więc SSE=0 a wtedy SST = SSR a r 2 =1. Jaka jest wartość minimalna współczynnika determinacji r 2? Jest ona osiągana wtedy, gdy regresja nie wyjaśnia zmienności, wtedy SSR = 0, a więc r 2 =0. Im większa wartość r 2 tym lepsze dopasowanie regresji do zbioru danych.
78 x y y y y 2 ( y y) Całkowita suma kwadratów SST n i1 ( y y) 2 Regresyjna suma kwadratów SSR n i1 ( y y) 2 Suma kwadratów błędów oszacowania: SSE n i1 ( y y) 2 Wówczas współczynnik determinacji r 2 : 2 r SSR SST
79 Przykład analizy współczynnika R 2 dla wielu zmiennych objaśniających Jak już wspomnieliśmy na początku, często w świecie rzeczywistym mamy do czynienia z zależnościami zmiennej objaśnianej nie od jednej ale raczej od wielu zmiennych objaśniających. Wykonanie tego typu analiz w pakiecie R nie jest rzeczą trudną. Wręcz przeciwnie. Nim przeprowadzimy analizę zależności zmiennej rating od wielu zmiennych objaśniających np. sugars oraz fiber przyjrzyjmy się wykresom rozrzutu dla tych zmiennych osobno. Wykres rozrzutu bowiem doskonale odzwierciedla zależności między pojedynczymi zmiennymi.
80 Współczynnik determinacji Niezwykle istotna jest miara nazwana już wcześniej współczynnikiem determinacji R 2 określana za pomocą wzoru: n ^ n 2 SSR ^ 2ˆ 2 SSR ( y y) i1 R SST SST ( y y) gdzie SSR to regresyjna suma kwadratów zaś SST to całkowita suma kwadratów Będziemy go interpretować jako część zmienności zmiennej objaśnianej, która jest wyjaśniana przez liniową zależność ze zbiorem zmiennych objaśniających. Im większa będzie liczba zmiennych objaśniających tym nie mniejsza będzie wartość współczynnika determinacji R 2. Możemy wnioskować, że gdy dodajemy nową zmienną objaśniającą do modelu, wartość R 2 będzie nie mniejsza niż przy modelu o mniejszej liczbie zmiennych. Oczywiście skala (wielkość) tej różnicy jest bardzo istotna w zależności od tego czy dodamy tę zmienną do modelu czy też nie. Jeśli wzrost jest duży to uznamy tę zmienną za znaczącą (przydatną). i1
81 Jeśli takie reszty obliczymy dla każdej obserwacji to możliwe będzie wyznaczenie wartości współczynnika determinacji R 2. W naszym przypadku jest on równy czyli %. Oznacza to w naszej analizie, że % zmienności wartości odżywczej jest wyjaśniane przez liniową zależność pomiędzy zmienną wartość odżywcza a zbiorem zmiennych objaśniających - zawartością cukrów i zawartością błonnika. Jeśli popatrzymy jaka była wartość tego współczynnika, gdy badaliśmy na początku zależność zmiennej objaśnianej tylko od jednej zmiennej objaśniającej (cukry) to wartość ta wynosiła R 2 = 57.71%. Dla dwóch zmiennych objaśniających ta wartości wyniosła %. Czyli powiemy, że dodając nową zmienną objaśniającą (w tym przypadku błonnik) możemy wyjaśnić dodatkowe = 22.19% zmienności wartości odżywczej (rating) płatków. Typowy błąd oszacowania jest tu obliczany jako standardowy błąd oszacowania s i wynosi 6.22 punktu. Oznacza to, że estymacja wartości odżywczej płatków na podstawie zawartości cukrów i błonnika zwykle różni się od właściwej wartości o 6.22 punktu. Jeśli nowa zmienna jest przydatna, to błąd ten powinien się zmniejszać po dodaniu nowej zmiennej.
82 Ile zmiennych objaśniających w modelu regresji? Najprostszym sposobem na wybór optymalnej liczby zmiennych objaśniających jest współczynnik R 2 adj zwany skorygowanym. Wiedząc, że R 2 = 1 SSE/SST wartość R 2 adj obliczymy jako: 2 R adj 1 SSE n p SST n 1 gdzie p oznacza liczbę parametrów modelu (i jest to zazwyczaj liczba zmiennych objaśniających + 1) zaś n oznacza wielkość próby. Zwykle wartość R 2 adj będzie po prostu nieco mniejsza niż wartość R 2. W środowisku R współczynnik determinacji R 2 wyznaczymy stosując bezpośrednio komendę: summary(model.liniowy)\$r.square Z kolei współczynnik determinacji ale ten tzw. skorygowany (ang. Adjusted) za pomocą komendy: summary(model.liniowy)\$adj.r.squared
83 Chcąc wyznaczyć wartości tych współczynników dla naszego testowego modelu z dwiema zmiennymi objaśniającymi sugars oraz fiber w środowisku R użyjemy odpowiednich komend, jak to pokazuje poniższy kod R wraz z wynikami: > dane<- read.table("c:\\cereals.data", header = TRUE, row.names = 1) > model<-lm(rating~sugars+fiber, data=dane) > summary(model)$r.square [1] > summary(model)$adj.r.squared [1] Jak widzimy współczynnik R 2 wynosi zaś R 2 adj odpowiednio
84
85 Funkcja r.square
86 Funkcja r.square.adjusted
87 Funkcja coeff
88 Przykład analizy współczynnika R2 dla jednej zmiennej objaśniającej Procedura analizy współczynnika determinacji R2 dla jednej zmiennej objaśniającej może wyglądać następująco. Jeśli założymy, że zmienną objaśnianą ma być wartość odżywcza płatków (rating) zaś zmienną objaśniającą poziom cukrów (sugars) to komenda R wywołującą badanie zależności między tymi zmiennymi będzie nastepująca: lm(rating~sugars, data=dane) Wówczas pełny zapis okna dialogu z R-em będzie następujący: > dane<- read.table("c:\\cereals.data", header = TRUE, row.names = 1) > model<-lm(rating~sugars, data=dane) > summary(model)
89 Call: lm(formula = rating ~ sugars, data = dane) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** sugars e-15 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 75 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 75 DF, p-value: 1.153e-15 > Widzimy zatem, że równanie regresji, gdy zmienną objaśnianą będzie zmienna rating (wartość odżywcza płatków) zaś objaśniającą sugars (poziom cukrów), będzie następującej postaci: rating = -2.4 * sugars+ 59.3
90 Teraz możemy przewidywać, że gdy poziom cukrów wynosi np. 1 to wartość odżywcza płatków będzie wynosić 56.9 zaś gdy poziom cukrów będzie wynosił np. 10 wówczas wartość odżywcza zmaleje do wartości 35.3 (patrz poniżej). > predict(model,data.frame(sugars=10), level = 0.9, interval = "confidence") fit lwr upr > predict(model,data.frame(sugars=1), level = 0.9, interval = "confidence") fit lwr upr
91 Przykład analizy współczynnika R2 dla wielu zmiennych objaśniających Często w świecie rzeczywistym mamy do czynienia z zależnościami zmiennej objaśniającą nie od jednej zmiennej objaśnianej ale raczej od wielu zmiennych objaśniających. Wykonanie tego typu analiz w pakiecie R nie jest rzeczą trudną. Wręcz przeciwnie. Nim przeprowadzimy analizę zależności zmiennej rating od wielu zmiennych objaśniających np. sugars oraz fiber przyjrzyjmy się wykresom rozrzutu dla tych zmiennych osobno. Wykres rozrzutu bowiem doskonale odzwierciedla zależności między pojedynczymi zmiennymi.
92
93 Przykład analizy zmiennej objaśnianej (a więc wartości odżywczej płatków ze zbioru Cereals od kilku zmiennych, np. sugars oraz fiber (a więc odpowiednio: poziom cukrów oraz błonnik) przedstawiamy poniżej. > model<-lm(rating~sugars+fiber, data=dane) > summary(model) Call: lm(formula = rating ~ sugars + fiber, data = dane) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** sugars < 2e-16 *** fiber e-14 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 74 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 74 DF, p-value: < 2.2e-16
94 wtedy powiemy, że równanie regresji będzie wyglądać następująco: rating = * sugars * fiber Czyli, aby zinterpretować współczynnik nachylenia prostej regresji b 1 = powiemy, że wartość odżywcza maleje o punktu, jeśli zawartość cukru rośnie o jedną jednostkę. Zakładamy przy tym, że zawartość błonnika (fiber) jest stała. Z kolei interpretacja współczynnika b 2 = jest taka, że wartość odżywcza rośnie o punktu, jeśli zawartość błonnika rośnie o jedną jednostkę a zawartość cukru (sugars) jest stała.
95 Uogólniając będziemy mówić, że dla m zmiennych objaśniających zachodzi reguła, zgodnie z którą oszacowana zmiana wartości zmiennej odpowiedzi to b i, jeśli wartość zmiennej x i rośnie o jednostkę i zakładając, że wszystkie pozostałe wartości zmiennych są stałe. Błędy predykcji są mierzone przy użyciu reszt Co ważne: y y w prostej regresji liniowej reszty reprezentują odległość (mierzoną wzdłuż osi pionowej) pomiędzy właściwym punktem danych a linią regresji. Zaś w regresji wielokrotnej, reszta jest reprezentowana jako odległość między właściwym punktem danych a płaszczyzną lub hiperpłaszczyzną regresji. Przykładowo płatki Spoon Size Shredded Wheat zawierają x 1 =0 gramów cukru i x 2 = 3 gramy błonnika, a ich wartość odżywcza jest równa podczas gdy wartość oszacowana, podana za pomocą równania regresji: > predict(model, data.frame(sugars=0,fiber=3),level=0.95, interval="confidence") fit lwr upr >
96 Zatem dla tych konkretnych płatków reszta jest równa = Zwróćmy uwagę na to, że wyniki które tutaj zwraca funkcja R: predict są bardzo istotne. Mianowicie, oprócz podanej (oszacowanej, przewidywanej) wartości zmiennej objaśniającej, otrzymujemy również przedział ufności na zadanym poziomie ufności równym 0.95, który to przedział mieści się między wartością (lwr) a (upr). Pamiętamy, że z pojęciem regresji wiąże się pojęcie współczynnika determinacji: gdzie SSR to regresyjna suma kwadratów: zaś SST to całkowita suma kwadratów: 2 R SSR SST Będziemy R 2 interpretować jako część zmienności zmiennej objaśnianej, która jest wyjaśniana przez liniową zależność ze zbiorem zmiennych objaśniających. SST SSR n i1 n i1 ( ( y y) y 2 y) 2
97 Co ważne: Im większa będzie liczba zmiennych objaśniających tym nie mniejsza będzie wartość współczynnika determinacji R 2 Możemy wnioskować, że gdy dodajemy nową zmienną objaśniającą do modelu, wartość R 2 będzie nie mniejsza niż przy modelu o mniejszej liczbie zmiennych. Oczywiście skala (wielkość) tej różnicy jest bardzo istotna w zależności od tego czy dodamy tę zmienną do modelu czy też nie. Jeśli wzrost jest duży to uznamy tę zmienną za znaczącą (przydatną). Jeśli takie reszty obliczymy dla każdej obserwacji to możliwe będzie wyznaczenie wartości współczynnika determinacji R 2. W naszym przypadku jest on równy czyli 80.92%. Oznacza to w naszej analizie, że 80.92% zmienności wartości odżywczej jest wyjaśniana przez liniową zależność (płaszczyznę) pomiędzy zmienną wartość odżywcza a zbiorem zmiennych objaśniających - zawartością cukrów i zawartością błonnika. Jeśli popatrzymy jaka była wartość tego współczynnika, gdy badaliśmy na początku zależność zmiennej objaśnianej tylko od jednej zmiennej objaśniającej (cukry) to wartość ta wynosiła R 2 = 57.71%. Dla dwóch zmiennych objaśniających ta wartości wyniosła %. Czyli powiemy, że dodając nową zmienną objaśniającą (w tym przypadku błonnik) możemy wyjaśnić dodatkowe = 22.19% zmienności wartości odżywczej (rating) płatków. Typowy błąd oszacowania jest tu obliczany jako standardowy błąd oszacowania s i wynosi 6.22 punktu. Oznacza to, że estymacja wartości odżywczej płatków na podstawie zawartości cukrów i błonnika zwykle różni się od właściwej wartości o 6.22 punktu. Jeśli nowa zmienna jest przydatna, to błąd ten powinien się zmniejszać po dodaniu nowej zmiennej.
98 Najprostszym sposobem na wybór optymalnej liczby zmiennych objaśniających jest współczynnik R 2 adj zwany skorygowanym (ang. adjusted). Wiedząc, że wartość R 2 2 SSE( n p) 2 SSE adj obliczymy jako R adj 1 R 1 SST SST( n 1) i zwykle ta wartość będzie po prostu nieco mniejsza niż wartość R 2. W środowisku R współczynnik determinacji R 2 wyznaczymy stosując bezpośrednio komendę: summary(model.liniowy)$r.square Z kolei współczynnik determinacji ale ten tzw. skorygowany (ang. adjusted) za pomocą komendy: summary(model.liniowy)$adj.r.squared. Chcąc wyznaczyć wartości tych współczynników dla naszego testowego modelu w dwiema zmiennymi objaśniającymi sugars oraz fiber w środowisku R użyjemy odpowiednich komend, jak to pokazuje poniższy kod R wraz z wynikami: > dane<- read.table("c:\\cereals.data", header = TRUE, row.names = 1) > model<-lm(rating~sugars+fiber, data=dane) > summary(model)$r.square [1] > summary(model)$adj.r.squared [1] Jak widzimy współczynnik R 2 wynosi zaś R 2 adj odpowiednio
99 Użyjemy równania regresji aby oszacować wartość odżywczą Chocolade Frosted Sugar Bombs: y = * sugars = * 30 = -3.2 Innymi słowy, ulubione płatki mogą mieć tak dużo cukru, że wartość odżywcza jest liczbą ujemną, w przeciwieństwie do innych płatków w zbiorze danych (minimalna wartość odżywcza = 18) i analogicznie do ujemnej oceny studenta z egzaminu. Co tu się dzieje? Ujemna przewidywana wartość odżywcza dla tych płatków jest przykładem nieuzasadnionej ekstrapolacji.
100 Po dzisiejszym wykładzie powinieneś znać odpowiedź na następujące pytania: Jaką postać przyjmuje równanie regresji liniowej? Jak z równania regresji dokonywać predykcji? Co to znaczy, że regresja jest wielokrotna? Czym jest współczynnik determinacji? Jak się go mierzy? Jaka jest jego max i min wartość? Jak sprawdzić czy regresja jest przydatna? Do czego służy metoda MNK?
101 Na następnym wykładzie poznasz odpowiedź na następujące pytania: Jak graficznie sprawdzać założenia regresji liniowej? Co to jest wykres kwantylowy? Co to jest wykres studentyzowanych i standaryzowanych reszt? Jak znaleźć w modelu obserwacje wpływowe, obserwacje odstąjące czy obserwacje wysokiej dźwigni? Jak weryfikować poprawność modelu regresji? Jak wybrać lepszy model regresji? Jak badać regresję nieliniową?
Regresja liniowa, klasyfikacja metodą k-nn. Agnieszka Nowak Brzezińska
Regresja liniowa, klasyfikacja metodą k-nn Agnieszka Nowak Brzezińska Analiza regresji Analiza regresji jest bardzo popularną i chętnie stosowaną techniką statystyczną pozwalającą opisywać związki zachodzące
Bardziej szczegółowoAnaliza zależności cech ilościowych regresja liniowa (Wykład 13)
Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny
Bardziej szczegółowoAnaliza regresji. Analiza korelacji.
Analiza regresji. Analiza korelacji. Levels name mfr type calories protein fat sodium fiber carbo sugars potass vitamins shelf weight cups rating Storage 77 integer 7 integer 2 integer integer integer
Bardziej szczegółowoRozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Bardziej szczegółowoAnaliza regresji część II. Agnieszka Nowak - Brzezińska
Analiza regresji część II Agnieszka Nowak - Brzezińska Niebezpieczeństwo ekstrapolacji Analitycy powinni ograniczyć predykcję i estymację, które są wykonywane za pomocą równania regresji dla wartości objaśniającej
Bardziej szczegółowoMODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 4
Stanisław Cichocki Natalia Nehrebecka Wykład 4 1 1. Własności hiperpłaszczyzny regresji 2. Dobroć dopasowania równania regresji. Współczynnik determinacji R 2 Dekompozycja wariancji zmiennej zależnej Współczynnik
Bardziej szczegółowoRegresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Bardziej szczegółowoStatystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Bardziej szczegółowoWprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Bardziej szczegółowoRegresja liniowa wprowadzenie
Regresja liniowa wprowadzenie a) Model regresji liniowej ma postać: gdzie jest zmienną objaśnianą (zależną); są zmiennymi objaśniającymi (niezależnymi); natomiast są parametrami modelu. jest składnikiem
Bardziej szczegółowoStatystyka w analizie i planowaniu eksperymentu
23 kwietnia 2014 Korelacja - wspó lczynnik korelacji 1 Gdy badamy różnego rodzaju rodzaju zjawiska (np. przyrodnicze) możemy stwierdzić, że na każde z nich ma wp lyw dzia lanie innych czynników; Korelacja
Bardziej szczegółowoTemat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji
Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT Część I: analiza regresji Krok 1. Pod adresem http://zsi.tech.us.edu.pl/~nowak/adb/eksport.txt znajdziesz zbiór danych do analizy. Zapisz plik na dysku w dowolnej
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 5
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Bardziej szczegółowoStosowana Analiza Regresji
prostej Stosowana Wykład I 5 Października 2011 1 / 29 prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile
Bardziej szczegółowoModel regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago
Model regresji wielokrotnej Wykład 14 (4.06.2007) Przykład ceny domów w Chicago Poniżej są przedstawione dane dotyczące cen domów w Chicago (źródło: Sen, A., Srivastava, M., Regression Analysis, Springer,
Bardziej szczegółowoPDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Bardziej szczegółowoRegresja liniowa w R Piotr J. Sobczyk
Regresja liniowa w R Piotr J. Sobczyk Uwaga Poniższe notatki mają charakter roboczy. Mogą zawierać błędy. Za przesłanie mi informacji zwrotnej o zauważonych usterkach serdecznie dziękuję. Weźmy dane dotyczące
Bardziej szczegółowoRegresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).
Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład 2 z 5
Agnieszka Nowak Brzezińska Wykład 2 z 5 metoda typ Zmienna niezależna Regresja liniowa Regresja Wszystkie ilościowe Zakłada liniową zależność, prosta w implementacji Analiza dyskryminacyjna klasyfikacja
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 7
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Bardziej szczegółowoKORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Bardziej szczegółowoANALIZA REGRESJI SPSS
NLIZ REGRESJI SPSS Metody badań geografii społeczno-ekonomicznej KORELCJ REGRESJ O ile celem korelacji jest zmierzenie siły związku liniowego między (najczęściej dwoma) zmiennymi, o tyle w regresji związek
Bardziej szczegółowoRegresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Regresja liniowa Korelacja Modelowanie Analiza modelu Wnioskowanie Korelacja 3 Korelacja R: charakteryzuje
Bardziej szczegółowoWERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno
WERYFIKACJA MODELI MODELE LINIOWE Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno ANALIZA KORELACJI LINIOWEJ to NIE JEST badanie związku przyczynowo-skutkowego, Badanie współwystępowania cech (czy istnieje
Bardziej szczegółowoREGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ Korelacja oznacza fakt współzależności zmiennych, czyli istnienie powiązania pomiędzy nimi. Siłę i kierunek powiązania określa się za pomocą współczynnika korelacji
Bardziej szczegółowoREGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji
Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji
Bardziej szczegółowoKORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona
KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y 2. Współczynnik korelacji Pearsona 3. Siła i kierunek związku między zmiennymi 4. Korelacja ma sens, tylko wtedy, gdy związek między zmiennymi
Bardziej szczegółowoStatystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Bardziej szczegółowoFUNKCJA LINIOWA - WYKRES
FUNKCJA LINIOWA - WYKRES Wzór funkcji liniowej (Postać kierunkowa) Funkcja liniowa jest podstawowym typem funkcji. Jest to funkcja o wzorze: y = ax + b a i b to współczynniki funkcji, które mają wartości
Bardziej szczegółowoStatystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Bardziej szczegółowoKorelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy
Bardziej szczegółowoparametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,
诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów
Bardziej szczegółowoZadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
Bardziej szczegółowoStatystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31
Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 9
Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności
Bardziej szczegółowoElementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Bardziej szczegółowoFunkcja liniowa - podsumowanie
Funkcja liniowa - podsumowanie 1. Funkcja - wprowadzenie Założenie wyjściowe: Rozpatrywana będzie funkcja opisana w dwuwymiarowym układzie współrzędnych X. Oś X nazywana jest osią odciętych (oś zmiennych
Bardziej szczegółowoZmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Bardziej szczegółowoWIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność
Bardziej szczegółowo( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Bardziej szczegółowoAnaliza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Bardziej szczegółowoStatystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
Bardziej szczegółowoEkonometria dla IiE i MSEMat Z7
Ekonometria dla IiE i MSEMat Z7 Rafał Woźniak Faculty of Economic Sciences, University of Warsaw Warszawa, 21-11-2016 Na podstawie zbioru danych cps_small.dat z książki Principles of Econometrics oszacowany
Bardziej szczegółowoFUNKCJA LINIOWA - WYKRES. y = ax + b. a i b to współczynniki funkcji, które mają wartości liczbowe
FUNKCJA LINIOWA - WYKRES Wzór funkcji liniowej (postać kierunkowa) Funkcja liniowa to funkcja o wzorze: y = ax + b a i b to współczynniki funkcji, które mają wartości liczbowe Szczególnie ważny w postaci
Bardziej szczegółowoRegresja logistyczna (LOGISTIC)
Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim
Bardziej szczegółowoWykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)
Bardziej szczegółowoAnaliza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres
Bardziej szczegółowo1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:
Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).
Bardziej szczegółowoSzczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Bardziej szczegółowoStatystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34
Statystyka Wykład 9 Magdalena Alama-Bućko 24 kwietnia 2017 Magdalena Alama-Bućko Statystyka 24 kwietnia 2017 1 / 34 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoistocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy
MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze
Bardziej szczegółowoWykład 4 Związki i zależności
Wykład 4 Związki i zależności Rozważmy: Dane z dwiema lub więcej zmiennymi Zagadnienia do omówienia: Zmienne objaśniające i zmienne odpowiedzi Wykres punktowy Korelacja Prosta regresji Słownictwo: Zmienna
Bardziej szczegółowoWprowadzenie do technik analitycznych Metoda najmniejszych kwadratów
Wprowadzenie do technik analitycznych Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski Wykład 2 Korelacja i regresja Przykład: Temperatura latem średnia liczba napojów sprzedawanych
Bardziej szczegółowoWSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Bardziej szczegółowo3. FUNKCJA LINIOWA. gdzie ; ół,.
1 WYKŁAD 3 3. FUNKCJA LINIOWA FUNKCJĄ LINIOWĄ nazywamy funkcję typu : dla, gdzie ; ół,. Załóżmy na początek, że wyraz wolny. Wtedy mamy do czynienia z funkcją typu :.. Wykresem tej funkcji jest prosta
Bardziej szczegółowoSzczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 8
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów
STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów
Bardziej szczegółowoOszacowanie i rozkład t
Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie
Bardziej szczegółowoFUNKCJA LINIOWA, RÓWNANIA I UKŁADY RÓWNAŃ LINIOWYCH
FUNKCJA LINIOWA, RÓWNANIA I UKŁADY RÓWNAŃ LINIOWYCH PROPORCJONALNOŚĆ PROSTA Proporcjonalnością prostą nazywamy zależność między dwoma wielkościami zmiennymi x i y, określoną wzorem: y = a x Gdzie a jest
Bardziej szczegółowoRegresja i Korelacja
Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane
Bardziej szczegółowoR-PEARSONA Zależność liniowa
R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe
Bardziej szczegółowoSTATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss
Bardziej szczegółowoAnaliza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Bardziej szczegółowoWielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna
Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Badanie współzależności zmiennych Uwzględniając ilość zmiennych otrzymamy 4 odmiany zależności: Zmienna zależna jednowymiarowa oraz jedna
Bardziej szczegółowoAutorzy: Jerzy Stefanowski, Robert Susmaga Instytut Informatyki, Politechnika Poznańska.
Metody predykcji konstruowanie modelu regresji z wielowymiarowych danych. Przewodnik do ćwiczenia nr 2 dla studentów TPD w ramach przedmiotu Zaawansowana eksploracja danych (październik 2008) Autorzy:
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne
Bardziej szczegółowoZadania ze statystyki, cz.6
Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z
Bardziej szczegółowoEgzamin z ekonometrii wersja IiE, MSEMAT
Egzamin z ekonometrii wersja IiE, MSEMAT 04-02-2016 Pytania teoretyczne 1. Za pomocą jakiego testu weryfikowana jest normalność składnika losowego? Jakiemu założeniu KMRL odpowiada w tym teście? Jakie
Bardziej szczegółowoNastępnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.
Zadanie Należy zacząć od sprawdzenia, co studenci pamiętają ze szkoły średniej na temat funkcji jednej zmiennej. Na początek można narysować kilka krzywych na tle układu współrzędnych (funkcja gładka,
Bardziej szczegółowo0 + 0 = 0, = 1, = 1, = 0.
5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,
Bardziej szczegółowoK wartość kapitału zaangażowanego w proces produkcji, w tys. jp.
Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.
Bardziej szczegółowoMetoda najmniejszych kwadratów
Własności algebraiczne Model liniowy Zapis modelu zarobki = β 0 + β 1 plec + β 2 wiek + ε Oszacowania wartości współczynników zarobki = b 0 + b 1 plec + b 2 wiek + e Model liniowy Tabela: Oszacowania współczynników
Bardziej szczegółowoFunkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.
Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcja homograficzna. Definicja. Funkcja homograficzna jest to funkcja określona wzorem f() = a + b c + d, () gdzie współczynniki
Bardziej szczegółowo3. Modele tendencji czasowej w prognozowaniu
II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników
Bardziej szczegółowoBADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ
WYKŁAD 3 BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ Było: Przykład. Z dziesięciu poletek doświadczalnych zerano plony ulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość
Bardziej szczegółowoWeryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Bardziej szczegółowoW rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:
W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe
Bardziej szczegółowoStatystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
Bardziej szczegółowoAnaliza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Bardziej szczegółowoTablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Bardziej szczegółowoZałóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników
Bardziej szczegółowoWstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński
Wstęp do teorii niepewności pomiaru Danuta J. Michczyńska Adam Michczyński Podstawowe informacje: Strona Politechniki Śląskiej: www.polsl.pl Instytut Fizyki / strona własna Instytutu / Dydaktyka / I Pracownia
Bardziej szczegółowoMETODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Bardziej szczegółowoStatystyka i Analiza Danych
Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki
Bardziej szczegółowoStatystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41
Statystyka Wykład 4 Magdalena Alama-Bućko 13 marca 2017 Magdalena Alama-Bućko Statystyka 13 marca 2017 1 / 41 Na poprzednim wykładzie omówiliśmy następujace miary rozproszenia: Wariancja - to średnia arytmetyczna
Bardziej szczegółowo5. Model sezonowości i autoregresji zmiennej prognozowanej
5. Model sezonowości i autoregresji zmiennej prognozowanej 1. Model Sezonowości kwartalnej i autoregresji zmiennej prognozowanej (rząd istotnej autokorelacji K = 1) Szacowana postać: y = c Q + ρ y, t =
Bardziej szczegółowoWYKŁAD 8 ANALIZA REGRESJI
WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza
Bardziej szczegółowoStatystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Bardziej szczegółowoZadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.
Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w
Bardziej szczegółowoEkonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007
, transformacja liniowa i estymacja modelu KMNK Paweł Cibis pawel@cibis.pl 9 marca 2007 1 Miary dopasowania modelu do danych empirycznych Współczynnik determinacji Współczynnik zbieżności Skorygowany R
Bardziej szczegółowo4. Średnia i autoregresja zmiennej prognozowanej
4. Średnia i autoregresja zmiennej prognozowanej 1. Średnia w próbie uczącej Własności: y = y = 1 N y = y t = 1, 2, T s = s = 1 N 1 y y R = 0 v = s 1 +, 2. Przykład. Miesięczna sprzedaż żelazek (szt.)
Bardziej szczegółowoSpis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Bardziej szczegółowo