Temat 1. Analiza regresji jednej zmiennej

Wielkość: px
Rozpocząć pokaz od strony:

Download "Temat 1. Analiza regresji jednej zmiennej"

Transkrypt

1 Analiza regresji zajmuje się badaniem zależności pomiędzy zmiennymi, mające na celu konstrukcję modelu, który dobrze odzwierciedla tą zależność. Takiego badania dokonujemy na podstawie przeprowadzenia doświadczeń i analizy ich wyników. Warto zaznaczyć, że słowo regresja w tłumaczeniu z łaciny oznacza cofanie. Stosowanie w nazwie tej dziedziny, jak też w nazwie kilku innych pojęć, słowa regresja jest historyczne i raczej niefortunne. Nazwa ta została, prawdopodobnie, po raz pierwszy użyta w 1885 r. przez angielskiego naukowca Sir F. Galtona (ucznia K. Darwina) pod czas badania zależności wzrostu potomstwa od wzrostu rodziców. Wykazał on bowiem, że niezwykle wysocy rodzice (znacznie wyżsi powyżej przeciętności), mają dzieci niższego wzrostu, natomiast rodzice o wzroście znacznie niższym, niż przeciętny, mają dzieci wyższe od nich. Galton nazwał to zjawisko cofaniem w kierunku przeciętności. W istocie dziedzina, zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń, jest o wiele starsza. Tak na przykład matematycy francuscy (szczególnie P.-S. Laplace) w XVIII wieku przeprowadzały analizy, które nazwalibyśmy dziś analizą regresji. Warto zaznaczyć, iż zmienne mogą być powiązane między sobą zależnością funkcyjną lub statystyczną. Związek funkcyjny Y = f(x) odznacza się tym, że każdej wartości zmiennej X (X może być też wektorem) odpowiada tylko jedna, jednoznacznie określona wartość zmiennej Y (na przykład pole kwadratu jest funkcją jego boku). Bardzo rzadko jednak mamy do czynienia z danymi, które dokładnie opisują się podobną zależnością. Częściej mamy do czynienia z tzw. zależnością statystyczną. Związek statystyczny polega na tym, że określonym wartościom zmiennej X odpowiadają ściśle określone średnie wartości zmiennej Y. Temat 1. Analiza regresji jednej zmiennej Zacznijmy od najprostszej sytuacji, gdy chcemy zbadać zależność interesującej nas zmiennej Y (nazywamy ją zmienną zależną) od jednej zmiennej X (nazywamy ją zmienną niezależną). Ćwiczenie 1. Rozpatrzmy rezultaty kolokwium (skala od 0 do 25 punktów) i egzaminu końcowego (skala od 0 do 50 punktów) ze statystyki matematycznej. W kolokwium i egzaminie brało udział 19 studentów pewnej szkoły technicznej. Wyniki kolokwium i egzaminu są podane w tabelce (oraz pliku stud.sav na Moodle): Numer stud Kolokwium Egzamin Numer stud Kolokwium Egzamin Zbadać zależność pomiędzy wynikiem egzaminu końcowego (zmienna zależna) a kolokwium (zmienna niezależna). Zależność tę przedstawiono na wykresie rozrzutu, który jest użytecznym graficznym przedstawieniem zależności między zmiennymi (WYKRESY 1

2 kolokwium > KREATOR WYKRESÓW..., wybieramy PROSTY WYKRES ROZRZUTU i umieszczamy zmienna Kolokwium na osi poziomej, a Egzamin na osi pionowej). Tworzą go pary punktów (x i, y i ), i = 1,..., 19, czyli pary poszczególnych wartości zmiennej niezależnej i zmiennej zależnej. Zaznaczmy, że w przypadku, gdy mamy do czynienia z jedną zmienną niezależną, zagadnienie konstrukcji modelu zaleca się zaczynać właśnie od sporządzenia wykresu rozrzutu. Widzimy, że istotnie mamy tutaj do czynienia z zależnością statystyczną, a nie funkcyjną, bowiem mamy studentów, których wynik kolokwium jest taki sam, ale wynik egzaminu różni się (na przykład studenci o numerach 5, 17 i 19 mają ten sam wynik kolokwium - 17 punktów, lecz różny wynik egzaminu - odpowiednio 35, 34 i 40 punktów). Wykonany wykres rozrzutu sugeruje istnienie prostej, wokół której koncentrują się umieszczone na wykresie punkty. W analizie regresji zakładamy, że model opisuje się w przybliżeniu funkcją postaci h(x, b), gdzie b jest pewnym wektorem parametrów, a h jest zadaną funkcją ciągłą (funkcja h jest nazywana funkcją regresji). Naszym celem jest znalezienie takich wartości wektora parametrów b, by model jak najlepiej pasował do obserwacji. Jeśli funkcja h jest liniowa względem parametrów b, to regresja (i odpowiedni model) nazywa się liniową, w przeciwnym przypadku - nieliniową. Najprostsza funkcja regresji liniowej jednej zmiennej, to h(x, b) = b 1 x + b 0. Jak wśród wszystkich możliwych prostych wybrać właściwą? Rozwiązanie tego zagadnienia opiera się na metodzie najmniejszych kwadratów, wprowadzonej jeszcze na początku XIX wieku przez A.-M. Legendre a i C. F. Gaussa. Polega ona na tym, że mając obserwacje (x i, y i ), i = 1,..., n, wybieramy b 1 i b 0 tak, by wartość n ( yi (b 1 x i + b 0 ) ) 2 i=1 była jak najmniejsza. Okazuje się, że taki problem, o ile wszystkie punkty {x i } nie są jednakowe, ma jedno- 2

3 5 4 y x znaczne rozwiązanie, mianowicie: ni=1 (x i x)(y i ȳ) b 1 = ni=1, b (x i x) 2 0 = ȳ b 1 x, gdzie x = 1 ni=1 x n i, ȳ = 1 ni=1 y n i. Dobroć dopasowania modelu do danych empirycznych zazwyczaj określa się za pomocą tzw. współczynnika determinacji mającego postać ni=1 R 2 (b 1 x i + b 0 ȳ) 2 = ni=1. (y i ȳ) 2 Współczynnik ten przyjmuje wartości z przedziału [0, 1]; większe wartości R 2 oznaczają lepsze dopasowanie modelu do danych empirycznych. Interpretacja jego jest następująca: zmienność zmiennej zależnej daje się wyjaśnić za pomocą stworzonego modelu w R 2 100%. Oprócz współczynnika determinacji warto też zwracać uwagę na istotność modelu. Istotność modelu w tej sytuacji jest równoważna z istotnością współczynnika b 1 i określa się na podstawie testowania hipotezy H 0 : b 1 = 0 przeciwko H 1 : b 1 0. Istotność modelu mniejsza bądź równa 0, 05 oznacza, że należy odrzucić hipotezę H 0, natomiast większa niż 0, 05 oznacza, że nie mamy podstaw do odrzucenia hipotezy H 0. Nie odrzucenie hipotezy H 0 jest równoważne z tym, że jest brak zależności liniowej pomiędzy zmienną zależną a zmienną niezależną. Badanie istotności współczynnika b 0 jest mniej ważne i wiąże się z testowaniem hipotezy H 0 : b 0 = 0 przeciwko H 1 : b 0 0. Nie odrzucenie hipotezy H 0 jest równoważne z tym, że należy nie uwzględniać stałą w równaniu regresji. Dostep w IBM SPSS Statistics: Dla wyznaczenia prostej regresji wybieramy jedną z poniższych możliwości: ANALIZA > REGRESJA >ESTYMACJA KRZYWEJ... Podajemy zmienną zależną i niezależną oraz zaznaczamy model LINIOWY (zaznaczone domyślnie). 3

4 Wybieramy opcję UWZGLĘDNIJ STAŁĄ W RÓWNANIU, jeśli chcemy dopasować do danych prostą y = b 1 x + b 0 ; jeśli tego nie zrobimy, to do danych będzie dopasowana prosta postaci y = b 1 x. W wyniku otrzymamy tabelę (PODSUMO- WANIE MODELU I OSZACOWAŃ PARAMETRÓW...) ze współczynnikiem determinacji R 2, współczynnikami b 1 i b 0, oraz istotnością modelu. Otrzymamy też wykres rozrzutu wraz z dopasowaną prostą, jeśli zaznaczymy opcję GRAFICZNA PREZENTACJA MODELI (zaznaczone domyślnie). Zauważmy, że ten sposób pozwala na dobranie nie tylko modelu liniowego, ale również np. kwadratowego czy logarytmicznego. ANALIZA > REGRESJA > LINIOWA.... Podajemy zmienną zależną i niezależną, w opcjach możemy uwzględnić bądź nie stałą w równaniu. Oprócz współczynnika determinacji R 2, współczynników b 1 i b 0 oraz istotności modelu otrzymamy w tabeli też istotność współczynnika b 0. Nie uzyskamy jednak wykresu, ale możemy wybrać WYKRESY > KREATOR WYKRESÓW... i stworzyć prosty wykres rozrzutu. Po aktywowaniu edytora wykresów można kliknąć ikonkę przycisku DODAJE LINIE DOPASOWANIA i narysować prosta regresji. Rozwiązanie ćwiczenia 1. Sposób I. Wybieramy ANALIZA > REGRESJA >ESTYMACJA KRZYWEJ... Podajemy Egzamin jako zmienną zależną, a Kolokwium jako niezależną. Z tabeli odczytujemy równanie regresji postaci: Egzamin = 1,760 Kolokwium + 5,200. Współczynnik R 2 wynosi 0,948, co świadczy o bardzo wysokim stopniu dopasowania modelu. Model jest istotny statystycznie, gdyż istotność jego wynosi 0,000, co pozwala na odrzucenie hipotezy, że b 1 = 0. Sposób II. Wybieramy ANALIZA > REGRESJA > LINIOWA... Z otrzymanej tabeli możemy dodatkowo wywnioskować, ze oba współczynniki równania regresji sa istotne statystycznie. Ćwiczenie 2. Do danych z pliku stud.sav dodaj jedną obserwację o wartościach 10 (wynik kolokwium) i 50 (wynik egzaminu). Wykonaj analizę regresji i sprawdź, jak zmieniło się równanie prostej regresji oraz dopasowanie modelu. Rozwiązanie. Dodajemy obserwacje do pliku i wybieramy ANALIZA > REGRESJA > ESTYMACJA KRZYWEJ... Podajemy Egzamin jako zmienną zależną, a Kolokwium jako niezależną. Otrzymujemy tabele i wykres. Równanie prostej ma teraz postać Egzamin = 1,464 Kolokwium + 10,905, a dopasowanie modelu pogorszyło się i wynosi R 2 = 0,555. Dodana przez nas obserwacja jest tzw. punktem oddalonym (odstającym, nietypowym). W celu wykrycia i ewentualnego wykluczenia z analizy punktów odstających, które mogą 4

5 niekorzystnie wpłynąć na konstrukcję modelu, należy zrobić wykresy skrzynkowe analizowanych zmiennych. Na tych wykresach kółkiem i gwiazdką zaznaczone są obserwacje odstające. Analizę regresji należy powtórzyć, usuwając obserwacje odstające. Ćwiczenie 3. Wykonaj wykresy skrzynkowe dla zmiennych zawartych w pliku stud.sav z dodaną obserwacją (10, 50). Czy wykresy wychwyciły tę nietypową obserwację? Rozwiązanie. Wybieramy z menu WYKRESY > WYKRESY TRADYCYJNE > SKRZYNKOWY... Zaznaczamy PROSTY oraz opcję PODSUMOWANIA OODZIEL- NYCH ZMIENNYCH. Zmienne Kolokwium i Egzamin umieszczamy w polu SKRZYNKI PRZEDSTAWIAJĄ. Na tych wykresach obserwacji odstających nie widzimy. Wniosek z tego ćwiczenia jest taki, że nie zawsze wykresy skrzynkowe są w stanie wykryć obserwacje odstające. Ćwiczenie 4. Wykonaj analizę regresji liniowej dla par zmiennych x i y z pliku anscombe.sav. Porównaj wyniki otrzymane w tabelach, a następnie wykonaj wykresy rozrzutu i zaznacz proste regresji. Czy we wszystkich przypadkach prosta regresji dobrze oddaje zależność między zmiennymi? Podane dane zostały dobrane przez angielskiego statystyka J. F. Anscombe a. Mają one na celu zwrócenie uwagi na fakt, że współczynnik determinacji R 2 nie zawsze jest wystarczający do oceny dobroci dopasowania modelu do danych. Jako uzupełnienie wyników należy stworzyć wykres rozrzutu z dopasowaną prostą regresji. Rozwiązanie. Wykonujemy czterokrotnie analizę regresji na przykład za pomocą poleceń: ANALIZA > REGRESJA >ESTYMACJA KRZYWEJ... Za każdym razem podajemy zmienną y i jako zależną i x i jako niezależną oraz zaznaczamy model LINIOWY. Zwróćmy uwagę, że we wszystkich czterech przypadkach wartość współczynnika R 2 jest taka sama (0, 666 bądź 0, jest to kwestia zaokrąglenia). Ale rzut oka na wykresy zupełnie zmienia nasze zdanie na temat jakości dopasowania modelu do danych. O ile wykres pierwszy, w zasadzie, odpowiada naszym oczekiwaniom, to wykres drugi wyraźnie pokazuje, że tutaj należy dopasować model kwadratowy, a nie liniowy. Na wykresie trzecim mamy do czynienia z punktem odstającym, natomiast ostatni wykres pokazuje, że model jest zupełnie nieudany i żadna funkcja liniowa nie jest w stanie dobrze przybliżyć zależność badanych zmiennych. Ćwiczenie 5. Dla zmiennych x 2 i y 2 z pliku anscombe.sav dobierz model lepszy niż liniowy. Rozwiązanie. Wykonując poprzednie ćwiczenie zasugerowaliśmy, że model kwadratowy jest chyba bardziej właściwy dla opisu zależności zmiennej y 2 od x 2. Sprawdźmy to. Wybieramy ANALIZA > REGRESJA >ESTYMACJA KRZYWEJ... Podajemy zmienną y 2 jako zależną oraz x 2 jako niezależną. Jako model zaznaczamy oprócz liniowego (dla porównania) jeszcze kwadratowy i sześcienny. Dla każdego z modelu możemy odczytać z tabeli równanie regresji. Zwracając uwagę na współczynniki determinacji dla trzech modeli widzimy, że dla modeli kwadratowego i sześciennego współczynniki determinacji są idealne, czyli wynoszą 1,000; oznacza to, że wszystkie obserwacje leżą dokładnie na otrzymanych krzywych. Ze względu na to, że 5

6 model kwadratowy jest prostszy niż sześcienny oraz na to, że dla modelu sześciennego współczynnik przy najwyższej potędze zmiennej niezależnej wynosi prawie 0, należy jako wynik wybrać tutaj model kwadratowy. Równanie regresji ma postać: y 2 = 0,127x ,781x 2 5,996. Ćwiczenie 6. W pliku statki.sav podane są wysokości połowów (w tys. ton) polskiego rybołówstwa dalekomorskiego w latach oraz odpowiednia liczba statków. Sporządź jak najlepszy model zależności wysokości połowów od liczby statków. Rozwiązanie. Wybieramy ANALIZA > REGRESJA >ESTYMACJA KRZYWEJ... Podajemy zmienną połowy jako zależną oraz statki jako niezależną. Jako model zaznaczamy wszystkie możliwe modele. W tabeli zwracamy przede wszystkim uwagę na współczynniki determinacji dla wszystkich modeli. Największy współczynnik determinacji R 2 mają modele kwadratowy i sześcienny (R 2 = 0,835), więc wybieramy model kwadratowy jako właściwy. Jego równanie ma postać: połowy = 0,251 statki ,708 statki 581,494. Z wykresu widzimy, że model kwadratowy w miarę dobrze odzwierciedla zależność. Temat 2. Analiza regresji liniowej wielu zmiennych Załóżmy teraz, że mamy jedną zmienną zależną Y i kilka zmiennych niezależnych X (1),..., X (k). W takiej sytuacji szukamy odpowiedniego modelu zależności na podstawie obserwacji (x (1) i,..., x (k) i, y i ), i = 1,..., n, więc tworzenie wykresów rozrzutu traci sens. Ograniczymy się tylko do przypadku, gdy funkcja regresji ma postać h(x, b) = b 0 + b 1 x (1) b k x (k) (jest to funkcja regresji wielokrotnej lub wielorakiej). Przy tworzeniu modelu będziemy zwracać uwagę na istotność współczynników {b i } przy każdej zmiennej i nie włączać do równania tych zmiennych, dla któerych istotność współczynników przekracza 0,05 (standardowo). Dostęp w IBM SPSS Statistics: ANALIZA > REGRESJA > LINIOWA... Podajemy zmienną zależną i zmienne niezależne, w opcjach możemy uwzględnić bądź nie stałą w równaniu. Otrzymujemy: współczynnik determinacji R 2 (tabela MODEL - PODSUMOWANIE), istotność modelu (tabela ANOVA), współczynniki {b i } oraz ich istotności (tabela WSPÓŁCZYNNIKI). Ćwiczenie 7. Na podstawie danych z pliku samochody.sav znajdź równanie regresji liniowej wielokrotnej dla zmiennej gas zużycie paliwa, przy używaniu wszystkich pozostałych zmiennych jako niezależnych: capacity - pojemność skokowa, power - moc silnika, mass - masa samochodu, acceler - przyspieszenie, prodyear - rocznik, region - miejsce produkcji, cylindr - liczba cylindrów. Rozwiązanie. Wybieramy ANALIZA > REGRESJA > LINIOWA... Podajemy gas 100 jako zmienną zależną, a pozostałe zmienne jako niezależne. Z tabeli odczytujemy równanie regresji: gas 100 = 22, capacity + 0,024 power + 0,006 mass + 0,048 acceler 6

7 0,294 prodyear 0,209 region + 0,305 cylindr. Współczynnik R 2 wynosi 0,886, co świadczy o dość dobrym dopasowaniu modelu. Zwróćmy jednak uwagę, że pewne współczynniki w modelu są nieistotne. Mianowicie nieistotnymi są współczynniki, odpowiadające zmiennym capacity, acceler, region. Nie ma zatem sensu uwzględnianie tych zmiennych w modelu. Powtórzmy więc analizę jeszcze raz, nie włączając zmiennych capacity, acceler, region do modelu. Uzyskujemy równanie: gas 100 = 22, ,016 power + 0,006 mass 0,295 prodyear + 0,205 cylindr; odpowiedni współczynnik R 2 wynosi 0,885, wszystkie współczynniki są istotne. Jak widzimy, jakość dopasowania modelu do danych, wyrażająca się współczynnikiem R 2, prawie się nie zmieniła (choć nie zawsze tak jest). Po wybraniu ANALIZA > REGRESJA > LINIOWA... mamy w okienku, które się pojawia, możliwość zmiany metody. Wybór metody pozwala na określenie, w jaki sposób zmienne niezależne będą wprowadzane do równania. Korzystając z różnych metod, dla jednego zbioru zmiennych można skonstruować kilka modeli regresji. Niżej podajemy krótki opis poszczególnych metod. Wprowadzanie (domyślna). Jest to procedura doboru zmiennych, przy której wszystkie podane zmienne niezależne są wprowadzane do równania. Krokowa. Startując od modelu bez zmiennych niezależnych, w każdym kroku do modelu dołączana jest zmienna niezależna, nie będąca jeszcze w równaniu, o najmniejszym prawdopodobieństwie odpowiadającym F, o ile to prawdopodobieństwo jest dostatecznie małe (domyślnie nie większe niż 0,05). Zmienne uwzględnione już w równaniu regresji zostają z niego usunięte, jeśli związane z nimi prawdopodobieństwo F staje się dostatecznie duże (domyślnie nie mniejsze niż 0,10). Wymienione wartości progowe 0,05 i 0,10 mogą być zmienione w opcjach. Procedura kończy się, kiedy nie da się wykluczyć ani dołączyć żadnej zmiennej. Metoda krokowa jest kombinacją metod selekcji postępującej i eliminacji wstecznej. Usuwanie. Jest to procedura doboru zmiennych, przy której wszystkie podane zmienne niezależne są najpierw wprowadzone do równania, a potem usunięte z niego. Ta metoda jest, w zasadzie, odwrotna do metody wprowadzania. Zazwyczaj nie stosuje się jej na samym początku poszukiwania równania, a tylko wtedy, gdy pewne zmienne chcemy usunąć z równania. Formalnie, jeśli zastosujemy tę metodę na samym początku, to dostajemy tę samą informację o równaniu, co w metodzie wprowadzania. Eliminacja wsteczna. Jest to procedura doboru zmiennych, przy której startujemy od modelu, w którym znajdują się wszystkie zmienne niezależne. W każdym kroku z modelu jest usuwana zmienna niezależna o największym prawdopodobieństwie odpowiadającym F, o ile to prawdopodobieństwo jest wystarczająco duże (domyślnie nie mniejsze niż 0,10). Procedura kończy działanie, gdy w równaniu nie występują już zmienne, spełniające kryteria usunięcia. 7

8 Selekcja postępująca. Jest to procedura doboru zmiennych, odwrotna do eliminacji wstecznej. Startując od modelu bez zmiennych niezależnych, w każdym kroku do modelu dołączana jest zmienna niezależna, niebędąca jeszcze w równaniu, o najmniejszym prawdopodobieństwie odpowiadającym F, o ile to prawdopodobieństwo jest dostatecznie małe (domyślnie nie większe niż 0,05). Procedura kończy się, kiedy nie da się dołączyć do równania żadnej zmiennej niezależnej. Ćwiczenie 8. Dla danych z pliku samochody.sav użyj wszystkich metod analizy regresji i porównaj wyniki. Rozwiązanie. Jak już wspomnieliśmy wyżej, metoda usunięcia nie prowadzi do innych wyników niż metoda wprowadzania. Zastosujmy metodę krokową. Po czterech krokach, uzyskujemy następujące równanie regresji: gas 100 = 22, ,016 power + 0,006 mass 0,295 prodyear + 0,205 cylindr. Współczynniki przy zmiennych w modelu są istotne, współczynnik R 2 wynosi 0,885. Zauważmy, że uzyskane równanie jest takie samo jak w drugim przypadku stosowania metody wprowadzania. Możemy też zdecydować się na wybór jakiegoś pośredniego modelu z kroków 1-3, sugerując się wystarczająco wysoką wartością R 2 i faktem, że model będzie prostszy, tzn. z mniejszą liczbą zmiennych niezależnych. I tak możemy ograniczyć się tylko do kroku 1., w którym uzyskany model określa się równaniem: gas 100 = 0, ,009 mass, dla którego R 2 = 0,785, bądź krokiem 2, w którym uzyskany model określa się równaniem: gas 100 = 25, ,008 mass 0,330 prodyear, dla którego R 2 = 0,875. Ponieważ na każdym kroku z modelu nie była wykluczona żadna zmienna niezależna, selekcja postępująca będzie dawać dokładnie takie same wyniki, jak metoda krokowa. Można sprawdzić, że stosując metodę eliminacji wstecznej, po czterech krokach uzyskamy takie samo równanie regresji jak w metodzie krokowej. Ćwiczenie 9. Na podstawie danych z pliku Swiat95.sav znajdź najlepsze, twoim zdaniem, równanie regresji liniowej wielokrotnej dla zmiennej zależnej death rt - wskaźnik zgonów na 1000 mieszkańców oraz zmiennych niezależnych: density - liczba mieszkańców na km kwadratowy, lifeexpm - średnia długość życia mężczyzn, lifeexpf - średnia długość życia kobiet, babymort - liczba zgonów na 1000 żywych urodzeń, log gdp - logarytm z wielkości produktu krajowego brutto, fertility - średnia liczba dzieci w rodzinie, calories - dzienne spożycie kalorii. Rozwiązanie. Wybieramy ANALIZA > REGRESJA > LINIOWA... Decydując się najpierw na domyślną metodę wprowadzania, z tabeli odczytujemy równanie regresji: death rt = 50,778 0,0005 density 0,467 lifeexpf 0,312 lifeexpm 0,039 babymort 8

9 +0,002 calories + 3,318 log gdp 0,738 fertility. Współczynnik R 2 wynosi 0,775, co świadczy o niezłym dopasowaniu modelu do danych. Współczynniki odpowiadające zmiennym density, lifeexpm, babymort, calories są nieistotne. Usuwając je z analizy, otrzymujemy jednak równanie: death rt = 48,986 0,684 lifeexpf + 3,946 log gdp 1,410 fertility, o mniejszym współczynniku R 2 = 0,701. Wybierając metodę krokową, po czterech krokach, uzyskujemy następujące równanie regresji: death rt = 38,841 0,656 lifeexpm + 0,002 calories + 2,785 log gdp 0,562 fertility, ze współczynnikiem R 2 = 0,870. Zwróćmy uwagę, że uzyskane równanie tym razem różni się ot tego, które uzyskaliśmy za pomocą metody wprowadzania. Odnotujmy zwłaszcza, że zamiast zmiennej lifeexpf teraz w równaniu obecna jest zmienna lifeexpm. Wyjaśnić taką różnicę należy spostrzeżeniem, że obie te zmienne są mocno skorelowane ze sobą (współczynnik korelacji Pearsona wynosi 0,982), i stosując różne metody, program wybrał do modelu raz jedną zmienną, a raz drugą. Zanotujmy jeszcze, że całkiem niezłe w stosunku do innych wygląda model z kroku 2., ze względu na niewiele mniejszy współczynnik R 2 = 0,845. Odpowiednie równanie ma postać: death it rt = 31,195 0,557 lifeexpm + 4,263 log gdp. Stosowanie innych metod nie prowadzi do nowych wyników. Zmienne niezależne można wprowadzać bądź wykluczać z równania blokami. Ćwiczenie 10. W pliku oceny1.sav znajdują się oceny grupy studentów z 3 sprawdzianów, 2 kolokwiów, aktywności oraz ocena końcowa. Ustal związek pomiędzy ocenami cząstkowymi a oceną końcową, grupując oceny cząstkowe w bloki: sprawdziany, kolokwia, aktywność. Użyj wszystkich metod analizy regresji i porównaj wyniki. Rozwiązanie. Wybieramy ANALIZA > REGRESJA > LINIOWA... Podajemy zmienną ocena jako zależną, zmienne spr1, spr2, spr3 jako niezależne (jest to blok sprawdzianów i naciskamy przycisk NASTĘPNA. Dalej wprowadzamy kol1, kol2 (jest to blok kolokwiów) i znowu naciskamy NASTĘPNA. Wreszcie wprowadzamy zmienną akt (jest to blok aktywności) i zatwierdzamy przyciskiem OK, zostawiając metodę wprowadzania jako domyślną. Metoda wprowadzania w tym przypadku działa tak, jak selekcja postępująca, czyli pokazuję kroki kolejnego wprowadzania poszczególnych bloków do równania (różnica z selekcją postępującą będzie tylko taka, że wszystkie bloki są wprowadzone po kolei do równania, a nie tylko te, dla których odpowiednie prawdopodobieństwo F będzie nie większe niż 0,05. W pierwszym kroku jest wprowadzony blok sprawdzianów (R 2 = 0,680), w drugim - kolokwiów (R 2 = 0,865), w trzecim - aktywności (R 2 = 1,000). Na przykład możemy 9

10 pozostać przy modelu ze sprawdzianami i kolokwiami, którego równanie ma postać: ocena = 0, ,082 spr1 + 0,137 spr2 + 0,140 spr3 + 0,169 kol1 + 0,315 kol2, lub wybrać model idealny: ocena = 0,313+0,063 spr1+0,063 spr2+0,063 spr3+0,250 kol1+0,250 kol2+0,250 akt. Analogiczne wyniki dają wszystkie inne metody. Temat 3. Regresja logistyczna Regresja logistyczna jest szczególnie przydatna wtedy, gdy zmienna zależna jest zmienną jakościową, przyjmującą tylko dwie wartości: 1 i 0 (przykład: 1 - wydarzenie nastąpi, 0 - wydarzenie nie nastąpi). W takiej sytuacji stosowanie regresji liniowej jest nieprzydatne i może nawet być pozbawione interpretacyjnego sensu. Ćwiczenie 11. Rozpatrzmy dane dotyczące badania zależności występowania (1) lub niewystępowania (0) pewnej choroby (zmienna zależna) od wieku pacjenta (zmienna niezależna) (plik pacjent.sav): Numer pac Wiek Choroba Numer pac Wiek Choroba Na rysunku przedstawiono wykres rozrzutu wraz z najlepszym modelem liniowym postaci: Choroba= 0, ,013 Wiek, (R 2 = 0,265), oraz najlepszą krzywą dla modelu logistycznego. Jak widać, krzywa trochę lepiej obrazuje zależność występowania lub niewystępowania choroby od wieku. Co więcej, stosowanie regresji liniowej może doprowadzić do zupełnie bezsensownych wyników (np. dla pierwszego pacjenta, mającego 25 lat, przewidywana wartość zmiennej Choroba wynosi 0,009 < 0). Co to jest za krzywa? Funkcja regresji logistycznej na Rysunku ma postać: h(x, b) = eb 0+b 1 x 1 + e = 1 b 0+b 1 x 1 + e, (1) b 0 b 1 x gdzie b 0 = 4,372, b 1 = 0,067. Przypomnijmy, że wartość funkcji regresji interpretujemy jako średnią wartość zmiennej zależnej Y. Jeśli zmienna zależna przyjmuje tylko wartości 1 i 0, to średnia wartość zmiennej Y jest równa prawdopodobieństwu tego, że Y = 1. Jak łatwo zrozumieć, dla funkcji ze wzoru (1) zachodzi 0 < h(x, b) < 1, a więc wartości funkcji regresji rzeczywiście można interpretować jako prawdopodobieństwo, a dokładniej, jako prawdopodobieństwo występowania choroby, gdy wartość zmiennej niezależnej wynosi x. 10

11 1 0,8 0,6 0,4 0, wiek Rysunek 1: Linie regresji logistycznej (ciągła) oraz liniowej (przerywana). Historia stosowania modelu logistycznego jest dość bogata i sięga końca XIX wieku. Regresja logistyczna oparta jest na funkcji logistycznej postaci g(z) = (1 + e z ) 1 e z = (1 + e z ) 1, wykres której jest podobny do krzywej przedstawionej na rysunku. Ważną cechą tej funkcji, wyjaśniającą taką jej popularność, oprócz przyjmowania wartości w przedziale [0, 1], jest jej kształt w postaci rozciągniętej litery S : najpierw wartości tej funkcji znajdują się blisko zera i zmiany ich są minimalne; w pewnym momencie następuje gwałtowny wzrost wartości funkcji prawie do jedynki; później wartości funkcji są bliskie jedynki i zmiany ich znowu są minimalne. Te własności bardzo dobrze odpowiadają powyższej interpretacji funkcji regresji logistycznej jako prawdopodobieństwa w sytuacji, gdy zmienna zależna przyjmuje tylko wartości 0 lub 1. Dla znalezienia właściwych wartości {b i } na podstawie obserwacji (x i, y i ), i = 1,..., n, stosuje się tzw. metoda największej wiarogodności. Polega ona na tym, że bierze się funkcję postaci (nazywa się funkcją wiarogodności): i logarytmuje się ją: n n L(y, b) = P (Y = y i X = x i ) = [h(x i, b)] y i [1 h(x i, b)] 1 y i, i=1 i=1 n n ln L(y, b) = y i ln(h(x i, b)) + (1 y i ) ln(1 h(x i, b)). i=1 i=1 Dalej szuka się takich wartości {b i }, które maksymalizują funkcję ln L(y, b). 11

12 Jak już wspominaliśmy wyżej, dla znalezionych w taki sposób współczynników {b i } wartość h(x, b) możemy traktować jako oszacowanie średniej wartości zmiennej zależnej, gdy X = x, czyli jako oszacowanie dla P (Y = 1 X = x), natomiast wartość 1 h(x, b) jako oszacowanie dla P (Y = 0 X = x). Tak w Ćwiczeniu 11 prawdopodobieństwo tego, że pacjent w wieku 50 lat jest chory, szacujemy jako h(50, b) 0, 246, a w wieku 72 lat jako h(72, b) 0, 610. Często posługujemy się też pojęciem szansy. Szansę definiujemy jako iloraz prawdopodobieństwa, że wydarzenie nastąpi (Y = 1), przez prawdopodobieństwo, że wydarzenie nie nastąpi (Y = 0). Szansa określa, w jakim stopniu jest bardziej prawdopodobne, że wydarzenie nastąpi, w porównaniu z tym, że ono nie nastąpi. Tak w warunkach Ćwiczenia 11, szansę zachorowania dla pacjenta w wieku 50 lat szacujemy na h(50, b)/(1 h(50, b)) 0.359, natomiast szansę zachorowania dla pacjenta w wieku 72 lat szacujemy na h(72, b)/(1 h(72, b)) Oczywiście, jeśli wartość szansy jest większa od 1, to jest bardziej prawdopodobne, że wydarzenie nastąpi, a jeśli jest mniejsza niż 1, to jest na odwrót. Dobroć dopasowania modelu do danych określa się za pomocą współczynników, analogicznych do współczynnika R 2 w regresji liniowej. Są to współczynniki R 2 Coxa i Snella oraz R 2 Nagelkerkego. Wartości tych współczynników interpretujemy podobnie: wyższe wartości oznaczają lepsze dopasowanie do modelu. Współczynnik Coxa i Snella wyznacza się ze wzoru ( ) 2/n RCS 2 L0 = 1, gdzie L 0 jest wartością funkcji wiarogodności w modelu bez zmiennych niezależnych, natomiast L 1 jest wartością funkcji wiarogodności w modelu ze zmiennymi niezależnymi. Niestety, współczynnik RCS, 2 przyjmujący wartości nieujemne, zazwyczaj jest znacznie poniżej 1. Jego maksymalna wartość to 1 L 2/n 0. Współczynnik R 2 Nagelkerkego już tej wady nie posiada, ponieważ określa się wzorem: L 1 R 2 N = 1 ( L 0 L 1 ) 2/n 1 L 2/n 0 i przyjmuje wartości w przedziale [0, 1]. Oprócz współczynników R 2, podobnie jak w przypadku regresji liniowej, zwracamy uwagę na istotność współczynników przy poszczególnych zmiennych niezależnych (interpretujemy istotność tak samo, jak wcześniej). Dodatkowo dostajemy też TABELĘ KLA- SYFIKACJI, która informuje, na ile są zgodne wartości zmiennej zależnej, które posiadamy, a zaokrąglone (do 1, bądź 0) oszacowane wartości funkcji regresji (które, jak pamiętamy, traktujemy jako prawdopodobieństwa, że Y = 1 przy ustalonej wartości zmiennej niezależnej). Im bliżej do 100% zgodność danych obserwowanych i przewidywanych, tym jest lepiej. Dostęp w IBM SPSS Statistics: ANALIZA > REGRESJA > LOGISTYCZNA... Podajemy zmienną zależną i zmienne niezależne (do okienka WSPÓŁZMIENNE). Zakładka JAKOŚCIOWE służy do określenia, które zmienne niezależne są jakościowymi. 12

13 Zakładka ZAPISZ służy do zapisywania w pliku danych, jako zmienne, pewnych ważnych statystyk, choć by takich jak wartości przewidywane (są to szacowane wartości funkcji regresji dla poszczególnych wartości zmiennych niezależnych), czy też przynależność do grupy (z Y = 1 bądź z Y = 0). Wreszcie zakładka OPCJE pozwala uzyskać więcej wyników oraz np. uwzględnić, bądź nie, stałą w równaniu. W OPCJACH można też zaznaczyć DOBROĆ DOPASOWANIA HOSMERA I LEMESHOWA. Jest to jeszcze jedna możliwość sprawdzania jakości dopasowania modelu do danych. Testuje się przy tym hipoteza H 0 : wartości obserwowane i przewidywane dobrze pasują do siebie przeciwko hipotezie H 1 : wartości obserwowane i przewidywane złe pasują do siebie. Wynikiem zasługującym na uwagę (tabela TEST HOSMERA I LEMESHOWA) jest istotność testu (ostatnia kolumna); istotność wyższa od 0,05 mówi o nieodrzuceniu hipotezy H 0. Przy zaznaczonej domyślnie metodzie WPROWADŹ, otrzymujemy najpierw wyniki dla modelu bez zmiennych niezależnych (BLOK 0), a następnie wyniki dla modelu ze zmiennymi niezależnymi (BLOK 1). W każdym bloku (oczywiście, dla nas ważny jest BLOK 1) dostajemy: wartości współczynników przy zmiennych niezależnych (ostatni wiersz w tabeli PRZEBIEG ITERACJI), istotność modelu (tabela TEST ZBIOROWY WSPÓŁCZYNNIKÓW MODELU), wartości wspomnianych współczynników R 2 (tabela MODEL - PODSUMOWANIE), TABELĘ KLASYFIKACJI oraz jeszcze raz wartości współczynników przy zmiennych niezależnych wraz z ich istotnością (tabela ZMIENNE W MODELU). Ćwiczenie 11 cd. Dla danych z pliku pacjent.sav oszacuj dobroć dopasowania regresji logistycznej do danych na podstawie wartości współczynników R 2, testu Hosmera i Lemeshowa oraz tabeli klasyfikacji. Oszacuj prawdopodobieństwo tego, że pacjent w wieku 50 lat jest chory, oraz prawdopodobieństwo tego, że pacjent w wieku 72 lat jest chory. Oszacuj szansę wystąpienia choroby dla pacjentów w tym wieku. Rozwiązanie. Wybieramy ANALIZA > REGRESJA > LOGISTYCZNA... Podajemy jako zmienną zależną Choroba oraz jako zmienną niezależną Wiek. W OPCJACH zaznaczamy DOBROĆ DOPASOWANIA HOSMERA I LEMESHOWA. Otrzymujemy równanie regresji postaci (1), czyli Choroba = exp{ 4, ,067 Wiek} 1 + exp{ 4, ,067 Wiek} ; współczynniki przy zmiennych niezależnych są istotne. Model też jest istotny statystycznie (istotność wynosi 0,017). Współczynniki R 2 wynoszą: R 2 CS = 0,248, R 2 N = 0,341. Wyniki testu Hosmera i Lemeshowa są dość optymistyczne: istotność wynosi 0,861 > 0,05 zatem stwierdzamy, iż wartości obserwowane i przewidywane dość dobrze pasują do siebie. Z tabeli klasyfikacji dowiadujemy się, że na podstawie stworzonego modelu prawidłowo zostało sklasyfikowanych łącznie 75% pacjentów: 84,6% wśród pacjentów bez choroby oraz 57,1% pacjentów chorych. Prawdopodobieństwa oraz szanse występowania choroby dla pacjentów możemy otrzymać na 2 sposoby. Dla pacjentów, występujących w pliku danych, możemy zaznaczyć przy uzyskiwaniu analizy: ZAPISZ > PRAWDOPODOBIEŃSTWA. Jako wynik, w pliku danych powstanie zmienna PRE 1 z wartościami oszacowanych prawdopodobieństw. I tak 13

14 dla pacjenta w wieku 50 lat prawdopodobieństwo występowania choroby szacujemy na 0,264, a w wieku 72 lat na 0,610. Teraz na podstawie wzoru szansa=pre 1/(1 PRE 1) możemy policzyć odpowiednie wartości szans. Wnioskujemy, iż szansę występowania choroby u pacjenta w wieku 50 lat szacujemy na 0,359, natomiast szansę występowania choroby u pacjenta w wieku 72 lat na 1,566. Szansy można też obliczyć inaczej; ten sposób zwłaszcza jest przydatny dla pacjentów, nie występujących w pliku danych. Korzystamy z ostatniej kolumny w tabeli ZMIENNE W MODELU, oznaczonej jako exp(b), odczytując: stała 0,013, Wiek 1,069. Dla pacjenta mającego x lat szansa występowania choroby wynosi więc szansa= 0,013 1,069 x. Wówczas odpowiednie prawdopodobieństwo występowania choroby wynosi: szansa/(1+szansa). Podobnie, jak w przypadku Analizy regresji liniowej wielu zmiennych, jeśli zmiennych niezależnych jest kilka, to można stosować różne metody ich wprowadzania do modelu, mianowicie: Wprowadź, Do przodu: Warunkowe, Do przodu: LR, Do przodu: Wald, Do tyłu: Warunkowe, Do tyłu: LR, Do tyłu: Wald. Pierwsza metoda polega na wprowadzeniu do równania jednocześnie wszystkich podanych zmiennych niezależnych. Metody Do przodu polegają na wprowadzeniu zmiennych do równania krok po kroku, startując od modelu bez zmiennych niezależnych; metody Do tyłu polegają na wprowadzaniu do równania wszystkich zmiennych niezależnych, a potem eliminacji ich krok po kroku. Natomiast określenia Warunkowe, LR (iloraz wiarogodności), Wald dotyczą specyfikacji kryteriów wprowadzania bądź usuwania zmiennych niezależnych do/z modelu. Ćwiczenie 12. Na podstawie danych z pliku Ch6BData.sav znajdź równanie regresji logistycznej dla zmiennej committed - hospitalizacja (1 - tak, 0 - nie), przy używaniu pozostałych zmiennych jako niezależnych: educ - poziom wykształcenia (w latach), minority - przynależność do mniejszości (1 - tak, 0 - nie), stress - poziom stresu. Rozwiązanie. Wybieramy ANALIZA > REGRESJA > LOGISTYCZNA... Podajemy jako zmienną zależną committed, wszystkie pozostałe zmienne podajemy jako niezależne (okienko WSPÓŁZMIENNE). W OPCJACH zaznaczamy DOBROĆ DOPASO- WANIA HOSMERA I LEMESHOWA. Najpierw zostajemy przy domyślnie zaznaczonej metodzie WPROWADŹ. Skupiając się na wynikach umieszczonych w BLOKU 1, otrzymujemy następujące równanie regresji: committed = exp{ 3,985 0,187 educ + 0,915 minority + 3,626 stress} 1 + exp{ 3,985 0,187 educ + 0,915 minority + 3,626 stress}. (2) Wszystkie współczynniki przy zmiennych niezależnych są istotne, jak również istotny jest sam model. Współczynniki R 2 wynoszą: R 2 CS = 0,297, R 2 N = 0,397. Z tabeli klasyfikacji dowiadujemy się, że na podstawie stworzonego modelu prawidłowo zostało sklasyfikowanych łącznie 78% osób: 90,6% dla wartości committed= 0 oraz 63,0% dla wartości committed= 1. Wyniki testu Hosmera i Lemeshowa wskazują jednak na to, że wartości obserwowane i przewidywane złe pasują do siebie, bowiem istotność wynosi 0,000 < 0,05. 14

15 Stosując inne metody wprowadzania zmiennych niezależnych do modelu, jako wynik końcowy we wszystkich przypadkach dostajemy równanie (2). Jedynym zyskiem stosowania innych metod jest możliwość uznania przez nas jako model końcowy jakiegoś modelu otrzymanego w krokach pośrednich z mniejszą liczbą zmiennych niezależnych w modelu. 15

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

ANALIZA REGRESJI SPSS

ANALIZA REGRESJI SPSS NLIZ REGRESJI SPSS Metody badań geografii społeczno-ekonomicznej KORELCJ REGRESJ O ile celem korelacji jest zmierzenie siły związku liniowego między (najczęściej dwoma) zmiennymi, o tyle w regresji związek

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Rozdział 8. Regresja. Definiowanie modelu

Rozdział 8. Regresja. Definiowanie modelu Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji Ćwiczenie: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Stanisza r xy = 0 zmienne nie są skorelowane 0 < r xy 0,1

Bardziej szczegółowo

Regresja linearyzowalna

Regresja linearyzowalna 1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień. Zadanie Należy zacząć od sprawdzenia, co studenci pamiętają ze szkoły średniej na temat funkcji jednej zmiennej. Na początek można narysować kilka krzywych na tle układu współrzędnych (funkcja gładka,

Bardziej szczegółowo

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować

Bardziej szczegółowo

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji

Bardziej szczegółowo

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31 Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny

Bardziej szczegółowo

Logarytmy. Funkcje logarytmiczna i wykładnicza. Równania i nierówności wykładnicze i logarytmiczne.

Logarytmy. Funkcje logarytmiczna i wykładnicza. Równania i nierówności wykładnicze i logarytmiczne. Logarytmy. Funkcje logarytmiczna i wykładnicza. Równania i nierówności wykładnicze i logarytmiczne. Definicja. Niech a i b będą dodatnimi liczbami rzeczywistymi i niech a. Logarytmem liczby b przy podstawie

Bardziej szczegółowo

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Dopasowywanie modelu do danych

Dopasowywanie modelu do danych Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

Zadanie 1. Analiza Analiza rozkładu

Zadanie 1. Analiza Analiza rozkładu Zadanie 1 data lab.zad 1; input czas; datalines; 85 3060 631 819 805 835 955 595 690 73 815 914 ; run; Analiza Analiza rozkładu Ponieważ jesteśmy zainteresowani wyznaczeniem przedziału ufności oraz weryfikacja

Bardziej szczegółowo

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę

Bardziej szczegółowo

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1 Temat: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00 0,20) Słaba

Bardziej szczegółowo

Analiza zależności liniowych

Analiza zależności liniowych Narzędzie do ustalenia, które zmienne są ważne dla Inwestora Analiza zależności liniowych Identyfikuje siłę i kierunek powiązania pomiędzy zmiennymi Umożliwia wybór zmiennych wpływających na giełdę Ustala

Bardziej szczegółowo

Badanie zależności skala nominalna

Badanie zależności skala nominalna Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność

Bardziej szczegółowo

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y). Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych

Bardziej szczegółowo

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW Założenia do analizy wariancji dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW anna_rajfura@sggw.pl Zagadnienia 1. Normalność rozkładu cechy Testy: chi-kwadrat zgodności, Shapiro-Wilka, Kołmogorowa-Smirnowa

Bardziej szczegółowo

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe? 2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

FUNKCJA KWADRATOWA. Zad 1 Przedstaw funkcję kwadratową w postaci ogólnej. Postać ogólna funkcji kwadratowej to: y = ax + bx + c;(

FUNKCJA KWADRATOWA. Zad 1 Przedstaw funkcję kwadratową w postaci ogólnej. Postać ogólna funkcji kwadratowej to: y = ax + bx + c;( Zad Przedstaw funkcję kwadratową w postaci ogólnej Przykład y = ( x ) + 5 (postać kanoniczna) FUNKCJA KWADRATOWA Postać ogólna funkcji kwadratowej to: y = ax + bx + c;( a 0) Aby ją uzyskać pozbywamy się

Bardziej szczegółowo

Ekonometria, lista zadań nr 6 Zadanie 5 H X 1, X 2, X 3

Ekonometria, lista zadań nr 6 Zadanie 5 H X 1, X 2, X 3 Ekonometria, lista zadań nr 6 Zadanie 5 Poniższy diagram przedstawia porządek między rozważanymi modelami oparty na relacji zawierania pomiędzy podzbiorami zbioru zmiennych objaśniających: H, X 2, X 3

Bardziej szczegółowo

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;

Bardziej szczegółowo

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY WYKORZYSTANIU METOD STATYSTYCZNYCH mgr Małgorzata Pelczar 6 Wprowadzenie Reforma służby zdrowia uwypukliła problem optymalnego ustalania kosztów usług zdrowotnych.

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

(x j x)(y j ȳ) r xy =

(x j x)(y j ȳ) r xy = KORELACJA. WSPÓŁCZYNNIKI KORELACJI Gdy w badaniu mamy kilka cech, często interesujemy się stopniem powiązania tych cech między sobą. Pod słowem korelacja rozumiemy współzależność. Mówimy np. o korelacji

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

7.4 Automatyczne stawianie prognoz

7.4 Automatyczne stawianie prognoz szeregów czasowych za pomocą pakietu SPSS Następnie korzystamy z menu DANE WYBIERZ OBSERWACJE i wybieramy opcję WSZYSTKIE OBSERWACJE (wówczas wszystkie obserwacje są aktywne). Wreszcie wybieramy z menu

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35 Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Definicje i przykłady

Definicje i przykłady Rozdział 1 Definicje i przykłady 1.1 Definicja równania różniczkowego 1.1 DEFINICJA. Równaniem różniczkowym zwyczajnym rzędu n nazywamy równanie F (t, x, ẋ, ẍ,..., x (n) ) = 0. (1.1) W równaniu tym t jest

Bardziej szczegółowo

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych Pochodna i różniczka unkcji oraz jej zastosowanie do obliczania niepewności pomiarowych Krzyszto Rębilas DEFINICJA POCHODNEJ Pochodna unkcji () w punkcie określona jest jako granica: lim 0 Oznaczamy ją

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Szkice rozwiązań z R:

Szkice rozwiązań z R: Szkice rozwiązań z R: Zadanie 1. Założono doświadczenie farmakologiczne. Obserwowano przyrost wagi ciała (przyrost [gram]) przy zadanych dawkach trzech preparatów (dawka.a, dawka.b, dawka.c). Obiektami

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Regresja liniowa wprowadzenie

Regresja liniowa wprowadzenie Regresja liniowa wprowadzenie a) Model regresji liniowej ma postać: gdzie jest zmienną objaśnianą (zależną); są zmiennymi objaśniającymi (niezależnymi); natomiast są parametrami modelu. jest składnikiem

Bardziej szczegółowo

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34 Statystyka Wykład 9 Magdalena Alama-Bućko 24 kwietnia 2017 Magdalena Alama-Bućko Statystyka 24 kwietnia 2017 1 / 34 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ Korelacja oznacza fakt współzależności zmiennych, czyli istnienie powiązania pomiędzy nimi. Siłę i kierunek powiązania określa się za pomocą współczynnika korelacji

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych 3.1. Estymacja parametrów i ocena dopasowania modeli z jedną zmienną 23. Właściciel komisu w celu zbadania

Bardziej szczegółowo

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Funkcja uwikłana (równanie nieliniowe) jest to funkcja, która nie jest przedstawiona jawnym przepisem, wzorem wyrażającym zależność wartości

Bardziej szczegółowo

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcja homograficzna. Definicja. Funkcja homograficzna jest to funkcja określona wzorem f() = a + b c + d, () gdzie współczynniki

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

Prognoza terminu sadzenia rozsady sałaty w uprawach szklarniowych. Janusz Górczyński, Jolanta Kobryń, Wojciech Zieliński

Prognoza terminu sadzenia rozsady sałaty w uprawach szklarniowych. Janusz Górczyński, Jolanta Kobryń, Wojciech Zieliński Prognoza terminu sadzenia rozsady sałaty w uprawach szklarniowych Janusz Górczyński, Jolanta Kobryń, Wojciech Zieliński Streszczenie. W uprawach szklarniowych sałaty pojawia się następujący problem: kiedy

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno WERYFIKACJA MODELI MODELE LINIOWE Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno ANALIZA KORELACJI LINIOWEJ to NIE JEST badanie związku przyczynowo-skutkowego, Badanie współwystępowania cech (czy istnieje

Bardziej szczegółowo

Rozkład materiału nauczania

Rozkład materiału nauczania Dział/l.p. Ilość godz. Typ szkoły: TECHNIKUM Zawód: TECHNIK USŁUG FRYZJERSKICH Rok szkolny 2017/2018 Przedmiot: MATEMATYKA Klasa: III 60 godzin numer programu T5/O/5/12 Rozkład materiału nauczania Temat

Bardziej szczegółowo

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu 1 Metody rozwiązywania równań nieliniowych. Postawienie problemu Dla danej funkcji ciągłej f znaleźć wartości x, dla których f(x) = 0. (1) 2 Przedział izolacji pierwiastka Będziemy zakładać, że równanie

Bardziej szczegółowo

LABORATORIUM Z FIZYKI

LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI I PRACOWNIA FIZYCZNA C w Gliwicach Gliwice, ul. Konarskiego 22, pokoje 52-54 Regulamin pracowni i organizacja zajęć Sprawozdanie (strona tytułowa, karta pomiarowa)

Bardziej szczegółowo

Analiza wariancji - ANOVA

Analiza wariancji - ANOVA Analiza wariancji - ANOVA Analiza wariancji jest metodą pozwalającą na podział zmienności zaobserwowanej wśród wyników eksperymentalnych na oddzielne części. Każdą z tych części możemy przypisać oddzielnemu

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9 Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności

Bardziej szczegółowo

Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do analizy dyskryminacyjnej Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

13. Równania różniczkowe - portrety fazowe

13. Równania różniczkowe - portrety fazowe 13. Równania różniczkowe - portrety fazowe Grzegorz Kosiorowski Uniwersytet Ekonomiczny w Krakowie rzegorz Kosiorowski (Uniwersytet Ekonomiczny 13. wrównania Krakowie) różniczkowe - portrety fazowe 1 /

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym. REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym. Zadanie 1 W celu ustalenia zależności między liczbą braków a wielkością produkcji części

Bardziej szczegółowo

WYKŁAD 8 ANALIZA REGRESJI

WYKŁAD 8 ANALIZA REGRESJI WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej

Bardziej szczegółowo

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności Dane są wyniki pomiarów dwóch wielkości x i y: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Przypuśćmy, że nanieśliśmy je na wykres w układzie

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Geometria analityczna

Geometria analityczna Geometria analityczna Paweł Mleczko Teoria Informacja (o prostej). postać ogólna prostej: Ax + By + C = 0, A + B 0, postać kanoniczna (kierunkowa) prostej: y = ax + b. Współczynnik a nazywamy współczynnikiem

Bardziej szczegółowo

Ekonometria. Zajęcia

Ekonometria. Zajęcia Ekonometria Zajęcia 16.05.2018 Wstęp hipoteza itp. Model gęstości zaludnienia ( model gradientu gęstości ) zakłada, że gęstość zaludnienia zależy od odległości od okręgu centralnego: y t = Ae βx t (1)

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

3a. Wstęp: Elementarne równania i nierówności

3a. Wstęp: Elementarne równania i nierówności 3a. Wstęp: Elementarne równania i nierówności Grzegorz Kosiorowski Uniwersytet Ekonomiczny w Krakowie zima 2017/2018 Grzegorz Kosiorowski (Uniwersytet Ekonomiczny 3a. Wstęp: w Krakowie) Elementarne równania

Bardziej szczegółowo

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8 ANALIZA REGRESJI WIELOKROTNEJ Zastosowanie statystyki w bioinżynierii Ćwiczenia 8 ZADANIE 1A 1. Irysy: Sprawdź zależność długości płatków korony od ich szerokości Utwórz wykres punktowy Wyznacz współczynnik

Bardziej szczegółowo

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas: ROZWIĄZANIA I ODPOWIEDZI Zadanie A1. Można założyć, że przy losowaniu trzech kul jednocześnie kolejność ich wylosowania nie jest istotna. A więc: Ω = 20 3. a) Niech: - wśród trzech wylosowanych opakowań

Bardziej szczegółowo

FUNKCJA LINIOWA - WYKRES

FUNKCJA LINIOWA - WYKRES FUNKCJA LINIOWA - WYKRES Wzór funkcji liniowej (Postać kierunkowa) Funkcja liniowa jest podstawowym typem funkcji. Jest to funkcja o wzorze: y = ax + b a i b to współczynniki funkcji, które mają wartości

Bardziej szczegółowo

ROZKŁAD MATERIAŁU DLA KLASY I LICEUM I TECHNIKUM (ZAKRES PODSTAWOWY I ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ

ROZKŁAD MATERIAŁU DLA KLASY I LICEUM I TECHNIKUM (ZAKRES PODSTAWOWY I ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ ROZKŁAD MATERIAŁU DLA KLASY I LICEUM I TECHNIKUM (ZAKRES PODSTAWOWY I ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ ZBIORY TEMAT LICZBA GODZIN LEKCYJNYCH WYMAGANIA SZCZEGÓŁOWE Z PODSTAWY PROGRAMOWEJ Z

Bardziej szczegółowo

Funkcja kwadratowa. f(x) = ax 2 + bx + c,

Funkcja kwadratowa. f(x) = ax 2 + bx + c, Funkcja kwadratowa. Funkcją kwadratową nazywamy funkcję f : R R określoną wzorem gdzie a, b, c R, a 0. f(x) = ax 2 + bx + c, Szczególnym przypadkiem funkcji kwadratowej jest funkcja f(x) = ax 2, a R \

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,

Bardziej szczegółowo

Funkcja kwadratowa. f(x) = ax 2 + bx + c = a

Funkcja kwadratowa. f(x) = ax 2 + bx + c = a Funkcja kwadratowa. Funkcją kwadratową nazywamy funkcję f : R R określoną wzorem gdzie a, b, c R, a 0. f(x) = ax + bx + c, Szczególnym przypadkiem funkcji kwadratowej jest funkcja f(x) = ax, a R \ {0}.

Bardziej szczegółowo

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana GRUPY NIEZALEŻNE Chi kwadrat Pearsona Testy stosujemy w sytuacji, kiedy zmienna zależna mierzona jest na skali nominalnej Liczba porównywanych grup (czyli liczba kategorii zmiennej niezależnej) nie ma

Bardziej szczegółowo

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań 6.11.1 1 Badanie współzależności atrybutów jakościowych w wielowymiarowych tabelach danych. 1.1 Analiza współzależności

Bardziej szczegółowo

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k. Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy

Bardziej szczegółowo

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa

Bardziej szczegółowo

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska Funkcje liniowe i wieloliniowe w praktyce szkolnej Opracowanie : mgr inż. Renata Rzepińska . Wprowadzenie pojęcia funkcji liniowej w nauczaniu matematyki w gimnazjum. W programie nauczania matematyki w

Bardziej szczegółowo

Instrukcja obsługi programu Do-Exp

Instrukcja obsługi programu Do-Exp Instrukcja obsługi programu Do-Exp Autor: Wojciech Stark. Program został utworzony w ramach pracy dyplomowej na Wydziale Chemicznym Politechniki Warszawskiej. Instrukcja dotyczy programu Do-Exp w wersji

Bardziej szczegółowo

Maciej Piotr Jankowski

Maciej Piotr Jankowski Reduced Adder Graph Implementacja algorytmu RAG Maciej Piotr Jankowski 2005.12.22 Maciej Piotr Jankowski 1 Plan prezentacji 1. Wstęp 2. Implementacja 3. Usprawnienia optymalizacyjne 3.1. Tablica ekspansji

Bardziej szczegółowo

3. Macierze i Układy Równań Liniowych

3. Macierze i Układy Równań Liniowych 3. Macierze i Układy Równań Liniowych Rozważamy równanie macierzowe z końcówki ostatniego wykładu ( ) 3 1 X = 4 1 ( ) 2 5 Podstawiając X = ( ) x y i wymnażając, otrzymujemy układ 2 równań liniowych 3x

Bardziej szczegółowo

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi) Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi) Czy miejsce zamieszkania różnicuje uprawianie sportu? Mieszkańcy

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

6. FUNKCJE. f: X Y, y = f(x).

6. FUNKCJE. f: X Y, y = f(x). 6. FUNKCJE Niech dane będą dwa niepuste zbiory X i Y. Funkcją f odwzorowującą zbiór X w zbiór Y nazywamy przyporządkowanie każdemu elementowi X dokładnie jednego elementu y Y. Zapisujemy to następująco

Bardziej szczegółowo

Rozkład materiału a wymagania podstawy programowej dla I klasy czteroletniego liceum i pięcioletniego technikum. Zakres rozszerzony

Rozkład materiału a wymagania podstawy programowej dla I klasy czteroletniego liceum i pięcioletniego technikum. Zakres rozszerzony Rozkład materiału a wymagania podstawy programowej dla I klasy czteroletniego liceum i pięcioletniego technikum. Zakres rozszerzony ZBIORY TEMAT LICZBA GODZIN LEKCYJNYCH WYMAGANIA SZCZEGÓŁOWE Z PODSTAWY

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo