Analiza regresji część II. Agnieszka Nowak - Brzezińska

Wielkość: px
Rozpocząć pokaz od strony:

Download "Analiza regresji część II. Agnieszka Nowak - Brzezińska"

Transkrypt

1 Analiza regresji część II Agnieszka Nowak - Brzezińska

2 Niebezpieczeństwo ekstrapolacji Analitycy powinni ograniczyć predykcję i estymację, które są wykonywane za pomocą równania regresji dla wartości objaśniającej w obrębie przedziału wartości x w zbiorze danych. Np. w zbiorze płatków śniadaniowych najmniejsza zawartość cukru to 0 a największa to 15 więc szacowana wartości odżywcza jest właściwa tylko dla dowolnej wartości z przedziału

3 Ekstrapolacja Ekstrapolacja - szacowanie dla wartości poza przedziałem może być niebezpieczne, ponieważ nie znamy natury relacji pomiędzy x i y poza tym zakresem. Ekstrapolacji należy oczywiście unikać. Załóżmy, że nowe płatki zostały wpuszczone na rynek z bardzo dużą zawartością cukru. Np.. 30 gram. Nasze równanie regresji oszacuje wartość odżywczą płatków na -13.2!

4 rysunek Chcielibyśmy aby nasze punkty układały się tylko jako czarne punkty. Jednak rzeczywiście relacja między x i y składa się zarówno z punktów czarnych (obserwowanych), jak i szarych (nieobserwowanych). Linia regresji oparta jedynie na dostępnych danych jest taka jak na rysunku.

5 Oszacowanie najmniejszych kwadratów Gdybyśmy mieli inny zbiór płatków to nie możemy zakładać, że zależność pomiędzy wartością odżywczą a zawartością cukrów będzie dokładnie taka sama jak: rating * sugars Nie ponieważ b0 i b1 są statystykami, których wartości zmieniają się w zależności od próby. b0 i b1 są używane do estymacji parametrów populacji, w tym przypadku 0, 1 czyli wyrazu wolnego oraz współczynnika nachylenia prostej regresji. y 0 1

6 Równanie regresji y 0 1 x Reprezentuje prawdziwą liniową zależność między wartością odżywczą płatków a zawartością cukrów dla wszystkich rodzajów płatków śniadaniowych, nie tylko tych z naszej próby 77 typów płatków. Losowy błąd w powyższym równaniu regresji stosuje się w celu uwzględnienia nieoznaczoności w modelu, ponieważ dwa różne rodzaje płatków śniadaniowych mogą mieć tę samą zawartość cukrów ale inną wartość odżywczą.

7 W regresji prostej bada się relację pomiędzy dwiema zmiennymi ilościowymi x i y. Model zależności w prostej regresji dla n elementowej próby jest postaci: Gdzie: i 0 1x i Y i wartość zmiennej y dla obserwacji i-tej X i - wartość zmiennej x dla i-tej obserwacji i zakłócenie losowe o rozkładzie N(0, 2 ) czyli ma rozkład normalny o wariancji 2 1 i n Są niezależne, a więc: cov i j ( i, j ) A 0, 1 są współczynnikami modelu. y 0 i

8 Taki model regresyjny opisuje często spotykaną w praktyce sytuację, gdy obserwowane wartości funkcji nie są dokładne, ponieważ są losowo zakłócane. Znając wartości wektora zmiennych objaśniających oraz losowo zakłócane wartości funkcji d, naszym zadaniem jest odfiltrowanie zakłóceń i podanie dokładnej postaci funkcji. Zmienne objaśniające to zmienne nielosowe, ale to nie ma tu akurat znaczenia.

9 Wyznaczywszy oszacowania parametrów modelu, można obliczyć również wartości reszt, czyli oszacowania dla zakłóceń losowych wyznaczanych jako: i yi 1 xi 0 Metoda najmniejszych kwadratów gwarantuje, że prosta regresji opisana równaniem y 1 x 0 minimalizuje sumę kwadratów reszt dla wszystkich obserwacji.

10 Współczynnik determinacji Pozwala on stwierdzić czy oszacowane równanie regresji jest przydatne do przewidywania czy nie. Nazywa się go często współczynnikiem dopasowania regresji i oznacza jako R 2. Określa on stopień w jakim linia regresji najmniejszych kwadratów wyjaśnia zmienność obserwowanych danych. y Oznacza estymowaną wartość zmiennej objaśnianej y y Oznacza błąd oszacowania lub resztę.

11 Suma kwadratów błędów SSE Całkowita wartość błędu oszacowania gdy użyjemy równania regresji Całkowita suma kwadratów SST 2 SST ( y y) Stanowi miarę całkowitej zmienności wartości y bez odniesienia do zmiennej objaśniającej. Mówi się, że SST jest funkcją wariancji zmiennej y. Regresyjna suma kwadratów SSR 2 SSR ( y y) Stanowi miarę całkowitej poprawy dokładności przewidywań w przypadku stosowania regresji w porównaniu z sytuacją gdy nie uwzględniamy wartości zmiennej objaśniającej SST = SSR + SSE SSE ( y y) 2

12 Współczynnik determinacji (ang. coefficient od determination) Mierzy stopień dopasowania regresji jako przybliżenia liniowej zależności pomiędzy zmienną celu a zmienną objaśniającą: 2 r SSR SST Możemy go interpretować jako tę część zmienności zmiennej y, która została wyjaśniona przez regresję, czyli przez liniowy związek pomiędzy zmienną celu a zmienną objaśniającą.

13 Współczynniki regresji Współczynnik determinacji z prostego modelu regresji liniowej dla zestawu danych cereals to 0,

14 Na ile dobra jest regresja? Współczynnik determinacji jest opisową miarą siły liniowego związku między zmiennymi, czyli miarą dopasowania linii regresji do danych współczynnik determinacji ---przyjmuje wartości z przedziału [0,1] i wskazuje jaka część zmienności zmiennej y jest wyjaśniana przez znaleziony model. Na przykład dla R2=0.619 znaleziony model wyjaśnia około 62% zmienności y.

15 Współczynnik determinacji Oczywiście zawsze można znaleźć taką linię regresji metodą najmniejszych kwadratów, która modeluje zależność pomiędzy dwoma dowolnymi ciągłymi zmiennymi. Jednak nie ma gwarancji, że taka regresja będzie przydatna. Zatem powstaje pytanie, w jaki sposób możemy stwierdzić, czy oszacowane równanie regresji jest przydatne do przewidywania. Jedną z miar dopasowania regresji jest współczynnik determinacji R 2. Określa on stopień, w jakim linia regresji najmniejszych kwadratów wyjaśnia zmienność obserwowanych danych. Przypomnijmy, że y oznacza estymowaną wartość zmiennej objaśnianej, a lub resztą. y y jest błędem oszacowania

16 Suma kwadratów błędu oszacowania lub suma kwadratów błędów reprezentuje całkowitą wartość błędu oszacowania w przypadku użycia równania regresji. Jeśli nie znamy wartości zmiennej objaśniającej do oszacowania wartości zmiennej objaśnianej- nasze oszacowania będą oczywiście mało wartościowe. Lepszym oszacowaniem dla y będzie po prostu średnia(y). To zazwyczaj prezentuje pozioma linia na wykresie. Punkty danych jednak koncentrują się bardziej wokół oszacowanej linii regresji a nie wokół tej linii poziomej, co sugeruje, że błędy przewidywania są mniejsze, kiedy uwzględniamy informację o zmiennej x, aniżeli wtedy, gdy tej informacji nie wykorzystujemy. Jeśli liczymy różnice x średnia(x) dla każdego rekordu, a następnie sumę kwadratów tych miar, tak jak przy oszacowanej wartości y ( ), kiedy obliczaliśmy sumę kwadratów błędów otrzymujemy całkowitą y y sumę kwadratów SST (sum of squares total): Stanowi ona miarę całkowitej zmienności wartości samej zmiennej objaśnianej bez odniesienia do zmiennej objaśniającej. Zauważmy, że SST jest funkcją wariancji zmiennej y, gdzie wariancja jest kwadratem odchylenia n 2 standardowego. SST ( y i y) i 1 SST n 2 2 ( yi y) ( n 1) Var ( y) ( n 1) y i 1

17 Współczynnik determinacji r 2 Współczynnik determinacji r 2 : 2 r SSR SST Mierzy stopień dopasowania regresji jako przybliżenia liniowej zależności pomiędzy zmienną celu a zmienną objaśniającą. Jaka jest wartość maksymalna współczynnika determinacji r 2? Jest ona osiągana wtedy, gdy regresja idealnie pasuje do danych, co ma miejsce wtedy gdy każdy z punktów danych leży dokładnie na oszacowanej linii regresji. Wówczas nie ma błędów oszacowania, a więc wartości resztowe (rezydua) wynoszą 0, a więc SSE=0 a wtedy SST = SSR a r 2 =1. Jaka jest wartość minimalna współczynnika determinacji r 2? Jest ona osiągana wtedy, gdy regresja nie wyjaśnia zmienności, wtedy SSR = 0, a więc r 2 =0. Im większa wartość r 2 tym lepsze dopasowanie regresji do zbioru danych.

18 Przykład analizy współczynnika R 2 dla wielu zmiennych objaśniających Jak już wspomnieliśmy na początku, często w świecie rzeczywistym mamy do czynienia z zależnościami zmiennej objaśnianej nie od jednej ale raczej od wielu zmiennych objaśniających. Wykonanie tego typu analiz w pakiecie R nie jest rzeczą trudną. Wręcz przeciwnie. Nim przeprowadzimy analizę zależności zmiennej rating od wielu zmiennych objaśniających np. sugars oraz fiber przyjrzyjmy się wykresom rozrzutu dla tych zmiennych osobno. Wykres rozrzutu bowiem doskonale odzwierciedla zależności między pojedynczymi zmiennymi.

19

20 Funkcja r.square

21 Funkcja r.square.adjusted

22 Skorygowany R 2 Jest to sposób na wyeliminowanie z modelu zmiennych objaśniających, które nie są przydatne. Dodanie zmiennej do modelu regresji zwiększa wartość współczynnika determinacji, niezależnie od przydatności tej zmiennej. Sposobem jest tu kara miary R 2 dla modeli które uwzględniają nieprzydatne zmienne objaśniające. Taką miarą jest skorygowany współczynnik determinacji ( adjusted R 2 ).

23 Test istotności regresji Ponieważ wartość p jest znacznie mniejsza niż 0,05 odrzucamy hipotezę zerową, że β = 0. Czyli mówimy, że istnieje istotna zależność między zmiennymi w modelu regresji.

24 Sprawdzanie założeń regresji Istnieją dwie podstawowe metody graficzne używane do sprawdzenia założeń regresji: Normalny wykres kwantylowy Wykres standaryzowanych reszt względem wartości przewidywanych

25 Założenia: liniowość, niezależność, normalność i stała wariancja mogą zostać zweryfikowane za pomocą normalnego wykresu kwantylowego i wykresu standaryzowanych reszt względem przewidywanych wartości. Wykres kwantylowy to wykres kwantyli próbkowych rozkładu reszt (rezyduów) względem kwantyli rozkładu normalnego odpowiedniego rzędu. Normalność można ocenić, sprawdzając, czy wykres wykazuje systematyczne odchylenie od linii prostej. Wtedy można wywnioskować, że wykreślone wartości danych (w tym wypadku reszty) nie pochodzą z żadnego szczególnego rozkładu (rozkładu normalnego w tym przykładzie). Nie wykrywamy systematycznych odchyleń od liniowości na wykresie standaryzowanych reszt, a zatem stwierdzamy, że założenie normalności jest nienaruszone.

26 Normalność Normalne mają być rezydua, czyli różnica między modelem a danymi, a nie same dane!!! Jeżeli zmienna była mierzona przyrządem, to jest duża szansa, że ma rozkład normalny Jeżeli wartości zmiennej są średnimi z jakichś liczb, to zmienna jest najprawdopodobniej normalna Jeżeli zmienna oznacza liczbę czegoś na jednostkę (liczbę komórek w objętości) i średnia tej liczby jest 10 lub więcej, to można przyjąć, że zmienna ma rozkład normalny

27 Metoda 1: Normalny wykres kwantylowy Czytanie wykresu Jest wykresem kwantyli próbkowych rozkładu reszt względem kwantyli rozkładu normalnego odpowiedniego rzędu. Używa się go do określenia, czy dany rozkład odbiega od rozkładu normalnego. Na wykresie tym, wartości obserwowane dla badanego rozkładu są porównywane z wartościami dla rozkładu normalnego. Podobnie jak centyl, kwantyl rozkładu jest wartością x p, taką, że p% wartości rozkładu jest mniejsze lub równe x p. Jeżeli rozkład jest normalny to punkty na wykresie powinny tworzyć linię prostą; zaś systematyczne odchylenia od linii prostej wskazują na nieliniowość.

28 Normalny wykres kwantylowy Wykres kwantylowy to wykres kwantyli próbkowych rozkładu reszt (rezyduów) względem kwantyli rozkładu normalnego odpowiedniego rzędu.

29 Dla rozkładu normalnego

30 Dla rozkładu jednostajnego

31 Dla rozkładu Chi2 (prawoskośny)

32 W praktyce Nie możemy liczyć na to że rzeczywiste dane dostarczą nam takich idealnych wykresów kwantylowych. Obecność błędu próbkowania i innych źródeł szumu powoduj zwykle, że wykres będzie miał mniej jednoznaczny kształt.

33

34 Dla zbioru Cereals

35 Metoda 2: Wykres standaryzowanych reszt względem wartości przewidywanych Drugą graficzną metodą używaną do sprawdzenia założeń modelu regresji jest wykres standaryzowanych reszt względem wartości przewidywanych.

36

37 Czytanie wykresu Wykres reszt względem wartości przewidywanych jest sprawdzany ze względu na dostrzegalne wzorce. Jeżeli istnieje oczywista krzywizna na wykresie rozrzutu, to założenie liniowości jest naruszone. Jeżeli pionowy rozrzut punktów na wykresie jest systematycznie niejednakowy, to założenie o stałej wariancji jest naruszone. Gdy nie wykrywamy takich wzorców to stwierdzamy, że założenia liniowości i stałej wariancji są nienaruszone. Założenie niezależności jest sensowne w naszym zbiorze danych ponieważ nie spodziewamy się, że wartość odżywcza jednego rodzaju płatków zależy od wartości innego rodzaju płatków. Dane zależne od czasu mogą być sprawdzone ze względu na niezależność kolejności za pomocą testów przebiegu lub wykresów reszt względem kolejności.

38 Wykres standaryzowanych reszt względem wartości przewidywanych

39

40 Sprawdzamy więc, czy istnieją pewne charakterystyczne układy punktów na wykresach reszt względem wartości przewidywanych. Jeżeli tak, to jedno z założeń zostało naruszone, a jeżeli nie ma takich widocznych wzorców, to założenia pozostają nienaruszone.

41

42 4 wzorce archetypów obserwowane na wykresach reszt względem wartości przewidywanych Wykres A pokazuje poprawny wykres gdzie nie są obserwowane żadne widoczne wzorce i punkty zajmują cały prostokątny obszar od lewej do prawej. Wykres B pokazuje krzywiznę, co świadczy o naruszonym założeniu niezależności. Wykres C pokazuje wzór lejka co świadczy o naruszonym założeniu o stałej wariancji. Wykres D pokazuje wzorzec, który rośnie od lewej strony do prawej, co świadczy o naruszonym założeniu o zerowej średniej.

43 Wykres B Dlaczego mówimy, że założenie niezależności nie jest tu spełnione? Ponieważ zakłada się, że błędy są niezależne, więc reszty (oszacowania błędów) powinny być również niezależne. Jeżeli jednak reszty tworzą zakrzywiony wzorzec, to możemy przypuszczać, że dla danej reszty sąsiadujące z nią reszty (na lewo i na prawo) będą wewnątrz pewnego marginesu błędu. Jeżeli reszty byłyby rzeczywiście niezależne, to taka prognoza nie byłaby możliwa.

44 Dlaczego na wykresie C założenie o stałej wariancji nie jest prawdziwe? Na wykresie A wariancja reszt pokazana jako pionowa odległość, jest niemal stała, niezależnie od wartości x. Z kolei na wykresie C wartości reszt są mniejsze dla mniejszych wartości x i większe dla większych wartości x. Dlatego zmienność nie jest stała co narusza założenie o stałej wariancji.

45 Dlaczego z wykresu D możemy odczytać że zostało naruszone założenie o zerowej średniej? Założenie o zerowej średniej stwierdza, że średnia błędu jest równa zero, niezależnie od wartości x. Jednak na wykresie D dla małych wartości x średnia reszt jest mniejsza od zera, podczas, gdy dla dużych wartości x średnia reszt jest większa od 0. To stanowi naruszenie założenia o zerowej średniej, jak również naruszenie założenie niezależności.

46 Jeżeli wykres kwantylowy nie pokazuje systematycznego odchylenia od linii prostej a wykres reszty względem wartości przewidywanych nie pokazuje widocznych wzorców, to możemy wyciągnąć wniosek, że nie ma graficznych dowodów na naruszenie założeń regresji i możemy kontynuować analizę regresji.

47 Co jednak, gdy te wykresy wskazują na naruszenie założeń regresji? Wtedy możemy zastosować transformację zmiennej celu y, taką jak transformacja logarytmiczna. Transformacja logarytmiczna, ln, czyli logarytm naturalny czyli o podstawie e.

48 Przykład zastosowania transformacji Jak to jest z transformowaniem zmiennych do regresji? Jedni mówią, że można, inni że to manipulowanie danymi? Odpowiedź: można, a nawet czasem TRZEBA

49 Transformacje danych kiedy podejrzewamy, że można log jeżeli stosunek pomiędzy największą a najmniejszą wartością przekracza 10 (i zmienne są skrzywione ) to można, jeżeli przekracza 100, to nawet trzeba

50 Diagnostyka modelu liniowego Aby model można było uznać za dobry, należy wykonać jego diagnostykę. Przykład: Oceny współczynników i statystyki testowe są prawie identyczne

51 wniosek Po dopasowaniu modelu, diagnostyka jest krokiem koniecznym, pozwalającym na ocenę, czy model jest dopasowany poprawnie.

52 Współliniowość Gdy zmienne objaśniające są wysoko skorelowane wyniki analizy regresji mogą być niestabilne. Szacowana wartość zmiennej x i może zmienić wielkość a nawet kierunek zależnie od pozostałych zmiennych objaśniających zawartych w tak testowanym modelu regresji. Taka zależność liniowa między zmiennymi objaśniającymi może zagrażać trafności wyników analizy regresji. Do wskaźników oceniających współliniowość należy, m.in. VIF (Variance Inflation Factor) zwany współczynnikiem podbicia (inflacji) wariancji. VIF pozwala wychwycić wzrost wariancji ze względu na współliniowość cechy. Innymi słowy: wskazuje on o ile wariancje współczynników są zawyżone z powodu zależności liniowych w testowanym modelu. Niektóre pakiety statystyczne pozwalają także alternatywnie mierzyć tzw. współczynnik toleracji (TOL - ang. tolerance), który mierzy się jako: 1/VIF VIF i (1 R 2 1 i ) dla modelu x i = f(x 1,., x i-1, x i+1,, x p ) gdzie zmienna x i będzie wyjaśniana przez wszystkie pozostałe zmienne. Gdy VIF > 10 mówimy, że współliniowość wystąpiła i chcąc się jej pozbyć z modelu, usuwamy te cechy, które są liniową kombinacją innych zmiennych niezależnych.

53 Radą na współliniowość jest według niektórych prac zwiększenie zbioru obserwacji o nowe, tak, by zminimalizować istniejące zależności liniowe pomiędzy zmiennymi objaśniającymi. Oczywiście, zwiększenie liczby obserwacji nie gwarantuje poprawy -stąd takie rozwiązanie na pewno nie należy do najlepszych i jedynych. Lepszym wydaje się komponowanie zmiennych zależnych w nowe zmienne (np. waga i wzrost są skorelowane silnie i zamiast nich stworzenie jednej zmiennej stosunek wzrostu do wagi. Taką nową zmienną nazywa się w literaturze kompozytem. Często - dla dużej liczby zmiennych objaśniających - stosuje sie metodę analizy składowych głównych (ang. principal component analysis) dla redukcji liczby zmiennych do jednego lub kilku kompozytów niezależnych.

54 Przykład modelu ze współliniowością Dla modelu postaci: y i = b 0 + b 1 x 1i + b 2 x 2i + b 3 x 3i + e 1i Gdzie x 3i = 10 * x 1i - 2 * x 2i. Wtedy powiemy, że zmienna x 3 jest kombinacją liniową zmiennych x 1 i x 2. Próba szacowania takiego modelu związana jest ze świadomym popełnianiem błędu, gdyż w modelu tym występuje dokładna współliniowość (jedna ze zmiennych objaśniających jest kombinacją liniową pozostałych).

55 W środowisku R sprawdzanie współliniowości nie jest trudne. Wystarczy skorzystać z funkcji vif której argumentem jest model regresji dla danego zbioru danych. Przykład dotyczący naszego zbioru płatków zbożowych przedstawiamy poniżej: > vif(lm(rating~sugars+fiber, data=dane)) sugars fiber Wartości współczynnika VIF nie są zbyt wysokie toteż uznajemy, że w modelu tym nie występuje zjawisko współliniowości.

56 Współliniowość (ang. multicollinearity) To sytuacja, gdy kilka zmiennych objaśniających jest skorelowanych ze sobą. Prowadzi to bowiem do niestabilności w przestrzeni poszukiwań, a wyniki mogą być niespójne. Aby uniknąć współliniowości, należy zbadać strukturę korelacji między zmiennymi objaśniającymi. Błonnik cukry błonnik Półka 2 Półka potas Dwie zmienne potas i błonnik są silnie skorelowane.

57 Jest też inna metoda Możemy posłużyć się wskaźnikami podbicia wariancji. Co to jest wskaźnik podbicia wariancji? Wartość s bi oznacza zmienność związaną ze współczynnikiem b i dla i-tej zmiennej objaśniającej x i. Wartość s bi możemy wyrazić jako iloczyn standardowego błędu oszacowania s i stałej c i. Stałą c i wyrazimy jako: c i 1 ( n 1) s 2 i 1 Gdzie s i 2 oznacza wariancję próby obserwowanych wartości i-tej zmiennej opisującej x i, A R i 2 oznacza wartość współczynnika regresji wielokrotnej R 2 dla regresji zmiennej x i traktowanej jako zmiennej zależnej względem pozostałych zmiennych objaśniających. R i 2 będzie duże, gdy x i będzie silnie skorelowane z innymi zmiennymi objaśniającymi. 1 R 2 i

58 c i 1 1 ( n 1) s R 2 i 1 2 i Pierwszy czynnik mierzy tylko wewnętrzną zmienność i-tej zmiennej objaśniającej x i, zaś drugi czynnik mierzy korelację między i tą zmienną objaśniającą x i a pozostałymi zmiennymi objaśniającymi. Dlatego drugi czynnik jest nazywany wskaźnikiem podbicia wariancji VIF dla x i : VIF i 1 1 R 2 i

59 W praktyce VIF i 1 1 R 2 i Jeśli zmienna x i jest całkowicie nieskorelowana z pozostalymi zmiennymi objaśniającymi, R i 2 = 0. Wtedy VIF = 1. Czyli minimalna wartość wskaźnika inflacji to 1. W miarę tego jak rośnie stopień korelacji pomiędzy zmienną x i i pozostałymi wartość R 2 i również rośnie. Gdy wartość ta zbliża się do 1, to VIF rośnie do nieskończoności. Zatem nie ma górnej granicy. Praktyczną zasadą dotyczącą interpretacji wartości wskaźnika podbicia wariacji jest oznanie VIF>=5 jako wskazania umiarkowanej współliniowości i VIV >=10 jako wskazania silnej współliniowości. Wskaźnik podbicia wariancji =5 odpowiada wartości R i 2 = Wartość VIF=10 odpowiada R i 2 = 0.9

60 W środowisku R sprawdzanie współliniowości nie jest trudne. Wystarczy skorzystać z funkcji vif której argumentem jest model regresji dla danego zbioru danych. Przykład dotyczący naszego zbioru płatków zbożowych przedstawiamy poniżej: > vif(lm(rating~sugars+fiber, data=dane)) sugars fiber

61

62 Są trzy typy obserwacji, które mogą ale nie muszą wywierać nadmiernego nacisku na wyniki regresji: Obserwacje oddalone Obserwacje wysokiej dźwigni Obserwacje wpływowe.

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Badanie współzależności zmiennych Uwzględniając ilość zmiennych otrzymamy 4 odmiany zależności: Zmienna zależna jednowymiarowa oraz jedna

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

ANALIZA REGRESJI SPSS

ANALIZA REGRESJI SPSS NLIZ REGRESJI SPSS Metody badań geografii społeczno-ekonomicznej KORELCJ REGRESJ O ile celem korelacji jest zmierzenie siły związku liniowego między (najczęściej dwoma) zmiennymi, o tyle w regresji związek

Bardziej szczegółowo

Regresja liniowa, klasyfikacja metodą k-nn. Agnieszka Nowak Brzezińska

Regresja liniowa, klasyfikacja metodą k-nn. Agnieszka Nowak Brzezińska Regresja liniowa, klasyfikacja metodą k-nn Agnieszka Nowak Brzezińska Analiza regresji Analiza regresji jest bardzo popularną i chętnie stosowaną techniką statystyczną pozwalającą opisywać związki zachodzące

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

3. Modele tendencji czasowej w prognozowaniu

3. Modele tendencji czasowej w prognozowaniu II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa

Bardziej szczegółowo

Regresja liniowa oraz regresja wielokrotna w zastosowaniu zadania predykcji danych. Agnieszka Nowak Brzezińska Wykład III-VI

Regresja liniowa oraz regresja wielokrotna w zastosowaniu zadania predykcji danych. Agnieszka Nowak Brzezińska Wykład III-VI Regresja liniowa oraz regresja wielokrotna w zastosowaniu zadania predykcji danych. Agnieszka Nowak Brzezińska Wykład III-VI Analiza regresji Analiza regresji jest bardzo popularną i chętnie stosowaną

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Regresja i Korelacja

Regresja i Korelacja Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 Zadanie 1 a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 b) W naszym przypadku populacja są inżynierowie w Tajlandii. Czy można jednak przypuszczać, że na zarobki kobiet-inżynierów

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp. Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.

Bardziej szczegółowo

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań 6.11.1 1 Badanie współzależności atrybutów jakościowych w wielowymiarowych tabelach danych. 1.1 Analiza współzależności

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem. Teoria błędów Wskutek niedoskonałości przyrządów, jak również niedoskonałości organów zmysłów wszystkie pomiary są dokonywane z określonym stopniem dokładności. Nie otrzymujemy prawidłowych wartości mierzonej

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 Inne układy doświadczalne 1) Układ losowanych bloków Stosujemy, gdy podejrzewamy, że może występować systematyczna zmienność między powtórzeniami np. - zmienność

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego Ze względu na jakość uzyskiwanych ocen parametrów strukturalnych modelu oraz weryfikację modelu, metoda najmniejszych

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).

Bardziej szczegółowo

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ Korelacja oznacza fakt współzależności zmiennych, czyli istnienie powiązania pomiędzy nimi. Siłę i kierunek powiązania określa się za pomocą współczynnika korelacji

Bardziej szczegółowo

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Marcin Zajenkowski Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Aby porównać ze sobą dwie statystyki z próby stosuje się testy istotności. Mówią one o tym czy uzyskane

Bardziej szczegółowo

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007 Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne

Bardziej szczegółowo

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15 VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady

Bardziej szczegółowo

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Rozkłady statystyk z próby

Rozkłady statystyk z próby Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny

Bardziej szczegółowo

Statystyczna analiza danych

Statystyczna analiza danych Statystyczna analiza danych Korelacja i regresja Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/30 Ostrożnie z interpretacją p wartości p wartości zależą od dwóch rzeczy

Bardziej szczegółowo

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku Przykład 2 Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku Sondaż sieciowy analiza wyników badania sondażowego dotyczącego motywacji w drodze do sukcesu Cel badania: uzyskanie

Bardziej szczegółowo

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28 Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych

Bardziej szczegółowo

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski Statystyczna analiza danych w programie STATISTICA (wykład ) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Weryfikacja (testowanie) hipotez statystycznych

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

Elementy statystyki STA - Wykład 5

Elementy statystyki STA - Wykład 5 STA - Wykład 5 Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza 1 ANOVA 2 Model jednoczynnikowej analizy wariancji Na model jednoczynnikowej analizy wariancji możemy traktować jako uogólnienie

Bardziej szczegółowo

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna 1 Laboratorium VIII: Analiza kanoniczna Spis treści Laboratorium VIII: Analiza kanoniczna... 1 Wiadomości ogólne... 2 1. Wstęp teoretyczny.... 2 Przykład... 2 Podstawowe pojęcia... 2 Założenia analizy

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2 STATYSTYKA I DOŚWIADCZALNICTWO Wykład Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α;n 1),X + t( α;n 1) n s n t (α;

Bardziej szczegółowo

Analiza statystyczna trudności tekstu

Analiza statystyczna trudności tekstu Analiza statystyczna trudności tekstu Łukasz Dębowski ldebowsk@ipipan.waw.pl Problem badawczy Chcielibyśmy mieć wzór matematyczny,...... który dla dowolnego tekstu...... na podstawie pewnych statystyk......

Bardziej szczegółowo

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Jednym z elementów walidacji metod pomiarowych jest sprawdzenie liniowości

Bardziej szczegółowo

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)

Bardziej szczegółowo

LISTA 4. 7.Przy sporządzaniu skali magnetometru dokonano 10 niezależnych pomiarów

LISTA 4. 7.Przy sporządzaniu skali magnetometru dokonano 10 niezależnych pomiarów LISTA 4 1.Na pewnym obszarze dokonano 40 pomiarów grubości warstwy piasku otrzymując w m.: 54, 58, 64, 69, 61, 56, 41, 48, 56, 61, 70, 55, 46, 57, 70, 55, 47, 62, 55, 60, 54,57,65,60,53,54, 49,58,62,59,55,50,58,

Bardziej szczegółowo

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia Doświadczenie: Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia Cele doświadczenia Celem doświadczenia jest zbadanie zależności drogi przebytej w ruchu przyspieszonym od czasu dla kuli bilardowej

Bardziej szczegółowo

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych

Bardziej szczegółowo

R-PEARSONA Zależność liniowa

R-PEARSONA Zależność liniowa R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe

Bardziej szczegółowo

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń 1. Problem ozwaŝamy zjawisko (model): Y = β 1 X 1 X +...+ β k X k +Z Ηβ = w r Hipoteza alternatywna: Ηβ w r

Bardziej szczegółowo

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp tel.: +48 662 635 712 Liczba stron: 15 Data: 20.07.2010r OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA z wykorzystaniem programu obliczeniowego Q maxp DŁUGIE

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady.

Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady. Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady. Przykład: Test Walda a test Studenta w badaniu istotności zmiennych objaśniających.

Bardziej szczegółowo

POLITECHNIKA OPOLSKA

POLITECHNIKA OPOLSKA POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych

Bardziej szczegółowo

Sprawdzenie narzędzi pomiarowych i wyznaczenie niepewności rozszerzonej typu A w pomiarach pośrednich

Sprawdzenie narzędzi pomiarowych i wyznaczenie niepewności rozszerzonej typu A w pomiarach pośrednich Podstawy Metrologii i Technik Eksperymentu Laboratorium Sprawdzenie narzędzi pomiarowych i wyznaczenie niepewności rozszerzonej typu A w pomiarach pośrednich Instrukcja do ćwiczenia nr 4 Zakład Miernictwa

Bardziej szczegółowo

Oszacowanie i rozkład t

Oszacowanie i rozkład t Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

WYKŁAD 8 ANALIZA REGRESJI

WYKŁAD 8 ANALIZA REGRESJI WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

Badanie zależności skala nominalna

Badanie zależności skala nominalna Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność

Bardziej szczegółowo

Przykład 1 ceny mieszkań

Przykład 1 ceny mieszkań Przykład ceny mieszkań Przykład ceny mieszkań Model ekonometryczny zaleŝności ceny mieszkań od metraŝu - naleŝy do klasy modeli nieliniowych. - weryfikację empiryczną modelu przeprowadzono na przykładzie

Bardziej szczegółowo

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcja homograficzna. Definicja. Funkcja homograficzna jest to funkcja określona wzorem f() = a + b c + d, () gdzie współczynniki

Bardziej szczegółowo

Analiza regresji wielokrotnej - hierarchiczna

Analiza regresji wielokrotnej - hierarchiczna Analiza regresji wielokrotnej - hierarchiczna Poniżej prezentujemy przykładowe pytania z rozwiązaniami dotyczącymi analizy regresji wielokrotnej wykonanej metodą hierarchiczną. Wszystkie rozwiązania są

Bardziej szczegółowo

Analiza Współzależności

Analiza Współzależności Statystyka Opisowa z Demografią oraz Biostatystyka Analiza Współzależności Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka

Bardziej szczegółowo

Szkice rozwiązań z R:

Szkice rozwiązań z R: Szkice rozwiązań z R: Zadanie 1. Założono doświadczenie farmakologiczne. Obserwowano przyrost wagi ciała (przyrost [gram]) przy zadanych dawkach trzech preparatów (dawka.a, dawka.b, dawka.c). Obiektami

Bardziej szczegółowo

Przykład 2. Stopa bezrobocia

Przykład 2. Stopa bezrobocia Przykład 2 Stopa bezrobocia Stopa bezrobocia. Komentarz: model ekonometryczny stopy bezrobocia w Polsce jest modelem nieliniowym autoregresyjnym. Podobnie jak model podaŝy pieniądza zbudowany został w

Bardziej szczegółowo

Testowanie hipotez statystycznych cd.

Testowanie hipotez statystycznych cd. Temat Testowanie hipotez statystycznych cd. Kody znaków: żółte wyróżnienie nowe pojęcie pomarańczowy uwaga kursywa komentarz 1 Zagadnienia omawiane na zajęciach 1. Przykłady testowania hipotez dotyczących:

Bardziej szczegółowo

Funkcja kwadratowa. f(x) = ax 2 + bx + c,

Funkcja kwadratowa. f(x) = ax 2 + bx + c, Funkcja kwadratowa. Funkcją kwadratową nazywamy funkcję f : R R określoną wzorem gdzie a, b, c R, a 0. f(x) = ax 2 + bx + c, Szczególnym przypadkiem funkcji kwadratowej jest funkcja f(x) = ax 2, a R \

Bardziej szczegółowo

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Hipotezy i Testy statystyczne Każde

Bardziej szczegółowo

Funkcja kwadratowa. f(x) = ax 2 + bx + c = a

Funkcja kwadratowa. f(x) = ax 2 + bx + c = a Funkcja kwadratowa. Funkcją kwadratową nazywamy funkcję f : R R określoną wzorem gdzie a, b, c R, a 0. f(x) = ax + bx + c, Szczególnym przypadkiem funkcji kwadratowej jest funkcja f(x) = ax, a R \ {0}.

Bardziej szczegółowo

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe Typy zmiennych Graficzne reprezentacje danych Statystyki opisowe Jakościowe charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy,

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez statystycznych

Bardziej szczegółowo

Walidacja metod analitycznych Raport z walidacji

Walidacja metod analitycznych Raport z walidacji Walidacja metod analitycznych Raport z walidacji Małgorzata Jakubowska Katedra Chemii Analitycznej WIMiC AGH Walidacja metod analitycznych (według ISO) to proces ustalania parametrów charakteryzujących

Bardziej szczegółowo

LABORATORIUM Z FIZYKI

LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI I PRACOWNIA FIZYCZNA C w Gliwicach Gliwice, ul. Konarskiego 22, pokoje 52-54 Regulamin pracowni i organizacja zajęć Sprawozdanie (strona tytułowa, karta pomiarowa)

Bardziej szczegółowo

Metoda Johansena objaśnienia i przykłady

Metoda Johansena objaśnienia i przykłady Metoda Johansena objaśnienia i przykłady Model wektorowej autoregresji rzędu p, VAR(p), ma postad gdzie oznacza wektor zmiennych endogenicznych modelu. Model VAR jest stabilny, jeżeli dla, tzn. wielomian

Bardziej szczegółowo

Wydział Matematyki. Testy zgodności. Wykład 03

Wydział Matematyki. Testy zgodności. Wykład 03 Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy

Bardziej szczegółowo

Analiza wariancji i kowariancji

Analiza wariancji i kowariancji Analiza wariancji i kowariancji Historia Analiza wariancji jest metodą zaproponowaną przez Ronalda A. Fishera. Po zakończeniu pierwszej wojny światowej był on pracownikiem laboratorium statystycznego w

Bardziej szczegółowo

Szymon Bargłowski, sb39345 MODEL. 1. Równania rozpatrywanego modelu: 1 PKB t = a 1 a 2 E t a 3 Invest t 1

Szymon Bargłowski, sb39345 MODEL. 1. Równania rozpatrywanego modelu: 1 PKB t = a 1 a 2 E t a 3 Invest t 1 Szymon Bargłowski, sb39345 MODEL 1. Równania rozpatrywanego modelu: 1 PKB t = a 1 a 2 E t a 3 Invest t 1 2 C t = b 1 b 2 PKB t b 3 Invest t 1 b 4 G t 2 3 Invest t = d 1 d 2 C t d 3 R t 3 gdzie: G - wydatki

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

Ważne rozkłady i twierdzenia

Ważne rozkłady i twierdzenia Ważne rozkłady i twierdzenia Rozkład dwumianowy i wielomianowy Częstość. Prawo wielkich liczb Rozkład hipergeometryczny Rozkład Poissona Rozkład normalny i rozkład Gaussa Centralne twierdzenie graniczne

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW POPULACJI Szkic wykładu Wprowadzenie 1 Wprowadzenie 2 3 4 Przypomnienie dotychczasowych rozważań Przedziałem ufności nazywamy przedział losowy, o którym przypuszczamy

Bardziej szczegółowo