Zależności w danych. Korelacja i regresja. Agnieszka Nowak Brzezińska SMAD w2

Wielkość: px
Rozpocząć pokaz od strony:

Download "Zależności w danych. Korelacja i regresja. Agnieszka Nowak Brzezińska SMAD w2"

Transkrypt

1 Zależności w danych. Korelacja i regresja Agnieszka Nowak Brzezińska SMAD w2

2 Korelacja Zależność korelacyjna pomiędzy cechami X i Y charakteryzuje sie tym, że wartościom jednej cechy są przyporządkowane ściśle określone wartości średnie drugiej cechy.

3

4 Ogólna postać miary korelacji: > cor( var1, var2, method = "method") Opcja domyślna to miara korelacji Pearsona cor(var1, var2) Gdy chcemy miary Rang Spearmana: cor(var1, var2, method = "spearman") gdy chcemy użyć zbioru danych zamiast osobnych zmiennych: cor(dataset, method = "pearson")

5 Istotność korelacji Jeśli chcemy poznać stopień istotności korelacji między badanymi zmiennymi musimy użyć dodatkowo funkcji do testowania korelacji: cor.test() > cor.test(var1, var2, method = "method") Domyślnie stosowana jest tu także miara pearsona. >cor.p = cor.test(var1, var2) Jeśli chcemy użyć innej musimy ją określić: >cor.s = cor.test(var1, var2, method = "spearman")

6 Wynik > cor.s Spearman's rank correlation rho data: y and x1 S = , p-value = alternative hypothesis: true rho is not equal to 0 sample estimates: rho >

7 Reprezentacja graficzna korelacji. Funkcja plot() > plot(x.var, y.var) Gdy chcemy nadać tytuły osiom x i y > plot(x.var, y.var, xlab="x-axis", ylab="yaxis") Gdy chcemy ingerować w symbol punktu na wykresie > plot(x.var, y.var, pch=16) Chcąc dodać linię najlepszego dopasowania do rozrzutu punktów: > abline(lm(y.var ~ x.var)

8 Korelacja w R krok po kroku znaczenie Komenda w środowisku R Odczyt danych z wskazanej lokalizacji Podłączenie do danych spoza R Wybór miary korelacji. Domyślna jest pearson.inne możliwe to "kendal" oraz "spearman your.data = read.csv(file.choose()) attach(your.data) your.cor = cor(var1, var2, method = "pearson") Wyświetlenie wartości korelacji your.cor Korelacja parami cor.mat = cor(your.data, method = "pearson ) Określenie istotności korelacji cor.test(var1, var2, method="spearman") Wyświetlenie wykresu rozrzutu. Punkt jako otwarte kółko Dopasowanie linii regresji plot(x.var, y.var, xlab="x-label", ylab="ylabel", pch=21)) abline(lm(y.var ~ x.var)

9

10

11

12

13 korelogram Pakiet corrgram install.package(corrgram) on potrzebuje pakietów: seriation, TSP

14 > corrgram(mtcars, order=true, lower.panel=panel.shade,upper.panel=panel.pie, text.panel=panel.txt,main="car Milage Data in PC2/PC1 Order") >

15 corrgram(x, order =, panel=, lower.panel=, upper.panel=, text.panel=, diag.panel=) x is a data frame with one observation per row. order=true will cause the variables to be ordered using principal component analysis of the correlation matrix. panel= refers to the off-diagonal panels. You can use lower.panel= and upper.panel= to choose different options below and above the main diagonal respectively. text.panel= and diag.panel= refer to the main diagnonal. Allowable parameters are given below. off diagonal panels panel.pie (the filled portion of the pie indicates the magnitude of the correlation) panel.shade (the depth of the shading indicates the magnitude of the correlation) panel.ellipse (confidence ellipse and smoothed line) panel.pts (scatterplot) main diagonal panels panel.minmax (min and max values of the variable) panel.txt (variable name).

16

17

18

19

20 Korelacja w zbiorze faithful > duration = faithful$eruptions # the eruption durations > waiting = faithful$waiting # the waiting period > cor(duration, waiting) # apply the cor function [1]

21 Jeżeli obie cechy X i Y są mierzalne, to analizę zależności rozpoczynamy od sporządzenia korelogramu. Korelogram jest to wykres punktowy par {(x i, y i )}. W kartezjańskim układzie współrzędnych O(x,y) pary te odpowiadają punktom o współrzędnych (x,y). Jeżeli otrzymamy bezładny zbiór punktów, który nie przypomina kształtem wykresu znanego związku funkcyjnego, to powiemy że pomiędzy cechami X i Y nie ma zależności.

22 Zależność liniowa Na rysunkach smuga punktów układa się wzdłuż linii prostej. Powiemy zatem, że istnieje zależność pomiędzy cechami X i Y i jest to związek liniowy; zależność liniowa.

23 Błędy we wnioskowaniu o zależności cech X i Y Rysunek (z lewej) za mało danych. Zebrano dane (punkty obwiedzione kwadratem) i z korelogramu wynika brak zależności. W rzeczywistości jest zależność liniowa. Rysunek (z prawej) nietypowe dane. Trzy ostatnie punkty (odseparowane) to dane nietypowe. Sugerują zależność nieliniową (parabola). Po odrzuceniu tych nietypowych informacji widać, że jest wyraźna zależność liniowa.

24 Zależność nieliniowa Na rysunku widać, że smuga punktów układa sie w kształt paraboli. Powiemy zatem, że istnieje zależność pomiędzy cechami X i Y i jest to związek nieliniowy; zależność nieliniowa.

25 Różnie możemy wyrażać współczynnik korelacji Pearsona r = n xy - ( x)( y) sqrt[n( x 2 ) - ( x) 2 ] sqrt[n( y 2 ) - ( y) 2 ] r = xy sqrt( x 2 y 2 ) r = s xy s x s y

26 Korelacja dwóch zmiennych w zbiorze danych to ich kowariancja podzielona przez iloczyn odchyleń standardowych. Jest to znormalizowana miara tego jak dane są liniowo zależne. Formalnie, Dla s x i s y będących odchyleniami standardowymi zmiennych x i y w próbie oraz ich kowariancją s xy : Podobnie korelację populacji wyrazimy mając jako σ x oraz σ y odchylenia standardowe w populacji, zaś σ xy to kowariancja populacji Im bardziej wartość współczynnika korelacji jest bliska wartości 1, tym większa (dodatnia) zależność liniowa między zmiennymi x i y. Gdy współczynnik korelacji jest blisko wartości -1, oznacza to tzw. ujemną korelację liniową. Wartość bliska 0 oznacza brak zależności między badanymi zmiennymi.

27 . Niech x i y będą zmiennymi losowymi o ciągłych rozkładach. x i oraz y i oznaczają wartości prób losowych tych zmiennych (i=1,2,..,n), natomiast - wartości średnie z tych prób. Wówczas estymator współczynnika korelacji liniowej definiuje się następująco: Ogólnie współczynnik korelacji liniowej dwóch zmiennych jest ilorazem kowariancji i iloczynu odchyleń standardowych tych zmiennych:

28 INTERPRETACJA współczynnika korelacji r xy Znak współczynnika r xy mówi nam o kierunku zależności. I tak: znak plus zależność liniowa dodatnia, tzn. wraz ze wzrostem wartości jednej cechy rosną średnie wartości drugiej z cech, znak minus zależność liniowa ujemna, tzn. wraz ze wzrostem wartości jednej cechy maleją średnie wartości drugiej z cech. Wartosc bezwzględna współczynnika korelacji, czyli r xy, mówi nam o sile zależności. Jeżeli wartość bezwzględna r xy : jest mniejsza od 0,2, to praktycznie brak związku liniowego pomiędzy badanymi cechami, 0,2 0,4 - zależność liniowa wyraźna, lecz niska, 0,4 0,7 - zależność liniowa umiarkowana, 0,7 0,9 - zależność liniowa znacząca, powyżej 0,9 - zależność liniowa bardzo silna.

29 przykład W grupie 7 studentów badano zależność pomiędzy oceną z egzaminu z programowania (Y), a liczbą dni poświęconych na naukę (X).

30 Korelogram Wykres rozproszenia graficzne przedstawienie próbki w postaci punktów na płaszczyźnie O(x,y).

31 Widać tutaj wyraźną zależność liniową (dodatnią). Obliczamy współczynnik korelacji (Pearsona). UWAGA! Liczebność populacji jest mała (n=7). Użyjemy tak małego przykładu tylko dlatego, aby sprawnie zilustrować procedurę liczenia. Obliczanie średnich, wariancji oraz kowariancji.

32 INTERPRETACJA W badanej grupie studentów wystąpiła bardzo silna dodatnia (znak plus) zależność liniowa pomiędzy czasem nauki (cecha X), a uzyskaną oceną z egzaminu (cecha Y). Oznacza to, że wraz ze wzrostem czasu poświęconego na naukę rosła w tej grupie uzyskiwana ocena.

33 Współczynnik korelacji liniowej Pearsona Współczynnik ten (r xy ) jest miernikiem siły związku prostoliniowego między dwoma cechami mierzalnymi. Związkiem prostoliniowym nazywamy taką zależność, w której jednostkowym przyrostom jednej zmiennej (przyczyny) towarzyszy, średnio biorąc, stały przyrost drugiej zmiennej (skutku). Wzór na współczynnik korelacji liniowej Pearsona jest wyznaczany poprzez standaryzację kowariancji.

34 Kowariancja jest średnią arytmetyczną iloczynu odchyleń wartości zmiennych X i Y od ich średnich arytmetycznych: dla danych indywidualnych (w postaciszeregu korelacyjnego) n 1 cov( x, y) cov( y, x) ( x1 x)( y1 n i 1 y) xy x y dla danych ujęjętych formie tablicy korelacyjnej k r 1 cov( x, y) cov( y, x) ( x1 x)( y1 n i 1 j 1 y) n ij xy x y xy 1 n n i 1 x i y i dla danych indywidualnych xy 1 n k r i 1 j 1 x i y j n ij dla tablicy korelacyjnej

35 Kowariancja przekazuje następujące informacje o związku korelacyjnym: cov(x,y) = 0 brak zależności korelacyjnej; cov(x,y) < 0 ujemna zależność korelacyjna; cov(x,y) > 0 dodatnia zależność korelacyjna. Kowariancja przyjmuje wartości liczbowe z przedziału: [-s(x)s(y), +s s(x)s(y)], gdzie s(x) i s(y) są odchyleniami standardowymi odpowiednich zmiennych. Jeżeli cov(x,y) = -s(x)s(y), to między zmiennymi istnieje ujemny związek funkcyjny. Przy dodatnim związku funkcyjnym cov(x,y) = +s(x)s(y). Kowariancja charakteryzuje współzmienność badanych zmiennych, ale jej wartość zależy od rzędu wielkości, w jakich wyrażone są obydwie cechy, co powoduje, że nie można jej wykorzystać w sposób bezpośredni do porównań.

36 współczynnik korelacji linowej Pearsona, wyznaczony przez standaryzację kowariancji: To unormowany miernik natężenia i kierunku współzależności liniowej dwóch zmiennych mierzalnych X i Y : cov( x, y) rxy ryx s( x) s( y) Współczynnik korelacji liniowej Pearsona jest miarą unormowaną, przyjmującą wartości z przedziału: -1 < r xy <+1. Dodatni znak współczynnika korelacji wskazuje na istnienie współzależności pozytywnej (dodatniej), ujemny zaś oznacza współzależność negatywną (ujemną).

37 W pewnym Urzędzie Stanu Cywilnego pewnego dnia przeprowadzono badanie nowo zawartych małżeństw wg wieku żony i męża. Wyniki badania losowo pobranych par przedstawiono niżej. Określić siłę i kierunek zależności między badanymi zmiennymi. [Sobczyk str , wyd.1991]

38 Na podstawie analizy diagramu punktowego (korelacyjnego) można stwierdzić, że zależność między badanymi zmiennymi ma charakter prostoliniowy. Dlatego też siłę i kierunek zależności można ocenić przy użyciu współczynnika korelacji liniowej Pearsona. Aby go obliczyć należy wykonać obliczenia pomocnicze:

39 Średni wiek kobiet zawierających w badanym dniu związek małżeński wynosi: x 235 :10 23,5 lat. Średni wiek mężczyzny wynosi: y 238 :10 23,8 lat. W celu obliczenia współczynnika korelacji liniowej Pearsona niezbędna jest znajomość odchyleń standardowych obydwu cech: s(x) Odchylenie standardowe wieku kobiet jest równe: Odchylenie standardowe wieku mężczyzn jest równe: s(y) Dysponując powyższymi informacjami możemy obliczyć współczynnik korelacji liniowej Pearsona: 134 rxy 0, ,8 4,1 r 2 xy 0,7396 n i 1 n i 1 ( ( x i y i n n x) 2 y) 2 142, ,6 10 3,8 4,1 lat lat

40 Zatem współczynnik korelacji liniowej Pearsona jest równy: r r xy 2 xy ,7 2,7 0, ,68 Na tej podstawie można stwierdzić, że między liczbą izb a liczbą uczniów w szkole zachodzi dosyć silna dodatnia zależność korelacyjna. Zmienność jednej cechy jest w 46,42% wyjaśniona zmiennością drugiej

41 Dane jakościowe Często jest tak, że dane dla których chcemy mierzyć korelację, nie są danymi ilościowymi. Wtedy nie możemy użyć współczynnika korelacji liniowej Pearsona. Współczynnik korelacji rang Spearmana został opracowany właśnie dla takich przypadków.

42 WSPÓŁCZYNNIK KORELACJI RANG (Spearmana) Współczynnik korelacji rang (Spearmana) r S używamy w przypadku gdy: 1. choć jedna z badanych cech jest cecha jakościowa (niemierzalna), ale istnieje możliwość uporządkowania (ponumerowania) wariantów każdej z cech; 2. cechy maja charakter ilościowy (mierzalny), ale liczebność zbiorowości jest mała (n<30). Numery jakie nadajemy wariantom cech noszą nazwę rang. UWAGA! W procesie nadawania rang stymulanty porządkujemy malejąco, a destymulanty rosnąco. UWAGA! W procesie nadawania rang może zdarzyć sie więcej niż 1 jednostka o takiej samej wartości cechy (np. k jednostek). Wówczas należy na chwile nadać tym jednostkom kolejne rangi. Następnie należy zsumować takie rangi i podzielić przez k (otrzymamy w ten sposób średnią rangę dla tej grupy k jednostek). W ostateczności każda jednostka z tych k jednostek otrzyma identyczną rangę (średnia dla danej grupy k jednostek).

43 Wartość współczynnika korelacji rang (Spearmana) potwierdza bardzo silną, dodatnią (znak plus) zależność pomiędzy czasem nauki (X), a uzyskaną oceną (Y).

44 Współczynnik korelacji kolejnościowej (rang) Spearmana Współczynnik ten służy do opisu siły korelacji dwóch cech, szczególnie wtedy, gdy mają one charakter jakościowy i istnieje możliwość uporządkowania obserwacji w określonej kolejności. Miarę tę można stosować również do badania zależności między cechami ilościowymi w przypadku niewielkiej liczby obserwacji. Współczynnik rang Spearmana obliczamy ze wzoru: r s 6 n i n( n d 2 i 1)

45 r s 6 n i n( n d 2 i 1) Gdzie: d i różnice między rangami odpowiadających sobie wartości cechy x i i cechy y i (i=1, 2,..., n). Obliczenia rozpoczynamy zazwyczaj od uporządkowania wyjściowych informacji według rosnących (malejących) wariantów jednej z cech. Uporządkowanym wartościom nadajemy następnie numery kolejnych liczb naturalnych. Czynność ta nosi nazwę rangowania. Rangowanie może odbywać się od najmniejszej do wartości największej do najmniejszej i odwrotnie, przy czym sposób rangowania musi być jednakowy dla obydwu zmiennych. W przypadku, gdy występują jednakowe wartości realizacji zmiennych, przyporządkowujemy im średnią arytmetyczną obliczoną z ich kolejnych numerów. Mówi się wówczas o występowaniu węzłów. Jednakowe rangi wartości badanych zmiennych (lub na ogół jednakowe) świadczą o istnieniu dodatniej korelacji między zmiennymi. Natomiast przeciwstawna numeracja sugeruje istnienie korelacji ujemnej. Współczynnik rang przyjmuje wartości z przedziału 1 < r s < +1, a jego interpretacja jest identyczna jak współczynnika korelacji Pearsona.

46 Transformacja cech przedziałowych na porządkowe

47 Korelacja rang Spearman a r Osoba X Y X rank Y rank A B C D E

48 Korelacja rang Spearman a r Krok 2 Obliczenie wartości SP SP = XY - X Y/n

49 Korelacja rang Spearman a r Osoba X rank Y rank XY rank A B C D E

50 Korelacja rang Spearman a r Krok 2 Określenie wartości SP XY = 54 X = 15 Y = 15 n = 5 SP = XY - X Y/n = 54-15(15)/5 = /5 = = 9

51 Korelacja rang Spearman a r Krok 3 Określenie SS (dla każdej zmiennej). X = 15 Y = 15 n = 5 SS X = X 2 ( X) 2 /n SS Y = Y 2 ( Y) 2 /n

52 Korelacja rang Spearman a r Osoba X X 2 Y Y 2 A B C D E X 2 = 55 Y 2 = 55

53 Korelacja rang Spearman a r Krok 3 Obliczenie SS X = 15 X 2 = 55 Y = 15 Y 2 = 55 n = 5 SS X = X 2 ( X) 2 /n SS Y = Y 2 ( Y) 2 /n = 55 - (15) 2 /5 = /5 = = 10 **Zauważ, że rangi dla X i Y są identyczne. Przez to SS X = SS Y

54 Korelacja rang Spearman a r Krok 4 SP = 9 SS X = 10 SS Y = 10 Spearman r s = SP (SS X )(SS Y ) = 9 (10)(10) = 9/10 = +0.9

55 Porównanie korelacji Pearson a i rang Spearman a Osoba X Y X rank Y rank A B C D E Pearson r =.86 Spearman r =.90

56 przykład Na podstawie kontroli całokształtu pracy zawodowej i kwalifikacji nauczycieli dyrektor szkoły i wizytator wydali opinię o każdym z nauczycieli. Wyniki ujęto w punktach. Ustalić natężenie współzależności między opiniami o nauczycielach dyrektora i wizytatora [Sobczyk str. 214, wyd. z 1991]

57 Punktowym wynikom oceny nauczycieli nadajemy rangi, największej ilości punktów przypisujemy rangę 1. Wykorzystują wzór na współczynnik rang Spearmana otrzymujemy: r s ,92 11(121 1) Otrzymany wynik wskazuje, że współzależność opinii dyrektora i wizytatora jest bardzo silna. Oceniający kierowali się podobnymi kryteriami. Współczynnik determinacji liniowej obydwu zmiennych wynosi 84,64% (wszak r s2 0, 8464 )

58 Współczynnik determinacji r = 0 r 2 = 0 r =.80 r 2 =.64 r = 1 r 2 = 1 Współczynnik korelacji r dostarcza miar stopnia zależności między danych Współczynnik determinacji r 2 dostarcza miary siły tej zależności.

59 Współczynnik determinacji R 2 r 2 jest często używany i nosi nazwę współczynnika determinacji. Jest to frakcja zmienności wartości Y, które można wytłumaczyć najmniejszych kwadratów regresji y na xi. Współczynniki korelacji, których wielkość wynosi od 0,9 i 1,0 wskazują zmienne, które można uznać za bardzo silnie skorelowane. Współczynniki korelacji, których wielkość wynosi od 0,7 i 0,9 wskazują zmienne, które można uznać za wysoce skorelowane. Współczynniki korelacji, których wielkość wynosi od 0,5 do 0,7 wskazać zmienne, które można uznać za umiarkowanie skorelowane. Współczynniki korelacji, których wielkość wynosi od 0,3 do 0,5 wskazać zmienne, które mają niską korelację. Współczynniki korelacji, których wielkość jest mniejsza niż 0,3 mają niewielkie lub wręcz żadne (liniowy). Możemy łatwo zauważyć, że 0,9 < r <1,0 odpowiada 0,81 <r2 <1,00; 0,7 < r <0,9 odpowiada 0,49 <r2 <0,81; 0,5 < r <0,7 odpowiada 0,25 <r2 <0,49; 0.3 < r <0,5 wiąże się z 0,09 <r2 <0,25 oraz 0,0 < r <0,3 odpowiada z 0,0 <r2 <0.09.

60 Współczynnik determinacji r =.93 r 2 = (.93) 2 r 2 =.86

61 Person X Y A 0 4 B 2 1 C 8 10 D 6 9 E 4 6 r =.86 r 2 =.74 Współczynnik determinacji

62 Typ danych a miara korelacji

63 Point-Biserial Współczynnik korelacji (RPB) jest szczególnym przypadkiem miary Pearsona, gdzie jedna zmienna jest ilościowa, a druga zmienna jest nominalna (dychotomiczna bądź posiadająca więcej niż 2 wartości wykluczające się, jak to jest w przypadku cech dychotomicznych). RPB = (Y1 - Y0) * sqrt (pq) / (Y) gdzie Y0 i Y1 są wartościami średnimi dla danych, które dla zmiennej X mają wartości nominalne. q = 1 - p oraz p są proporcjami par danych dla zmiennej X, (Y) to odchylenie standardowe Y w populacji.

64 Współczynnik Phi Jeśli obie analizowane zmienne są nominalne (bądź nawet dychotomiczne) można stosować uproszczoną miarę korelacji Pearsona. Użyjemy tzw. tablic kontyngencji. Jest to dwuwymiarowa tablica określająca częstość każdej kategorii. Jeśli dla obu analizowanych zmiennych mamy po 2 możliwe wartości tablica ta będzie miała wymiar: 2 x 2. phi = (25-100)/sqrt( ) = -75/225 = -0.33

65 Miary asocjacji: C, V, Lambda Są także miary specjalnie dla danych nominalnych ale takich które wcale nie muszą być dychotomiczne. Jedną z nich jest współczynnik kontyngencji Pearsona (nazywany C), jest także współczynnik V Cramer a. Obie miary stosują statystykę chi-kwadrat. Jest i trzecia miara Goodmana i Kruskala nazywana współczynnkiem lambda.

66 Biserial Correlation Coefficient Inna miara asocjacji (r b ) podobna do miary point biserial, z tym że dane ilościowe są traktowane jak dane porządkowe i np. dalej traktowane jak nominalne. Np. zamiast wynik jakiegoś pomiaru będzie określany tylko w kategoriach wysoki lub niski. Y1 i Y0 są tak traktowane jak w poprzednich miarach. Zaś Y to wysokość rozkładu normalnego w punkcie z gdzie P(z'<z)=q i P(z'>z)=p.

67 Tetrachoric Correlation Coefficient R tet miara ta dobrze pracuje dla obu zmiennych dychotomicznych ale musimy również założyć że obie zmienne są tak naprawdę ciągłymi zmiennymi i że mają rozkład normalny. Z tego względu miara jest użyta do danych porządkowych. r tet = cos (180/(1 + sqrt(bc/ad)).

68 Rank-Biserial Correlation Coefficient r rb stosowany dla nominalnych danych dychotomicznych oraz danych porządkowych. r rb = 2 (Y 1 - Y 0 )/n, Gdzie n to liczba par danych, Y 0 oraz Y 1, są wartościami średnimi dla zmiennej Y dla różnych klas zmiennej X.

69 Coefficient of Nonlinear Relationship (eta) Często stosowana miara dla pomiaru zależności między danymi (by stwierdzić czy to zależność liniowa, czy nie). Wskaźnik korelacji eta jest traktowana jak miara Pearsona, ale nigdy nie może być ujemna.

70 Współczynnik korelacji próbkowej Niech ( x, y1),( x2, y2),...,( x n, y próbką cechy dwuwymiarowej. 1 n Będziemy badać zależność Y od X. będzie X = zmienna niezależna (zmienna objaśniająca), Y = zmienna zależna ( zmienna objaśniana ), )

71 Własności współczynnika korelacji 1 r 1 próbkowej : Jeśli r =1, to wszystkie punkty wykresu rozproszenia leżą na prostej o dodatnim współczynniku kierunkowym, tzn. istnieje dodatnia zależność liniowa między zmiennymi x i y próbki. 3. Jeśli r=-1, to wszystkie punkty wykresu rozproszenia leżą na prostej o ujemnym współczynniku kierunkowym, tzn. istnieje ujemna zależność liniowa między zmiennymi x i y próbki. 4. Wartości r bliskie 1 lub 1 wskazują, że wykres rozproszenia jest skupiony wokół prostej.

72 Korelacja: założenia Współczynnik korelacji Pearsona jest miarą liniowego związku pomiędzy dwiema zmiennymi. Założenia: obie zmienne (często oznaczane jako X i Y) powinny być zmiennymi ciągłymi z normalnym rozkładem. Charakterystyka: współczynnik korelacji Pearsona zazwyczaj jest oznaczany jako r albo (ro), i może przyjmować wartości od -1 do 1. Znak współczynnika korelacji wskazuje na kierunek zależności (wraz ze wzrostem wartości na jednej zmiennej odpowiednio wzrastają bądź maleją wartości na drugiej). Wartość bezwzględna współczynnika korelacji wskazuje na siłę istniejącej korelacji. Im ta wartość wyższa tym korelacja jest silniejsza. -1 wskazuje na idealną ujemną korelację, 0 oznacza brak (liniowego) związku, a 1 jest idealną korelacją dodatnią.

73

74 Oto prosty przykład korelacji dodatniej:»im dłuższy czas uczenia się, tym wyższe oceny«. Przykładem korelacji ujemnej jest związek między tremą a oceną (»im większa trema, tym niższa ocena«i odwrotnie). Obydwa przykłady są uproszczone i służą tylko do łatwiejszego rozumienia kierunku oddziaływania. Niektóre wskaźniki korelacji informują o kierunku badanej zależności. Znak plus lub minus wskazuje, czy korelacja jest dodatnia, czy też ujemna. Inne wskaźniki korelacji natomiast nie mają znaku plus lub minus, więc nie informują o kierunku zależności. Wówczas konieczny jest przegląd wszystkich rezultatów, aby poprawnie interpretować kierunek korelacji.

75

76 Związek może być silny a mimo to nieistotny I odwrotnie, związek może być słaby albo istotny. Kluczowa jest wielkość próby. Dla małych zbiorów jest stosunkowo łatwo uzyskać silną korelację przez przypadek i trzeba zwrócić uwagę na poziom istotności zanim wyciągnie się ostateczne wnioski, by nie odrzucić prawdziwej hipotezy zerowej, czyli nie popełnić błędu I rodzaju. Dla większych zbiorów, jest bardzo łatwo osiągnąć istotność, ale trzeba zwrócić uwagę na siłę korelacji (wartość bezwzględna współczynnika), żeby mieć pewność, że mamy do czynienia z rzeczywistym związkiem.

77 Interpretacja wartości r Współczynnik korelacji ma wartości z przedziału [ -1,1]. Im korelacja jest bliższa +/-1, tym bliższa jest idealnemu liniowemu związkowi. Przykładowa interpretacja korelacji: -1 to -0,7 silny negatywny związek. -0,7 to -0,3 słaby negatywny związek. -0,3 to +0,3 bardzo słaby związek lub jego brak. +0,3 to +0,7 słaby pozytywny związek. +0,7 to +1 silny pozytywny związek. Oczywiście nie są to sztywne kryteria klasyfikacji podziałów. W niektórych sytuacjach możemy obniżyć poziom słabej wartej rozpatrywanej korelacji np. do 0,2 do 0,6 a w innych przesunąć z kolei przedział w gorę (od 0,4 do 0,8).

78 Korelacja nieliniowa jest trudniejsza do interpretacji. Czym charakteryzuje się nieliniowość lub liniowość korelacji (oprócz linii w diagramie)? W przypadku, gdy korelacja jest liniowa można stwierdzić, iż wartości y wzrastają lub opadają proporcjonalnie (współmiernie) do wzrostu lub spadku wartości x. Kierunek korelacji jest tylko jeden i nie zmienia się.

79 Przy korelacji nieliniowej istnieją przynajmniej dwie trudności w interpretacji. Pierwsza polega na nieproporcjonalnej przemianie y, podczas gdy x zmienia się równomiernie. Dlatego jest wyraźnie trudniej wyjaśnić zmiany y. Drugi problemem jest fakt, iż nieliniowa korelacja może być w jednej części dodatnia, a w drugiej ujemna. Proste do zrozumienia jest stwierdzenie: im więcej uczeń się uczy, tym wyższe są jego wyniki. Każdy rozumie też kolejną prawidłowość: im więcej sportowiec trenuje, tym lepsze są jego osiągnięcia. Ale wszystko nie jest tak proste: ostatni przykład może w sposób przejrzysty pokazać trudności w interpretacji korelacji nieliniowej. Osiągnięcia sportowca wzrastają tylko do pewnej granicy. Za tą granicą przedłużanie czasu treningu może spowodować zmniejszanie osiągnięć. Jest to znane zjawisko przetrenowania (sportowiec zbyt dużo trenował).

80 Do punktu A korelacja jest dodatnia, od tego punktu dalej ujemna (więcej treningu przynosi niższe wyniki). Przykład jest wprawdzie nieco uproszczony, bo celowo zaniedbane zostało doświadczenie, iż wzrost wyników ma swoje granice bez względu na trening (czyli: zarówno w przypadku liniowej, jak i dodatniej korelacji, wyniki nie wzrastałyby w nieskończoność). Jednak uproszczenie to nie zmienia istoty spostrzeżenia, iż nieliniową korelację interpretuję się o wiele trudniej niż liniową.

81 Siła zależności dwóch zmiennych Siłę współzależności dwóch zmiennych można wyrazić liczbowo za pomocą wielu mierników. Ich wybór jest uzależniony m.in. od rodzaju cech, między którymi badana jest zależność (mierzalne, niemierzalne, mieszane); liczby obserwacji (tablica korelacyjna, szeregi korelacyjne), kształtu zależności (regresja, prostoliniowa, krzywoliniowa). Zakładając, że współzależność badanych zmiennych losowych X i Y jest statystycznie istotna, możemy wyróżnić cztery rodzaje podstawowych miar sił korelacji tych zmiennych: współczynnik zbieżności Czuprowa; wskaźniki (stosunki) korelacyjne Pearsona; współczynnik korelacji liniowej Pearsona; współczynnik rang (korelacji kolejnościowej) Spearmana.

82 Współczynnik zbieżności Czuprowa Miernik ten oparty jest na teście chi kwadrat ( 2 ). Wielkość 2 jest podstawą do określenia unormowanej funkcji zależności cech zwanej współczynnikiem zbieżności Czuprowa. Określa go wzór: Współczynnik ten przyjmuje wartość z przedziału [0,1], gdy badane zmienne są stochastycznie niezależne. Przy zależności funkcyjnej zmiennych, T = 0. Im bardziej współczynnik zbieżności jest bliższy zeru, tym słabsza jest zależność między zmiennymi. 1)( k 1) Przy wyznaczaniu współczynnika zbieżności nie jest ważne, którą z cech traktuje się jako zależną a którą jako niezależną co jest istotne przy badaniu zależności w sensie korelacyjnym. Własność tę określa się mianem symetryczności: Zaletą współczynnika zbieżności jest to, że może być stosowany do mierzenia współzależności zarówno cech mierzalnych jak i niemierzalnych. Jego wadą jest natomiast to, że nie wskazuje kierunku korelacji (jest zawsze dodatni). T xy T Txy T yx yx n ( r 2

83 współczynnik determinacji Do oceny natężenia korelacji między zmiennymi X i Y wykorzystuje się również współczynnik determinacji Txy Miara ta wskazuje, w ilu procentach zmienność zmiennej zależnej jest określona zmiennością zmiennej niezależnej. Tak więc o ile z rachunkowego punktu widzenia T ocenia zarówno zależność cechy X od cechy Y jak i cechy Y od X, o tyle interpretacja współczynnika zbieżności musi jednoznacznie określać charakter zmiennych, tzn. która z nich jest zmienną zależną, a która niezależną. Z uwagi na to, że przy obliczaniu współczynnika zbieżności brane są pod uwagę jedynie liczebności odpowiednich rozkładów, a nie ich parametry, współczynnik zależności jest przede wszystkim miarą zależności stochastycznej dwóch zmiennych. Ponieważ zależność korelacyjna jest pojęciem węższym od zależności stochastycznej można go wykorzystać jako miarę siły związku korelacyjnego.

84 Wariancje międzygrupowe zmiennych X i Y są obliczane ze wzorów: Gdzie są odpowiednio średnimi warunkowymi zmiennych X i Y a są średnimi ogólnymi obliczonymi z rozkładów brzegowych. k i i i i k j j i j n y y n y s n x x n x s ) ( 1 ) ( ) ( 1 ) ( j y i x oraz y x oraz

85 Wariancje wewnątrzgrupowe zmiennych X i Y są obliczane ze wzoru: k i i i i k j j j j n y s n y s n x s n x s ) ( 1 ) ( ) ( 1 ) ( Wskaźnik korelacyjny zmiennej X względem zmiennej Y określa zatem wzór: Z czego wynika, że wskaźnik korelacyjny zmiennej Y względem zmiennej X określa wzór: ) ( ) ( x s x s e j xy ) ( ) ( y s y s e i yx 1 0 e Są one równe 0, gdy cechy są nieskorelowane, 1 gdy między badanymi zmiennymi zachodzi zależność funkcyjna.

86 Interpretacja Im wartość wskaźnika korelacyjnego jest bliższa 1, tym zależność korelacyjna jest silniejsza. e xy e yx Stosunki korelacyjne są niesymetryczne, z wyjątkiem dwóch przypadków: 1. gdy zmienne X i Y są niezależne stochastycznie; 2. gdy między zmiennymi X i Y zachodzi związek funkcyjny e xy e yx 1 Z powyższego wynika, że przy obliczaniu wskaźników korelacyjnych ważne jest ustalenie, która z cech jest zależna, a która niezależna. Wskaźniki korelacyjne nie wskazują kierunku korelacji badanych zmiennych, zawsze są dodatnie. Ich zaletą jest fakt, że nie zależą od kształtu regresji. Dzięki temu mogą być stosowane zarówno w przypadku zależności prostoliniowych, jak i krzywoliniowych. Dodatkowo wskaźniki korelacyjne mogą być wykorzystywane dwóch cech, z których jedna jest niemierzalna.

87 Współczynnik determinacji Równolegle do wskaźników korelacyjnych korzysta się ze współczynników determinacji: e xy i e yx exy i 100 eyx, wyrażonych w procentach. Współczynnik determinacji informuje o tym, w ilu procentach zmiany zmiennej zależnej są spowodowane (zdeterminowane) zmianami zmiennej niezależnej.

88 przykład Wylosowano 100 rodzin i zbadano je pod względem liczby dzieci pozostających na całkowitym utrzymaniu i standardu ekonomicznego rodziny, określonego przez średni miesięczny dochód przypadający na członka rodziny. Za pomocą stosunku korelacyjnego określić siłę związku korelacyjnego standardu ekonomicznego względem liczny dzieci w rodzinie. [Sobczyk str wyd. z 1991 r.]

89 W pierwszej kolejności obliczamy średnią ogólną i wariancję ogólną cechy Y: y ,9 s 2 ( y) (1 2,9) 2 10 (2 2,9) 2 15 (3 2,9) 100 Następnie obliczamy wartości średnich warunkowych rozkładów cechy Y: 2 50 (4 2,9)25 0,79 y y y y y 1/ x 0 2 / x 1 3 / x 2 4 / x 3 5 / x , , , , ,2 5

90 Po zakończeniu kalkulacji obliczamy wariancję średnich warunkowych: s 2 ( y i ) (3,75 2,9) 2 20 (3,25 2,9) 2 40 (2,56 2,9) (1,5 2,9) 2 10 (1,2 2,9) 2 5 0,56 Podstawiając obliczone wartości do wzoru na wskaźnik korelacyjny otrzymujemy: e yx 0,56 0,79 0,842 e 2 yx 0,709 Uzyskany wynik świadczy o silnej zależności standardu ekonomicznego rodziny od liczby dzieci. W niemal 71% przypadków zmiany standardu ekonomicznego rodziny mogą być wyjaśnione zmianami liczby posiadanych dzieci. Jest to zależność jednostronna liczba dzieci nie zależy od standardu ekonomicznego.

91 Wpływ zmiennej objaśniającej jest wpływem, który znajduje się w centrum uwagi. Rozproszenie z nim związane jest więc wyjaśnione. Wpływem pozostałych czynników badacz jest zainteresowany jedynie ubocznie. Dlatego też rozproszenie powiązane z nimi nazywa się rozproszeniem niewyjaśnionym. Poniższy rysunek ilustruje korelację między zmienną objaśniającą x i objaśnianą y.

92 Wariancja wyjaśniona i niewyjaśniona Podział wariancji na wyjaśnioną i niewyjaśnioną jest wyidealizowany. Przesłanką tego podziału jest niezależność x od pozostałych czynników. W praktyce zdarza się to jedynie incydentalnie. Takie uproszczenie bardzo ułatwia zrozumienie zasady pomiaru korelacji. Należy jednak pamiętać, iż procedura ta jest trochę nieścisła. W interpretacji należy uwzględniać różnicę między ideałem i realnością. Stosunek pomiędzy wariancją wyjaśnioną a wariancją całkowitą wskazuje z jaką silą x oddziałuje na y. Stosunek ten nazywa się indeksem korelacji. Oto wzór do obliczania indeksu korelacji:

93 Interpretacja Wartości indeksu wahają się od 0 do 1. Wartość zero oznacza brak korelacji między x i y (wyjaśniona wariancja równa się zeru, co oznacza, iż x nie oddziałuje na y). Wartość 1 oznacza, że korelacja jest najsilniejsza (niewyjaśniona wariancja równa się zeru, co oznacza, iż tylko x oddziałuje na y). Taka korelacja jest już funkcją. Należy jeszcze raz podkreślić, iż indeks korelacji nie może przekraczać wartości 1,00! Ta zasada odnosi się do wszystkich miar współzależności. Oznacza to, że jeżeli w trakcie obliczeń miar współzależności (indeksu korelacji, współczynników korelacji, współczynników zbieżności, itd.) otrzyma się wartość większą niż 1, jest to niewątpliwy znak, iż obliczenia są błędne!

94 Poniższe wykresy pokazują kilka możliwych przypadków korelacji

95 przykład

96

97

98

99

100

101

102 Interpretacja wartości korelacji

103 Wybór miary korelacji

104

105 Korelacja Pearsona w excelu

106 rating Korelacja Pearsona w excelu sugars sugars

107 Korelacja Spearmana w excelu

108 The Spearman correlation, called Spearman s rho, is a special case of the Pearson correlation computed on ranked data.

109

110

111

112

113

114

115

116 Porównanie miar korelacji Pearsona i Spearmana

117 Porównanie miar korelacji Pearsona i Spearmana

118 Laboratorium (zadanie domowe) Zadanie nr 1. Wykonaj operacje przedstawione w trakcie prezentacji. Zadanie nr 2. Spróbuj wczytać wybrany przez siebie zbiór danych z repozytorium I następnie spróbuj odnaleźć w danych zależności. Zadanie nr 3. Wykonaj zadania związane z analizą korelacji znajdujące się w dokumencie:

119 Zadanie nr 4. t.htm Zadanie nr 5. tml Zadanie nr 6. Quiz010.html

Zależności w danych. Korelacja i regresja. Agnieszka Nowak Brzezińska SMAD

Zależności w danych. Korelacja i regresja. Agnieszka Nowak Brzezińska SMAD Zależności w danych. Korelacja i regresja Agnieszka Nowak Brzezińska SMAD Korelacja Zależność korelacyjna pomiędzy cechami X i Y charakteryzuje sie tym, że wartościom jednej cechy są przyporządkowane ściśle

Bardziej szczegółowo

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka Analiza współzależności zjawisk dr Marta Kuc-Czarnecka Wprowadzenie Prawidłowości statystyczne mają swoje przyczyny, w związku z tym dla poznania całokształtu badanego zjawiska potrzebna jest analiza z

Bardziej szczegółowo

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 12 listopada 2017 1 Analiza współzależności dwóch cech 2 Jednostka zbiorowości - para (X,Y ). Przy badaniu korelacji nie ma znaczenia, która

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38 Statystyka Wykład 8 Magdalena Alama-Bućko 23 kwietnia 2017 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 1 / 38 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Analiza współzależności dwóch cech I

Analiza współzależności dwóch cech I Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych

Bardziej szczegółowo

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36 Statystyka Wykład 7 Magdalena Alama-Bućko 3 kwietnia 2017 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 1 / 36 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Korelacja krzywoliniowa i współzależność cech niemierzalnych Korelacja krzywoliniowa i współzależność cech niemierzalnych Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31 Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35 Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna Szereg korelacyjny numer

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych

Bardziej szczegółowo

R-PEARSONA Zależność liniowa

R-PEARSONA Zależność liniowa R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe

Bardziej szczegółowo

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym. REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym. Zadanie 1 W celu ustalenia zależności między liczbą braków a wielkością produkcji części

Bardziej szczegółowo

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy

Bardziej szczegółowo

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna Ćwiczenie 4 ANALIZA KORELACJI, BADANIE NIEZALEŻNOŚCI Analiza korelacji jest działem statystyki zajmującym się badaniem zależności pomiędzy rozkładami dwu lub więcej badanych cech w populacji generalnej.

Bardziej szczegółowo

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna

Bardziej szczegółowo

Analiza Współzależności

Analiza Współzależności Statystyka Opisowa z Demografią oraz Biostatystyka Analiza Współzależności Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15 X WYKŁAD STATYSTYKA 14/05/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 10 ANALIZA KORELACJI Korelacja 1. Współczynnik korelacji 2. Kowariancja 3. Współczynnik korelacji liniowej definicja 4. Estymacja współczynnika

Bardziej szczegółowo

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40 Statystyka Wykład 9 Magdalena Alama-Bućko 7 maja 2018 Magdalena Alama-Bućko Statystyka 7 maja 2018 1 / 40 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia miary

Bardziej szczegółowo

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI Korelacja 1. Współczynnik korelacji 2. Współczynnik korelacji liniowej definicja 3. Estymacja współczynnika korelacji 4. Testy istotności współczynnika korelacji

Bardziej szczegółowo

Badanie zależności skala nominalna

Badanie zależności skala nominalna Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność

Bardziej szczegółowo

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9 Zadanie W celu sprawdzenia, czy pipeta jest obarczona błędem systematycznym stałym lub zmiennym wykonano szereg pomiarów przy różnych ustawieniach pipety. Wyznacz równanie regresji liniowej, które pozwoli

Bardziej szczegółowo

4.2. Statystyczne opracowanie zebranego materiału

4.2. Statystyczne opracowanie zebranego materiału 4.2. Statystyczne opracowanie zebranego materiału Zebrany i pogrupowany materiał badawczy należy poddać analizie statystycznej w celu dokonania pełnej i szczegółowej charakterystyki interesujących badacza

Bardziej szczegółowo

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi. ANALIZA KORELACJI Większość zjawisk w otaczającym nas świecie występuje nie samotnie a w różnorodnych związkach. Odnosi się to również do zjawisk biologiczno-medycznych. O powiązaniach między nimi mówią

Bardziej szczegółowo

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI ANALIZA KORELACJI Korelacja 1. Współczynnik korelacji 2. Współczynnik korelacji liniowej definicja 3. Estymacja współczynnika korelacji 4. Testy istotności

Bardziej szczegółowo

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi. Pojęcie korelacji Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi. Charakteryzując korelację dwóch cech podajemy dwa czynniki: kierunek oraz siłę. Korelacyjne wykresy

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,

Bardziej szczegółowo

POLITECHNIKA OPOLSKA

POLITECHNIKA OPOLSKA POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

S t a t y s t y k a, część 3. Michał Żmihorski

S t a t y s t y k a, część 3. Michał Żmihorski S t a t y s t y k a, część 3 Michał Żmihorski Porównanie średnich -test T Założenia: Zmienne ciągłe (masa, temperatura) Dwie grupy (populacje) Rozkład normalny* Równe wariancje (homoscedasticity) w grupach

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34 Statystyka Wykład 9 Magdalena Alama-Bućko 24 kwietnia 2017 Magdalena Alama-Bućko Statystyka 24 kwietnia 2017 1 / 34 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

KURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE. Strona 1

KURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE.  Strona 1 KURS STATYSTYKA Lekcja 5 Analiza współzależności ZADANIE DOMOWE www.etrapez.pl Strona 1 Część 1: TEST Zaznacz poprawną odpowiedź (tylko jedna jest prawdziwa). Pytanie 1 W analizie współzależności a) badamy

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: Wariancja z populacji: Podstawowe miary rozproszenia: 1 1 s x x x x k 2 2 k 2 2 i i n i1 n i1 Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: 1 k 2 s xi x n 1 i1 2 Przykład 38,

Bardziej szczegółowo

Metodologia badań psychologicznych. Wykład 12. Korelacje

Metodologia badań psychologicznych. Wykład 12. Korelacje Metodologia badań psychologicznych Lucyna Golińska SPOŁECZNA AKADEMIA NAUK Wykład 12. Korelacje Korelacja Korelacja występuje wtedy gdy dwie różne miary dotyczące tych samych osób, zdarzeń lub obiektów

Bardziej szczegółowo

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem

Bardziej szczegółowo

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem

Bardziej szczegółowo

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować

Bardziej szczegółowo

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Dwuczynnikowa analiza wariancji (2-way

Bardziej szczegółowo

Regresja i Korelacja

Regresja i Korelacja Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność

Bardziej szczegółowo

(x j x)(y j ȳ) r xy =

(x j x)(y j ȳ) r xy = KORELACJA. WSPÓŁCZYNNIKI KORELACJI Gdy w badaniu mamy kilka cech, często interesujemy się stopniem powiązania tych cech między sobą. Pod słowem korelacja rozumiemy współzależność. Mówimy np. o korelacji

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Analiza korelacji

Analiza korelacji Analiza korelacji Zakres szkolenia Wstęp Podstawowe pojęcia korelacji Współczynnik korelacji liniowej Pearsona Współczynnik korelacji rang Spearmana Test istotności Zadania 2 Wstęp Do czego służy korelacja:

Bardziej szczegółowo

Wykład 9 Testy rangowe w problemie dwóch prób

Wykład 9 Testy rangowe w problemie dwóch prób Wykład 9 Testy rangowe w problemie dwóch prób Wrocław, 18 kwietnia 2018 Test rangowy Testem rangowym nazywamy test, w którym statystyka testowa jest konstruowana w oparciu o rangi współrzędnych wektora

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona Badanie zależności między cechami Obserwujemy dwie cechy: X oraz Y Obiekt (X, Y ) H 0 : Cechy X oraz Y są niezależne Próba: (X 1, Y 1 ),..., (X n, Y n ) Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Zmienna losowa dwuwymiarowa i korelacja Zmienna losowa dwuwymiarowa Definiujemy ją tak samo, jak zmienną losową jednowymiarową, z tym że poszczególnym zdarzeniom elementarnym

Bardziej szczegółowo

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1. Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w

Bardziej szczegółowo

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące

Bardziej szczegółowo

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4 KARTA KURSU (do zastosowania w roku ak. 2015/16) Nazwa Statystyka 1 Nazwa w j. ang. Statistics 1 Kod Punktacja ECTS* 4 Koordynator Dr hab. Tadeusz Sozański (koordynator, wykłady) Dr Paweł Walawender (ćwiczenia)

Bardziej szczegółowo

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss

Bardziej szczegółowo

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Metody sprawdzania założeń w analizie wariancji: -Sprawdzanie równości (jednorodności) wariancji testy: - Cochrana - Hartleya - Bartletta -Sprawdzanie zgodności

Bardziej szczegółowo

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka opisowa. Wykład I. Elementy statystyki opisowej Statystyka opisowa. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Elementy statystyku opisowej 1 Elementy statystyku opisowej 2 3 Elementy statystyku opisowej Definicja Statystyka jest to nauka o

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41 Statystyka Wykład 4 Magdalena Alama-Bućko 13 marca 2017 Magdalena Alama-Bućko Statystyka 13 marca 2017 1 / 41 Na poprzednim wykładzie omówiliśmy następujace miary rozproszenia: Wariancja - to średnia arytmetyczna

Bardziej szczegółowo

Wykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.

Wykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie. Wykład 7. Opis współzaleŝności zjawisk 1. Wprowadzenie. 2. Prezentacja materiału statystycznego. Rodzaje współzaleŝności zjawisk 1. WspółzaleŜność funkcyjna określonym wartościom jednej zmiennej jest ściśle

Bardziej szczegółowo

Zadania ze statystyki cz.8. Zadanie 1.

Zadania ze statystyki cz.8. Zadanie 1. Zadania ze statystyki cz.8. Zadanie 1. Wykonano pewien eksperyment skuteczności działania pewnej reklamy na zmianę postawy. Wylosowano 10 osobową próbę studentów, których poproszono o ocenę pewnego produktu,

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

Porównywanie populacji

Porównywanie populacji 3 Porównywanie populacji 2 Porównywanie populacji Tendencja centralna Jednostki (w grupie) według pewnej zmiennej porównuje się w ten sposób, że dokonuje się komparacji ich wartości, osiągniętych w tej

Bardziej szczegółowo

Graficzna prezentacja danych statystycznych

Graficzna prezentacja danych statystycznych Szkolenie dla pracowników Urzędu Statystycznego nt. Wybrane metody statystyczne w analizach makroekonomicznych Katowice, 12 i 26 czerwca 2014 r. Dopasowanie narzędzia do typu zmiennej Dobór narzędzia do

Bardziej szczegółowo

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N = HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33 Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane

Bardziej szczegółowo

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Statystyka opisowa. Wykład VI. e-mail:e.kozlovski@pollub.pl Spis treści Rangowanie 1 Rangowanie 3 Rangowanie Badaniu statystycznemu czasami podlegają cechy niemierzalne jakościowe), np. kolor włosów, stopień

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem. Teoria błędów Wskutek niedoskonałości przyrządów, jak również niedoskonałości organów zmysłów wszystkie pomiary są dokonywane z określonym stopniem dokładności. Nie otrzymujemy prawidłowych wartości mierzonej

Bardziej szczegółowo

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28 Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria prof. dr hab. inż. Jacek Mercik B4 pok. 55 jacek.mercik@pwr.wroc.pl (tylko z konta studenckiego z serwera PWr) Konsultacje, kontakt itp. Strona WWW Elementy wykładu.

Bardziej szczegółowo

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych 1 LaboratoriumV: Podstawy korelacji i regresji Spis treści Laboratorium V: Podstawy korelacji i regresji...1 Wiadomości ogólne...2 1. Wstęp teoretyczny....2 1.1 Korelacja....2 1.2 Funkcja regresji....5

Bardziej szczegółowo

Podstawowe pojęcia statystyczne

Podstawowe pojęcia statystyczne Podstawowe pojęcia statystyczne Istnieją trzy rodzaje kłamstwa: przepowiadanie pogody, statystyka i komunikat dyplomatyczny Jean Rigaux Co to jest statystyka? Nauka o metodach ilościowych badania zjawisk

Bardziej szczegółowo

Zadania ze statystyki, cz.6

Zadania ze statystyki, cz.6 Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z

Bardziej szczegółowo

Analiza współzależności dwóch cech II

Analiza współzależności dwóch cech II Analiza współzależności dwóch cech II Dopasowanie funkcji regresji do danych empirycznych Po znalezieniu równania funkcji regresji należy zbadać, na ile nasze oszacowanie pokrywa się z rzeczywistością.

Bardziej szczegółowo

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)

Bardziej szczegółowo

Analiza składowych głównych

Analiza składowych głównych Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku Przykład 2 Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku Sondaż sieciowy analiza wyników badania sondażowego dotyczącego motywacji w drodze do sukcesu Cel badania: uzyskanie

Bardziej szczegółowo