Zależności w danych. Korelacja i regresja. Agnieszka Nowak Brzezińska SMAD
|
|
- Angelika Przybysz
- 8 lat temu
- Przeglądów:
Transkrypt
1 Zależności w danych. Korelacja i regresja Agnieszka Nowak Brzezińska SMAD
2 Korelacja Zależność korelacyjna pomiędzy cechami X i Y charakteryzuje sie tym, że wartościom jednej cechy są przyporządkowane ściśle określone wartości średnie drugiej cechy.
3 Celem analizy korelacji jest stwierdzenie, czy między badanymi zmiennymi zachodzą jakieś zależności, jaka jest ich siła, jaka jest ich postać i kierunek. Współzależność między zmiennymi może być dwojakiego rodzaju: funkcyjna lub stochastyczna (probabilistyczna). Istota zależności funkcyjnej polega na tym, że zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę wartości drugiej zmiennej. W przypadku zależności funkcyjnej: określonej wartości jednej zmiennej (X) odpowiada jedna i tylko jedna wartość drugiej zmiennej (Y). Zależność probabilistyczna występuje wtedy, gdy wraz ze zmianą wartości jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej. Szczególnym przypadkiem jest zależność korelacyjna, które polega na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej. Możemy wtedy ustalić, jak zmieni się średnio biorąc wartość zmiennej zależnej Y w zależności od wartości zmiennej niezależnej X.
4
5 Siłę liniowego związku pomiędzy dwiema zmiennymi, jest współczynnik korelacji z próby r. Przyjmuje wartości z przedziału domkniętego <-1;1>. Wartość -1 oznacza występowanie doskonałej korelacji ujemnej (punkty leżą dokładnie na prostej, skierowanej w dół), a wartość 1 oznacza doskonałą korelację dodatnią (punkty leżą dokładnie na prostej, skierowanej w górę). Wartość 0 oznacza brak korelacji liniowej. Wzór za pomocą którego oblicza się współczynnik korelacji ma postać: Gdzie x i i y i oznaczają odpowiednio wartości zmiennych x i y, a x i y średnie wartości tych zmiennych.
6 Koniecznie zrobić wykres rozrzutu Po obliczeniu wartości współczynnika korelacji zawsze zalecane jest utworzenie wykresu rozrzutu. To po to, by wizualnie stwierdzić, czy badany związek rzeczywiście najlepiej opisuje funkcja liniowa. Może być tak, że wyliczona wartość współczynnika jest bliska 0, ale między zmiennymi występuje zależność, tyle że nieliniowa.
7
8
9
10 Badanie istotności korelacji Współczynnik korelacji r (z próby) stanowi ocenę współczynnika korelacji q w zbiorowości generalnej i w związku z tym jest obciążony pewnym błędem. Współczynnik korelacji jest statystyką, w związku z czym powinien być traktowany jako zmienna losowa. Jeśli zatem N-elementowa próba została pobrana ze zbiorowości generalnej o dwuwymiarowym rozkładzie normalnym z parametrem q=0, a więc gdy zmienne X i Y są nieskorelowane i zarazem niezależne, to zmienna losowa o postaci: Ma rozkład t Studenta o N-2 stopniach swobody. W praktyce oznacza, to, że formułujemy hipotezę zerową: H0: q=0 i hipotezę alternatywną H1: q 0 A następnie porównujemy wartość graniczną alfa z wartością obliczoną t i podejmujemy odpowiednią decyzję odnośnie H0
11
12 Ogólna postać miary korelacji: > cor( var1, var2, method = "method") Opcja domyślna to miara korelacji Pearsona cor(var1, var2) Gdy chcemy miary Rang Spearmana: cor(var1, var2, method = "spearman") gdy chcemy użyć zbioru danych zamiast osobnych zmiennych: cor(dataset, method = "pearson")
13 Istotność korelacji Jeśli chcemy poznać stopień istotności korelacji między badanymi zmiennymi musimy użyć dodatkowo funkcji do testowania korelacji: cor.test() > cor.test(var1, var2, method = "method") Domyślnie stosowana jest tu także miara Pearsona. >cor.p = cor.test(var1, var2) Jeśli chcemy użyć innej musimy ją określić: >cor.s = cor.test(var1, var2, method = "spearman")
14 Wynik > cor.s Spearman's rank correlation rho data: y and x1 S = , p-value = alternative hypothesis: true rho is not equal to 0 sample estimates: rho >
15
16
17
18 Reprezentacja graficzna korelacji. Funkcja plot() > plot(x.var, y.var) Gdy chcemy nadać tytuły osiom x i y > plot(x.var, y.var, xlab="x-axis", ylab="yaxis") Gdy chcemy ingerować w symbol punktu na wykresie > plot(x.var, y.var, pch=16) Chcąc dodać linię najlepszego dopasowania do rozrzutu punktów: > abline(lm(y.var ~ x.var)
19 Korelacja w R krok po kroku znaczenie Komenda w środowisku R Odczyt danych z wskazanej lokalizacji Podłączenie do danych spoza R Wybór miary korelacji. Domyślna jest pearson.inne możliwe to "kendal" oraz "spearman your.data = read.csv(file.choose()) attach(your.data) your.cor = cor(var1, var2, method = "pearson") Wyświetlenie wartości korelacji your.cor Korelacja parami cor.mat = cor(your.data, method = "pearson ) Określenie istotności korelacji cor.test(var1, var2, method="spearman") Wyświetlenie wykresu rozrzutu. Punkt jako otwarte kółko Dopasowanie linii regresji plot(x.var, y.var, xlab="x-label", ylab="ylabel", pch=21)) abline(lm(y.var ~ x.var)
20
21
22
23
24 Kiedy korelogram? Jeżeli obie cechy X i Y są mierzalne, to analizę zależności rozpoczynamy od sporządzenia korelogramu. Korelogram jest to wykres punktowy par {(x i, y i )}. W kartezjańskim układzie współrzędnych O(x,y) pary te odpowiadają punktom o współrzędnych (x,y). Jeżeli otrzymamy bezwładny zbiór punktów, który nie przypomina kształtem wykresu znanego związku funkcyjnego, to powiemy że pomiędzy cechami X i Y nie ma zależności.
25 Zależność liniowa Na rysunkach smuga punktów układa się wzdłuż linii prostej. Czyli istnieje zależność pomiędzy cechami X i Y i jest to związek liniowy; zależność liniowa.
26 Błędy we wnioskowaniu o zależności cech X i Y Rysunek (z lewej) za mało danych. Zebrano dane (punkty obwiedzione kwadratem) i z korelogramu wynika brak zależności. W rzeczywistości jest zależność liniowa. Rysunek (z prawej) nietypowe dane. Trzy ostatnie punkty (odseparowane) to dane nietypowe. Sugerują zależność nieliniową (parabola). Po odrzuceniu tych nietypowych informacji widać, że jest wyraźna zależność liniowa.
27 Zależność nieliniowa Na rysunku widać, że smuga punktów układa sie w kształt paraboli. Powiemy zatem, że istnieje zależność pomiędzy cechami X i Y i jest to związek nieliniowy; zależność nieliniowa.
28 korelogram Pakiet corrgram install.package(corrgram) on potrzebuje pakietów: seriation, TSP
29 > corrgram(mtcars, order=true, lower.panel=panel.shade,upper.panel=panel.pie, text.panel=panel.txt,main="car Milage Data in PC2/PC1 Order") >
30 corrgram(x, order =, panel=, lower.panel=, upper.panel=, text.panel=, diag.panel=) x is a data frame with one observation per row. order=true will cause the variables to be ordered using principal component analysis of the correlation matrix. panel= refers to the off-diagonal panels. You can use lower.panel= and upper.panel= to choose different options below and above the main diagonal respectively. text.panel= and diag.panel= refer to the main diagnonal. Allowable parameters are given below. off diagonal panels panel.pie (the filled portion of the pie indicates the magnitude of the correlation) panel.shade (the depth of the shading indicates the magnitude of the correlation) panel.ellipse (confidence ellipse and smoothed line) panel.pts (scatterplot) main diagonal panels panel.minmax (min and max values of the variable) panel.txt (variable name).
31
32
33
34
35 Korelacja w zbiorze faithful > duration = faithful$eruptions # the eruption durations > waiting = faithful$waiting # the waiting period > cor(duration, waiting) # apply the cor function [1]
36 . Niech x i y będą zmiennymi losowymi o ciągłych rozkładach. x i oraz y i oznaczają wartości prób losowych tych zmiennych (i=1,2,..,n), natomiast - wartości średnie z tych prób. Wówczas estymator współczynnika korelacji liniowej definiuje się następująco: Ogólnie współczynnik korelacji liniowej dwóch zmiennych jest ilorazem kowariancji i iloczynu odchyleń standardowych tych zmiennych: Im bardziej wartość współczynnika korelacji jest bliska wartości 1, tym większa (dodatnia) zależność liniowa między zmiennymi x i y. Gdy współczynnik korelacji jest blisko wartości -1, oznacza to tzw. ujemną korelację liniową. Wartość bliska 0 oznacza brak zależności między badanymi zmiennymi.
37 INTERPRETACJA współczynnika korelacji r xy Znak współczynnika r xy mówi nam o kierunku zależności. I tak: znak plus zależność liniowa dodatnia, tzn. wraz ze wzrostem wartości jednej cechy rosną średnie wartości drugiej z cech, znak minus zależność liniowa ujemna, tzn. wraz ze wzrostem wartości jednej cechy maleją średnie wartości drugiej z cech. Wartosc bezwzględna współczynnika korelacji, czyli r xy, mówi nam o sile zależności. Jeżeli wartość bezwzględna r xy : jest mniejsza od 0,2, to praktycznie brak związku liniowego pomiędzy badanymi cechami, 0,2 0,4 - zależność liniowa wyraźna, lecz niska, 0,4 0,7 - zależność liniowa umiarkowana, 0,7 0,9 - zależność liniowa znacząca, powyżej 0,9 - zależność liniowa bardzo silna.
38 przykład W grupie 7 studentów badano zależność pomiędzy oceną z egzaminu z programowania (Y), a liczbą dni poświęconych na naukę (X).
39 Korelogram Wykres rozproszenia graficzne przedstawienie próbki w postaci punktów na płaszczyźnie O(x,y).
40 Współczynnik korelacji liniowej Pearsona r xy Współczynnik r xy jest miernikiem siły związku prostoliniowego między dwoma cechami mierzalnymi. Związkiem prostoliniowym nazywamy taką zależność, w której jednostkowym przyrostom jednej zmiennej (przyczyny) towarzyszy, średnio biorąc, stały przyrost drugiej zmiennej (skutku). Wzór na współczynnik korelacji liniowej Pearsona jest wyznaczany poprzez standaryzację kowariancji.
41 Kowariancja jest średnią arytmetyczną iloczynu odchyleń wartości zmiennych X i Y od ich średnich arytmetycznych: n 1 cov( x, y) cov( y, x) ( x1 x)( y1 n i 1 cov(x,y) = 0 brak zależności korelacyjnej; cov(x,y) < 0 ujemna zależność korelacyjna; cov(x,y) > 0 dodatnia zależność korelacyjna. y) xy x y Kowariancja przyjmuje wartości liczbowe z przedziału: [-s(x)s(y), +s s(x)s(y)], gdzie s(x) i s(y) są odchyleniami standardowymi odpowiednich zmiennych. Jeżeli cov(x,y) = -s(x)s(y), to między zmiennymi istnieje ujemny związek funkcyjny. Przy dodatnim związku funkcyjnym cov(x,y) = +s(x)s(y). Kowariancja charakteryzuje współzmienność badanych zmiennych, ale jej wartość zależy od rzędu wielkości, w jakich wyrażone są obydwie cechy, co powoduje, że nie można jej wykorzystać w sposób bezpośredni do porównań.
42 współczynnik korelacji linowej Pearsona, wyznaczony przez standaryzację kowariancji: To unormowany miernik natężenia i kierunku współzależności liniowej dwóch zmiennych mierzalnych X i Y : r xy r cov( x, y) s( x) s( y) Współczynnik korelacji liniowej Pearsona jest miarą unormowaną, przyjmującą wartości z przedziału: -1 < r xy <+1. Dodatni znak współczynnika korelacji wskazuje na istnienie współzależności pozytywnej (dodatniej), ujemny zaś oznacza współzależność negatywną (ujemną). yx
43 Widać tutaj wyraźną zależność liniową (dodatnią). Obliczamy współczynnik korelacji (Pearsona). UWAGA! Liczebność populacji jest mała (n=7). Użyjemy tak małego przykładu tylko dlatego, aby sprawnie zilustrować procedurę liczenia. Obliczanie średnich, wariancji oraz kowariancji.
44 INTERPRETACJA W badanej grupie studentów wystąpiła bardzo silna dodatnia (znak plus) zależność liniowa pomiędzy czasem nauki (cecha X), a uzyskaną oceną z egzaminu (cecha Y). Oznacza to, że wraz ze wzrostem czasu poświęconego na naukę rosła w tej grupie uzyskiwana ocena.
45 W pewnym Urzędzie Stanu Cywilnego pewnego dnia przeprowadzono badanie nowo zawartych małżeństw wg wieku żony i męża. Wyniki badania losowo pobranych par przedstawiono niżej. Określić siłę i kierunek zależności między badanymi zmiennymi.
46 Na podstawie analizy diagramu punktowego (korelacyjnego) można stwierdzić, że zależność między badanymi zmiennymi ma charakter prostoliniowy. Dlatego też siłę i kierunek zależności można ocenić przy użyciu współczynnika korelacji liniowej Pearsona. Aby go obliczyć należy wykonać obliczenia pomocnicze:
47 Średni wiek kobiet zawierających w badanym dniu związek małżeński wynosi: x 235 :10 23,5 lat. Średni wiek mężczyzny wynosi: y 238 :10 23,8 lat. W celu obliczenia współczynnika korelacji liniowej Pearsona niezbędna jest znajomość odchyleń standardowych obydwu cech: s(x) Odchylenie standardowe wieku kobiet jest równe: Odchylenie standardowe wieku mężczyzn jest równe: s(y) Dysponując powyższymi informacjami możemy obliczyć współczynnik korelacji liniowej Pearsona: 134 rxy 0, ,8 4,1 r 2 xy 0,7396 n i 1 n i 1 ( ( x i y i n n x) 2 y) 2 142, ,6 10 3,8 4,1 lat lat
48 Zatem współczynnik korelacji liniowej Pearsona jest równy: r r xy 2 xy ,7 2,7 0, ,68 Na tej podstawie można stwierdzić, że między liczbą sal a liczbą uczniów w szkole zachodzi dosyć silna dodatnia zależność korelacyjna. Zmienność jednej cechy jest w 46,42% wyjaśniona zmiennością drugiej
49
50 Dane jakościowe Często jest tak, że dane dla których chcemy mierzyć korelację, nie są danymi ilościowymi. Wtedy nie możemy użyć współczynnika korelacji liniowej Pearsona. Współczynnik korelacji rang Spearmana został opracowany właśnie dla takich przypadków.
51 WSPÓŁCZYNNIK KORELACJI RANG (Spearmana) Współczynnik korelacji rang (Spearmana) r S używamy w przypadku gdy: 1. choć jedna z badanych cech jest cecha jakościowa (niemierzalna), ale istnieje możliwość uporządkowania (ponumerowania) wariantów każdej z cech; 2. cechy maja charakter ilościowy (mierzalny), ale liczebność zbiorowości jest mała (n<30). Numery jakie nadajemy wariantom cech noszą nazwę rang. UWAGA! W procesie nadawania rang stymulanty porządkujemy malejąco, a destymulanty rosnąco. UWAGA! W procesie nadawania rang może zdarzyć sie więcej niż 1 jednostka o takiej samej wartości cechy (np. k jednostek). Wówczas należy na chwile nadać tym jednostkom kolejne rangi. Następnie należy zsumować takie rangi i podzielić przez k (otrzymamy w ten sposób średnią rangę dla tej grupy k jednostek). W ostateczności każda jednostka z tych k jednostek otrzyma identyczną rangę (średnia dla danej grupy k jednostek).
52 Wartość współczynnika korelacji rang (Spearmana) potwierdza bardzo silną, dodatnią (znak plus) zależność pomiędzy czasem nauki (X), a uzyskaną oceną (Y).
53 Współczynnik korelacji kolejnościowej (rang) Spearmana Współczynnik ten służy do opisu siły korelacji dwóch cech, szczególnie wtedy, gdy mają one charakter jakościowy i istnieje możliwość uporządkowania obserwacji w określonej kolejności. Miarę tę można stosować również do badania zależności między cechami ilościowymi w przypadku niewielkiej liczby obserwacji. Współczynnik rang Spearmana obliczamy ze wzoru: r s 6 n i n( n d 2 i 1) Gdzie: d i różnice między rangami odpowiadających sobie wartości cechy x i i cechy y i (i=1, 2,..., n).
54 współczynnik korelacji rang Spearmana Jednym ze współczynników korelacji obliczanych dla danych rangowych jest, określony wzorem gdzie Własności: Współczynnik r S przyjmuje wartości z przedziału [-1; 1]. Wartość r S = 1 oznacza, że istnieje całkowita zgodność uporządkowań wg rang a i i b i. Wartość r S = -1 oznacza z kolei pełną przeciwstawność uporządkowań między rangami. Wartość r S = 0 oznacza brak korelacji rang.
55 przykład Przypuśćmy, że porządkujemy 4 studentów w zależności od stopnia ich zdolności matematycznych, zaczynając od studenta najlepszego, któremu przydzielamy numer 1, a kończąc na studencie najsłabszym, któremu przydzielamy numer 4 (ocenę zdolności powierzamy np. ekspertowi) Mówimy wówczas, że studenci zostali uporządkowani w kolejności rang, a numer studenta jest jego rangą. Oznaczmy rangi poszczególnych studentów przez a i. Przykładowo, niech: a1 = 4; a2 = 2; a3 = 3; a4 = 1; co oznacza, że w badanej grupie, ustawionej w kolejności alfabetycznej, pierwszy student (oznaczmy go umownie literą A) jest najsłabszy, student B dobry, student C słaby, a student D najlepszy.
56
57 Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem związków i zależności pomiędzy rozkładami dwu lub więcej badanych cech w populacji generalnej. Termin regresja dotyczy kształtu zależności pomiędzy cechami. Dzieli się na analizę regresji liniowej i nieliniowej. W przypadku analizy nieliniowej, graficzną reprezentacją współzależności są krzywe wyższego rzędu np. parabola. Pojęcie korelacji dotyczy siły badanej współzależności. Analiza regresji i korelacji może dotyczyć dwóch i większej ilości zmiennych (analiza wieloraka). W tym miejscu zajmować się będziemy jedynie najprostszym przypadkiem regresji prostoliniowej dwóch zmiennych.
58 Współczynnik determinacji r = 0 r 2 = 0 r =.80 r 2 =.64 r = 1 r 2 = 1 Współczynnik korelacji r dostarcza miar stopnia zależności między danych Współczynnik determinacji r 2 dostarcza miary siły tej zależności. Informuje on o tym, jaka część zmienności całkowitej zmiennej losowej Y została wyjaśniona regresją liniową względem X.
59 Współczynnik determinacji R 2 r 2 jest często używany i nosi nazwę współczynnika determinacji. Jest to frakcja zmienności wartości Y, które można wytłumaczyć najmniejszych kwadratów regresji y na x i. Współczynniki korelacji, których wielkość wynosi: od 0,9 i 1,0 wskazują zmienne, które bardzo silnie skorelowane. od 0,7 do 0,9 wskazują zmienne wysoce skorelowane. od 0,5 do 0,7 to zmienne umiarkowanie skorelowane. od 0,3 do 0,5 zmienne, które mają niską korelację. Możemy łatwo zauważyć, że: 0,9 < r <1,0 odpowiada 0,81 <r 2 <1,00; 0,7 < r <0,9 odpowiada 0,49 <r 2 <0,81; 0,5 < r <0,7 odpowiada 0,25 <r 2 <0,49; 0.3 < r <0,5 wiąże się z 0,09 <r 2 <0,25 oraz 0,0 < r <0,3 odpowiada z 0,0 <r 2 <0.09.
60 Kwadrat współczynnika korelacji z próby nazywany jest współczynnikiem determinacji i jest on, drugim poza współczynnikiem korelacji miernikiem siły związku między zmiennymi. Interpretacja współczynnika determinacji podaje on w jakiej części zmienność jednej cechy jest wyjaśniona przez drugą cechę.
61 Współczynnik determinacji r =.93 r 2 = (.93) 2 r 2 =.86
62 Korelacja nieliniowa jest trudniejsza do interpretacji. Czym charakteryzuje się nieliniowość lub liniowość korelacji (oprócz linii w diagramie)? W przypadku, gdy korelacja jest liniowa można stwierdzić, iż wartości y wzrastają lub opadają proporcjonalnie (współmiernie) do wzrostu lub spadku wartości x. Kierunek korelacji jest tylko jeden i nie zmienia się.
63 Przy korelacji nieliniowej istnieją przynajmniej dwie trudności w interpretacji. Pierwsza polega na nieproporcjonalnej przemianie y, podczas gdy x zmienia się równomiernie. Dlatego jest wyraźnie trudniej wyjaśnić zmiany y. Drugi problemem jest fakt, iż nieliniowa korelacja może być w jednej części dodatnia, a w drugiej ujemna. Proste do zrozumienia jest stwierdzenie: im więcej uczeń się uczy, tym wyższe są jego wyniki. Każdy rozumie też kolejną prawidłowość: im więcej sportowiec trenuje, tym lepsze są jego osiągnięcia. Ale wszystko nie jest tak proste: ostatni przykład może w sposób przejrzysty pokazać trudności w interpretacji korelacji nieliniowej. Osiągnięcia sportowca wzrastają tylko do pewnej granicy. Za tą granicą przedłużanie czasu treningu może spowodować zmniejszanie osiągnięć. Jest to znane zjawisko przetrenowania (sportowiec zbyt dużo trenował).
64 Do punktu A korelacja jest dodatnia, od tego punktu dalej ujemna (więcej treningu przynosi niższe wyniki). Przykład jest wprawdzie nieco uproszczony, bo celowo zaniedbane zostało doświadczenie, iż wzrost wyników ma swoje granice bez względu na trening (czyli: zarówno w przypadku liniowej, jak i dodatniej korelacji, wyniki nie wzrastałyby w nieskończoność). Jednak uproszczenie to nie zmienia istoty spostrzeżenia, iż nieliniową korelację interpretuję się o wiele trudniej niż liniową.
65 Stosunek korelacji e yx Stosunek korelacji e yx gdy nie ma zależności średnie poziomy cechy Y wewnątrz grup pokrywają się ze średnią ogólna cechy Y Miara ta spełnia warunek: 0<e yx < 1 r yx <= e yx Współczynnik koreacji r nie jest czuły na zależności krzywoliniowe. Gdy zależność jest nieliniowa, wówczas miara koncentracji wyników pomiarów względem krzywej regresji może być tzw. Stosunkiem korelacyjnym:
66 Stosunek korelacyjny określa stosunek pomiędzy dwoma zmiennymi, których zależność przyczynowo skutkowa jest określona (x zależy od y). Jeżeli zależność ta nie jest znana to należy określić n x y. n x y = 0: brak korelacji miedzy badanymi zmiennymi (tzn. brak zależności zmiennej y od x) n x y = 1: zależność pomiędzy x i y jest funkcyjna n x y = r x y : zależność liniowa
67 Współczynnik determinacji Równolegle do wskaźników korelacyjnych współczynników determinacji: exy i 100 eyx e xy i e yx korzysta się ze wyrażonych w procentach. Współczynnik determinacji informuje o tym, w ilu procentach zmiany zmiennej zależnej są spowodowane (zdeterminowane) zmianami zmiennej niezależnej.
68 Wariancje międzygrupowe zmiennych X i Y są obliczane ze wzorów: Gdzie są odpowiednio średnimi warunkowymi zmiennych X i Y a są średnimi ogólnymi obliczonymi z rozkładów brzegowych. k i i i i k j j i j n y y n y s n x x n x s ) ( 1 ) ( ) ( 1 ) ( j y i x oraz y x oraz Wariancje wewnątrzgrupowe zmiennych X i Y k i i i i k j j j j n y s n y s n x s n x s ) ( 1 ) ( ) ( 1 ) ( Wskaźnik korelacyjny zmiennej X względem zmiennej Y określa zatem wzór: Z czego wynika, że wskaźnik korelacyjny zmiennej Y względem zmiennej X określa wzór: ) ( ) ( x s x s e j xy ) ( ) ( y s y s e i yx 1 0 e Są one równe 0, gdy cechy są nieskorelowane, 1 gdy między badanymi zmiennymi zachodzi zależność funkcyjna.
69 przykład Wylosowano 100 rodzin i zbadano je pod względem liczby dzieci pozostających na całkowitym utrzymaniu i standardu ekonomicznego rodziny, określonego przez średni miesięczny dochód przypadający na członka rodziny. Za pomocą stosunku korelacyjnego określić siłę związku korelacyjnego standardu ekonomicznego względem liczny dzieci w rodzinie.
70 W pierwszej kolejności obliczamy średnią ogólną i wariancję ogólną cechy Y: y ,9 s 2 ( y) (1 2,9) 2 10 (2 2,9) 2 15 (3 2,9) (4 2,9)25 Następnie obliczamy wartości średnich warunkowych rozkładów cechy Y: 0,79 y y y y y 1/ x 0 2 / x 1 3 / x 2 4 / x 3 5 / x , , , , ,2 5
71 Po zakończeniu kalkulacji obliczamy wariancję średnich warunkowych: s 2 ( y i ) (3,75 2,9) 2 20 (3,25 2,9) 2 40 (2,56 2,9) (1,5 2,9) 2 10 (1,2 2,9) 2 5 0,56 Podstawiając obliczone wartości do wzoru na wskaźnik korelacyjny otrzymujemy: e yx 0,56 0,79 0,842 e 2 yx 0,709 Uzyskany wynik świadczy o silnej zależności standardu ekonomicznego rodziny od liczby dzieci. W niemal 71% przypadków zmiany standardu ekonomicznego rodziny mogą być wyjaśnione zmianami liczby posiadanych dzieci. Jest to zależność jednostronna liczba dzieci nie zależy od standardu ekonomicznego.
72 Wpływ zmiennej objaśniającej jest wpływem, który znajduje się w centrum uwagi. Rozproszenie z nim związane jest więc wyjaśnione. Wpływem pozostałych czynników badacz jest zainteresowany jedynie ubocznie. Dlatego też rozproszenie powiązane z nimi nazywa się rozproszeniem niewyjaśnionym. Poniższy rysunek ilustruje korelację między zmienną objaśniającą x i objaśnianą y.
73 Poniższe wykresy pokazują kilka możliwych przypadków korelacji
74 Wariancja wyjaśniona i niewyjaśniona Podział wariancji na wyjaśnioną i niewyjaśnioną jest wyidealizowany. Przesłanką tego podziału jest niezależność x od pozostałych czynników. W praktyce zdarza się to jedynie incydentalnie. Takie uproszczenie bardzo ułatwia zrozumienie zasady pomiaru korelacji. Należy jednak pamiętać, iż procedura ta jest trochę nieścisła. W interpretacji należy uwzględniać różnicę między ideałem i realnością. Stosunek pomiędzy wariancją wyjaśnioną a wariancją całkowitą wskazuje z jaką silą x oddziałuje na y. Stosunek ten nazywa się indeksem korelacji. Oto wzór do obliczania indeksu korelacji:
75 Interpretacja Wartości indeksu wahają się od 0 do 1. Wartość zero oznacza brak korelacji między x i y (wyjaśniona wariancja równa się zeru, co oznacza, iż x nie oddziałuje na y). Wartość 1 oznacza, że korelacja jest najsilniejsza (niewyjaśniona wariancja równa się zeru, co oznacza, iż tylko x oddziałuje na y). Taka korelacja jest już funkcją. Należy jeszcze raz podkreślić, iż indeks korelacji nie może przekraczać wartości 1! Ta zasada odnosi się do wszystkich miar współzależności.
76 przykład
77
78
79
80
81
82
83 Zapamiętać Co to jest korelacja, jakie są jej własności? Kiedy stosować korelację rang Spearmana a kiedy Pearsona? Kiedy korelacja jest dodatnia / ujemna? Jak opisywać dany zbiór danych (jakie wskaźniki)? Jak zrobić wykres częstości?
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Bardziej szczegółowoAnaliza współzależności zjawisk. dr Marta Kuc-Czarnecka
Analiza współzależności zjawisk dr Marta Kuc-Czarnecka Wprowadzenie Prawidłowości statystyczne mają swoje przyczyny, w związku z tym dla poznania całokształtu badanego zjawiska potrzebna jest analiza z
Bardziej szczegółowoZależności w danych. Korelacja i regresja. Agnieszka Nowak Brzezińska SMAD w2
Zależności w danych. Korelacja i regresja Agnieszka Nowak Brzezińska SMAD w2 Korelacja Zależność korelacyjna pomiędzy cechami X i Y charakteryzuje sie tym, że wartościom jednej cechy są przyporządkowane
Bardziej szczegółowoStatystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Bardziej szczegółowoStatystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31
Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoStatystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38
Statystyka Wykład 8 Magdalena Alama-Bućko 23 kwietnia 2017 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 1 / 38 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoSzczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Bardziej szczegółowoAnaliza współzależności dwóch cech I
Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych
Bardziej szczegółowoSTATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP
STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 12 listopada 2017 1 Analiza współzależności dwóch cech 2 Jednostka zbiorowości - para (X,Y ). Przy badaniu korelacji nie ma znaczenia, która
Bardziej szczegółowoZJAZD 4. gdzie E(x) jest wartością oczekiwaną x
ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych
Bardziej szczegółowoPDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Bardziej szczegółowoStatystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36
Statystyka Wykład 7 Magdalena Alama-Bućko 3 kwietnia 2017 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 1 / 36 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoSzczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Bardziej szczegółowoAnaliza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 7
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Bardziej szczegółowoKorelacja krzywoliniowa i współzależność cech niemierzalnych
Korelacja krzywoliniowa i współzależność cech niemierzalnych Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej
Bardziej szczegółowoKorelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy
Bardziej szczegółowoKORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Bardziej szczegółowoREGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.
REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym. Zadanie 1 W celu ustalenia zależności między liczbą braków a wielkością produkcji części
Bardziej szczegółowoStatystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35
Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoX WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15
X WYKŁAD STATYSTYKA 14/05/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 10 ANALIZA KORELACJI Korelacja 1. Współczynnik korelacji 2. Kowariancja 3. Współczynnik korelacji liniowej definicja 4. Estymacja współczynnika
Bardziej szczegółowoZależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),
Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna Szereg korelacyjny numer
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 5
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Bardziej szczegółowoZałóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Bardziej szczegółowoPojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.
Pojęcie korelacji Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi. Charakteryzując korelację dwóch cech podajemy dwa czynniki: kierunek oraz siłę. Korelacyjne wykresy
Bardziej szczegółowoĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI
ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI Korelacja 1. Współczynnik korelacji 2. Współczynnik korelacji liniowej definicja 3. Estymacja współczynnika korelacji 4. Testy istotności współczynnika korelacji
Bardziej szczegółowoStatystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34
Statystyka Wykład 9 Magdalena Alama-Bućko 24 kwietnia 2017 Magdalena Alama-Bućko Statystyka 24 kwietnia 2017 1 / 34 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoStatystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40
Statystyka Wykład 9 Magdalena Alama-Bućko 7 maja 2018 Magdalena Alama-Bućko Statystyka 7 maja 2018 1 / 40 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia miary
Bardziej szczegółowoPOLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych
Bardziej szczegółowoRegresja i Korelacja
Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane
Bardziej szczegółowoANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.
ANALIZA KORELACJI Większość zjawisk w otaczającym nas świecie występuje nie samotnie a w różnorodnych związkach. Odnosi się to również do zjawisk biologiczno-medycznych. O powiązaniach między nimi mówią
Bardziej szczegółowoWykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
Bardziej szczegółowoWykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
Bardziej szczegółowoSTATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2
STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna
Bardziej szczegółowoρ siła związku korelacyjnego brak słaba średnia silna bardzo silna
Ćwiczenie 4 ANALIZA KORELACJI, BADANIE NIEZALEŻNOŚCI Analiza korelacji jest działem statystyki zajmującym się badaniem zależności pomiędzy rozkładami dwu lub więcej badanych cech w populacji generalnej.
Bardziej szczegółowoX Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9
Zadanie W celu sprawdzenia, czy pipeta jest obarczona błędem systematycznym stałym lub zmiennym wykonano szereg pomiarów przy różnych ustawieniach pipety. Wyznacz równanie regresji liniowej, które pozwoli
Bardziej szczegółowoĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI
ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI ANALIZA KORELACJI Korelacja 1. Współczynnik korelacji 2. Współczynnik korelacji liniowej definicja 3. Estymacja współczynnika korelacji 4. Testy istotności
Bardziej szczegółowoWspółczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
Bardziej szczegółowoKURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE. Strona 1
KURS STATYSTYKA Lekcja 5 Analiza współzależności ZADANIE DOMOWE www.etrapez.pl Strona 1 Część 1: TEST Zaznacz poprawną odpowiedź (tylko jedna jest prawdziwa). Pytanie 1 W analizie współzależności a) badamy
Bardziej szczegółowoAnaliza korelacji
Analiza korelacji Zakres szkolenia Wstęp Podstawowe pojęcia korelacji Współczynnik korelacji liniowej Pearsona Współczynnik korelacji rang Spearmana Test istotności Zadania 2 Wstęp Do czego służy korelacja:
Bardziej szczegółowoZadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.
Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w
Bardziej szczegółowoR-PEARSONA Zależność liniowa
R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe
Bardziej szczegółowoAnaliza Współzależności
Statystyka Opisowa z Demografią oraz Biostatystyka Analiza Współzależności Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka
Bardziej szczegółowoMetodologia badań psychologicznych. Wykład 12. Korelacje
Metodologia badań psychologicznych Lucyna Golińska SPOŁECZNA AKADEMIA NAUK Wykład 12. Korelacje Korelacja Korelacja występuje wtedy gdy dwie różne miary dotyczące tych samych osób, zdarzeń lub obiektów
Bardziej szczegółowoSTATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss
Bardziej szczegółowoS t a t y s t y k a, część 3. Michał Żmihorski
S t a t y s t y k a, część 3 Michał Żmihorski Porównanie średnich -test T Założenia: Zmienne ciągłe (masa, temperatura) Dwie grupy (populacje) Rozkład normalny* Równe wariancje (homoscedasticity) w grupach
Bardziej szczegółowoStatystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
Bardziej szczegółowoTesty nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
Bardziej szczegółowoSpis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
1 LaboratoriumV: Podstawy korelacji i regresji Spis treści Laboratorium V: Podstawy korelacji i regresji...1 Wiadomości ogólne...2 1. Wstęp teoretyczny....2 1.1 Korelacja....2 1.2 Funkcja regresji....5
Bardziej szczegółowoTablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Bardziej szczegółowoZadania ze statystyki cz.8. Zadanie 1.
Zadania ze statystyki cz.8. Zadanie 1. Wykonano pewien eksperyment skuteczności działania pewnej reklamy na zmianę postawy. Wylosowano 10 osobową próbę studentów, których poproszono o ocenę pewnego produktu,
Bardziej szczegółowoTestowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
Bardziej szczegółowo1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:
Wariancja z populacji: Podstawowe miary rozproszenia: 1 1 s x x x x k 2 2 k 2 2 i i n i1 n i1 Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: 1 k 2 s xi x n 1 i1 2 Przykład 38,
Bardziej szczegółowoStatystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski
Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Dwuczynnikowa analiza wariancji (2-way
Bardziej szczegółowoElementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Bardziej szczegółowo1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:
Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).
Bardziej szczegółowoĆwiczenie: Wybrane zagadnienia z korelacji i regresji.
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)
Bardziej szczegółowoZmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Bardziej szczegółowoBadanie zależności skala nominalna
Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność
Bardziej szczegółowoWykład 9 Testy rangowe w problemie dwóch prób
Wykład 9 Testy rangowe w problemie dwóch prób Wrocław, 18 kwietnia 2018 Test rangowy Testem rangowym nazywamy test, w którym statystyka testowa jest konstruowana w oparciu o rangi współrzędnych wektora
Bardziej szczegółowoRegresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Bardziej szczegółowoCechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona
Badanie zależności między cechami Obserwujemy dwie cechy: X oraz Y Obiekt (X, Y ) H 0 : Cechy X oraz Y są niezależne Próba: (X 1, Y 1 ),..., (X n, Y n ) Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności
Bardziej szczegółowoWeryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Bardziej szczegółowo4.2. Statystyczne opracowanie zebranego materiału
4.2. Statystyczne opracowanie zebranego materiału Zebrany i pogrupowany materiał badawczy należy poddać analizie statystycznej w celu dokonania pełnej i szczegółowej charakterystyki interesujących badacza
Bardziej szczegółowoStatystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Bardziej szczegółowoWykład 4 Związki i zależności
Wykład 4 Związki i zależności Rozważmy: Dane z dwiema lub więcej zmiennymi Zagadnienia do omówienia: Zmienne objaśniające i zmienne odpowiedzi Wykres punktowy Korelacja Prosta regresji Słownictwo: Zmienna
Bardziej szczegółowoW statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1
Temat: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00 0,20) Słaba
Bardziej szczegółowoAnaliza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Bardziej szczegółowoTestowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;
LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny
Bardziej szczegółowoweryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)
PODSTAWY STATYSTYKI. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na
Bardziej szczegółowoWIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność
Bardziej szczegółowoStatystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36
Statystyka Wykład 6 Magdalena Alama-Bućko 9 kwietnia 2018 Magdalena Alama-Bućko Statystyka 9 kwietnia 2018 1 / 36 Krzywa koncentracji Lorenza w ekonometrii, ekologii, geografii ludności itp. koncentrację
Bardziej szczegółowoMODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Bardziej szczegółowo( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Bardziej szczegółowoW2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.
W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. dr hab. Jerzy Nakielski Katedra Biofizyki i Morfogenezy Roślin Plan wykładu: 1. Etapy wnioskowania statystycznego 2. Hipotezy statystyczne,
Bardziej szczegółowoStatystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41
Statystyka Wykład 4 Magdalena Alama-Bućko 13 marca 2017 Magdalena Alama-Bućko Statystyka 13 marca 2017 1 / 41 Na poprzednim wykładzie omówiliśmy następujace miary rozproszenia: Wariancja - to średnia arytmetyczna
Bardziej szczegółowoWIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Zmienna losowa dwuwymiarowa i korelacja Zmienna losowa dwuwymiarowa Definiujemy ją tak samo, jak zmienną losową jednowymiarową, z tym że poszczególnym zdarzeniom elementarnym
Bardziej szczegółowoStatystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Bardziej szczegółowoPrzedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii
SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane
Bardziej szczegółowoWykład 3 Hipotezy statystyczne
Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza
Bardziej szczegółowoZadania ze statystyki, cz.6
Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z
Bardziej szczegółowoKARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4
KARTA KURSU (do zastosowania w roku ak. 2015/16) Nazwa Statystyka 1 Nazwa w j. ang. Statistics 1 Kod Punktacja ECTS* 4 Koordynator Dr hab. Tadeusz Sozański (koordynator, wykłady) Dr Paweł Walawender (ćwiczenia)
Bardziej szczegółowoWykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.
Wykład 7. Opis współzaleŝności zjawisk 1. Wprowadzenie. 2. Prezentacja materiału statystycznego. Rodzaje współzaleŝności zjawisk 1. WspółzaleŜność funkcyjna określonym wartościom jednej zmiennej jest ściśle
Bardziej szczegółowoStatystyka opisowa. Wykład I. Elementy statystyki opisowej
Statystyka opisowa. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Elementy statystyku opisowej 1 Elementy statystyku opisowej 2 3 Elementy statystyku opisowej Definicja Statystyka jest to nauka o
Bardziej szczegółowoTeoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.
Teoria błędów Wskutek niedoskonałości przyrządów, jak również niedoskonałości organów zmysłów wszystkie pomiary są dokonywane z określonym stopniem dokładności. Nie otrzymujemy prawidłowych wartości mierzonej
Bardziej szczegółowoW rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:
W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe
Bardziej szczegółowoIdea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Bardziej szczegółowob) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:
ROZWIĄZANIA I ODPOWIEDZI Zadanie A1. Można założyć, że przy losowaniu trzech kul jednocześnie kolejność ich wylosowania nie jest istotna. A więc: Ω = 20 3. a) Niech: - wśród trzech wylosowanych opakowań
Bardziej szczegółowoTESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.
TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe
Bardziej szczegółowoRegresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna
Bardziej szczegółowoStatystyczne metody analizy danych
Statystyczne metody analizy danych Statystyka opisowa Wykład I-III Agnieszka Nowak - Brzezioska Podstawowe pojęcia STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów)
Bardziej szczegółowoElementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Bardziej szczegółowoHISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =
HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki
Bardziej szczegółowoCharakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące
Bardziej szczegółowoREGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji
Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji
Bardziej szczegółowoPopulacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu
Bardziej szczegółowoWERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno
WERYFIKACJA MODELI MODELE LINIOWE Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno ANALIZA KORELACJI LINIOWEJ to NIE JEST badanie związku przyczynowo-skutkowego, Badanie współwystępowania cech (czy istnieje
Bardziej szczegółowoImportowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22
Spis treści Przedmowa do wydania pierwszego.... 11 Przedmowa do wydania drugiego.... 15 Wykaz symboli.... 17 Litery alfabetu greckiego wykorzystywane w podręczniku.... 17 Symbole wykorzystywane w zagadnieniach
Bardziej szczegółowoFUNKCJA LINIOWA - WYKRES. y = ax + b. a i b to współczynniki funkcji, które mają wartości liczbowe
FUNKCJA LINIOWA - WYKRES Wzór funkcji liniowej (postać kierunkowa) Funkcja liniowa to funkcja o wzorze: y = ax + b a i b to współczynniki funkcji, które mają wartości liczbowe Szczególnie ważny w postaci
Bardziej szczegółowo