Analiza współzależności dwóch cech II
|
|
- Michał Nowakowski
- 5 lat temu
- Przeglądów:
Transkrypt
1 Analiza współzależności dwóch cech II
2 Dopasowanie funkcji regresji do danych empirycznych Po znalezieniu równania funkcji regresji należy zbadać, na ile nasze oszacowanie pokrywa się z rzeczywistością. W tym celu badamy dopasowanie funkcji regresji do danych empirycznych. Do oceny dopasowania prostej regresji do punktów empirycznych wykorzystuje się tak zwane resztym które stanowią różnicę między rzeczywistymi i teoretycznymi (wyliczonymi z równania prostej) wartościami zmiennej zależnej: e i = y i y i.
3 Dopasowanie funkcji regresji do danych empirycznych Funkcja regresji jest poprawnie oszacowana, jeśli wartości reszt są niewielkie i mają charakter przypadkowy. W oparciu o reszty wyznacza się następujące miary dopasowania modelu do danych empirycznych: Średni błąd szacunku (średni błąd resztowy lub odchylenie standardowe składnika resztowego): S e = N i=1 (y i y i ) 2 N 2 = N i=1 e 2 i N 2.
4 Średni błąd szacunku Określa on, o ile przeciętnie różnią się wartości zmiennej zależnej wyznaczone na podstawie funkcji regresji od jej wartości empirycznych. Im mniejszy jest błąd, tym lepsze dopasowanie funkcji regresji do danych rzeczywistych (tym mniej mylić się będziemy szacując wartość zmiennej zależnej na podstawie funkcji regresji).
5 Współczynnik determinacji R 2 = 1 N i=1 N i=1 (y i y i ) 2 (y i y) 2. Jest to najważniejsza miara dopasowania funkcji regresji do danych empirycznych. Przyjmuje on wartość z przedziału od 0 do 1, przy czym im większa jego wartość, tym lepsze dopasowanie funkcji. Określa, ile % zmienności cechy Y zostało wyjaśnione przy pomocy oszacowanej funkcji regresji (ile % tej zmienności wynika z czynników uwzględnionych w równaniu regresji). W przypadku prostej regresji liniowej R 2 = (r xy ) 2.
6 Przykład Numer pracownika Staż pracy (w latach) Wydajność pracy (w szt./h) y = 8,5 + 1,3 x. Zbadamy dopasowanie oszacowanej funkcji regresji do danych empirycznych. Obliczenia należy zacząć od wyznaczenia teoretycznych wartości zmiennej zależnej wyznaczonych przez funkcję regresji, a następnie obliczamy reszty.
7 Przykład Staż pracy (w latach) Wydajność pracy (w szt./h) y i = 8,5 + 1,3 x i x i y i e i = y i y i ei 2 = (y i y i ) ,8 0,2 0, ,1-0,1 0, ,4-0,4 0, ,7 0,3 0, ,0 0, ,0 0, ,3-0,3 0, ,6 0,4 0, ,9 0,1 0, ,2-0,2 0,04 Razem 0,60 N = 10, S e = N i=1 e 2 i N 2 = 0, = 0,27.
8 Przykład S e = N i=1 e 2 i N 2 = 0, = 0,27. Oznacza to, że wyznaczając wydajność pracy pracowników na podstawie oszacowanej funkcji regresji mylimy się średnio o ± 0,27 sztuk/h. Innymi słowy, teoretyczna (obliczona na podstawie funkcji regresji) wydajność pracy poszczególnych pracowników różni się od wydajności rzeczywistej o ± 0,27 sztuk na godzinę.
9 Przykład x i y i y i = 8,5 + 1,3 x i e ei 2 = (y i y i ) 2 i = y i y i (y i y i ) ,8 0,2 0, ,1-0,1 0, ,4-0,4 0, ,7 0,3 0, ,0 0, ,0 0, ,3-0,3 0, ,6 0,4 0, ,9 0,1 0, ,2-0,2 0,04 25 Razem 150 0, N = 10, y = = 15, R2 = 1 N i=1 (y i y i ) 2 = 1 N (y i y) 2 i=1 0,6 102 = 0,9941.
10 Przykład R 2 = 0,9941. Otrzymano wartość bliską 1, a więc dopasowanie funkcji regresji do danych empirycznych jest bardzo dobre. Zmienność wydajności pracy została wyjaśniona przez badaną regresję aż w 99,41%. Wydajność pracy y = 1,3x + 8,5 R² = 0, Staż pracy
11 Wykorzystanie funkcji regresji Właściwie wyspecyfikowana, tzn. poprawna merytorycznie i dobrze dopasowana do danych empirycznych funkcja regresji może posłużyć do przewidywania wartości jednej zmiennej przy znanym poziomie drugiej. Warunkiem jest jednak, aby relacje między zmiennymi nie uległy znacznym zmianom, np. pod wpływem nieprzewidzianych, losowych okoliczności. Ponieważ jednak funkcja regresji z jedną zmienną niezależną stanowi bardzo mocne uproszczenie rzeczywistości, również prognozy dokonywane są nieco na wyrost.
12 Przykład Na podstawie oszacowanej funkcji regresji z poprzedniego przykładu: y = 8,5 + 1,3 x przewidzimy jakiej wydajności można się spodziewać po pracowniku o stażu dwunastoletnim. Interesuje nas, jaką wydajność może osiągnąć pracownik ze stażem x P = 12 Prognozę tę wyznaczymy podstawiając powyższą wartość do równania regresji.
13 Przykład Otrzymujemy: y = 8,5 + 1,3 x P = 8,5 + 1,3 12 = 24,1 szt./h. Oznacza to, że po pracowniku z dwunastoletnim stażem można się spodziewać, że w ciągu godziny wyprodukuje średnio 24,1 sztuk wyrobu. Nasze szacunki są obarczone pewnym błędem, który przyjmujemy na poziomie średniego błędu szacunku. Zatem uwzględniając wartość błędu, do otrzymanego wyniku dodamy i odejmiemy 0,27 szt./h; uzyskujemy w ten sposób przedział liczbowy (23,83; 24,37). Urealniając ten wynik, możemy zatem przypuszczać, że pracownik z 12-letnim stażem wyprodukuje od 23 do 25 szt. wyrobu w ciągu godziny.
14 Współczynnik korelacji rang Spearmana Służy on do badania zależności dwóch cech przedstawionych w szeregu korelacyjnym. Cechy te mogą być mierzalne lub niemierzalne ale porządkowe. Liczba badanych jednostek powinna być nieduża (poniżej 30). Przypuśćmy, że badamy N jednostek analizując dwie cechy. Elementy te można można więc uporządkować ze względu na obie cechy. Poszczególnym uporządkowanym wariantom cechy nadajemy kolejne numery, które określa się mianem rang, a procedurę nadawania rang rangowaniem.
15 Rangowanie Poszczególnym uporządkowanym wariantom cechy przyporządkowujemy kolejne liczby naturalne. W sytuacji, gdy kilka jednostek badania ma takie same warianty cechy, rangi ustalane są wówczas jako średnia arytmetyczna z kolejnych pozycji na jakich znalazły się jednostki badania posiadające dany wariant cechy, np. Nr jednostki Wariant cechy Ranga 1 podstawowe 1 2 zawodowe 2 3 średnie 4 4 średnie 4 5 średnie 4 6 wyższe 6,5 7 wyższe 6,5 Średnia z 3, 4, 5 Średnia z 6, 7
16 Współczynnik korelacji rang Spearmana Współczynnik korelacji rang Spearmana wyznacza sie na podstawie następującego wzoru r s = 1 6 N di 2 i=1 N(N 2 1), gdzie d i oznaczają różnice między rangami odpowiadających sobie wartości x i i y i tzn. rangami cech X i Y dla poszczególnych jednostek badania.
17 Współczynnik korelacji rang Spearmana Współczynnik korelacji rang Spearmana przyjmuje wartości z przedziału od -1 do 1. Im wartość tego miernika jest bliższa -1, tym silniejsza ujemna korelacja między badanymi cechami, z kolei im bliższa 1, tym silniejsza korelacja dodatnia. Wartości bliskie zeru wskazują na słabą zależność. Współczynnik ten jest symetryczny, to znaczy zależność Y od X jest taka sama jak zależność X od Y. Sposób wyznaczania współczynnika rang zaprezentujemy dla dwóch sytuacji, w których zalecane jest jego użycie: dla obu cech mierzalnych oraz w sytuacji, gdy jedna z cech jest niemierzalna, ale której warianty dają się uporządkować.
18 Przykład I Za pomocą współczynnika rang ustalimy zależność między emisją zanieczyszczeń powietrza CO2 a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 2004 roku. Kraj Liczba ludności (w tys.) Emisja zanieczyszczeń powietrza CO2 (w mln ton) Austra ,5 Belgia ,5 Dania ,5 Finlandia ,7 Francja ,7 Grecja ,5 Hiszpania ,3 Irlandia ,7 Luksemburg ,1 Holandia ,9 Niemcy ,8 Portugalia ,7 Szwecja ,5 Wielka Brytania ,6 Włochy Polska ,7
19 Przykład I Rangowanie ze względu na pierwszą cechę - Liczbę ludności. Kraj Liczba ludności (w tys.) Ranga Luksemburg Irlandia Finlandia Dania Austra Szwecja Belgia Portugalia Grecja Holandia Polska Hiszpania Włochy Wielka Brytania Francja Niemcy
20 Przykład I Rangowanie ze względu na drugą cechę - Emisję zanieczyszczeń. Kraj Emisja zanieczyszczeń powietrza CO2 (w mln ton) Ranga Luksemburg 12,1 1 Irlandia 47,7 2 Dania 50,5 3 Szwecja 51,5 4 Finlandia 56,7 5 Portugalia 68,7 6 Austra 79,5 7 Grecja 110,5 8 Belgia 123,5 9 Holandia 175,9 10 Polska 317,7 11 Hiszpania 368,3 12 Francja 415,7 13 Włochy Wielka Brytania 555,6 15 Niemcy 876,8 16
21 Przykład I Obliczenie różnic między rangami Kraj Liczba ludności (w tys.) Emisja zanieczyszczeń powietrza CO2 (w mln ton) Rangi X Rangi Y Różnice rang Kwadraty różnic rang x i y i d i d 2 i Luksemburg , Irlandia , Finlandia , Dania , Austra , Szwecja , Belgia , Portugalia , Grecja , Holandia , Polska , Hiszpania , Włochy Wielka Brytania , Francja , Niemcy , Razem 28
22 Przykład I x i y i d i d 2 i Przystępujemy do obliczenia współczynnika korelacji rang Spearmana. N = 16, N i=1 d 2 i = 28, r s = 1 6 N di 2 i=1 N(N 2 1) = (16 2 1) = 1 0,041 = 0,959.
23 Przykład I Otrzymany wynik współczynnika rang 0,959 wskazuje na dodatnią i silną zależność między emisją zanieczyszczeń powietrza dwutlenkiem x i węgla a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 204 roku. Emisja CO2 (w mln ton) ,4 542,8 364,2 185, Liczba ludności (w tys.)
24 Przykład II Za pomocą współczynnika rang ustalimy zależność między czasem poświęconym na naukę języka obcego a poziomem znajomości tego języka Uczeń Czas poświęcony dziennie na naukę (w godz.) Poziom znajomości języka obcego Katarzyna Beksa 5 biegły Przemysław Bełkot 4 dobry Paweł Dentka 3 dobry Michalina Drzwi-Okno 3 przeciętny Franciszek Głąb 2 przeciętny Jacek Kolosalny 1 słaby Leokadia Masełko 4 biegły Rafał Nieuważny 4 biegły Józef Piszpan 1 przeciętny Zyglinda Żyłka 2 przeciętny
25 Przykład II Rangowanie dla cechy pierwszej czas poświęcony nauce. Nr Uczeń Czas poświęcony dziennie na naukę (w godz.) Poziom znajomości języka obcego Rangi X 1 Jacek Kolosalny 1 słaby 1,5 2 Józef Piszpan 1 przeciętny 1,5 3 Franciszek Głąb 2 przeciętny 3,5 4 Zyglinda Żyłka 2 przeciętny 3,5 5 Paweł Dentka 3 dobry 5,5 6 Michalina Drzwi-Okno 3 przeciętny 5,5 7 Przemysław Bełkot 4 dobry 8 8 Leokadia Masełko 4 biegły 8 9 Rafał Nieuważny 4 biegły 8 10 Katarzyna Beksa 5 biegły 10
26 Przykład II Rangowanie dla cechy drugiej poziom znajomości języka. Nr Uczeń Czas poświęcony dziennie na naukę (w godz.) Poziom znajomości języka obcego Rangi X 1 Jacek Kolosalny 1 słaby 1,5 1 Rangi Y 2 Józef Piszpan 1 przeciętny 1,5 3,5 3 Franciszek Głąb 2 przeciętny 3,5 3,5 4 Zyglinda Żyłka 2 przeciętny 3,5 3,5 5 Michalina Drzwi-Okno 3 przeciętny 5,5 3,5 6 Paweł Dentka 3 dobry 5,5 6,5 7 Przemysław Bełkot 4 dobry 8 6,5 8 Leokadia Masełko 4 biegły Rafał Nieuważny 4 biegły Katarzyna Beksa 5 biegły 10 9
27 Przykład II Obliczanie różnic rang i ich kwadratów: Nr Uczeń Czas poświęcony dziennie na naukę (w godz.) Poziom znajomości języka obcego Rangi X Rangi Y 1 Jacek Kolosalny 1 słaby 1,5 1 0,5 0,25 2 Józef Piszpan 1 przeciętny 1,5 3, Franciszek Głąb 2 przeciętny 3,5 3, Zyglinda Żyłka 2 przeciętny 3,5 3, Michalina Drzwi-Okno 3 przeciętny 5,5 3, Paweł Dentka 3 dobry 5,5 6, Przemysław Bełkot 4 dobry 8 6,5 1,5 2,25 8 Leokadia Masełko 4 biegły Rafał Nieuważny 4 biegły Katarzyna Beksa 5 biegły Razem 14,5 d i d 2 i r s = 1 6 N di 2 i=1 N(N 2 1) = ,5 10 (10 2 1) = 1 0,09 = 0,91.
28 Przykład II Wartość współczynnika rang Speramana równa 0,91 wskazuje na dodatnią silną zależność między ilością godzin poświęconych dziennie na naukę języka obcego a poziomem znajomości tego języka. Oznacza to, że osoba poświęcająca dziennie więcej czasu na opanowanie języka obcego osiąga na ogół lepsze rezultaty w tym względzie. 10 Rangi dla cechy Y Rangi dla cechy X
29 Miary korelacji dla danych pogrupowanych w tablicy Poprzednie rozdziały poświęcone były wykrywaniu korelacji w sytuacji, gdy materiał statystyczny był zawarty w szeregu korelacyjnym. Jednakże, przy dużej liczebności badanej zbiorowości szereg korelacyjny nie jest dogodną formą opisu zależności, gdyż zawiera zbyt wiele szczegółowych informacji. W celu uzyskania bardziej syntetycznego obrazu, konieczny jest podział jednostek na grupy według dwóch zmiennych (cech) jednocześnie. W efekcie otrzymujemy tablicę korelacyjną, zwaną też tablicą współzależności.
30 Schemat tablicy korelacyjnej Warianty zmiennej niezależnej x i Warianty zmiennej zależnej y j y 1 y 2 y k n i = k j=1 n ij x 1 x 2 n 11 n 12 n 1k n 21 n 2k n 22 n 1 n x l n l1 n l2 n lk n l n j = l n ij n 1 n 2 n 2 i=1 N N - ogólna liczba jednostek, n i - liczebności brzegowe cechy X, n j - liczebności brzegowe cechy Y. n ij - liczebności warunkowe odpowiadające: i-temu wariantowi cechy X j-temu wariantowi cechy Y
31 Miary korelacji dla danych pogrupowanych w tablicy Tablica korelacyjna składa się z l rozkładów warunkowych cechy Y (dla każdego x i ):
32 Miary korelacji dla danych pogrupowanych w tablicy z k rozkładów cechy X (dla każdego y i ):
33 Miary korelacji dla danych pogrupowanych w tablicy zraz z dwóch rozkładów brzegowych: cechy X i cechy Y:
34 Miary korelacji dla danych pogrupowanych w tablicy Bardzo ważne w analizie korelacji są rozkłady warunkowe. Jeśli między cechami nie ma zależności, to rozkłady warunkowe y nie zależą od X i tym samym średnie warunkowe (grupowe) Y będą niezależne od X. średnie grupowe: y(x 1 ) pod warunkiem, że X = x 1 y(x 2 ) pod warunkiem, że X = x 2 y(x l ) pod warunkiem, że X = x l
35 Miary korelacji dla danych pogrupowanych w tablicy Jeśli natomiast wraz ze wzrostem wartości cechy X rosną średnie grupowe cechy Y, to mamy do czynienia z zależnością dodatnią. W przypadku przeciwnym istnieje zależność ujemna. Obserwacja rozkładów warunkowych, a w szczególności średnich grupowych, to jedna z metod wykrywania zależności dwóch cech w tablicy korelacyjnej. Do innych metod pozwalających na wykrycie zależności tak zaprezentowanych danych należą: analiza wykresów rozrzutu punktów empirycznych oraz analiza liczebności w tablicy korelacyjnej.
36 Analiza wykresu rozrzutu punktów empirycznych Cena diamentów (w dolarach) ,1 0,4 0,7 1 1,3 1,6 Waga diamentu (w caratach)
37 Analiza liczebności w tablicy korelacyjnej Jeżeli w każdym polu tablicy są jednakowe liczebności n ij, to między cechami nie istnieje zależność. Gdy liczebności układają się wzdłuż przekątnej biegnącej od prawego górnego do lewego dolnego rogu tablicy wówczas można przypuszczać, że zależność istnieje, jest prostoliniowa i ma charakter ujemny. Rozkład liczebności warunkowych wzdłuż drugiej przekątnej oznacza korelację dodatnią, również liniową.
38 Analiza liczebności w tablicy korelacyjnej Im mniej pasażerów zabieramy tym szybciej jedziemy? Liczba pasazerów x i Prędkość samochodu y j
39 Miary korelacji dla pogrupowanych danych Istnieje kilka miar korelacji dwóch cech pogrupowanych w tablicy korelacyjnej i tablicy kontyngencji. Wybór właściwej miary uzależniony jest od: rodzaju cech statystycznych, kształtu zależności między badanymi cechami, wielkości tablicy korelacyjnej lub tablicy kontyngencji (liczby kolumn i wierszy). Szerokie zastosowanie mają następujące miary: Stosunek korelacji, e yx, Współczynnik C-Pearsona, C, Współczynnik Q-Yule a, Q.
40 Stosunek korelacji Oparty jest na obserwacji, że przy braku korelacji wszystkie średnie grupowe cechy Y są jednakowe i równe średniej ogólnej cechy Y. Jest on relacją zróżnicowania średnich grupowych w stosunku do ogólnego zróżnicowania wartości cechy Y. y - średnia ogólna cechy Y, e yx = S y(x) S y, S y - odchylenie standardowe cechy Y, S y(x) - odchylenie standardowe średnich grupowych: y(x 1 ),, y(x l ).
41 Stosunek korelacji Z powyższego wzoru wynika, że obliczenia dotyczą tylko zmiennej Y, a zmienna X służy tylko do ustalenia grup wartości zmiennej Y. Zatem cecha X może być mierzalna lub niemierzalna. y = 1 N k j=1 y j n j = 1 N l i=1 k j=1 y j n ij, S y = 1 N k j=1 (y j y) 2 n j, y(x i ) = 1 n i k j=1 y j n ij, S y(x) = 1 N l i=1 (y(x i ) y) 2 n i.
42 Stosunek korelacji Stosunek korelacji zawiera się w przedziale od 0 do 1: 0 e yx 1. Przy braku korelacji e yx = 0. Im jego wartość jest bliższa 1, tym korelacja jest silniejsza.
43 Własności stosunku korelacji Stosunek korelacji nie jest miarą symetryczną, tzn. e xy nie jest równe e yx nawet gdy obie cechy X i Y są mierzalne i można obliczyć oba te współczynniki. Jeżeli w powyższym przypadku obliczymy współczynnik korelacji Pearsona, to r xy e yx, A równość występuje tylko w przypadku zależności liniowej.
44 Własności stosunku korelacji Stosunek korelacji może być obliczony również dla zależności nieliniowej, ale cecha Y musi być mierzalna, np. Miejsce zamieszkania X Ocena z matematyki na maturze Y Ogółem Wieś Małe miasto Duże miasto Ogółem
45 Przykład I Obie cechy mierzalne Wylosowano 100 jednoosobowych gospodarstw domowych i zbadano je pod względem wysokości miesięcznych dochodów w zł oraz procentowego udziału wydatków na żywność w wydatkach ogółem. Miesięczne dochody w zł X Procentowy udział wydatków na żywność, Y Ogółem Ogółem
46 Przykład I Obie cechy mierzalne Miesięczne dochody w zł X Procentowy udział wydatków na żywność, Y Ogółem n j y j n j yj y = 1 N k j=1 yj n j = = 32,96 %
47 Przykład I Obie cechy mierzalne Miesięczne dochody w zł X Procentowy udział wydatków na żywność, Y Ogółem n j y j n j yj ( y j y) 2 n j ( y j y) ,8416 0,0016 4, ,52 0,09 83,23 167,84
48 Przykład I Obie cechy mierzalne S y = 1 N k j=1 ( y j y) 2 n j = 167, = 1,3
49 Przykład I Obie cechy mierzalne Miesięczne dochody w zł X Proc. udz. wyd. na ż., Y n i n ijy j y(x i ) (y(x i ) y) 2 n i ,89 71, ,97 0, ,19 65,7555 Ogółem ,8791 S y(x) = 1 N l i=1 (y(x i ) y) 2 n i = 136, = 1,17
50 Przykład I Obie cechy mierzalne Podstawiając odpowiednie wartości: S y(x) = 1,17, S y = 1,3, otrzymujemy, że stosunek korelacji jest równy e yx = S y(x) S y = 1,17 1,3 = 0,9. Uzyskany wynik mówi o silnej zależności udziału wydatków na żywność w wydatkach ogółem od dochodów badanych gospodarstw jednoosobowych, a malejące średnie grupowe potwierdzają znaną w ekonomii zależność prawo Engela.
51 Przykład I Obie cechy mierzalne 35 Średnie grupowe cechy Y Środki klas dla cechy X
52 Przykład II Cecha X niemierzalna W 2008 roku przeprowadzono badanie w grupie 100 studentów I roku prawa, mające na celu potwierdzenie zależności między miejscem zamieszkania a oceną z matematyki uzyskaną na maturze. Miejsce zamieszkania X Ocena z matematyki na maturze Y Ogółem Wieś Małe miasto Duże miasto Ogółem
53 Przykład II Cecha X niemierzalna Miejsce zamieszkania X Ocena z matematyki na maturze Y Ogółem Wieś Małe miasto Duże miasto n j n j y j (y j y) 2 n j (y j y) ,7056 0,0256 1, ,2848 1,28 22, ,44 y = 1 N k j=1 y j n j = = 3,84 S y = 1 N k j=1 (y j y) 2 n j = 47, = 0,69
54 Przykład II Cecha X niemierzalna Miejsce zamieszkania X Ocena z matematyki na maturze Y n i n ijy j y(x i ) (y(x i ) y) 2 n i Wieś ,30 9,52 Małe miasto ,91 0,21 Duże miasto ,48 9,37 Ogółem ,09 S y(x) = 1 N l i=1 (y(x i ) y) 2 n i = 19, = 0,44
55 Przykład II Cecha X niemierzalna Podstawiając odpowiednie wartości: S y(x) = 0,44, S y = 0,69, otrzymujemy, że stosunek korelacji jest równy e yx = S y(x) S y = 0,44 0,69 = 0,64. Uzyskany wynik mówi o umiarkowanej zależności między miejscem zamieszkania a oceną uzyskaną na maturze z matematyki. Rosnące średnie grupowe świadczą o korelacji dodatniej: im większe miejsce zamieszkania tym wyższa ocena.
56 Tablica kontyngencji W przypadku, gdy obie cechy X i Y są niemierzalne zamiast tablicy korelacyjnej używa się określenia tablica kontyngencji lub tablica kontyngencyjna. Miarą wykorzystywaną do określenia związku między cechami niemierzalnymi jest najczęściej współczynnik współzależności C-Pearsona: C = χ 2 χ 2 + N, gdzie χ 2 to wartość statystyki χ 2 (chi-kwadrat).
57 Tablica kontyngencji Wartość statystyki chi-kwadrat wyznaczamy na podstawie danych z tablicy kontyngencji według następującego wzoru gdzie n ij n ij χ 2 = l i=1 k ( n ij j=1 n ij) 2, n ij - liczebności warunkowe (empiryczne), - liczebności teoretyczne, czyli takie, które wystąpiłyby, gdyby cechy były niezależne: n ij = n i n j N.
58 Współczynnik C-Pearsona Współczynnik C-Pearsona C = χ 2 χ 2 + N oblicza się dla przypadku cech jakościowych (niemierzalnych) oraz tablic wielopolowych, czyli tablic większych niż 2 x 2. Miara ta zawiera się w przedziale od 0 do 1. Wartości współczynnika bliskie 0 oznaczają słabą, a wartości współczynnika bliskie 1 silną współzależność cech.
59 Skorygowany współczynnik C-Pearsona Ponieważ poziom współczynnik C-Pearsona zależy od rozmiaru tablicy, aby móc porównywać współczynniki pochodzące z tablic różnej wielkości, proponuje się tzw. skorygowany współczynnik C-Pearsona: C skor = C C* C* 1, gdzie C* = min(l, k), l k - liczba wierszy tablicy kontyngencji, - liczba kolumn tablicy kontyngencji.
60 Przykład W pewnej szkole języka angielskiego nauczano trzema metodami: tradycyjną (A), Callana (B), relaksacyjną (C). Pod koniec kursu przeprowadzono egzamin i otrzymano następujące wyniki: Wyniki X Metoda nauczania, Y A B C Razem Pozytywne Negatywne Razem Ustalimy siłę zależności między tymi cechami niemierzalnymi.
61 Przykład Wyniki X Metoda nauczania, Y A B C Razem Pozytywne n 11 = 30 n 12 = 80 n 13 = 50 n 1 = 160 Negatywne n 21 = 10 n 22 = 60 n 23 = 20 n 2 = 90 Razem n 1 = 40 n 2 = 140 n 3 = 70 N = 250 Liczebności teoretyczne: n 11 = n 1 n 1 N = = 25,6 n 12 = n 1 n 2 N = = 89,6 n 13 = n 1 n 3 N = = 44,8 n 21 = n 2 n 1 N = = 14,4 n 22 = n 2 n 2 N = = 50,4 n 23 = n 2 n 3 N = = 25,3
62 Przykład n ij (n n ij n ij n ij (n ij n ij ) 2 ij n ij ) 2 n ij 30 25,6 4,4 19,36 0, ,6-9,6 92,16 1, ,8 5,2 27,04 0, ,4-4,4 19,36 1, ,4 9,6 92,16 1, ,3-5,3 28,09 1,11 Razem 6,67 χ 2 = (n ij n ij )2 = 6,67 C = n ij χ 2 χ 2 + N = 6,67 6, = 0,16
63 Przykład C = χ 2 χ 2 + N = 6,67 6, = 0,16 Wartość współczynnika C-Pearsona jest niska i bliska zeru, gdyż C = 0,16. Współzależność między wynikami kursu językowego a metodą nauczania języka angielskiego jest bardzo słaba. Można zatem przypuszczać, że wszystkie trzy metody nauczania dają podobne wyniki.
64 Współczynnik współzależności Q-Yule a Najczęściej oblicza się go dla cech jakościowych i tablic czteropolowych: Warianty cechy niemierzalnej X Warianty cechy niemierzalnej Y y1 y2 x1 a b x2 c d Q = ad bc ad + bc.
65 Współczynnik współzależności Q-Yule a Współczynnik ten zawiera się w przedziale od -1 do 1. Jednak znak tego współczynnika jest tylko efektem ułożenia liczebności w tablicy. Im wartość bezwzględna tego współczynnika jest bliższa jedności, tym zależność jest silniejsza, a im bliższa zeru, tym związek między cechami jest słabszy.
66 Przykład Uważa się powszechnie, że egzamin na prawo jazdy lepiej zdają mężczyźni niż kobiety. Przeprowadzono badanie wśród 300 osób zdających ten egzamin i otrzymano następujące wyniki Egzamin Mężczyzna Płeć Kobieta Razem Zdany Niezdany Razem
67 Przykład Egzamin Mężczyzna Płeć Kobieta Razem Zdany Niezdany Razem Q = ad bc ad + bc = = 0,41. Obliczony wynik wskazuje na istnienie umiarkowanej współzależności między zdawalnością egzaminu a płcią.
STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP
STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 12 listopada 2017 1 Analiza współzależności dwóch cech 2 Jednostka zbiorowości - para (X,Y ). Przy badaniu korelacji nie ma znaczenia, która
Bardziej szczegółowoStatystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38
Statystyka Wykład 8 Magdalena Alama-Bućko 23 kwietnia 2017 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 1 / 38 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoAnaliza współzależności zjawisk. dr Marta Kuc-Czarnecka
Analiza współzależności zjawisk dr Marta Kuc-Czarnecka Wprowadzenie Prawidłowości statystyczne mają swoje przyczyny, w związku z tym dla poznania całokształtu badanego zjawiska potrzebna jest analiza z
Bardziej szczegółowoStatystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36
Statystyka Wykład 7 Magdalena Alama-Bućko 3 kwietnia 2017 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 1 / 36 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoAnaliza współzależności dwóch cech I
Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych
Bardziej szczegółowoAnaliza Współzależności
Statystyka Opisowa z Demografią oraz Biostatystyka Analiza Współzależności Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka
Bardziej szczegółowoStatystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40
Statystyka Wykład 9 Magdalena Alama-Bućko 7 maja 2018 Magdalena Alama-Bućko Statystyka 7 maja 2018 1 / 40 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia miary
Bardziej szczegółowoStatystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31
Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoAnaliza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Bardziej szczegółowoZależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),
Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna Szereg korelacyjny numer
Bardziej szczegółowoStatystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35
Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoStatystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Bardziej szczegółowoSzczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Bardziej szczegółowoStatystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34
Statystyka Wykład 9 Magdalena Alama-Bućko 24 kwietnia 2017 Magdalena Alama-Bućko Statystyka 24 kwietnia 2017 1 / 34 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoSzczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Bardziej szczegółowoKorelacja krzywoliniowa i współzależność cech niemierzalnych
Korelacja krzywoliniowa i współzależność cech niemierzalnych Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej
Bardziej szczegółowo(x j x)(y j ȳ) r xy =
KORELACJA. WSPÓŁCZYNNIKI KORELACJI Gdy w badaniu mamy kilka cech, często interesujemy się stopniem powiązania tych cech między sobą. Pod słowem korelacja rozumiemy współzależność. Mówimy np. o korelacji
Bardziej szczegółowoSTATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2
STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna
Bardziej szczegółowo4.2. Statystyczne opracowanie zebranego materiału
4.2. Statystyczne opracowanie zebranego materiału Zebrany i pogrupowany materiał badawczy należy poddać analizie statystycznej w celu dokonania pełnej i szczegółowej charakterystyki interesujących badacza
Bardziej szczegółowoREGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.
REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym. Zadanie 1 W celu ustalenia zależności między liczbą braków a wielkością produkcji części
Bardziej szczegółowoWielkość dziennego obrotu w tys. zł. (y) Liczba ekspedientek (x) 6 2 4 5,5 6,6
Zad. 1. Zbadano wydajność odmiany pomidorów na 100 poletkach doświadczalnych. W wyniku przeliczeń otrzymano przeciętną wydajność na w tonach na hektar x=30 i s 2 x =7. Przyjmując, że rozkład plonów pomidora
Bardziej szczegółowoKORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Bardziej szczegółowoBadanie zależności skala nominalna
Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność
Bardziej szczegółowoWprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Bardziej szczegółowoX WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15
X WYKŁAD STATYSTYKA 14/05/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 10 ANALIZA KORELACJI Korelacja 1. Współczynnik korelacji 2. Kowariancja 3. Współczynnik korelacji liniowej definicja 4. Estymacja współczynnika
Bardziej szczegółowoPojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.
Pojęcie korelacji Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi. Charakteryzując korelację dwóch cech podajemy dwa czynniki: kierunek oraz siłę. Korelacyjne wykresy
Bardziej szczegółowoX Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9
Zadanie W celu sprawdzenia, czy pipeta jest obarczona błędem systematycznym stałym lub zmiennym wykonano szereg pomiarów przy różnych ustawieniach pipety. Wyznacz równanie regresji liniowej, które pozwoli
Bardziej szczegółowoWykład z dnia 8 lub 15 października 2014 roku
Wykład z dnia 8 lub 15 października 2014 roku Istota i przedmiot statystyki oraz demografii. Prezentacja danych statystycznych Znaczenia słowa statystyka Znaczenie I - nazwa zbioru danych liczbowych prezentujących
Bardziej szczegółowoKURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE. Strona 1
KURS STATYSTYKA Lekcja 5 Analiza współzależności ZADANIE DOMOWE www.etrapez.pl Strona 1 Część 1: TEST Zaznacz poprawną odpowiedź (tylko jedna jest prawdziwa). Pytanie 1 W analizie współzależności a) badamy
Bardziej szczegółowoĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI
ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI ANALIZA KORELACJI Korelacja 1. Współczynnik korelacji 2. Współczynnik korelacji liniowej definicja 3. Estymacja współczynnika korelacji 4. Testy istotności
Bardziej szczegółowoZałóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Bardziej szczegółowoAnaliza korelacji
Analiza korelacji Zakres szkolenia Wstęp Podstawowe pojęcia korelacji Współczynnik korelacji liniowej Pearsona Współczynnik korelacji rang Spearmana Test istotności Zadania 2 Wstęp Do czego służy korelacja:
Bardziej szczegółowoρ siła związku korelacyjnego brak słaba średnia silna bardzo silna
Ćwiczenie 4 ANALIZA KORELACJI, BADANIE NIEZALEŻNOŚCI Analiza korelacji jest działem statystyki zajmującym się badaniem zależności pomiędzy rozkładami dwu lub więcej badanych cech w populacji generalnej.
Bardziej szczegółowoZJAZD 4. gdzie E(x) jest wartością oczekiwaną x
ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych
Bardziej szczegółowoZadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi
Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi Zadanie 1 Zdaniem wielu komentatorów, kobiety częściej niż mężczyźni głosują na partię rządzącą. Wyniki badań przedstawia
Bardziej szczegółowoCechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona
Badanie zależności między cechami Obserwujemy dwie cechy: X oraz Y Obiekt (X, Y ) H 0 : Cechy X oraz Y są niezależne Próba: (X 1, Y 1 ),..., (X n, Y n ) Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności
Bardziej szczegółowoPDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Bardziej szczegółowoStatystyka opisowa Opracował: dr hab. Eugeniusz Gatnar, prof. WSBiF
Statystyka opisowa Opracował: dr hab. Eugeniusz Gatnar, prof. WSBiF 120 I. Ogólne informacje o przedmiocie Cel przedmiotu: Opanowanie podstaw teoretycznych, poznanie przykładów zastosowań metod statystycznych.
Bardziej szczegółowoR-PEARSONA Zależność liniowa
R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe
Bardziej szczegółowoKorelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy
Bardziej szczegółowoANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.
ANALIZA KORELACJI Większość zjawisk w otaczającym nas świecie występuje nie samotnie a w różnorodnych związkach. Odnosi się to również do zjawisk biologiczno-medycznych. O powiązaniach między nimi mówią
Bardziej szczegółowoREGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji
Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji
Bardziej szczegółowoWIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność
Bardziej szczegółowoĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI
ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI Korelacja 1. Współczynnik korelacji 2. Współczynnik korelacji liniowej definicja 3. Estymacja współczynnika korelacji 4. Testy istotności współczynnika korelacji
Bardziej szczegółowoAnaliza struktury i przeciętnego poziomu cechy
Analiza struktury i przeciętnego poziomu cechy Analiza struktury Pod pojęciem analizy struktury rozumiemy badanie budowy (składu) określonej zbiorowości, lub próby, tj. ustalenie, z jakich składa się elementów
Bardziej szczegółowoEkonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007
Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja
Bardziej szczegółowoTemat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat
Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat Anna Rajfura 1 Przykład W celu porównania skuteczności wybranych herbicydów: A, B, C sprawdzano, czy masa chwastów na poletku zależy
Bardziej szczegółowoEstymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych
Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych 3.1. Estymacja parametrów i ocena dopasowania modeli z jedną zmienną 23. Właściciel komisu w celu zbadania
Bardziej szczegółowoWspółczynniki korelacji czastkowej i wielorakiej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017
STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 18 listopada 2017 1 Regresja krzywoliniowa 2 Model potęgowy Model potęgowy y = αx β e można sprowadzić poprzez zlogarytmowanie obu stron równania
Bardziej szczegółowoP: Czy studiujący i niestudiujący preferują inne sklepy internetowe?
2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali
Bardziej szczegółowoWspółczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
Bardziej szczegółowoREGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ Korelacja oznacza fakt współzależności zmiennych, czyli istnienie powiązania pomiędzy nimi. Siłę i kierunek powiązania określa się za pomocą współczynnika korelacji
Bardziej szczegółowoPOLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych
Bardziej szczegółowoStatystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41
Statystyka Wykład 4 Magdalena Alama-Bućko 13 marca 2017 Magdalena Alama-Bućko Statystyka 13 marca 2017 1 / 41 Na poprzednim wykładzie omówiliśmy następujace miary rozproszenia: Wariancja - to średnia arytmetyczna
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 7
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Bardziej szczegółowoANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI
ANALIZA DWUZMIENNOWA czyli ABC KOREALCJI DZIASIAJ Pożegnanie ze statystyką: Krótko o tym, co to znaczy, że ze sobą korelują Jak te korelacje badać Kilka ćwiczeń praktycznych ANALIZA DWUZMIENNOWA Centralne
Bardziej szczegółowoTesty nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
Bardziej szczegółowot y x y'y x'x y'x x-x śr (x-x śr)^2
Na podstawie:w.samuelson, S.Marks Ekonomia menedżerska Zadanie 1 W przedsiębiorstwie toczy się dyskusja na temat wpływu reklamy na wielkość. Dział marketingu uważa, że reklama daje wysoce pozytywne efekty,
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 5
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Bardziej szczegółowoStatystyka opisowa. Wykład VI. Analiza danych jakośiowych
Statystyka opisowa. Wykład VI. e-mail:e.kozlovski@pollub.pl Spis treści Rangowanie 1 Rangowanie 3 Rangowanie Badaniu statystycznemu czasami podlegają cechy niemierzalne jakościowe), np. kolor włosów, stopień
Bardziej szczegółowoWykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia
Wykład 2 Statystyka opisowa - Miary rozkładu: Miary położenia Podział miar Miary położenia (measures of location): 1. Miary tendencji centralnej (measures of central tendency, averages): Średnia arytmetyczna
Bardziej szczegółowoWykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.
Wykład 7. Opis współzaleŝności zjawisk 1. Wprowadzenie. 2. Prezentacja materiału statystycznego. Rodzaje współzaleŝności zjawisk 1. WspółzaleŜność funkcyjna określonym wartościom jednej zmiennej jest ściśle
Bardziej szczegółowoKontekstowe wskaźniki efektywności nauczania - warsztaty
Kontekstowe wskaźniki efektywności nauczania - warsztaty Przygotowała: Aleksandra Jasińska (a.jasinska@ibe.edu.pl) wykorzystując materiały Zespołu EWD Czy dobrze uczymy? Metody oceny efektywności nauczania
Bardziej szczegółowoSTATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss
Bardziej szczegółowoKARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4
KARTA KURSU (do zastosowania w roku ak. 2015/16) Nazwa Statystyka 1 Nazwa w j. ang. Statistics 1 Kod Punktacja ECTS* 4 Koordynator Dr hab. Tadeusz Sozański (koordynator, wykłady) Dr Paweł Walawender (ćwiczenia)
Bardziej szczegółowoCharakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące
Bardziej szczegółowoStatystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40
Statystyka Wykład 5 Magdalena Alama-Bućko 26 marca 2018 Magdalena Alama-Bućko Statystyka 26 marca 2018 1 / 40 Uwaga Gdy współczynnik zmienności jest większy niż 70%, czyli V s = s x 100% > 70% (co świadczy
Bardziej szczegółowoStatystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Bardziej szczegółowoTablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Bardziej szczegółowoTemat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1
Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT Anna Rajfura 1 Przykład W celu porównania skuteczności wybranych herbicydów: A, B, C sprawdzano, czy masa chwastów na poletku zaleŝy
Bardziej szczegółowoTeoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.
Teoria błędów Wskutek niedoskonałości przyrządów, jak również niedoskonałości organów zmysłów wszystkie pomiary są dokonywane z określonym stopniem dokładności. Nie otrzymujemy prawidłowych wartości mierzonej
Bardziej szczegółowoRozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Bardziej szczegółowoTest niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)
Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi) Czy miejsce zamieszkania różnicuje uprawianie sportu? Mieszkańcy
Bardziej szczegółowoEkonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007
, transformacja liniowa i estymacja modelu KMNK Paweł Cibis pawel@cibis.pl 9 marca 2007 1 Miary dopasowania modelu do danych empirycznych Współczynnik determinacji Współczynnik zbieżności Skorygowany R
Bardziej szczegółowo1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:
Wariancja z populacji: Podstawowe miary rozproszenia: 1 1 s x x x x k 2 2 k 2 2 i i n i1 n i1 Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: 1 k 2 s xi x n 1 i1 2 Przykład 38,
Bardziej szczegółowoMiary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej
Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej cechy. Średnia arytmetyczna suma wartości zmiennej wszystkich
Bardziej szczegółowoWIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Zmienna losowa dwuwymiarowa i korelacja Zmienna losowa dwuwymiarowa Definiujemy ją tak samo, jak zmienną losową jednowymiarową, z tym że poszczególnym zdarzeniom elementarnym
Bardziej szczegółowoRegresja i Korelacja
Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane
Bardziej szczegółowoANALIZA WYNIKÓW NAUCZANIA W GIMNAZJUM NR 3 Z ZASTOSOWANIEM KALKULATORA EWD 100 ROK 2012
ANALIZA WYNIKÓW NAUCZANIA W GIMNAZJUM NR 3 Z ZASTOSOWANIEM KALKULATORA EWD 100 ROK 2012 OPRACOWAŁY: ANNA ANWAJLER MARZENA KACZOR DOROTA LIS 1 WSTĘP W analizie wykorzystywany będzie model szacowania EWD.
Bardziej szczegółowoStatystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36
Statystyka Wykład 6 Magdalena Alama-Bućko 9 kwietnia 2018 Magdalena Alama-Bućko Statystyka 9 kwietnia 2018 1 / 36 Krzywa koncentracji Lorenza w ekonometrii, ekologii, geografii ludności itp. koncentrację
Bardziej szczegółowo1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:
Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).
Bardziej szczegółowoSCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
Bardziej szczegółowoANALIZA ZALEŻNOŚCI MIĘDZY OCENAMI MINU WSTĘPNEGO KANDYDATÓW NA ROK AK. 2002/2003 NA ŚWIADECTWIE DOJRZAŁOŚCI A WYNIKAMI EGZA-
Józef Biolik Akademia Ekonomiczna im. K. Adamieckiego w Katowicach ANALIZA ZALEŻNOŚCI MIĘDZY OCENAMI NA ŚWIADECTWIE DOJRZAŁOŚCI A WYNIKAMI EGZA- MINU WSTĘPNEGO KANDYDATÓW NA ROK AK. 2002/2003 Autor analizuje
Bardziej szczegółowoRegresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).
Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych
Bardziej szczegółowoGRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana
GRUPY NIEZALEŻNE Chi kwadrat Pearsona Testy stosujemy w sytuacji, kiedy zmienna zależna mierzona jest na skali nominalnej Liczba porównywanych grup (czyli liczba kategorii zmiennej niezależnej) nie ma
Bardziej szczegółowoRaport Testy Trenerskie. Kadr Makroregionalnych Polskiego Związku Podnoszenia Ciężarów
Raport Testy Trenerskie Kadr Makroregionalnych Polskiego Związku Podnoszenia Ciężarów W trakcie zgrupowań Kadr Makroregionalnych Polskiego Związku Podnoszenia Ciężarów, poddano zawodników Testom Trenerskim.
Bardziej szczegółowoMIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy
MIARY POŁOŻENIA Opisują średni lub typowy poziom wartości cechy. Określają tą wartość cechy, wokół której skupiają się wszystkie pozostałe wartości badanej cechy. Wśród nich można wyróżnić miary tendencji
Bardziej szczegółowoSposoby prezentacji problemów w statystyce
S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki
Bardziej szczegółowoZadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
Bardziej szczegółowoStatystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33
Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,
Bardziej szczegółowoWstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński
Wstęp do teorii niepewności pomiaru Danuta J. Michczyńska Adam Michczyński Podstawowe informacje: Strona Politechniki Śląskiej: www.polsl.pl Instytut Fizyki / strona własna Instytutu / Dydaktyka / I Pracownia
Bardziej szczegółowoWIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM
Bardziej szczegółowoĆwiczenie: Wybrane zagadnienia z korelacji i regresji
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Stanisza r xy = 0 zmienne nie są skorelowane 0 < r xy 0,1
Bardziej szczegółowoElementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej
Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Bardziej szczegółowoWykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy
Wykład Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy Zbiorowość statystyczna - zbiór elementów lub wyników jakiegoś procesu powiązanych ze sobą logicznie (tzn. posiadających wspólne cechy
Bardziej szczegółowo3. Modele tendencji czasowej w prognozowaniu
II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa
Bardziej szczegółowoW kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:
Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,
Bardziej szczegółowoRegresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Bardziej szczegółowoStatystyka. Wykład 10. Magdalena Alama-Bućko. 14 maja Magdalena Alama-Bućko Statystyka 14 maja / 31
Statystyka Wykład 10 Magdalena Alama-Bućko 14 maja 2018 Magdalena Alama-Bućko Statystyka 14 maja 2018 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia miary
Bardziej szczegółowo