Statystyka Opsowa 2014 część 2 Katarzyna Lubnauer
Lteratura: 1. Statystyka w Zarządzanu Admr D. Aczel 2. Statystyka Opsowa od Podstaw Ewa Waslewska 3. Statystyka, Lucjan Kowalsk. 4. Statystyka opsowa, Meczysław Sobczyk Są trzy rodzaje kłamstw: kłamstwa, przeklęte kłamstwa statystyk. Benjamn Dsrael - premer Welkej Brytan (w latach 1868 1874-1880) Katarzyna Lubnauer 2
Badane zależnośc mędzy dwema cecham analza korelacj. Badając różnego rodzaju zjawska, np. społeczne, ekonomczne, psychologczne, przyrodncze tp. stwerdzamy, ze często jedno z nch jest uwarunkowane dzałanem nnych zjawsk. Zastanawamy sę nad charakterystyką tej zależnośc. Np. Czy cena lodów ma wpływ na ch sprzedaż? Czy temperatura powetrza ma wpływ na sprzedaż lodów? Czy cena samochodów ma wpływ na cenę lodów? Naszym celem jest odpowedź na 4 pytana: Czy mędzy badanym cecham występuje współzależność. Jak jest kształt zależnośc (lnowa, nelnowa). Jaka jest jej sła. Jak jest jej kerunek. Katarzyna Lubnauer 3
Głup ludze, ne zawsze pozorna zależność oznacza przyczynę skutek. Katarzyna Lubnauer 4
Katarzyna Lubnauer 5
Szereg dwucechowe szczegółowe szereg korelacyjny Wek żony X, x Wek męża Y, y 19 19 20 24 21 22 23 23 24 26 27 26 28 30 30 34 33 32 35 37 Otrzymujemy węc zbór par postac: ( x, y ) gdze: 1,..., n Katarzyna Lubnauer 6
Prezentacja grafczna szeregów dwucechowych, dagram korelacyjny: x y 1 1 3 26 3 30 4 66 5 124 6 220 7 345 7 350 8 490 9 880 1000 900 800 700 600 500 400 300 200 100 0 0 2 4 6 8 10 Katarzyna Lubnauer 7
Prezentacja grafczna szeregów dwucechowych, dagram korelacyjny: x y 1 880 3 490 3 350 4 345 5 220 6 124 7 66 7 30 8 26 9 1 1000 900 800 700 600 500 400 300 200 100 0 0 2 4 6 8 10 Katarzyna Lubnauer 8
Szereg dwucechowe rozdzelcze x 1 x 2 x 3 x 4 x 5 y1 y2 y3 y4 n n11 12 n 23 n21 n22 n23 n 31 n 32 n 33 n 41 n 42 n 43 n 51 n 52 n 14 n 24 n n 34 44 n53 n54 Gdze x waranty cechy X, zaś y j waranty cechy Y oraz lczebność pary: x, y j n j Katarzyna Lubnauer 9
Przykład: Nech X czas nauk studentów do testu ze SO wyrażony w godznach, zaś Y ocena z testu. Przyjmujemy, że do testu podeszło 100 studentów x1 3 x2 5 x3 7 x4 9 x5 11 y1 2 y2 3 y3 4 y4 5 8 4 3 1 7 5 5 3 4 6 6 4 3 5 8 7 1 4 7 9 Katarzyna Lubnauer 10
Do dalszych analz potrzebne nam będą lczebnośc brzegowe: x 1 x 2 y1 y2 y3 y4 n11 n12 n 13 n21 n22 n23 n n 14 1 n 24 n2 x 3 n 31 n 32 n 33 n 34 n3 x 4 x 5 n 41 n 51 n 42 n 52 n 43 n 44 n53 n54 n4 n5 n 1 n 2 n 3 n 4 n n, n n j j j j Katarzyna Lubnauer 11
Przykład: Nech X czas nauk studentów do testu ze SO wyrażony w godznach, zaś Y ocena z testu. Przyjmujemy, że do testu podeszło 100 studentów, szukamy lczebnośc brzegowych. x1 3 x2 5 x3 7 x4 9 x5 11 n j y1 2 y2 3 y3 4 y4 5 n 8 4 3 1 16 7 5 5 3 20 4 6 6 4 20 3 5 8 7 23 1 4 7 9 21 23 24 29 24 100 Katarzyna Lubnauer 12
Wyróżnamy dwa rodzaje zależnośc mędzy cecham są to: Zależność funkcyjna polegająca na tym, że zmana wartośc cechy X powoduje zmanę wartośc cechy Y Przykład: X podatek, Y cena, można sę spodzewać zależnośc Y = ax+a Zależność statystyczna polegająca na tym, że jednej wartośc cechy X przypada klka wartośc cechy Y Przykład: X wek dzecka w mesącach, Y waga dzec Wek w mesącach X Waga w kg Y 1 3,8 4,8 5,2 2 4,9 8 7 6 5 4 5,9 3 6,4 2 3 6,0 1 7,2 7,4 0 0 1 2 3 4 Katarzyna Lubnauer 13
Katarzyna Lubnauer 14
Potrzebujemy mary, która pomogłaby wyrazć słę zależnośc w sposób lczbowy. W celu badana zależnośc mędzy zmennym korzystamy ze współczynnka korelacj Pearsona zdefnowany wzorem: r cov XY, s s X Y cov(x,y) w zależnośc od postac w jakej mamy dane lczy sę z różnych wzorów. Katarzyna Lubnauer 15
Dla szeregu szczegółowego (zależność podejrzewana o charakter funkcyjny) na polczene kowarancj odchylena stosujemy wzory: X Y 1 1 3 26 3 30 4 66 5 124 6 220 7 345 7 350 8 490 9 880 cov XY, n 1 x x y y 1 1 n n 1 sx x x n n 1 sy y y n Wg Excela 2 2, Katarzyna Lubnauer 16
X Y 1 1 3 26 3 30 cov XY, 4 66 r 5 124 6 220 s s X Y 7 345 7 350 0,8917 8 490 9 880 Katarzyna Lubnauer 17
X Y 1 880 3 490 3 350 cov XY, 4 345 r 5 220 6 124 s s X Y 7 66 0,9365 7 30 8 26 9 1 Katarzyna Lubnauer 18
Wek w mesącach X Waga w kg Y 1 3,8 4,8 5,2 2 4,9 5,9 6,4 3 6,0 7,2 r cov XY, 8 7 7,4 s s X Y 6 5 4 3 2 1 0,8347 0 0 1 2 3 4 Katarzyna Lubnauer 19
Dla szeregu rozdzelczego (zależność podejrzewana o charakter funkcyjny) na polczene kowarancj stosujemy wzór: cov XY, m k j1 1 n x x y y j j n k 1 s n x x X n 1 m 1 s n y y Y j j n 1 r 0,4321 2 2, x1 3 x2 5 x3 7 x4 9 x5 11 n j y1 2 y2 3 y3 4 y4 5 n 8 4 3 1 16 7 5 5 3 20 4 6 6 4 20 3 5 8 7 23 1 4 7 9 21 23 24 29 24 100 Katarzyna Lubnauer 20
Interpretacja współczynnka korelacj: r - Współczynnk korelacj Pearsona jest marą symetryczną. Oznacza to, że jest tak sam nezależne, czy badamy zależność X od Y, czy odwrotne. 1 r 1 Odpowada na następujące pytana: Czy mędzy badanym cecham występuje współzależność Jeśl jest blsk, lub równy zero to przyjmuje sę, że mędzy zmennym ne ma zależnośc. Jak jest kształt zależnośc (lnowa, nelnowa) r 1 oznacza zależność lnową Katarzyna Lubnauer 21
Jaka jest jej sła r 0,0.2 bardzo słaby zwązek r 0.2,0.4 słaby zwązek r 0.4,0.6 umarkowany zwązek r 0.6,0.8 slny zwązek r 0.8,1.0 bardzo slny zwązek Jak jest jej kerunek r 0 r 0 korelacja ujemna, wzrost jednej zmennej powodował spadek drugej korelacja dodatna, wraz ze wzrostem jednej zmennej wzrasta druga Katarzyna Lubnauer 22
Przykładowe dagramy z podaną wartoścą korelacj Pearsona Katarzyna Lubnauer 23
Współczynnk korelacj rang Spearmana Współczynnk rang Spearmana jest marą statystyczną służącą do badana zależnośc, korelacj mędzy dwema cecham populacj, który stosujemy gdy: Mamy do czynena z sytuacją, gdy jedna z cech jest jakoścowa (nemerzalna), ale dająca sę uporządkować (porządkowa), a druga cecha jest merzalna. Gdy mamy dwe jakoścowe (nemerzalne), ale dające sę uporządkować Gdy mamy dwe cechy merzalne nedużą lczebność próby, zaś współczynnk korelacj Pearsona zakłócają wartośc odskakujące Musmy najperw zdefnować pojęce rangowana czyl przypsywana warantom cechy X, oraz cechy Y rang wynkających z kolejnośc w uporządkowanym szeregu szczegółowym. Katarzyna Lubnauer 24
Rangowane odbywa sę po uporządkowanu warantów cechy od najmnejszej do najwększej, następne przypsujemy każdemu warantow numer, który zajmuje w cągu. Jeśl klka warantów jest równe to rangą jest średną arytmetyczną kolejnych numerów przypadających na ten warant. Przykład: 2,4; 3,5; 3,5; 5; 2,4; 2,4; 3,5; 4; 5; 2,4 X x kolejność Rang r x 2,4 1-4 2,5 Uporządkowane kolejno z przypsanym rangam wyglądają tak, gdze : r x oznacza rangę warantu: 2,4 1-4 2,5 2,4 1-4 2,5 2,4 1-4 2,5 3,5 5-7 6 3,5 5-7 6 3,5 5-7 6 4 8 8 x 5 9-10 9,5 5 9-10 9,5 Katarzyna Lubnauer 25
Jeżel teraz mamy dwe cechy odpowedno X Y mające waranty: x przypsujemy m odpowedno rang:, y r x, r y To współczynnk rang Spearmana lczymy ze wzoru n 2 6 d r 1 gdze d r r nn ( 1) 1 s 2 x y Katarzyna Lubnauer 26
Uwaga, dla różnc rang zawsze zachodz zwązek: n 1 d 0 Ponadto współczynnk 1 r 1 s I co za tym dze: r s 1 Katarzyna Lubnauer 27
Przykład Badamy zależność mędzy wykształcenem, a dnam urlopu w czase roku: X Y podstawowe 24 średne 18 zasadncze zawodowe 17 wyższe magsterske 10 wyższe lcencjacke 9 podstawowe 22 zasadncze zawodowe 15 wyższe lcencjacke 8 podstawowe 23 wyższe magsterske 7 Katarzyna Lubnauer 28
Najperw wyznaczymy rang dla cechy jakoścowej, porządkowej jaką jest wykształcene. Musmy teraz przypsać rang, w tym celu najperw porządkujemy waranty: Teraz przypsujemy warantom rang, zgodne ze średną arytmetyczną numerów. Waranty Numery podstawowe 1-3 podstawowe 1-3 podstawowe 1-3 zasadncze zawodowe 4-5 zasadncze zawodowe 4-5 średne 6 wyższe lcencjacke 7-8 wyższe lcencjacke 7-8 wyższe magsterske 9-10 wyższe magsterske 9-10 Waranty Rang podstawowe 2 średne 6 zasadncze zawodowe 4,5 wyższe magsterske 9,5 wyższe lcencjacke 7,5 podstawowe 2 zasadncze zawodowe 4,5 wyższe lcencjacke 7,5 podstawowe 2 wyższe magsterske 9,5 Katarzyna Lubnauer 29
Teraz wyznaczymy rang dla cechy loścowej, jaką jest lczba dn wolnych. Musmy teraz przypsać rang, w tym celu najperw porządkujemy waranty: Teraz przypsujemy warantom rang, zgodne ze średną arytmetyczną numerów. Waranty Numery 7 1 8 2 9 3 10 4 15 5 17 6 18 7 22 8 23 9 24 10 Waranty Rang 24 10 18 7 17 6 10 4 9 3 22 8 15 5 8 2 23 9 7 1 Katarzyna Lubnauer 30
Cecha X Rang cechy X Cecha Y Rang cechy Y Różnca rang Kwadrat różncy rang x r x y ry d 2 d podstawowe 2 24 10-8 64 średne 6 18 7-1 1 zasadncze zawodowe 4,5 17 6-1,5 2,25 wyższe magsterske 9,5 10 4 5,5 30,25 wyższe lcencjacke 7,5 9 3 4,5 20,25 podstawowe 2 22 8-6 36 zasadncze zawodowe 4,5 15 5-0,5 0,25 wyższe lcencjacke 7,5 8 2 5,5 30,25 podstawowe 2 23 9-7 49 wyższe magsterske 9,5 7 1 8,5 72,25 suma 0 305,5 r s n 2 6 d 1 1 0,85152 2 nn ( 1) Katarzyna Lubnauer 31
Japończycy jedzą bardzo mało tłuszczu cerpą na mnej ataków serca nż Brytyjczycy czy Amerykane. Z drugej strony, Francuz jedzą dużo tłuszczu, a także cerpą na mnej ataków serca nż Brytyjczycy czy Amerykane. Japończycy pją bardzo mało czerwonego wna cerpą na mnej ataków serca nż Brytyjczycy czy Amerykane. Włos pją nadmerne lośc czerwonego wna, a także cerpą na mnej ataków serca nż Brytyjczycy czy Amerykane. Wnosk: Jedz pj co chcesz. To mówene po angelsku, że cę zabje. Katarzyna Lubnauer 32