Analiza statystyczna rozkładów cech determinujących rozwój sektora kreatywnego w powiatach. Polska (na podstawie danych )

Wielkość: px
Rozpocząć pokaz od strony:

Download "Analiza statystyczna rozkładów cech determinujących rozwój sektora kreatywnego w powiatach. Polska (na podstawie danych 2009-2012)"

Transkrypt

1 Analiza statystyczna rozkładów cech determinujących rozwój sektora kreatywnego w powiatach. Polska (na podstawie danych ) Część I. Opis bazy danych. Podstawą analizy zmian były dane statystyczne pozyskane z GUS; baza REGON; stan na 31.12; lata Dane statystyczne wykorzystano do : 1.analizy struktury rozkładów (ocena zróżnicowania w układzie powiatowym) w dwóch populacjach jednostek obserwacji. Podział jednostek obserwacji został podyktowany niejednorodnością populacji wejściowej, powiaty ze względu na liczbę zarejestrowanych podmiotów sektora kreatywnego wykazywały bardzo silną niejednorodność wynikającą ze zróżnicowania wywołanego specyfiką ujęcia powiatowego zbioru danych. Determinanty warunkujące rozwój sektora kreatywnego np. dla powiatu augustowskiego są całkowicie odmienne niż dla powiatu miasta Kraków; 2.budowa modeli regresji liniowej w celu wyodrębnienia tych zmiennych, które w sposób statystycznie istotny wpływały na zmiany w sektorze kreatywnym (próba odpowiedzi na pytanie jakie cechy ekonomiczno-społeczne charakteryzujące powiat oraz z jaką siłą mogły wpływać na decyzje o podjęciu działalności gospodarczej w tym sektorze). Wybór zmiennych opierał się na merytorycznej analizie przypuszczalnej zależności logiczno-merytorycznej oraz posiadanych w Bazie Lokalnej GUS informacji statystycznych. W analizie uwzględniono następujące zmienne (zbiór potencjalnych cech): Zmienna zależna: liczba podmiotów sektora kreatywnego zarejestrowana w bazie REGON w powiatach Polski; stan na dzień w kolejnych latach , przy czym dane empiryczne dla zmiennej 11 dotyczyły tylko lat Zmienne niezależne: Zmienna 1.Dochody ogółem budżetu powiatu na 1 mieszkańca w zł Zmienna 2.Wydatki ogółem budżetu powiatu na 1 mieszkańca w zł Zmienna 3.Wydatki na oświatę i wychowanie budżetu powiatu na 1 mieszkańca w zł Zmienna 4.Wydatki na kulturę i ochronę dziedzictwa narodowego budżetu powiatu na 1 mieszkańca w zł 1

2 Zmienna 5.Ludność w powiecie; ogółem Zmienna 6. Ludność w powiecie w grupie wiekowej 15 19; ogółem Zmienna 7.Ludność w powiecie w grupie wiekowej 20 24; ogółem Zmienna 8.Ludność w powiecie w grupie wiekowej 25 29; ogółem Zmienne 9. Udział ludności wg ekonomicznych grup wieku w % ludności; ogółem ( dotyczy ludności w wieku produkcyjnym ) Zmienna 10. Bezrobocie zarejestrowane; ogółem Zmienna 11. Całkowita wartość projektów w ramach Narodowych Strategicznych Ram Odniesienia według programów operacyjnych i źródeł finansowania w zł/mieszkańca. Baza danych prezentowała rozkłady wymienionych zmiennych we wszystkich powiatach w Polsce: N=380 powiatów. Wycinek wybranej bazy danych, dla przykładowo 2009 i 2011 roku ilustrują tabele 1 oraz 2. Tabela 1. Wycinek arkusza danych,rok 2009 (część końcowa, powiaty o maksymalnej liczbie podmiotów) Tabela 2. Wycinek arkusza danych, rok 2011 (wykaz powiatów alfabetycznie) Wstępna analiza danych pozwoliła stwierdzić, że warianty zmiennej zależnej (liczba podmiotów sektora kreatywnego) w kolejnych latach nie wykazywały znaczących zmian w 2

3 kontekście wzrostu lub spadku. Można było zauważyć, iż liczba podmiotów sektora kreatywnego dla powiatu m.st.warszawa we wszystkich badanych latach kształtowała się na zdecydowanie wysokim poziomie, powodując b.silną asymetrię rozkładów zmiennej zależnej. Ponadto, we wszystkich badanych latach w powiecie miasto Wałbrzych w bazie danych lokalnych (380 powiatów) nie zanotowano w latach podjęcia działalności w sektorze kreatywnym (wartość zmiennej zależnej wynosiła zero- należy zatem przyjąć,że dla tego powiatu danych w bazie brak). Wykres 1 ilustruje graficznie rozkłady zmiennej zależnej w latach Można zauważyć, że w każdym roku badanego okresu występuje w postaci gwiazdki wartość ekstremalna, odnosząca się do Warszawy, wartość minimalna równa zero dotyczy powiatu m.wałbrzych. Wykres 1. Rozkłady zmiennej zależnej w kolejnych latach okresu ;(N=380) Źródło: opracowanie własne przy użyciu Statistica 10 PL. W pozostałych tabelach i wykresach źródło identyczne. Ponadto wyraźnie zaznaczyły się w postaci gwiazdek dane dotyczące kilku powiatów na prawach miejskich, np. m.gdynia; Poznań czy Kraków. Występowanie dwóch zdecydowanie różnych wariantów zmiennej (dla Warszawy oraz Wałbrzycha) skutkowało przyjęciem bardzo wysokich wartości liczbowych przez dwie miary opisowe struktury rozkładów zmiennej zależnej (liczba podmiotów sektora kreatywnego), a mianowicie współczynnika zmienności oraz asymetrii (skośności), por. tabela 3. 3

4 Tabela 3. Miary opisowe rozkładów zmiennej zależnej w latach Prowadzenie analizy statystycznej dla wszystkich powiatów w takiej sytuacji byłoby merytorycznie nieuzasadnione. Ze zbiorów usunięto zatem dane dla tych dwóch powiatów. Zmiany w strukturze rozkładów ilustrują: wykres 2 oraz dane w tabeli 4. Wykres 2. Ilustracja graficzna rozkładów zmiennej zależnej w kolejnych latach okresu ;N=378); bez Warszawy i Wałbrzycha. Kształt rozkładów wykazuje mniejszą asymetrię i zróżnicowanie, co potwierdza większą jednorodność zbioru po usunięciu dwóch ekstremalnych wartości szczególnie dla powiatu m.warszawa. Stanowi to merytoryczną podstawę do podziału zbioru wejściowego na dwie populacje. Pierwsza nie będzie uwzględniać powiatów m.warszawa oraz m. Wałbrzych (z powodu braku danych). 4

5 Tabela 4. Miary opisowe rozkładów zmiennej zależnej w latach (bez Warszawy i Wałbrzycha). Wartości współczynnika zmienności zdecydowanie - po eliminacji Warszawy i Wałbrzycha - zmniejszyły się, ale nadal wskazywały na b.silne zróżnicowanie w stosunku do średniej liczby podmiotów, przypadającej na jeden powiat (od 317 w 2009 roku do 311 w roku 2012). Poziom liczbowy średniej arytmetycznej był nadal silnie zawyżony przez te powiaty, w których liczba podmiotów w sektorze kreatywnym była najwyższa. W kolejnych latach badanego okresu były to np.: powiat m. Kraków ( 6046 podmiotów w 2009 roku; 6612 podmioty w roku 2012) oraz m.poznań (4791 w 2009 roku; 5242 podmioty w roku 2012). Taka sytuacja spowodowała, iż współczynnik asymetrii nadal był b.wysoki (znacznie przekraczał umownie przyjmowaną jako górną granicę liczbę 2). Oznaczało to konieczność posługiwania się tylko miarami pozycyjnymi, np. medianą zamiast zawyżonej średniej arytmetycznej. Decyzja o użyciu łatwiejszej i częściej spotykanej w opisach - średniej arytmetycznej liczby podmiotów dla ilustracji sytuacji w sektorze kreatywnym w takiej sytuacji powinna być obarczona silnym akcentowaniem, że jest to średnia bardzo zawyżona. Dla podkreślenia siły zróżnicowania powiatów w Polsce ze względu na liczbę podmiotów w sektorze kreatywnym trzeba przedstawić wartości minimalne. W każdym roku badanego okresu najmniejsza liczba podmiotów w sektorze kreatywnym występowała w powiatach suwalskim (24 podmioty w roku 2009 i 28 w 2012) oraz sejneńskim (26 w roku 2009; 24 podmiotów w 2012 roku). Zatem rozstęp między minimalną i maksymalną liczba podmiotów w sektorze kreatywnym w kolejnych latach okresu był stosunkowo najmniejszy (ok.6000 obiektów w roku 2009 ), natomiast zwiększył się do prawe 6600 w roku W takiej sytuacji zdecydowano przeprowadzić analizę statystyczną dla dwóch populacji, a mianowicie: - pierwszą stanowiły wszystkie powiaty z wyłączeniem Warszawy i Wałbrzycha (n=378); 5

6 - drugą stanowiły wszystkie powiaty z wyłączeniem (oprócz m.warszawy i m.wałbrzych) tych powiatów, w których liczba podmiotów w sektorze kreatywnym przekraczała Były to odpowiednio: 1. rok 2009: m.szczecin (2538 podmioty), powiat m.gdańsk (2587), m.łódź (3524), m.wrocław (4509),m.Poznań(4791) i m.kraków (6046); 2. rok 2010: powiat m.gdańsk (2694 podmioty), m.szczecin (2712), m.łódź (3798), m.wrocław (4814),m.Poznań(5017) i m.kraków (6562); 3. rok 2011: m.szczecin (2642 podmioty), powiat m.gdańsk (2689), m.łódź (3740), m.wrocław (5001),m.Poznań(5001) i m.kraków (6616); 4. rok 2012: m.szczecin (2551 podmioty), powiat m.gdańsk (2728), m.łódź (3867), m.wrocław (5116),m.Poznań(5242) i m.kraków (6612). W zbiorach tych pominięto oczywiście powiat m.warszawa oraz Wałbrzych. Druga populacja zawierała zatem 372 powiaty. Wykres 3 prezentuje rozkłady zmiennej zależnej dla drugiej populacji (N=372 powiaty). Rozkłady charakteryzuje nadal silna asymetria, jednak nie występują powiaty o zdecydowanie różnej od pozostałych liczbie podmiotów w sektorze kreatywnym. Wykres 3. Ilustracja graficzna rozkładów zmiennej zależnej w kolejnych latach okresu (populacja N=372) 6

7 Zdecydowanie niższą asymetrię rozkładów w populacji po usunięciu 8 powiatów odstających charakteryzują poziomy współczynnika asymetrii (por.tabl.5). Stanowi to większe uzasadnienie do użycia modelu regresji liniowej w celu wyodrębnienia determinant podejmowania działalności w sektorze kreatywnym. Tabela 5. Miary opisowe rozkładów zmiennej zależnej w latach (druga populacja;n=372). Populacja druga jest bardziej homogeniczna, występuje zdecydowanie mniejsze zróżnicowanie pomiędzy powiatami ze względu na liczbę podmiotów w sektorze kreatywnym. W takiej sytuacji wyróżnione determinanty mogą działać z podobną siłą oraz kierunkiem we wszystkich powiatach, co ma przede wszystkim znaczenie w trafności dokonywanych prognoz i budowy podobnych strategii. Część 2. Badanie korelacji pomiędzy zmiennymi. Występowanie silnej asymetrii rozkładów zmiennej przyjętej jako zależnej (liczba podmiotów sektora kreatywnego) powoduje odrzucenie hipotezy o zgodności rozkładu tej zmiennej z rozkładem normalnym, a jest to podstawowe założenie stosowania modelu regresji prostej w celu określenia determinant działalności gospodarczej w sektorze kreatywnym, charakteryzowanej liczba podmiotów podejmujących taką działalność w Polsce (ujecie powiatowe) w latach W celu potwierdzenia przypuszczenia, że taka sytuacja występuje w odniesieniu do przyjętej zmiennej zależnej użyto testu Shapiro-Wilka (SW-W) do weryfikacji hipotezy o normalności rozkładu liczby podmiotów w sektorze kreatywnym. Wykres 4 prezentuje przebieg rozkładów empirycznych oraz wartości testu SW-W i prawdopodobieństwa testowe p-value dla pierwszej populacji powiatów (N=378). 7

8 Wykres 4. Rozbieżność rozkładów zmiennej zależnej z rozkładem normalnym; (populacja pierwsza - bez Warszawy i Wałbrzycha) Wartość testu SW-W 0,36 oraz prawdopodobieństwa testowe p-value = 0,0000 powodują dla rozkładów zmiennej zależnej w każdym roku badanego okresu odrzucenie hipotezy o normalności rozkładów liczby podmiotów w sektorze kreatywnym. Decyzja została podjęta przy najczęściej przyjmowanym - poziomie istotności α = 0,05 i jest jednoznaczna, tzn. przy każdym innym α 0,10 nie może być zmieniona na odwrotną, bowiem p = 0,000. Budowa modelu liniowej regresji jest więc obarczona występowaniem silnej asymetrii rozkładów zmiennej zależnej w kolejnych latach Model ten, że względu na łatwość interpretacji otrzymanych wyników może być użyty, ale interpretacja musi odbywać się z ostrożnością w formułowaniu końcowych wniosków. W odniesieniu do drugiej populacji powiatów (N=372) rozbieżność rozkładów empirycznych z rozkładem normalnym prezentuje wykres 5. 8

9 Wykres 5. Rozbieżność rozkładów zmiennej zależnej z rozkładem normalnym; (populacja druga; N=372 powiaty) Zgodnie z procedurą weryfikacji hipotezy o normalności również i w przypadku drugiej populacji powiatów należy odrzucić hipotezę zerową o zgodności, jednak poziom testu Shapiro-Wilka w tym przypadku podwoił się w stosunku do rozkładów w populacji pierwszej, co sygnalizuje zdecydowanie większe, aczkolwiek jeszcze nie wystarczające podobieństwo przebiegu zgodnego z rozkładem normalnym (symetrycznym). Przed przystąpieniem do budowy modelu konieczna jest ponadto ocena siły korelacji pomiędzy zmiennymi. Ocena ta powinna udokumentować wykluczenie z początkowego, potencjalnego zbioru zmiennych niezależnych zmiennych, które wykazują silne skorelowanie z innymi zmiennymi. Pozostawienie w modelu zmiennych niezależnych silnie skorelowanych ze sobą oddziałuje negatywnie na trafność wyodrębnienia trafnych determinant. W odniesieniu do rozkładów zmiennych objaśniających (niezależnych zwanych regresantami) w dwóch populacji podmiotów sektora kreatywnego asymetria ich rozkładów może być oceniona jako umiarkowana, przy czym dla zdecydowanej większości współczynniki asymetrii są niższe w przypadku drugiej populacji. 9

10 Tabela 6. Miary opisowe dla poszczególnych zmiennych niezależnych w 2009 roku ; populacja pierwsza (N=378) Tabela 7. Miary opisowe dla poszczególnych zmiennych niezależnych w 2009 roku; populacja druga (N=372) Należy zauważyć, że zróżnicowanie w ujęciu powiatów rozkładu zmiennej 9 (udział ludności wg ekonomicznych grup wieku w % ludności; ogółem; dotyczy ludności w wieku produkcyjnym) jest b.niskie, na co wskazuje poziom współczynnika zmienności < 10% i to w odniesieniu do obu populacji. W związku z tym zmienna 9 powinna być usunięta ze zbioru potencjalnych zmiennych już na tym etapie. Należy dodać, uprzedzając analizę dla pozostałych trzech lat, że sytuacja ta występowała w każdym roku. Aby zbadać siłę korelacji pomiędzy zmiennymi w celu eliminacji tych zmiennych objaśniających, które są silnie ze sobą skorelowane wybrano współczynnik korelacji liniowej Pearsona. W związku z dość silną asymetrią oraz rozbieżność z rozkładem normalnym rozważano użycie współczynnika korelacji rang Spearmana, gdyż pomimo usunięcia danych dla Warszawy i Wałbrzycha ( populacja pierwsza) oraz powiatów, w których liczba podmiotów sektora kreatywnego przekraczała 2000 (populacja druga) współczynniki asymetrii były dosyć stosunkowo wysokie. Jednak liczebność obu populacji jest tak duża, że brak jest uzasadnienia dla stosowania współczynnika rang Spearmana, który może zastąpić współczynnik Pearsona dla zdecydowanie małych liczebnie zbiorów danych. 10

11 Ponadto należy zauważyć, że zastępowania wartości liczbowych rzeczywistych rangami uodparnia na asymetrię rozkładu ale również wiąże się to z utratą informacji, spowodowaną przejściem na skalę słabszą. Przed analizą korelacji wysunąć można hipotezę, że będzie ona przynosić podobne wyniki dla kolejnych lat okresu , bowiem podobieństwo rozkładów zarówno zmiennej zależnej, jak i wybranych potencjalnych zmiennych objaśniających, dokumentowane graficznie oraz za pomocą miar opisu struktury było mocno zauważalne. Zatem zmienne objaśniające (determinanty) w modelach regresji będą identyczne dla każdego roku z lat tabela 8. Poziomy liczbowe współczynnika korelacji Pearsona dla populacji pierwszej prezentuje Tabela 8. Współczynniki korelacji Pearsona 2009 (populacja pierwsza) Dokonując analizy poziomów współczynnika korelacji kolejnych zmiennych objaśniających ze zmienną zależną ( ważne dla decyzji są wartości wysokie, bliskie +/- 1,00) oraz poziomy współczynników zależności pomiędzy zmiennymi (wartości jak najmniejsze), a także wykorzystując fakt, iż pakiet komputerowy STATISTICA prezentuje w kolorze czarnym zależność statystycznie nieistotną należałoby zostawić w zbiorze przypuszczalnych determinant jako niezależne (objaśniające) w modelu regresji liniowej dla populacji pierwszej ( bez Warszawy i Wałbrzycha) następujące zmienne: Zmienna 2 - Wydatki ogółem budżetu powiatu w zł/na 1 mieszkańca, Zmienna 3 - Wydatki na oświatę i wychowanie budżetu powiatu w zł/na 1 mieszkańca, Zmienna 4 Wydatki na kulturę i ochronę dziedzictwa narodowego budżetu powiatu na 1 mieszkańca w zł/mieszkańca Zmienna 10 - Bezrobocie zarejestrowane; ogółem. Zmienne: 1 ( silnie skorelowana ze zmienną 2); zmienne 5; 6; 7; 8 (silnie skorelowane z innymi zmiennymi) zostały usunięte ze zbioru początkowego. 11

12 Tabela 9. Współczynniki korelacji liniowej Pearsona 2009 (populacja druga) W odniesieniu do populacji drugiej (o większej jednorodności, co prezentowały stosunkowo niskie współczynniki skośności) należałoby zostawić w zbiorze przypuszczalnych determinant następujące zmienne: nr.2; 3; 4; 10. Należy zauważyć, że zarówno zmienna 4 jak i 10 wykazały statystyczną nieistotność korelacji z kilkoma innymi zmiennymi objaśniającymi. Podobną analizę, będącą podstawą usuwania zmiennych potencjalnych w oparciu o współczynniki korelacji przeprowadzano każdorazowo poniżej w odniesieniu do wyników dla lat I tak w wyniku przeprowadzenia identycznej rozważań dla danych roku 2010 otrzymujemy: Tabela 10. Miary opisowe dla poszczególnych zmiennych niezależnych w 2010 roku ; populacja pierwsza (N=378) 12

13 Tabela 11. Miary opisowe dla poszczególnych zmiennych niezależnych w 2010 roku; populacja druga (N=372) Tabela 12. Współczynniki korelacji Pearsona 2010 (populacja pierwsza) Dokonując analizy siły korelacji ze zmienną zależną, siłę skorelowania z innymi cechami oraz biorąc pod uwagę zaznaczone kolorem czarnym statystycznie nieistotne poziomy należałoby zostawić następujące zmienne objaśniające w zbiorze cech diagnostycznych dla roku 2010 ( w populacji powiatów bez Warszawy i Wałbrzycha): 1 - dochody ogółem budżetu powiatu, 3 - wydatki na oświatę i wychowanie budżetu powiatu na 1 mieszkańca, 10- bezrobocie zarejestrowane ogółem. Zmienna 4 - wydatki na kulturę i ochronę dziedzictwa narodowego budżetu powiatu na 1 mieszkańca w zł/mieszkańca wykazała statystyczną nieistotność współzależności z kilkoma innymi zmiennymi objaśniającymi. W porównaniu z wynikami otrzymanymi dla danych roku 2009, tym razem należy w zbiorze zostawić zmienna 1, bowiem poziom liczbowy współczynnika korelacji jest wyższy dla zmiennej 1 (przy silnej korelacji miedzy zmienna 1 i 2). Otrzymane poziomy współczynnika korelacji Pearsona dla populacji drugiej zaprezentowano w tabeli 13: 13

14 Tabela 13. Współczynniki korelacji liniowej Pearsona 2010 (populacja druga) W zbiorze potencjalnych zmiennych w odniesieniu do populacji drugiej (2010) zostają następujące zmiennej objaśniające: nr. 1; 3; 10. Zmienna 4 wykazała nieistotność statystyczną zależności ze zmienną zależną. Zmienna 2 wykazała nieco słabszą siłę korelacji ze zmienną zależną. Poniżej zaprezentowano w tabelach procedurę dla roku 2011.Przypomnijmy,że nadal zmienna 9 ze względu na b. niskie zróżnicowanie powinna być usunięta (współczynnik zmienności < 10%). Tabela 14. Miary opisowe dla poszczególnych zmiennych w 2011 roku (populacja pierwsza) 14

15 Tabela 15. Miary opisowe dla poszczególnych zmiennych w 2011 roku (populacja druga) Tabela 16. Współczynniki korelacji Pearsona 2011 (populacja pierwsza) W zbiorze potencjalnych zmiennych w odniesieniu do populacji pierwszej (2011) zostają następujące zmiennej objaśniające: nr. 2; 3; 10; 11. Zmienna 4 wykazała nieistotność statystyczną zależności z kilku innymi zmiennymi. Tabela 17. Współczynniki korelacji liniowej Pearsona 2011 (populacja druga) Natomiast w zbiorze potencjalnych zmiennych w odniesieniu do populacji drugiej (2011) zostają następujące zmiennej objaśniające: nr. 1; 2; 3; 10; 11. Zmienna 4 wykazuje w tym przypadku statystycznie nieistotną zależność ze zmienną zależną. 15

16 Dla ostatniego roku badanego okresu, tzn. dla 2012 roku otrzymujemy w wyniku badania struktury rozkładów oraz oceny korelacji następujące wyniki, zamieszczone w tabelach 18-21: Tabela 18. Miary opisowe dla poszczególnych zmiennych w 2012 roku (populacja pierwsza) Tabela 19. Miary opisowe dla poszczególnych zmiennych w 2012 roku (populacja druga) Tabela 20. Współczynniki korelacji Pearsona 2012 (populacja pierwsza) 16

17 Tabela 21. Współczynniki korelacji Pearsona 2012 (populacja druga) W wyniku oszacowania siły i kierunku korelacji miedzy zmiennymi podjęto w oparciu o poziomy liczbowe i statystyczną istotność następujące decyzje odnośnie roku 2012: - w odniesieniu do populacji pierwszej w zbiorze zmiennych potencjalnych zostają zmienne: 2; 3; 4;10;11 - w odniesieniu do populacji drugiej 2;3;10;11. Zmienna 4 wykazała nieistotność statystyczną zależności korelacyjnej z kilku innymi zmiennymi. Podsumowując analizę korelacji należy zauważyć, że w zbiorach zmiennych objaśniających (przypuszczalnych determinant) znajdowały się, tak jak przypuszczano prawie identyczne dla kolejnych lat okresu zestawy zmiennych objasniających. Ostatecznie zdecydowano, że do modelu regresji jako zmienne diagnostyczne kwalifikują się zmienne: - nr.1 czyli dochody ogółem budżetu powiatu na 1 mieszkańca w zł -nr.2 wydatki budżetu powiatu na 1 mieszkańca w zł - nr.3 wydatki na oświatę i wychowanie budżetu powiatu na 1 mieszkańca w zł - nr.4 wydatki na oświatę i ochronę dziedzictwa narodowego budżetu powiatu na 1 mieszkańca w zł -nr.10 bezrobocie zarejestrowane; ogółem oraz dla lat 2011 i 2012 : nr.11. całkowita wartość projektów w ramach Narodowych Strategicznych Ram Odniesienia według programów operacyjnych i źródeł finansowania w zł/mieszkańca. 17

18 Część. 3 Modele liniowej regresji wielorakiej. W celu wyodrębnienia determinant działalności podmiotów gospodarczych w sektorze kreatywnym w ujęciu powiatowym w kolejnych latach okresu zbudowano modele dla dwóch wyróżnionych populacji przy wyżej wymienionym zestawie zmiennych objaśniających, wyłonionych w wyniku analizy zmienności rozkładów zmiennych objaśniających oraz analizy korelacji pomiędzy tymi zmiennymi. Każdorazowo zaprezentowano poniżej wartości parametrów przy kolejnych zmiennych objaśniających, oceniono ich statystyczną istotność, przeprowadzono analizę reszt (w tym zbadano zjawisko autokorelacji reszt za pomocą testu Durbina-Watsona). Wyznaczono współczynnik determinacji liniowej modelu w celu oceny własności diagnostycznych i prognostycznych. Algorytm modelu regresji dla n- elementowej populacji oraz k- zmiennych objaśniających badanej ma postać: yi = a1 x1i + a2 x2i ak xki + b + zi (1) przy czym : (Sa1) (Sa2) (Sak) (Sb) (Sz) ( t a α1, s ) ( t a α2, s ) ( t a αk, s ) ( t bb, s (pa1) (pa2) (pak) (pb) ) gdzie: yi; ak; b; Sak; Sz; t ak α, s ; t b α, s oraz pak i pb odpowiednio: realizacja zmiennej zależnej; współczynniki regresji; wyraz wolny; odchylenia standardowe przy parametrach funkcji regresji; odchylenie standardowe w rozkładzie składnika resztowego; statystyki z próby (test t- Studenta) oraz prawdopodobieństwa testowe, służące weryfikacji hipotez o statystycznej nieistotności parametrów liniowej funkcji regresji; i = 1,2,.,n. Wnioskom z oszacowań współczynników regresji w modelu towarzyszyć będzie analiza wariancji (w celu oceny łącznego wpływu determinant), prezentacja współczynników korelacji między zmiennymi objaśniającymi w modelu (w celu oceny interakcji tych zmiennych) oraz badanie zgodności składnika resztowego z rozkładem normalnym, a także wyniki weryfikacji hipotezy o braku autokorelacji w oparciu o test Durbina Watsona 1. Zestaw wymienionych procedur pozwoli na wyodrębnienie determinant, warunkujących rozkłady zmiennej zależnej oraz ocenę przydatności modelu z użyciem tych determinant dla celów prognostycznych. 1 Szczegółowe informacje dotyczące zagadnienia liniowej regresji wielorakiej można znaleźć w podręczniku A.Luszniewicza i T.Słaby. Statystyka z pakietem komputerowym STATISTICA PL. Teoria i zastosowania. Wyd.III zmienione. Wydawnictwo C.H.Beck,2008; s

19 Model liniowej regresji wielorakiej. Rok 2009 populacja pierwsza (bez Warszawy i Wałbrzycha) Wydruk 1. Parametry modelu regresji liniowej Wydruk 2.Analiza wariancji. Wydruk 3. Macierz współczynników interakcji Wykres 1. Badanie normalności rozkładu reszt 19

20 Wydruk 4. Badanie autokorelacji reszt Na podstawie zaprezentowanych powyżej w wydrukach 1-4 oraz wykresie 1 można stwierdzić, że w odniesieniu do danych z roku 2009 i populacji 378 powiatów (populacja pierwsza bez Warszawy i Wałbrzycha): - rzeczywisty i statystycznie istotny wpływ na zmienną zależną (liczba podmiotów sektora kreatywnego) miała zmienna 2 czyli wydatki budżetu powiatu na 1 mieszkańca w zł, zmienna 4 czyli wydatki na oświatę i ochronę dziedzictwa narodowego budżetu powiatu na 1 mieszkańca w zł (ale przy poziomie istotności 0,10) oraz zmienna 10 (wielkość bezrobocia zarejestrowanego). Uzupełnienie wyników modelu analizą współczynników interakcji pozwala zauważyć determinujacy wpływ na zmienną zależną zmiennej 4 (wydatki na oświatę i ochronę dziedzictwa narodowego budżetu powiatu na 1 mieszkańca w zł), natomiast bezrobocie nie wykazało statystycznie istotnej interacji z tymi dwiema determinantami. Można zatem uznać, że dwie zmienne nr.2 oraz 4 warunkowały (wpływały) na rozklady zmiennej zależnej w ujęciu powiatowym,czyli lczba podmiotów sektora kreatywnego była determinowana przez wydatki budżetu ogółem oraz wydatki na kulturę i ochronę dziedzictwa narodowego; - własności diagnostyczne modelu z tymi zmiennymi należy ocenic jako umiarkowane, bowiem współczynnik determinacji liniowej R 2 wynosi 45,5%, czyli niecała połowa zróżnicowania rozkładów liczby podmiotów sektora kreatywnego była wyjaśniona łacznie zmiennością rozkładów wydatków budżetów ogółem oraz wydatków na kulture i dziedzictwo narodowa na 1 mieszkańca; - łączny wpływ wyróżnionych został pozytywnie potwierdzony wynikami analizy wariancji (odrzucenie hipotezy o braku zależności regresyjnej); - na podytsawie analizy reszt oraz wystepowanie zjawiska autokorelacji reszt nie pozwalają na ocenę pozytywną kwalifikacji tego modelu dla celów prognostycznych. W odniesieniu do populacji drugiej, bardziej jednorodnej, o niższym w ujeciu powiatowym - zróżnicowaniu rozkładów zmiennych otrzymano wyniki prezentowane w wydrukach 5-8 oraz na wykresie 2: 20

21 Rok 2009 populacja druga (bez Warszawy i Wałbrzycha i 6 miast o najwyższej liczbie obiektów sektora kreatywnego), N=372 Wydruk 5. Parametry modelu liniowej regresji Wydruk 6.Analiza wariancji. Wykres 2. Badanie normalności reszt. Wydruk 7. Macierz współczynników interakcji 21

22 Wydruk 8. Badanie autokorelacji* *Optymalna wartość testu D-W wynosi 2. W odniesieniu do populacji drugiej mniej zróżnicowanej w modelu liniowej regresji ujawniła się siła działania oprócz zmiennej 2 i 10 również zmiennej 3 ( wydatki na oświatę i wychowanie budżetu powiatu na 1 mieszkańca),jednak model ten charakteryzuje się niższą 36,6% determinacją,zatem mniejsze zróznicowanie rozkładów w drugiej populacji nie przyniosło spodziewanego większego efektu diagnostycznego. Analiza wariancji potwierdza, że te trzy zmienne mają łączny wpływ na zmienną zależną (liczba podmiotów). Jednak badanie rozkładu reszt również i w tym przypadku nie pozwala na dokonywanie trafnych prognoz w oparciu o ten model. Dane dotyczące 2010 roku dostarczyły prawie identycznych wyników, wobec tego bez prezentacji wydruków i wykresów - można jedynie stwierdzić, że: - współczynnik determinacji dla modelu liniowej regresji w przypadku pierwszej populacji powiatów wyniósł 44%, dla drugiej 36%, co potwierdzało stosunkowo niska wartość diagnostyczna modeli; - w modelu pierwszym statystyczną istotność jako determinanty zróżnicowania wartości zmiennej zależnej wykazały zmienna 1 (dochody budżetów ogółem) oraz zmienna 10. Natomiast dla populacji drugiej tylko zmienna 4 ( wydatki na kulturę i ochronę dziedzictwa) okazała się statystycznie nieistotna, aczkolwiek w działaniu interakcyjnym wpływała łącznie na zmienna zależną ze zmiennymi 1,2 oraz 3; - analiza reszt nie potwierdziła walorów prognostycznych modeli dla obu populacji powiatów. W bazie danych dotyczących kolejnych dwu lat, tzn.2011 i 2012 pojawiła się nowa zmienna nr.11 (Całkowita wartość projektów w ramach Narodowych Strategicznych Ram Odniesienia według programów operacyjnych i źródeł finansowania w zł/mieszkańca), której znaczenie diagnostyczne wpływu na działalność sektora kreatywnego powinno być znaczące. 22

23 Poniżej w wydrukach 9-12 oraz na wykresie 3 dla roku 2011 (populacja pierwsza) oraz wydrukach i na wykresie 4 (populacja druga) zostaną zaprezentowane wyniki analizy modelowej liniowej regresji, wariancji i rozkładu reszt w celu wyłonienia statystycznie istotnych determinant (zmiennych objaśniających) w oparciu o dane 2011 i 2012 roku. Tak jak, poprzednio decyzje są podejmowane przy poziomie istotności α = 0,05, a jeżeli p < 0,05 zmienna objaśniająca (determinanta) jest uznawana za statystycznie istotnie warunkującą zróżnicowanie rozkładu zmiennej zależnej (w wydrukach decyzje pozytywne są w kolorze czerwonym). Zbiór zmiennych diagnostycznych, zastosowany do modelowania w oparciu o dane z lat , tzn do zmiennych nr. 1; 2 ;3; 4,wyodrębnionych dzięki analizie zróżnicowania rozkładów oraz korelacji między zmiennymi został powiększony o zatem zmienną 11.Jest to zmienna o charakterze ekonomicznym, odzwierciedlająca pomoc z budę tu państwa oraz programów unijnych, mogąca mieć statystycznie istotny wpływ na wzrost liczby podmiotów sektora kreatywnego. Wcześniejsza analiza korelacji pomiędzy potencjalnymi zmiennymi objaśniającymi (por. tabl.16 i 17) wskazywała na silna i dodatnia współzależność tej zmiennej ze zmienną, charakteryzującą liczbę podmiotów w sektorze kreatywnym w ujęciu powiatowym, przy czym ta zależność była znacznie silniejsza w populacji pierwszej bowiem współczynnik korelacji liniowej Pearsona wynosił 0,73 wobec 0,53 dla populacji drugiej (bez dużych powiatów na prawach miejskich). Analiza wpływu tej zmiennej została zaprezentowana w modelu regresji (por.wydruk 9 i 13) Rok 2011 populacja pierwsza Wydruk 9. Parametry modelu liniowej regresji 23

24 Wydruk 10. Analiza wariancji. Wykres 3. Badanie normalności reszt. Wydruk 11. Macierz współczynników interakcji Wydruk 12. Badanie autokorelacji Wprowadzenie do modelu regresji zmiennej nr. 11,prezentującej środki finansowe ( wartość projektów w ramach Narodowych Strategicznych Ram Odniesienia według programów operacyjnych i źródeł finansowania w zł/mieszkańca) znacznie poprawiło walory diagnostyczne, bowiem współczynnik determinacji liniowej dla populacji pierwszej wzrósł do 64%, natomiast w populacji drugiej do 45%. Oznaczało to większy łączny wpływ zmiennych 24

25 statystycznie istotnych, tzn. zmiennej nr.1 (dochody budżetów); wydatki ogółem oraz wartość projektów na wzrost liczby podmiotów sektora kreatywnego populacja druga Wydruk 13. Parametry modelu liniowej regresji Wydruk 14. Analiza wariancji. Wykres 4. Badanie normalności reszt. 25

26 Wydruk 15. Macierz współczynników interakcji Wydruk 16. Badanie autokorelacji Nieco mniejsze znaczenie wpływu zmiennej 11 (wartość projektów unijnych) można zaobserwować na podstawie danych dotyczących 2012 roku, współczynnik regresji przy tej zmiennej zmalał z poziomu średniego w skali powiatu z 0,280 mln zł/1 powiat w 2011 roku do 0,135 mln zł w 2012 roku ( w odniesieniu do pierwszej populacji) oraz z 0,119 mln zł do 0,048 mln zł ( populacja druga). Rok 2012 Populacja pierwsza Wydruk 17. Parametry modelu liniowej regresji 26

27 populacja druga Wydruk 18. Parametry modelu liniowej regresji Nadal wydatki ogółem wraz ze wartością projektów oraz w nieznacznym stopniu bezrobocie w znaczący sposób determinowały liczbę podmiotów sektora kreatywnego w 2012 roku, na co wskazuje współczynnik determinacji liniowej na poziomie 63% (populacja pierwsza) oraz 40% (populacja druga). Wioski końcowe. Budowa strategii w polityce gospodarczej, sprzyjającej stymulowaniu rozwoju przemysłów wymaga znajomości uwarunkowań jej realizacji. W odniesieniu do przemysłów kreatywnych determinanty rozwoju pochodzą z dwóch źródeł,a mianowicie kreatywności człowieka (w tym określonych zdolności typu artystycznego) oraz instrumentów ekonomicznych, których działanie jest niezależne od osób, które chcą prowadzić działalność gospodarczą w sektorze kreatywnym. Ważna dla strategii jest zaszłość historyczna, a konkretnie zróżnicowanie dotychczasowej bazy w ujęciu geograficznym i administracyjnym. Strategia opiera się zwyczajowo na diagnoza sytuacji w latach poprzednich. W niniejszym opracowaniu dysponowano bazą danych za lata w ujęciu 380 powiatów. W celach diagnostycznych przeprowadzono analizę struktury rozkładów zmiennej zależnej czyli liczby podmiotów sektora kreatywnego zarejestrowanych w bazie REGON w powiatach Polski; stan na dzień w kolejnych latach oraz 11 zmiennych niezależnych, przy czym dane empiryczne dla zmiennej 11 dotyczyły tylko lat Wybór zmiennych niezależnych podyktowany był względami merytorycznymi oraz danymi z Bazy Lokalnej GUS. Merytoryczna analiza, oparta na literaturze przedmiotu wskazywała na przypuszczalne cechy demograficzno- ekonomiczno- społeczne, mogące determinować rozwój sektora rozumiany jako pozytywny wpływ na wzrost liczby podmiotów prowadzących działalność w 27

28 sektorze przemysłów kreatywnych. Przyjęte do analizy zmienne niezależne ( potencjalne determinanty charakteryzowały sytuację ekonomiczną ( dochody i wydatki budżetu gmin), cechy demograficzne ludności zamieszkałej w powiatach Polski, społeczne (bezrobocie) oraz od 2011 roku wartość Pomocy zewnętrznej (projekty unijne). W pierwszym etapie zwanym czyszczeniem danych zauważono brak danych dla powiatu m.wałbrzych oraz zdecydowanie odmienną od pozostałych sytuację w powiecie m.warszawa. Był to sygnał do usunięcia tych dwóch przypadków z bazy danych (pozostałe dane w liczbie 378 powiatów stworzyły tzw. populację pierwszą). Konieczność takiego kroku potwierdziły b.wysokie współczynniki asymetrii dla rozkładów wszystkich zmiennych. Analiza struktury zmiennych dla pierwszej populacji wskazywała na nadal występującą silną asymetrie rozkładów, co zdecydowało o budowie drugiej populacji, bez 6 powiatów na prawach miejskich, w których liczba podmiotów sektora kreatywnego znacznie różniła się od pozostałych. W rezultacie otrzymano populację drugą o liczbie 372 powiatów, bardziej jednorodną (homogeniczną). Przypuszczano bowiem, iż silne zróżnicowanie powiatów ze względu na przyjęte cechy mogłoby w sposób istotnie negatywny wpłynąć na trafność diagnozy oraz walory prognostyczne modelu w wyniku wyłonienia się nieefektywnych determinant. Budowa modeli liniowej regresji wielorakiej w celu weryfikacji wartości informacyjnej determinant wymagała przeprowadzenia analizy zróżnicowania rozkładów zmiennych objaśniających względem badanych obiektów oraz ich skorelowania między sobą, co określi potencjał informacyjny. W wyniku analizy zróżnicowania usunięto zmienną informującą o udziale ludności według ekonomicznych grup wieku w % ludności ogółem, natomiast analiza korelacji wyeliminowała zmienne demograficzne, definiujące odsetek ludności w grupach wiekowych. Ostatecznie do modeli wprowadzono wyłącznie zmienne ekonomiczne, opisujące dochody, wydatki ogółem w tym wydatki na oświatę i kulturę. Statystycznie istotne, ale o b, niewielkim wpływie liczbowym było bezrobocie. Natomiast od 2011 roku diagnoza w oparciu o modele wzbogaciła się siłą determinacji zmienną o wpływie środków zewnętrznych (z budżetu państwa lub ze środków zagranicznych) na budżet gminy, tzn. z Narodowych Strategicznych Ram Odniesienia z Programu Operacyjnego Innowacyjna Gospodarka. Podsumowując wyniki analizy statystycznej, należy stwierdzić bardzo zróżnicowaną sytuację w ujęciu powiatów, co powoduje zalecenie ostrożności w posługiwaniu się średnią arytmetyczną w analizach, służących budowie projektów, która była każdorazowo w badanym okresie silnie zawyżona. Ponieważ trudno spodziewać się szybkiej likwidacji nierówności w skali powiatów, uwaga ta będzie słuszna przez przynajmniej kilka następnych lat. Zaleca się 28

29 zatem przeprowadzanie analiz w grupach powiatów lub miast znacznie bardziej jednorodnych ( podobnych ). W odniesieniu do wyodrębnienia determinant należy zauważyć, że statystycznie istotne znaczenie, aczkolwiek o niebyt dużej sile wpływu miały dotychczas (w latach ) wyłącznie te zmienne, które charakteryzują gospodarkę finansową gmin, dochody i wydatki budżetów oraz pomoc zewnętrzną. 29

30 Dodatek nr.1 Model regresji rok 2010 Populacja pierwsza Analiza wariancji 30

31 2010 populacja druga 31

32 Dodatek 2. Rok 2012 Populacja pierwsza Wydruk.1 Parametry modelu liniowej regresji Wydruk 2. Analiza wariancji. 32

33 Wykres 1. Badanie normalności reszt. Wydruk 3. Macierz współczynników interakcji 33

34 Wydruk 4. Badanie autokorelacji Rok 2012 populacja druga Wydruk 5. Parametry modelu liniowej regresji Wydruk 6. Analiza wariancji. 34

35 Wykres 2. Badanie normalności reszt. Wydruk 7. Macierz współczynników interakcji Wydruk 8. Badanie autokorelacji 35

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji

Bardziej szczegółowo

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy

Bardziej szczegółowo

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny

Bardziej szczegółowo

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 Zadanie 1 a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 b) W naszym przypadku populacja są inżynierowie w Tajlandii. Czy można jednak przypuszczać, że na zarobki kobiet-inżynierów

Bardziej szczegółowo

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y). Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych

Bardziej szczegółowo

Badanie zależności skala nominalna

Badanie zależności skala nominalna Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Analiza Współzależności

Analiza Współzależności Statystyka Opisowa z Demografią oraz Biostatystyka Analiza Współzależności Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego Metody Analiz Przestrzennych Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego mgr Marcin Semczuk Zakład Przedsiębiorczości i Gospodarki Przestrzennej Instytut

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31 Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38 Statystyka Wykład 8 Magdalena Alama-Bućko 23 kwietnia 2017 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 1 / 38 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ Korelacja oznacza fakt współzależności zmiennych, czyli istnienie powiązania pomiędzy nimi. Siłę i kierunek powiązania określa się za pomocą współczynnika korelacji

Bardziej szczegółowo

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp tel.: +48 662 635 712 Liczba stron: 15 Data: 20.07.2010r OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA z wykorzystaniem programu obliczeniowego Q maxp DŁUGIE

Bardziej szczegółowo

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Korelacja krzywoliniowa i współzależność cech niemierzalnych Korelacja krzywoliniowa i współzależność cech niemierzalnych Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek: Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych I KARTA PRZEDMIOTU CEL PRZEDMIOTU Informatics systems for the statistical treatment of data Kierunek: Forma studiów Informatyka Stacjonarne

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;

Bardziej szczegółowo

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,

Bardziej szczegółowo

Ćwiczenia IV

Ćwiczenia IV Ćwiczenia IV - 17.10.2007 1. Spośród podanych macierzy X wskaż te, których nie można wykorzystać do estymacji MNK parametrów modelu ekonometrycznego postaci y = β 0 + β 1 x 1 + β 2 x 2 + ε 2. Na podstawie

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku Przykład 2 Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku Sondaż sieciowy analiza wyników badania sondażowego dotyczącego motywacji w drodze do sukcesu Cel badania: uzyskanie

Bardziej szczegółowo

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Jak sprawdzić normalność rozkładu w teście dla prób zależnych? Jak sprawdzić normalność rozkładu w teście dla prób zależnych? W pliku zalezne_10.sta znajdują się dwie zmienne: czasu biegu przed rozpoczęciem cyklu treningowego (zmienna 1) oraz czasu biegu po zakończeniu

Bardziej szczegółowo

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres

Bardziej szczegółowo

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań 6.11.1 1 Badanie współzależności atrybutów jakościowych w wielowymiarowych tabelach danych. 1.1 Analiza współzależności

Bardziej szczegółowo

Analiza współzależności dwóch cech I

Analiza współzależności dwóch cech I Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych

Bardziej szczegółowo

Zadania ze statystyki, cz.6

Zadania ze statystyki, cz.6 Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka Analiza współzależności zjawisk dr Marta Kuc-Czarnecka Wprowadzenie Prawidłowości statystyczne mają swoje przyczyny, w związku z tym dla poznania całokształtu badanego zjawiska potrzebna jest analiza z

Bardziej szczegółowo

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować

Bardziej szczegółowo

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Badanie współzależności zmiennych Uwzględniając ilość zmiennych otrzymamy 4 odmiany zależności: Zmienna zależna jednowymiarowa oraz jedna

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

3. Modele tendencji czasowej w prognozowaniu

3. Modele tendencji czasowej w prognozowaniu II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa

Bardziej szczegółowo

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2017/2018

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2017/2018 Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2017/2018 Nr indeksu... Imię i Nazwisko... Nr grupy ćwiczeniowej... Imię i Nazwisko prowadzącego... 1. Specyfikacja modelu

Bardziej szczegółowo

Analizy wariancji ANOVA (analysis of variance)

Analizy wariancji ANOVA (analysis of variance) ANOVA Analizy wariancji ANOVA (analysis of variance) jest to metoda równoczesnego badania istotności różnic między wieloma średnimi z prób pochodzących z wielu populacji (grup). Model jednoczynnikowy analiza

Bardziej szczegółowo

Metodologia badań psychologicznych. Wykład 12. Korelacje

Metodologia badań psychologicznych. Wykład 12. Korelacje Metodologia badań psychologicznych Lucyna Golińska SPOŁECZNA AKADEMIA NAUK Wykład 12. Korelacje Korelacja Korelacja występuje wtedy gdy dwie różne miary dotyczące tych samych osób, zdarzeń lub obiektów

Bardziej szczegółowo

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak Wzory dla szeregu szczegółowego: Wzory dla szeregu rozdzielczego punktowego: ->Średnia arytmetyczna ważona -> Średnia arytmetyczna (5) ->Średnia harmoniczna (1) ->Średnia harmoniczna (6) (2) ->Średnia

Bardziej szczegółowo

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34 Statystyka Wykład 9 Magdalena Alama-Bućko 24 kwietnia 2017 Magdalena Alama-Bućko Statystyka 24 kwietnia 2017 1 / 34 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM

Bardziej szczegółowo

Próba własności i parametry

Próba własności i parametry Próba własności i parametry Podstawowe pojęcia Zbiorowość statystyczna zbiór jednostek (obserwacji) nie identycznych, ale stanowiących logiczną całość Zbiorowość (populacja) generalna skończony lub nieskończony

Bardziej szczegółowo

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji Ćwiczenie: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Stanisza r xy = 0 zmienne nie są skorelowane 0 < r xy 0,1

Bardziej szczegółowo

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi. ANALIZA KORELACJI Większość zjawisk w otaczającym nas świecie występuje nie samotnie a w różnorodnych związkach. Odnosi się to również do zjawisk biologiczno-medycznych. O powiązaniach między nimi mówią

Bardziej szczegółowo

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35 Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Prezentacja materiału statystycznego Szeroko rozumiane modelowanie i prognozowanie jest zwykle kluczowym celem analizy danych. Aby zbudować model wyjaśniający relacje pomiędzy różnymi aspektami rozważanego

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8 Stanisław Cichocki Natalia Nehrebecka Zajęcia 8 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów

Bardziej szczegółowo

Etapy modelowania ekonometrycznego

Etapy modelowania ekonometrycznego Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12 Stanisław Cichocki Natalia Nehrebecka Zajęcia 11-12 1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość - Mamy 2 modele: y X u 1 1 (1) y X X 1 1 2 2 (2) - Potencjalnie

Bardziej szczegółowo

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych 3.1. Estymacja parametrów i ocena dopasowania modeli z jedną zmienną 23. Właściciel komisu w celu zbadania

Bardziej szczegółowo

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp. Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.

Bardziej szczegółowo

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2014/2015

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2014/2015 Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2014/2015 Nr indeksu... Imię i Nazwisko... Nr grupy ćwiczeniowej... Imię i Nazwisko prowadzącego... 1. Specyfikacja modelu

Bardziej szczegółowo

3. Analiza własności szeregu czasowego i wybór typu modelu

3. Analiza własności szeregu czasowego i wybór typu modelu 3. Analiza własności szeregu czasowego i wybór typu modelu 1. Metody analizy własności szeregu czasowego obserwacji 1.1. Analiza wykresu szeregu czasowego 1.2. Analiza statystyk opisowych zmiennej prognozowanej

Bardziej szczegółowo

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) PODSTAWY STATYSTYKI. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na

Bardziej szczegółowo

Analiza autokorelacji

Analiza autokorelacji Analiza autokorelacji Oblicza się wartości współczynników korelacji między y t oraz y t-i (dla i=1,2,...,k), czyli współczynniki autokorelacji różnych rzędów. Bada się statystyczną istotność tych współczynników.

Bardziej szczegółowo

Ekonometria Ćwiczenia 19/01/05

Ekonometria Ćwiczenia 19/01/05 Oszacowano regresję stopy bezrobocia (unemp) na wzroście realnego PKB (pkb) i stopie inflacji (cpi) oraz na zmiennych zero-jedynkowych związanymi z kwartałami (season). Regresję przeprowadzono na danych

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności. TEST STATYSTYCZNY Testem statystycznym nazywamy regułę postępowania rozstrzygająca, przy jakich wynikach z próby hipotezę sprawdzaną H 0 należy odrzucić, a przy jakich nie ma podstaw do jej odrzucenia.

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki -

Bardziej szczegółowo

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW Założenia do analizy wariancji dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW anna_rajfura@sggw.pl Zagadnienia 1. Normalność rozkładu cechy Testy: chi-kwadrat zgodności, Shapiro-Wilka, Kołmogorowa-Smirnowa

Bardziej szczegółowo

Rozdział 8. Regresja. Definiowanie modelu

Rozdział 8. Regresja. Definiowanie modelu Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33 Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,

Bardziej szczegółowo

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym. REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym. Zadanie 1 W celu ustalenia zależności między liczbą braków a wielkością produkcji części

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę

Bardziej szczegółowo

Kilka uwag o testowaniu istotności współczynnika korelacji

Kilka uwag o testowaniu istotności współczynnika korelacji 341 Zeszyty Naukowe Wyższej Szkoły Bankowej we Wrocławiu Nr 20/2011 Piotr Peternek Uniwersytet Ekonomiczny we Wrocławiu Marek Kośny Uniwersytet Ekonomiczny we Wrocławiu Kilka uwag o testowaniu istotności

Bardziej szczegółowo

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, 2018 Spis treści Przedmowa 13 O Autorach 15 Przedmowa od Tłumacza 17 1. Wprowadzenie i statystyka opisowa 19 1.1.

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41 Statystyka Wykład 4 Magdalena Alama-Bućko 13 marca 2017 Magdalena Alama-Bućko Statystyka 13 marca 2017 1 / 41 Na poprzednim wykładzie omówiliśmy następujace miary rozproszenia: Wariancja - to średnia arytmetyczna

Bardziej szczegółowo

Statystyki opisowe i szeregi rozdzielcze

Statystyki opisowe i szeregi rozdzielcze Statystyki opisowe i szeregi rozdzielcze - ćwiczenia ĆWICZENIA Piotr Ciskowski ramka-wąsy przykład 1. krwinki czerwone Stanisz W eksperymencie farmakologicznym analizowano oddziaływanie pewnego preparatu

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona Sprawdzanie założeń przyjętych o modelu (etap IIIC przyjętego schematu modelowania regresyjnego) 1. Szum 2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Bardziej szczegółowo

POLITECHNIKA OPOLSKA

POLITECHNIKA OPOLSKA POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych

Bardziej szczegółowo

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno WERYFIKACJA MODELI MODELE LINIOWE Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno ANALIZA KORELACJI LINIOWEJ to NIE JEST badanie związku przyczynowo-skutkowego, Badanie współwystępowania cech (czy istnieje

Bardziej szczegółowo

4.2. Statystyczne opracowanie zebranego materiału

4.2. Statystyczne opracowanie zebranego materiału 4.2. Statystyczne opracowanie zebranego materiału Zebrany i pogrupowany materiał badawczy należy poddać analizie statystycznej w celu dokonania pełnej i szczegółowej charakterystyki interesujących badacza

Bardziej szczegółowo

Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do analizy dyskryminacyjnej Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela

Bardziej szczegółowo

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13 Stanisław Cichocki Natalia Neherbecka Zajęcia 13 1 1. Kryteria informacyjne 2. Testowanie autokorelacji 3. Modele dynamiczne: modele o rozłożonych opóźnieniach (DL) modele autoregresyjne o rozłożonych

Bardziej szczegółowo

W1. Wprowadzenie. Statystyka opisowa

W1. Wprowadzenie. Statystyka opisowa W1. Wprowadzenie. Statystyka opisowa dr hab. Jerzy Nakielski Zakład Biofizyki i Morfogenezy Roślin Plan wykładu: 1. O co chodzi w statystyce 2. Etapy badania statystycznego 3. Zmienna losowa, rozkład

Bardziej szczegółowo

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1 Temat: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00 0,20) Słaba

Bardziej szczegółowo