Analiza statystyczna rozkładów cech determinujących rozwój sektora kreatywnego w powiatach. Polska (na podstawie danych 2009-2012) Część I. Opis bazy danych. Podstawą analizy zmian były dane statystyczne pozyskane z GUS; baza REGON; stan na 31.12; lata 2009-2012. Dane statystyczne wykorzystano do : 1.analizy struktury rozkładów (ocena zróżnicowania w układzie powiatowym) w dwóch populacjach jednostek obserwacji. Podział jednostek obserwacji został podyktowany niejednorodnością populacji wejściowej, powiaty ze względu na liczbę zarejestrowanych podmiotów sektora kreatywnego wykazywały bardzo silną niejednorodność wynikającą ze zróżnicowania wywołanego specyfiką ujęcia powiatowego zbioru danych. Determinanty warunkujące rozwój sektora kreatywnego np. dla powiatu augustowskiego są całkowicie odmienne niż dla powiatu miasta Kraków; 2.budowa modeli regresji liniowej w celu wyodrębnienia tych zmiennych, które w sposób statystycznie istotny wpływały na zmiany w sektorze kreatywnym (próba odpowiedzi na pytanie jakie cechy ekonomiczno-społeczne charakteryzujące powiat oraz z jaką siłą mogły wpływać na decyzje o podjęciu działalności gospodarczej w tym sektorze). Wybór zmiennych opierał się na merytorycznej analizie przypuszczalnej zależności logiczno-merytorycznej oraz posiadanych w Bazie Lokalnej GUS informacji statystycznych. W analizie uwzględniono następujące zmienne (zbiór potencjalnych cech): Zmienna zależna: liczba podmiotów sektora kreatywnego zarejestrowana w bazie REGON w powiatach Polski; stan na dzień 31.12 w kolejnych latach 2009-2012, przy czym dane empiryczne dla zmiennej 11 dotyczyły tylko lat 2011-12. Zmienne niezależne: Zmienna 1.Dochody ogółem budżetu powiatu na 1 mieszkańca w zł Zmienna 2.Wydatki ogółem budżetu powiatu na 1 mieszkańca w zł Zmienna 3.Wydatki na oświatę i wychowanie budżetu powiatu na 1 mieszkańca w zł Zmienna 4.Wydatki na kulturę i ochronę dziedzictwa narodowego budżetu powiatu na 1 mieszkańca w zł 1
Zmienna 5.Ludność w powiecie; ogółem Zmienna 6. Ludność w powiecie w grupie wiekowej 15 19; ogółem Zmienna 7.Ludność w powiecie w grupie wiekowej 20 24; ogółem Zmienna 8.Ludność w powiecie w grupie wiekowej 25 29; ogółem Zmienne 9. Udział ludności wg ekonomicznych grup wieku w % ludności; ogółem ( dotyczy ludności w wieku produkcyjnym ) Zmienna 10. Bezrobocie zarejestrowane; ogółem Zmienna 11. Całkowita wartość projektów w ramach Narodowych Strategicznych Ram Odniesienia według programów operacyjnych i źródeł finansowania w zł/mieszkańca. Baza danych prezentowała rozkłady wymienionych zmiennych we wszystkich powiatach w Polsce: N=380 powiatów. Wycinek wybranej bazy danych, dla przykładowo 2009 i 2011 roku ilustrują tabele 1 oraz 2. Tabela 1. Wycinek arkusza danych,rok 2009 (część końcowa, powiaty o maksymalnej liczbie podmiotów) Tabela 2. Wycinek arkusza danych, rok 2011 (wykaz powiatów alfabetycznie) Wstępna analiza danych pozwoliła stwierdzić, że warianty zmiennej zależnej (liczba podmiotów sektora kreatywnego) w kolejnych latach nie wykazywały znaczących zmian w 2
kontekście wzrostu lub spadku. Można było zauważyć, iż liczba podmiotów sektora kreatywnego dla powiatu m.st.warszawa we wszystkich badanych latach kształtowała się na zdecydowanie wysokim poziomie, powodując b.silną asymetrię rozkładów zmiennej zależnej. Ponadto, we wszystkich badanych latach w powiecie miasto Wałbrzych w bazie danych lokalnych (380 powiatów) nie zanotowano w latach 2009-2012 podjęcia działalności w sektorze kreatywnym (wartość zmiennej zależnej wynosiła zero- należy zatem przyjąć,że dla tego powiatu danych w bazie brak). Wykres 1 ilustruje graficznie rozkłady zmiennej zależnej w latach 2009-2012. Można zauważyć, że w każdym roku badanego okresu występuje w postaci gwiazdki wartość ekstremalna, odnosząca się do Warszawy, wartość minimalna równa zero dotyczy powiatu m.wałbrzych. Wykres 1. Rozkłady zmiennej zależnej w kolejnych latach okresu 2009-2012;(N=380) Źródło: opracowanie własne przy użyciu Statistica 10 PL. W pozostałych tabelach i wykresach źródło identyczne. Ponadto wyraźnie zaznaczyły się w postaci gwiazdek dane dotyczące kilku powiatów na prawach miejskich, np. m.gdynia; Poznań czy Kraków. Występowanie dwóch zdecydowanie różnych wariantów zmiennej (dla Warszawy oraz Wałbrzycha) skutkowało przyjęciem bardzo wysokich wartości liczbowych przez dwie miary opisowe struktury rozkładów zmiennej zależnej (liczba podmiotów sektora kreatywnego), a mianowicie współczynnika zmienności oraz asymetrii (skośności), por. tabela 3. 3
Tabela 3. Miary opisowe rozkładów zmiennej zależnej w latach 2009-2012. Prowadzenie analizy statystycznej dla wszystkich powiatów w takiej sytuacji byłoby merytorycznie nieuzasadnione. Ze zbiorów usunięto zatem dane dla tych dwóch powiatów. Zmiany w strukturze rozkładów ilustrują: wykres 2 oraz dane w tabeli 4. Wykres 2. Ilustracja graficzna rozkładów zmiennej zależnej w kolejnych latach okresu 2009-2012;N=378); bez Warszawy i Wałbrzycha. Kształt rozkładów wykazuje mniejszą asymetrię i zróżnicowanie, co potwierdza większą jednorodność zbioru po usunięciu dwóch ekstremalnych wartości szczególnie dla powiatu m.warszawa. Stanowi to merytoryczną podstawę do podziału zbioru wejściowego na dwie populacje. Pierwsza nie będzie uwzględniać powiatów m.warszawa oraz m. Wałbrzych (z powodu braku danych). 4
Tabela 4. Miary opisowe rozkładów zmiennej zależnej w latach 2009-2012 (bez Warszawy i Wałbrzycha). Wartości współczynnika zmienności zdecydowanie - po eliminacji Warszawy i Wałbrzycha - zmniejszyły się, ale nadal wskazywały na b.silne zróżnicowanie w stosunku do średniej liczby podmiotów, przypadającej na jeden powiat (od 317 w 2009 roku do 311 w roku 2012). Poziom liczbowy średniej arytmetycznej był nadal silnie zawyżony przez te powiaty, w których liczba podmiotów w sektorze kreatywnym była najwyższa. W kolejnych latach badanego okresu były to np.: powiat m. Kraków ( 6046 podmiotów w 2009 roku; 6612 podmioty w roku 2012) oraz m.poznań (4791 w 2009 roku; 5242 podmioty w roku 2012). Taka sytuacja spowodowała, iż współczynnik asymetrii nadal był b.wysoki (znacznie przekraczał umownie przyjmowaną jako górną granicę liczbę 2). Oznaczało to konieczność posługiwania się tylko miarami pozycyjnymi, np. medianą zamiast zawyżonej średniej arytmetycznej. Decyzja o użyciu łatwiejszej i częściej spotykanej w opisach - średniej arytmetycznej liczby podmiotów dla ilustracji sytuacji w sektorze kreatywnym w takiej sytuacji powinna być obarczona silnym akcentowaniem, że jest to średnia bardzo zawyżona. Dla podkreślenia siły zróżnicowania powiatów w Polsce ze względu na liczbę podmiotów w sektorze kreatywnym trzeba przedstawić wartości minimalne. W każdym roku badanego okresu najmniejsza liczba podmiotów w sektorze kreatywnym występowała w powiatach suwalskim (24 podmioty w roku 2009 i 28 w 2012) oraz sejneńskim (26 w roku 2009; 24 podmiotów w 2012 roku). Zatem rozstęp między minimalną i maksymalną liczba podmiotów w sektorze kreatywnym w kolejnych latach okresu 2009-2012 był stosunkowo najmniejszy (ok.6000 obiektów w roku 2009 ), natomiast zwiększył się do prawe 6600 w roku 2012. W takiej sytuacji zdecydowano przeprowadzić analizę statystyczną dla dwóch populacji, a mianowicie: - pierwszą stanowiły wszystkie powiaty z wyłączeniem Warszawy i Wałbrzycha (n=378); 5
- drugą stanowiły wszystkie powiaty z wyłączeniem (oprócz m.warszawy i m.wałbrzych) tych powiatów, w których liczba podmiotów w sektorze kreatywnym przekraczała 2000. Były to odpowiednio: 1. rok 2009: m.szczecin (2538 podmioty), powiat m.gdańsk (2587), m.łódź (3524), m.wrocław (4509),m.Poznań(4791) i m.kraków (6046); 2. rok 2010: powiat m.gdańsk (2694 podmioty), m.szczecin (2712), m.łódź (3798), m.wrocław (4814),m.Poznań(5017) i m.kraków (6562); 3. rok 2011: m.szczecin (2642 podmioty), powiat m.gdańsk (2689), m.łódź (3740), m.wrocław (5001),m.Poznań(5001) i m.kraków (6616); 4. rok 2012: m.szczecin (2551 podmioty), powiat m.gdańsk (2728), m.łódź (3867), m.wrocław (5116),m.Poznań(5242) i m.kraków (6612). W zbiorach tych pominięto oczywiście powiat m.warszawa oraz Wałbrzych. Druga populacja zawierała zatem 372 powiaty. Wykres 3 prezentuje rozkłady zmiennej zależnej dla drugiej populacji (N=372 powiaty). Rozkłady charakteryzuje nadal silna asymetria, jednak nie występują powiaty o zdecydowanie różnej od pozostałych liczbie podmiotów w sektorze kreatywnym. Wykres 3. Ilustracja graficzna rozkładów zmiennej zależnej w kolejnych latach okresu 2009-2012 (populacja N=372) 6
Zdecydowanie niższą asymetrię rozkładów w populacji po usunięciu 8 powiatów odstających charakteryzują poziomy współczynnika asymetrii (por.tabl.5). Stanowi to większe uzasadnienie do użycia modelu regresji liniowej w celu wyodrębnienia determinant podejmowania działalności w sektorze kreatywnym. Tabela 5. Miary opisowe rozkładów zmiennej zależnej w latach 2009-2012 (druga populacja;n=372). Populacja druga jest bardziej homogeniczna, występuje zdecydowanie mniejsze zróżnicowanie pomiędzy powiatami ze względu na liczbę podmiotów w sektorze kreatywnym. W takiej sytuacji wyróżnione determinanty mogą działać z podobną siłą oraz kierunkiem we wszystkich powiatach, co ma przede wszystkim znaczenie w trafności dokonywanych prognoz i budowy podobnych strategii. Część 2. Badanie korelacji pomiędzy zmiennymi. Występowanie silnej asymetrii rozkładów zmiennej przyjętej jako zależnej (liczba podmiotów sektora kreatywnego) powoduje odrzucenie hipotezy o zgodności rozkładu tej zmiennej z rozkładem normalnym, a jest to podstawowe założenie stosowania modelu regresji prostej w celu określenia determinant działalności gospodarczej w sektorze kreatywnym, charakteryzowanej liczba podmiotów podejmujących taką działalność w Polsce (ujecie powiatowe) w latach 2009-2012. W celu potwierdzenia przypuszczenia, że taka sytuacja występuje w odniesieniu do przyjętej zmiennej zależnej użyto testu Shapiro-Wilka (SW-W) do weryfikacji hipotezy o normalności rozkładu liczby podmiotów w sektorze kreatywnym. Wykres 4 prezentuje przebieg rozkładów empirycznych oraz wartości testu SW-W i prawdopodobieństwa testowe p-value dla pierwszej populacji powiatów (N=378). 7
Wykres 4. Rozbieżność rozkładów zmiennej zależnej z rozkładem normalnym; 2009-2012 (populacja pierwsza - bez Warszawy i Wałbrzycha) Wartość testu SW-W 0,36 oraz prawdopodobieństwa testowe p-value = 0,0000 powodują dla rozkładów zmiennej zależnej w każdym roku badanego okresu odrzucenie hipotezy o normalności rozkładów liczby podmiotów w sektorze kreatywnym. Decyzja została podjęta przy najczęściej przyjmowanym - poziomie istotności α = 0,05 i jest jednoznaczna, tzn. przy każdym innym α 0,10 nie może być zmieniona na odwrotną, bowiem p = 0,000. Budowa modelu liniowej regresji jest więc obarczona występowaniem silnej asymetrii rozkładów zmiennej zależnej w kolejnych latach 2009-2012. Model ten, że względu na łatwość interpretacji otrzymanych wyników może być użyty, ale interpretacja musi odbywać się z ostrożnością w formułowaniu końcowych wniosków. W odniesieniu do drugiej populacji powiatów (N=372) rozbieżność rozkładów empirycznych z rozkładem normalnym prezentuje wykres 5. 8
Wykres 5. Rozbieżność rozkładów zmiennej zależnej z rozkładem normalnym; 2009-2012 (populacja druga; N=372 powiaty) Zgodnie z procedurą weryfikacji hipotezy o normalności również i w przypadku drugiej populacji powiatów należy odrzucić hipotezę zerową o zgodności, jednak poziom testu Shapiro-Wilka w tym przypadku podwoił się w stosunku do rozkładów w populacji pierwszej, co sygnalizuje zdecydowanie większe, aczkolwiek jeszcze nie wystarczające podobieństwo przebiegu zgodnego z rozkładem normalnym (symetrycznym). Przed przystąpieniem do budowy modelu konieczna jest ponadto ocena siły korelacji pomiędzy zmiennymi. Ocena ta powinna udokumentować wykluczenie z początkowego, potencjalnego zbioru zmiennych niezależnych zmiennych, które wykazują silne skorelowanie z innymi zmiennymi. Pozostawienie w modelu zmiennych niezależnych silnie skorelowanych ze sobą oddziałuje negatywnie na trafność wyodrębnienia trafnych determinant. W odniesieniu do rozkładów zmiennych objaśniających (niezależnych zwanych regresantami) w dwóch populacji podmiotów sektora kreatywnego asymetria ich rozkładów może być oceniona jako umiarkowana, przy czym dla zdecydowanej większości współczynniki asymetrii są niższe w przypadku drugiej populacji. 9
Tabela 6. Miary opisowe dla poszczególnych zmiennych niezależnych w 2009 roku ; populacja pierwsza (N=378) Tabela 7. Miary opisowe dla poszczególnych zmiennych niezależnych w 2009 roku; populacja druga (N=372) Należy zauważyć, że zróżnicowanie w ujęciu powiatów rozkładu zmiennej 9 (udział ludności wg ekonomicznych grup wieku w % ludności; ogółem; dotyczy ludności w wieku produkcyjnym) jest b.niskie, na co wskazuje poziom współczynnika zmienności < 10% i to w odniesieniu do obu populacji. W związku z tym zmienna 9 powinna być usunięta ze zbioru potencjalnych zmiennych już na tym etapie. Należy dodać, uprzedzając analizę dla pozostałych trzech lat, że sytuacja ta występowała w każdym roku. Aby zbadać siłę korelacji pomiędzy zmiennymi w celu eliminacji tych zmiennych objaśniających, które są silnie ze sobą skorelowane wybrano współczynnik korelacji liniowej Pearsona. W związku z dość silną asymetrią oraz rozbieżność z rozkładem normalnym rozważano użycie współczynnika korelacji rang Spearmana, gdyż pomimo usunięcia danych dla Warszawy i Wałbrzycha ( populacja pierwsza) oraz powiatów, w których liczba podmiotów sektora kreatywnego przekraczała 2000 (populacja druga) współczynniki asymetrii były dosyć stosunkowo wysokie. Jednak liczebność obu populacji jest tak duża, że brak jest uzasadnienia dla stosowania współczynnika rang Spearmana, który może zastąpić współczynnik Pearsona dla zdecydowanie małych liczebnie zbiorów danych. 10
Ponadto należy zauważyć, że zastępowania wartości liczbowych rzeczywistych rangami uodparnia na asymetrię rozkładu ale również wiąże się to z utratą informacji, spowodowaną przejściem na skalę słabszą. Przed analizą korelacji wysunąć można hipotezę, że będzie ona przynosić podobne wyniki dla kolejnych lat okresu 2009-2012, bowiem podobieństwo rozkładów zarówno zmiennej zależnej, jak i wybranych potencjalnych zmiennych objaśniających, dokumentowane graficznie oraz za pomocą miar opisu struktury było mocno zauważalne. Zatem zmienne objaśniające (determinanty) w modelach regresji będą identyczne dla każdego roku z lat 2009-2012. tabela 8. Poziomy liczbowe współczynnika korelacji Pearsona dla populacji pierwszej prezentuje Tabela 8. Współczynniki korelacji Pearsona 2009 (populacja pierwsza) Dokonując analizy poziomów współczynnika korelacji kolejnych zmiennych objaśniających ze zmienną zależną ( ważne dla decyzji są wartości wysokie, bliskie +/- 1,00) oraz poziomy współczynników zależności pomiędzy zmiennymi (wartości jak najmniejsze), a także wykorzystując fakt, iż pakiet komputerowy STATISTICA prezentuje w kolorze czarnym zależność statystycznie nieistotną należałoby zostawić w zbiorze przypuszczalnych determinant jako niezależne (objaśniające) w modelu regresji liniowej dla populacji pierwszej ( bez Warszawy i Wałbrzycha) następujące zmienne: Zmienna 2 - Wydatki ogółem budżetu powiatu w zł/na 1 mieszkańca, Zmienna 3 - Wydatki na oświatę i wychowanie budżetu powiatu w zł/na 1 mieszkańca, Zmienna 4 Wydatki na kulturę i ochronę dziedzictwa narodowego budżetu powiatu na 1 mieszkańca w zł/mieszkańca Zmienna 10 - Bezrobocie zarejestrowane; ogółem. Zmienne: 1 ( silnie skorelowana ze zmienną 2); zmienne 5; 6; 7; 8 (silnie skorelowane z innymi zmiennymi) zostały usunięte ze zbioru początkowego. 11
Tabela 9. Współczynniki korelacji liniowej Pearsona 2009 (populacja druga) W odniesieniu do populacji drugiej (o większej jednorodności, co prezentowały stosunkowo niskie współczynniki skośności) należałoby zostawić w zbiorze przypuszczalnych determinant następujące zmienne: nr.2; 3; 4; 10. Należy zauważyć, że zarówno zmienna 4 jak i 10 wykazały statystyczną nieistotność korelacji z kilkoma innymi zmiennymi objaśniającymi. Podobną analizę, będącą podstawą usuwania zmiennych potencjalnych w oparciu o współczynniki korelacji przeprowadzano każdorazowo poniżej w odniesieniu do wyników dla lat 2010-2012. I tak w wyniku przeprowadzenia identycznej rozważań dla danych roku 2010 otrzymujemy: Tabela 10. Miary opisowe dla poszczególnych zmiennych niezależnych w 2010 roku ; populacja pierwsza (N=378) 12
Tabela 11. Miary opisowe dla poszczególnych zmiennych niezależnych w 2010 roku; populacja druga (N=372) Tabela 12. Współczynniki korelacji Pearsona 2010 (populacja pierwsza) Dokonując analizy siły korelacji ze zmienną zależną, siłę skorelowania z innymi cechami oraz biorąc pod uwagę zaznaczone kolorem czarnym statystycznie nieistotne poziomy należałoby zostawić następujące zmienne objaśniające w zbiorze cech diagnostycznych dla roku 2010 ( w populacji powiatów bez Warszawy i Wałbrzycha): 1 - dochody ogółem budżetu powiatu, 3 - wydatki na oświatę i wychowanie budżetu powiatu na 1 mieszkańca, 10- bezrobocie zarejestrowane ogółem. Zmienna 4 - wydatki na kulturę i ochronę dziedzictwa narodowego budżetu powiatu na 1 mieszkańca w zł/mieszkańca wykazała statystyczną nieistotność współzależności z kilkoma innymi zmiennymi objaśniającymi. W porównaniu z wynikami otrzymanymi dla danych roku 2009, tym razem należy w zbiorze zostawić zmienna 1, bowiem poziom liczbowy współczynnika korelacji jest wyższy dla zmiennej 1 (przy silnej korelacji miedzy zmienna 1 i 2). Otrzymane poziomy współczynnika korelacji Pearsona dla populacji drugiej zaprezentowano w tabeli 13: 13
Tabela 13. Współczynniki korelacji liniowej Pearsona 2010 (populacja druga) W zbiorze potencjalnych zmiennych w odniesieniu do populacji drugiej (2010) zostają następujące zmiennej objaśniające: nr. 1; 3; 10. Zmienna 4 wykazała nieistotność statystyczną zależności ze zmienną zależną. Zmienna 2 wykazała nieco słabszą siłę korelacji ze zmienną zależną. Poniżej zaprezentowano w tabelach 14-17 procedurę dla roku 2011.Przypomnijmy,że nadal zmienna 9 ze względu na b. niskie zróżnicowanie powinna być usunięta (współczynnik zmienności < 10%). Tabela 14. Miary opisowe dla poszczególnych zmiennych w 2011 roku (populacja pierwsza) 14
Tabela 15. Miary opisowe dla poszczególnych zmiennych w 2011 roku (populacja druga) Tabela 16. Współczynniki korelacji Pearsona 2011 (populacja pierwsza) W zbiorze potencjalnych zmiennych w odniesieniu do populacji pierwszej (2011) zostają następujące zmiennej objaśniające: nr. 2; 3; 10; 11. Zmienna 4 wykazała nieistotność statystyczną zależności z kilku innymi zmiennymi. Tabela 17. Współczynniki korelacji liniowej Pearsona 2011 (populacja druga) Natomiast w zbiorze potencjalnych zmiennych w odniesieniu do populacji drugiej (2011) zostają następujące zmiennej objaśniające: nr. 1; 2; 3; 10; 11. Zmienna 4 wykazuje w tym przypadku statystycznie nieistotną zależność ze zmienną zależną. 15
Dla ostatniego roku badanego okresu, tzn. dla 2012 roku otrzymujemy w wyniku badania struktury rozkładów oraz oceny korelacji następujące wyniki, zamieszczone w tabelach 18-21: Tabela 18. Miary opisowe dla poszczególnych zmiennych w 2012 roku (populacja pierwsza) Tabela 19. Miary opisowe dla poszczególnych zmiennych w 2012 roku (populacja druga) Tabela 20. Współczynniki korelacji Pearsona 2012 (populacja pierwsza) 16
Tabela 21. Współczynniki korelacji Pearsona 2012 (populacja druga) W wyniku oszacowania siły i kierunku korelacji miedzy zmiennymi podjęto w oparciu o poziomy liczbowe i statystyczną istotność następujące decyzje odnośnie roku 2012: - w odniesieniu do populacji pierwszej w zbiorze zmiennych potencjalnych zostają zmienne: 2; 3; 4;10;11 - w odniesieniu do populacji drugiej 2;3;10;11. Zmienna 4 wykazała nieistotność statystyczną zależności korelacyjnej z kilku innymi zmiennymi. Podsumowując analizę korelacji należy zauważyć, że w zbiorach zmiennych objaśniających (przypuszczalnych determinant) znajdowały się, tak jak przypuszczano prawie identyczne dla kolejnych lat okresu 2009-2012 - zestawy zmiennych objasniających. Ostatecznie zdecydowano, że do modelu regresji jako zmienne diagnostyczne kwalifikują się zmienne: - nr.1 czyli dochody ogółem budżetu powiatu na 1 mieszkańca w zł -nr.2 wydatki budżetu powiatu na 1 mieszkańca w zł - nr.3 wydatki na oświatę i wychowanie budżetu powiatu na 1 mieszkańca w zł - nr.4 wydatki na oświatę i ochronę dziedzictwa narodowego budżetu powiatu na 1 mieszkańca w zł -nr.10 bezrobocie zarejestrowane; ogółem oraz dla lat 2011 i 2012 : nr.11. całkowita wartość projektów w ramach Narodowych Strategicznych Ram Odniesienia według programów operacyjnych i źródeł finansowania w zł/mieszkańca. 17
Część. 3 Modele liniowej regresji wielorakiej. W celu wyodrębnienia determinant działalności podmiotów gospodarczych w sektorze kreatywnym w ujęciu powiatowym w kolejnych latach okresu 2009-2012 zbudowano modele dla dwóch wyróżnionych populacji przy wyżej wymienionym zestawie zmiennych objaśniających, wyłonionych w wyniku analizy zmienności rozkładów zmiennych objaśniających oraz analizy korelacji pomiędzy tymi zmiennymi. Każdorazowo zaprezentowano poniżej wartości parametrów przy kolejnych zmiennych objaśniających, oceniono ich statystyczną istotność, przeprowadzono analizę reszt (w tym zbadano zjawisko autokorelacji reszt za pomocą testu Durbina-Watsona). Wyznaczono współczynnik determinacji liniowej modelu w celu oceny własności diagnostycznych i prognostycznych. Algorytm modelu regresji dla n- elementowej populacji oraz k- zmiennych objaśniających badanej ma postać: yi = a1 x1i + a2 x2i +---+ ak xki + b + zi (1) przy czym : (Sa1) (Sa2) (Sak) (Sb) (Sz) ( t a α1, s ) ( t a α2, s ) ( t a αk, s ) ( t bb, s (pa1) (pa2) (pak) (pb) ) gdzie: yi; ak; b; Sak; Sz; t ak α, s ; t b α, s oraz pak i pb odpowiednio: realizacja zmiennej zależnej; współczynniki regresji; wyraz wolny; odchylenia standardowe przy parametrach funkcji regresji; odchylenie standardowe w rozkładzie składnika resztowego; statystyki z próby (test t- Studenta) oraz prawdopodobieństwa testowe, służące weryfikacji hipotez o statystycznej nieistotności parametrów liniowej funkcji regresji; i = 1,2,.,n. Wnioskom z oszacowań współczynników regresji w modelu towarzyszyć będzie analiza wariancji (w celu oceny łącznego wpływu determinant), prezentacja współczynników korelacji między zmiennymi objaśniającymi w modelu (w celu oceny interakcji tych zmiennych) oraz badanie zgodności składnika resztowego z rozkładem normalnym, a także wyniki weryfikacji hipotezy o braku autokorelacji w oparciu o test Durbina Watsona 1. Zestaw wymienionych procedur pozwoli na wyodrębnienie determinant, warunkujących rozkłady zmiennej zależnej oraz ocenę przydatności modelu z użyciem tych determinant dla celów prognostycznych. 1 Szczegółowe informacje dotyczące zagadnienia liniowej regresji wielorakiej można znaleźć w podręczniku A.Luszniewicza i T.Słaby. Statystyka z pakietem komputerowym STATISTICA PL. Teoria i zastosowania. Wyd.III zmienione. Wydawnictwo C.H.Beck,2008; s.253 18
Model liniowej regresji wielorakiej. Rok 2009 populacja pierwsza (bez Warszawy i Wałbrzycha) Wydruk 1. Parametry modelu regresji liniowej Wydruk 2.Analiza wariancji. Wydruk 3. Macierz współczynników interakcji Wykres 1. Badanie normalności rozkładu reszt 19
Wydruk 4. Badanie autokorelacji reszt Na podstawie zaprezentowanych powyżej w wydrukach 1-4 oraz wykresie 1 można stwierdzić, że w odniesieniu do danych z roku 2009 i populacji 378 powiatów (populacja pierwsza bez Warszawy i Wałbrzycha): - rzeczywisty i statystycznie istotny wpływ na zmienną zależną (liczba podmiotów sektora kreatywnego) miała zmienna 2 czyli wydatki budżetu powiatu na 1 mieszkańca w zł, zmienna 4 czyli wydatki na oświatę i ochronę dziedzictwa narodowego budżetu powiatu na 1 mieszkańca w zł (ale przy poziomie istotności 0,10) oraz zmienna 10 (wielkość bezrobocia zarejestrowanego). Uzupełnienie wyników modelu analizą współczynników interakcji pozwala zauważyć determinujacy wpływ na zmienną zależną zmiennej 4 (wydatki na oświatę i ochronę dziedzictwa narodowego budżetu powiatu na 1 mieszkańca w zł), natomiast bezrobocie nie wykazało statystycznie istotnej interacji z tymi dwiema determinantami. Można zatem uznać, że dwie zmienne nr.2 oraz 4 warunkowały (wpływały) na rozklady zmiennej zależnej w ujęciu powiatowym,czyli lczba podmiotów sektora kreatywnego była determinowana przez wydatki budżetu ogółem oraz wydatki na kulturę i ochronę dziedzictwa narodowego; - własności diagnostyczne modelu z tymi zmiennymi należy ocenic jako umiarkowane, bowiem współczynnik determinacji liniowej R 2 wynosi 45,5%, czyli niecała połowa zróżnicowania rozkładów liczby podmiotów sektora kreatywnego była wyjaśniona łacznie zmiennością rozkładów wydatków budżetów ogółem oraz wydatków na kulture i dziedzictwo narodowa na 1 mieszkańca; - łączny wpływ wyróżnionych został pozytywnie potwierdzony wynikami analizy wariancji (odrzucenie hipotezy o braku zależności regresyjnej); - na podytsawie analizy reszt oraz wystepowanie zjawiska autokorelacji reszt nie pozwalają na ocenę pozytywną kwalifikacji tego modelu dla celów prognostycznych. W odniesieniu do populacji drugiej, bardziej jednorodnej, o niższym w ujeciu powiatowym - zróżnicowaniu rozkładów zmiennych otrzymano wyniki prezentowane w wydrukach 5-8 oraz na wykresie 2: 20
Rok 2009 populacja druga (bez Warszawy i Wałbrzycha i 6 miast o najwyższej liczbie obiektów sektora kreatywnego), N=372 Wydruk 5. Parametry modelu liniowej regresji Wydruk 6.Analiza wariancji. Wykres 2. Badanie normalności reszt. Wydruk 7. Macierz współczynników interakcji 21
Wydruk 8. Badanie autokorelacji* *Optymalna wartość testu D-W wynosi 2. W odniesieniu do populacji drugiej mniej zróżnicowanej w modelu liniowej regresji ujawniła się siła działania oprócz zmiennej 2 i 10 również zmiennej 3 ( wydatki na oświatę i wychowanie budżetu powiatu na 1 mieszkańca),jednak model ten charakteryzuje się niższą 36,6% determinacją,zatem mniejsze zróznicowanie rozkładów w drugiej populacji nie przyniosło spodziewanego większego efektu diagnostycznego. Analiza wariancji potwierdza, że te trzy zmienne mają łączny wpływ na zmienną zależną (liczba podmiotów). Jednak badanie rozkładu reszt również i w tym przypadku nie pozwala na dokonywanie trafnych prognoz w oparciu o ten model. Dane dotyczące 2010 roku dostarczyły prawie identycznych wyników, wobec tego bez prezentacji wydruków i wykresów - można jedynie stwierdzić, że: - współczynnik determinacji dla modelu liniowej regresji w przypadku pierwszej populacji powiatów wyniósł 44%, dla drugiej 36%, co potwierdzało stosunkowo niska wartość diagnostyczna modeli; - w modelu pierwszym statystyczną istotność jako determinanty zróżnicowania wartości zmiennej zależnej wykazały zmienna 1 (dochody budżetów ogółem) oraz zmienna 10. Natomiast dla populacji drugiej tylko zmienna 4 ( wydatki na kulturę i ochronę dziedzictwa) okazała się statystycznie nieistotna, aczkolwiek w działaniu interakcyjnym wpływała łącznie na zmienna zależną ze zmiennymi 1,2 oraz 3; - analiza reszt nie potwierdziła walorów prognostycznych modeli dla obu populacji powiatów. W bazie danych dotyczących kolejnych dwu lat, tzn.2011 i 2012 pojawiła się nowa zmienna nr.11 (Całkowita wartość projektów w ramach Narodowych Strategicznych Ram Odniesienia według programów operacyjnych i źródeł finansowania w zł/mieszkańca), której znaczenie diagnostyczne wpływu na działalność sektora kreatywnego powinno być znaczące. 22
Poniżej w wydrukach 9-12 oraz na wykresie 3 dla roku 2011 (populacja pierwsza) oraz wydrukach 13-16 i na wykresie 4 (populacja druga) zostaną zaprezentowane wyniki analizy modelowej liniowej regresji, wariancji i rozkładu reszt w celu wyłonienia statystycznie istotnych determinant (zmiennych objaśniających) w oparciu o dane 2011 i 2012 roku. Tak jak, poprzednio decyzje są podejmowane przy poziomie istotności α = 0,05, a jeżeli p < 0,05 zmienna objaśniająca (determinanta) jest uznawana za statystycznie istotnie warunkującą zróżnicowanie rozkładu zmiennej zależnej (w wydrukach decyzje pozytywne są w kolorze czerwonym). Zbiór zmiennych diagnostycznych, zastosowany do modelowania w oparciu o dane z lat 2009-2010, tzn do zmiennych nr. 1; 2 ;3; 4,wyodrębnionych dzięki analizie zróżnicowania rozkładów oraz korelacji między zmiennymi został powiększony o zatem zmienną 11.Jest to zmienna o charakterze ekonomicznym, odzwierciedlająca pomoc z budę tu państwa oraz programów unijnych, mogąca mieć statystycznie istotny wpływ na wzrost liczby podmiotów sektora kreatywnego. Wcześniejsza analiza korelacji pomiędzy potencjalnymi zmiennymi objaśniającymi (por. tabl.16 i 17) wskazywała na silna i dodatnia współzależność tej zmiennej ze zmienną, charakteryzującą liczbę podmiotów w sektorze kreatywnym w ujęciu powiatowym, przy czym ta zależność była znacznie silniejsza w populacji pierwszej bowiem współczynnik korelacji liniowej Pearsona wynosił 0,73 wobec 0,53 dla populacji drugiej (bez dużych powiatów na prawach miejskich). Analiza wpływu tej zmiennej została zaprezentowana w modelu regresji (por.wydruk 9 i 13) Rok 2011 populacja pierwsza Wydruk 9. Parametry modelu liniowej regresji 23
Wydruk 10. Analiza wariancji. Wykres 3. Badanie normalności reszt. Wydruk 11. Macierz współczynników interakcji Wydruk 12. Badanie autokorelacji Wprowadzenie do modelu regresji zmiennej nr. 11,prezentującej środki finansowe ( wartość projektów w ramach Narodowych Strategicznych Ram Odniesienia według programów operacyjnych i źródeł finansowania w zł/mieszkańca) znacznie poprawiło walory diagnostyczne, bowiem współczynnik determinacji liniowej dla populacji pierwszej wzrósł do 64%, natomiast w populacji drugiej do 45%. Oznaczało to większy łączny wpływ zmiennych 24
statystycznie istotnych, tzn. zmiennej nr.1 (dochody budżetów); wydatki ogółem oraz wartość projektów na wzrost liczby podmiotów sektora kreatywnego. 2011 populacja druga Wydruk 13. Parametry modelu liniowej regresji Wydruk 14. Analiza wariancji. Wykres 4. Badanie normalności reszt. 25
Wydruk 15. Macierz współczynników interakcji Wydruk 16. Badanie autokorelacji Nieco mniejsze znaczenie wpływu zmiennej 11 (wartość projektów unijnych) można zaobserwować na podstawie danych dotyczących 2012 roku, współczynnik regresji przy tej zmiennej zmalał z poziomu średniego w skali powiatu z 0,280 mln zł/1 powiat w 2011 roku do 0,135 mln zł w 2012 roku ( w odniesieniu do pierwszej populacji) oraz z 0,119 mln zł do 0,048 mln zł ( populacja druga). Rok 2012 Populacja pierwsza Wydruk 17. Parametry modelu liniowej regresji 26
populacja druga Wydruk 18. Parametry modelu liniowej regresji Nadal wydatki ogółem wraz ze wartością projektów oraz w nieznacznym stopniu bezrobocie w znaczący sposób determinowały liczbę podmiotów sektora kreatywnego w 2012 roku, na co wskazuje współczynnik determinacji liniowej na poziomie 63% (populacja pierwsza) oraz 40% (populacja druga). Wioski końcowe. Budowa strategii w polityce gospodarczej, sprzyjającej stymulowaniu rozwoju przemysłów wymaga znajomości uwarunkowań jej realizacji. W odniesieniu do przemysłów kreatywnych determinanty rozwoju pochodzą z dwóch źródeł,a mianowicie kreatywności człowieka (w tym określonych zdolności typu artystycznego) oraz instrumentów ekonomicznych, których działanie jest niezależne od osób, które chcą prowadzić działalność gospodarczą w sektorze kreatywnym. Ważna dla strategii jest zaszłość historyczna, a konkretnie zróżnicowanie dotychczasowej bazy w ujęciu geograficznym i administracyjnym. Strategia opiera się zwyczajowo na diagnoza sytuacji w latach poprzednich. W niniejszym opracowaniu dysponowano bazą danych za lata 2009-2012 w ujęciu 380 powiatów. W celach diagnostycznych przeprowadzono analizę struktury rozkładów zmiennej zależnej czyli liczby podmiotów sektora kreatywnego zarejestrowanych w bazie REGON w powiatach Polski; stan na dzień 31.12 w kolejnych latach 2009-2012 oraz 11 zmiennych niezależnych, przy czym dane empiryczne dla zmiennej 11 dotyczyły tylko lat 2011-12. Wybór zmiennych niezależnych podyktowany był względami merytorycznymi oraz danymi z Bazy Lokalnej GUS. Merytoryczna analiza, oparta na literaturze przedmiotu wskazywała na przypuszczalne cechy demograficzno- ekonomiczno- społeczne, mogące determinować rozwój sektora rozumiany jako pozytywny wpływ na wzrost liczby podmiotów prowadzących działalność w 27
sektorze przemysłów kreatywnych. Przyjęte do analizy zmienne niezależne ( potencjalne determinanty charakteryzowały sytuację ekonomiczną ( dochody i wydatki budżetu gmin), cechy demograficzne ludności zamieszkałej w powiatach Polski, społeczne (bezrobocie) oraz od 2011 roku wartość Pomocy zewnętrznej (projekty unijne). W pierwszym etapie zwanym czyszczeniem danych zauważono brak danych dla powiatu m.wałbrzych oraz zdecydowanie odmienną od pozostałych sytuację w powiecie m.warszawa. Był to sygnał do usunięcia tych dwóch przypadków z bazy danych (pozostałe dane w liczbie 378 powiatów stworzyły tzw. populację pierwszą). Konieczność takiego kroku potwierdziły b.wysokie współczynniki asymetrii dla rozkładów wszystkich zmiennych. Analiza struktury zmiennych dla pierwszej populacji wskazywała na nadal występującą silną asymetrie rozkładów, co zdecydowało o budowie drugiej populacji, bez 6 powiatów na prawach miejskich, w których liczba podmiotów sektora kreatywnego znacznie różniła się od pozostałych. W rezultacie otrzymano populację drugą o liczbie 372 powiatów, bardziej jednorodną (homogeniczną). Przypuszczano bowiem, iż silne zróżnicowanie powiatów ze względu na przyjęte cechy mogłoby w sposób istotnie negatywny wpłynąć na trafność diagnozy oraz walory prognostyczne modelu w wyniku wyłonienia się nieefektywnych determinant. Budowa modeli liniowej regresji wielorakiej w celu weryfikacji wartości informacyjnej determinant wymagała przeprowadzenia analizy zróżnicowania rozkładów zmiennych objaśniających względem badanych obiektów oraz ich skorelowania między sobą, co określi potencjał informacyjny. W wyniku analizy zróżnicowania usunięto zmienną informującą o udziale ludności według ekonomicznych grup wieku w % ludności ogółem, natomiast analiza korelacji wyeliminowała zmienne demograficzne, definiujące odsetek ludności w grupach wiekowych. Ostatecznie do modeli wprowadzono wyłącznie zmienne ekonomiczne, opisujące dochody, wydatki ogółem w tym wydatki na oświatę i kulturę. Statystycznie istotne, ale o b, niewielkim wpływie liczbowym było bezrobocie. Natomiast od 2011 roku diagnoza w oparciu o modele wzbogaciła się siłą determinacji zmienną o wpływie środków zewnętrznych (z budżetu państwa lub ze środków zagranicznych) na budżet gminy, tzn. z Narodowych Strategicznych Ram Odniesienia z Programu Operacyjnego Innowacyjna Gospodarka. Podsumowując wyniki analizy statystycznej, należy stwierdzić bardzo zróżnicowaną sytuację w ujęciu powiatów, co powoduje zalecenie ostrożności w posługiwaniu się średnią arytmetyczną w analizach, służących budowie projektów, która była każdorazowo w badanym okresie silnie zawyżona. Ponieważ trudno spodziewać się szybkiej likwidacji nierówności w skali powiatów, uwaga ta będzie słuszna przez przynajmniej kilka następnych lat. Zaleca się 28
zatem przeprowadzanie analiz w grupach powiatów lub miast znacznie bardziej jednorodnych ( podobnych ). W odniesieniu do wyodrębnienia determinant należy zauważyć, że statystycznie istotne znaczenie, aczkolwiek o niebyt dużej sile wpływu miały dotychczas (w latach 2009-2012) wyłącznie te zmienne, które charakteryzują gospodarkę finansową gmin, dochody i wydatki budżetów oraz pomoc zewnętrzną. 29
Dodatek nr.1 Model regresji rok 2010 Populacja pierwsza Analiza wariancji 30
2010 populacja druga 31
Dodatek 2. Rok 2012 Populacja pierwsza Wydruk.1 Parametry modelu liniowej regresji Wydruk 2. Analiza wariancji. 32
Wykres 1. Badanie normalności reszt. Wydruk 3. Macierz współczynników interakcji 33
Wydruk 4. Badanie autokorelacji Rok 2012 populacja druga Wydruk 5. Parametry modelu liniowej regresji Wydruk 6. Analiza wariancji. 34
Wykres 2. Badanie normalności reszt. Wydruk 7. Macierz współczynników interakcji Wydruk 8. Badanie autokorelacji 35