JEDEN OBRAZ BYWA WART WIĘCEJ NIŻ TYSIĄC SŁÓW, CZYLI O KORZYŚCIACH Z WIZUALIZACJI WYNIKÓW LINIOWYCH METOD ORDYNACYJNYCH

Wielkość: px
Rozpocząć pokaz od strony:

Download "JEDEN OBRAZ BYWA WART WIĘCEJ NIŻ TYSIĄC SŁÓW, CZYLI O KORZYŚCIACH Z WIZUALIZACJI WYNIKÓW LINIOWYCH METOD ORDYNACYJNYCH"

Transkrypt

1 JEDEN OBRAZ BYWA WART WIĘCEJ NIŻ TYSIĄC SŁÓW, CZYLI O KORZYŚCIACH Z WIZUALIZACJI WYNIKÓW LINIOWYCH METOD ORDYNACYJNYCH Małgorzata Misztal, Katedra Metod Statystycznych, Wydział Ekonomiczno-Socjologiczny, Uniwersytet Łódzki If statistical graphics, although born just yesterday, extends its reach every day, it is because it replaces long tables of numbers and it allows one not only to embrace at glance the series of phenomena, but also to signal the correspondences or anomalies, to find the causes, to identify the laws. Émile Cheysson, c Analiza wielowymiarowa Dynamiczny rozwój technologiczny, mnogość dostępnych informacji oraz zmieniająca się rzeczywistość pozyskiwania danych sprawiają, że kluczowego znaczenia w badaniach naukowych nabiera umiejętność kompleksowej analizy zebranych danych i formułowania na podstawie uzyskanych wyników użytecznych wniosków. Jak słusznie zauważył w swojej książce profesor Andrzej Balicki [2009, s. 15]: większość danych statystycznych ma charakter wielowymiarowy. Oznacza to, że zarówno obiekty zbiorowości, jak też badane zjawiska są opisywane za pomocą wielu różnych, zwykle zależnych cech. ( ) Nie można zatem ograniczać zastosowań metod statystycznych do prostych analiz jednej cechy lub dwóch cech równocześnie. Analizy dużych zbiorów obserwacji, tak aby nie pominąć ich złożoności, ale równocześnie uprościć je i uczynić zrozumiałymi, wymagają stosowania statystycznych metod analizy wielowymiarowej. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 21

2 Termin analiza wielowymiarowa odnosi się, ogólnie mówiąc, do wszystkich metod statystycznych, wykorzystywanych do badania danych wielowymiarowych, czyli takich, w których każda obserwacja scharakteryzowana jest przez więcej niż jedną zmienną (por. Everitt i Skrondal [2010, s ]). Do popularnych i często wykorzystywanych metod wielowymiarowych należy m.in.: analiza regresji, analiza skupień, drzewa klasyfikacyjne oraz skalowanie wielowymiarowe. Wiele metod analizy wielowymiarowej należy do tzw. metod eksploracyjnych, których celem jest stworzenie podstaw do formułowania hipotez, a nie do ich testowania (por. Balicki [2009, s. 17]). Popularnym narzędziem analizy eksploracyjnej są metody graficzne, często stosowane bez wcześniejszych założeń co do struktury danych i bez definiowania formalnych modeli danych, w celu odkrycia prawidłowości i wzorców w danych, przy minimalnym wykorzystaniu formalnych metod matematycznych lub statystycznych. Z drugiej strony, metody graficzne i wizualizacja wyników analiz w przypadku niektórych metod wielowymiarowej analizy statystycznej są nierozerwalnie związane z procesem analizy danych i stanowią podstawę interpretacji uzyskanych wyników. Do metod, w których wizualizacja wyników odgrywa niebagatelną rolę, zaliczyć należy metody ordynacyjne. Metody ordynacyjne Termin ordynacja (z łac. ordinatio, z niem. ordnung) oznacza ustawienie obiektów w pewnym porządku ( Putting things in order ) [Goodall, 1954]. Jak podkreślił Gower [1984], termin ordynacja spopularyzowały badania ekologiczne, w których odnosi się on do sposobu przedstawiania obiektów w postaci punktów rozmieszczonych wzdłuż jednej bądź kilku osi referencyjnych. Z kolei Everitt i Skrondal [2010, s. 312] zdefiniowali ordynację jako proces redukcji wymiarowości, czyli zmniejszenie liczby zmiennych pierwotnych przez wprowadzenie mniejszej liczby nowych zmiennych (czynników, wymiarów), które wyjaśniają zmienność zmiennych pierwotnych z niewielką utratą informacji. Celem metod ordynacyjnych jest: (1) wykrycie struktury i ogólnych prawidłowości w związkach między 22 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl

3 zmiennymi oraz (2) opis i klasyfikacja badanych obiektów w nowych (ortogonalnych) przestrzeniach zdefiniowanych przez nowe zmienne. Chociaż termin metody ordynacyjne nie jest popularny np. w naukach ekonomiczno-społecznych, to wiele metod statystycznych należących do grupy metod ordynacyjnych jest powszechnie stosowanych w badaniach naukowych niekoniecznie związanych z ekologią. Wśród takich metod znajduje się np. analiza głównych składowych, analiza korespondencji czy, wspomniane już wcześniej, skalowanie wielowymiarowe. Dane wykorzystywane w analizach ordynacyjnych przedstawiane są zwykle w postaci dwóch macierzy zapisanych obok siebie: D = [Y X] = [y ij x ik ], (i = 1, 2,, n; j =1, 2,, m; k =1, 2,, p). Wiersze macierzy D odpowiadają obiektom, pierwszych m kolumn reprezentuje zmienne zależne (objaśniane), a kolejnych p kolumn zmienne niezależne (objaśniające). Wyróżnia się dwie grupy technik ordynacyjnych [Jongman, ter Braak, van Tongeren (red.) 1995]: (1) metody ordynacji pośredniej (indirect/unconstrained ordination), w których analizowana jest tylko macierz Y, a informacje zawarte w macierzy X, jeśli są dostępne, wykorzystywane są wyłącznie pomocniczo do interpretacji uzyskanych wyników oraz (2) metody ordynacji bezpośredniej (direct/constrained ordination), w których obie macierze, X i Y, są analizowane. Wybór metody zależy od posiadanych informacji o zmiennych zależnych i niezależnych oraz od struktury analizowanych danych; w szczególności kluczowa jest tutaj ocena charakteru zależności (charakter liniowy, charakter unimodalny) pomiędzy zmiennymi objaśnianymi i objaśniającymi. W niniejszym opracowaniu nacisk zostanie położony na korzyści płynące z wizualizacji wyników liniowych metod ordynacyjnych, do których należą: analiza głównych składowych oraz jej kanoniczna forma - analiza redundancji. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 23

4 Analiza głównych składowych (Principal component analysis - PCA [Pearson 1901; Hotelling 1933]) należy do najpopularniejszych metod statystycznej analizy wielowymiarowej i jest szczegółowo opisana w wielu pracach [por. np. Gatnar i Walesiak (red.) 2004]. W metodzie tej wykorzystywane są rotacje osi pierwotnych wyznaczonych przez zmienne zależne w taki sposób, aby nowe osie (tzw. główne składowe, będące liniowymi kombinacjami zmiennych pierwotnych) były ortogonalne i kolejno wyjaśniały coraz niższy procent wariancji. Analiza redundancji (Redundancy analysis - RDA [Rao 1964; van den Wollenberg 1977]) jest kanoniczną formą analizy głównych składowych i przeprowadzana jest w dwóch krokach [Legendre i Legendre 2012]. Krok 1 polega na zbudowaniu wielowymiarowych modeli regresji liniowej Y względem X tak, aby uzyskać macierz wartości teoretycznych: Y = X[X T X] 1 X T Y. Postępowanie w tym kroku jest równoważne zbudowaniu serii modeli regresji wielokrotnej poszczególnych zmiennych zależnych y j względem X, wyznaczeniu wektorów wartości teoretycznych y j, a następnie zapisaniu tych wektorów w postaci macierzy Y. Wykorzystywane są modele regresji II rodzaju, a parametry tych modeli szacuje się metodą najmniejszych kwadratów. W kroku 2 dla macierzy Y przeprowadzana jest analiza głównych składowych. Uzyskane osie kanoniczne są liniowymi kombinacjami zmiennych objaśniających X. Wyniki analizy głównych składowych i analizy redundancji przedstawić można graficznie z wykorzystaniem diagramów ordynacyjnych. Diagramy ordynacyjne Do diagramów ordynacyjnych zalicza się wykresy rozrzutu, biploty i triploty, różniące się między sobą zawartością informacyjną. 24 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl

5 Na wykresach rozrzutu przedstawiany jest jeden rodzaj informacji, może to być np. rozrzut zbioru obiektów lub rozrzut ładunków czynnikowych na płaszczyźnie rozpiętej na wybranej parze składowych. Definiując biplot, czyli wykres zaproponowany przez Gabriela [1971], warto przytoczyć fragment artykułu Gowera, Le Roux i Gardner-Lubbe [2015, s. 42]: A biplot is exactly what it says. It is a plot of two kinds of information displayed together. The bi in biplot refers to the two kinds of information and not to the usual, but not necessary, use of two dimensions. A zatem biplot to taki rodzaj wykresu, na którym prezentowane są łącznie dwa rodzaje informacji (np. dotyczących obiektów i zmiennych objaśnianych lub zmiennych objaśnianych i objaśniających). Triplot wreszcie to taki wykres, na którym przedstawione są łącznie trzy rodzaje informacji (obiekty, zmienne objaśniane i zmienne objaśniające). Biplot i triplot pozwalają uzyskać dodatkową informację, niewidoczną na prostych wykresach rozrzutu, dotyczącą powiązań między zmiennymi objaśnianymi lub objaśniającymi oraz badanymi obiektami. Istotny dla interpretacji diagramu ordynacyjnego jest sposób skalowania. Wyróżnia się dwa rodzaje skalowania: (1) zachowujące odległości między obiektami (type I scaling: focus on distances) i (2) zachowujące korelacje między zmiennymi objaśnianymi (type II scaling: focus on correlations). W tabeli 1 (poniżej) podsumowano sposób interpretacji diagramu ordynacyjnego w zależności od wybranego typu skalowania. Na diagramach ordynacyjnych ilościowe zmienne objaśniające oraz zmienne objaśniane przedstawiane są zwykle w postaci wektorów. Kierunek wektora odpowiada kierunkowi największej zmienności danej zmiennej (czyli gradientowi), a długość wektora, opisująca dynamikę zmian, pozwala jednocześnie ocenić wkład danej zmiennej do budowy osi ordynacyjnych. Nominalne zmienne objaśniające przestawiane są w postaci punktów dla Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 25

6 każdej kategorii zmiennej, podobnie jak obiekty, przy czym zaleca się dla odróżnienia stosowanie różnych symboli (kółka, trójkąty). Tabela 1. Sposób interpretacji powiązań między zmiennymi objaśnianymi, objaśniającymi i obiektami na diagramie ordynacyjnym dla metod liniowych w zależności od rodzaju skalowania. Porównywane elementy diagramu zmienne objaśniane vs obiekty obiekty vs obiekty zmienne objaśniane vs zmienne objaśniane zmienne objaśniane vs zmienne objaśniające obiekty vs zmienne objaśniające zmienne objaśniające vs zmienne objaśniające zmienne objaśniane vs nominalne zmienne objaśniające obiekty vs nominalne zmienne objaśniające nominalne zmienne objaśniające vs nominalne zmienne objaśniające ilościowe zmienne objaśniające vs nominalne zmienne objaśniające Skalowanie typu I Skalowanie typu II (focus on distances) (focus on correlations) przybliżone uporządkowanie obiektów względem danej zmiennej objaśnianej odległości euklidesowe między (nieinterpretowalne) obiektami ocena liniowych korelacji między (nieinterpretowalne) zmiennymi objaśnianymi ocena liniowych korelacji między zmiennymi objaśnianymi i zmiennymi objaśniającymi przybliżone uporządkowanie (nieinterpretowalne) obiektów względem wartości zmiennej objaśniającej ocena znaczenia poszczególnych zmiennych objaśniających ocena liniowych korelacji między w wyjaśnianiu zmienności zmiennymi objaśniającymi zmiennych objaśnianych średnie wartości zmiennych objaśnianych dla danej kategorii zmiennej objaśniającej grupy obiektów z daną kategorią zmiennej objaśniającej odległości euklidesowe między poszczególnymi kategoriami zmiennych objaśniających (nieinterpretowalne) Źródło: Misztal [2017, s. 164] na podstawie [Lepš i Šmilauer 2003, s. 150]. (nieinterpretowalne) średnie wartości ilościowych zmiennych objaśniających dla danych kategorii nominalnych zmiennych objaśniających W większości przypadków wartości współrzędnych obiektów czy zmiennych przedstawionych na diagramie ordynacyjnym nie mają specjalnego znaczenia; w interpretacji mówi się o względnych odległościach, względnych kierunkach czy względnym uporządkowaniu zrzutowanych punktów. 26 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl

7 Sposób interpretacji biplotów na przykładzie zastosowań marketingowych szczegółowo opisał Sagan [2004], a wskazówki ułatwiające interpretację triplotów znaleźć można m.in. w pracy Misztal [2017]. Zauważmy jeszcze, że w literaturze przedmiotu zamiast określenia diagram ordynacyjny pojawia się często określenie mapa percepcji. Jak zauważają Gower, Le Roux i Gardner- Lubbe [2015, s. 42], słowo mapa jest tu używane w znaczeniu mapy danych, bez żadnych konotacji geograficznych. I jak to bywa z każdą mapą, celem budowy mapy percepcji jest prezentacja powiązań między obiektami i dowolnym zestawem zmiennych. Jako że: knowledge is of no value unless you put it into practice (Antoni Czechow), sposób analizy, prezentacji graficznej i interpretacji wyników liniowych metod ordynacyjnych przedstawiony zostanie na przykładach. Co widać na biplocie, czyli analiza różnic w poziomie zrównoważonego rozwoju w zakresie ładu środowiskowego województw w Polsce Według definicji sformułowanej w 1987 roku w raporcie Światowej Komisji ds. Środowiska i Rozwoju, zrównoważony rozwój to taki, który zapewnia zaspokajanie potrzeb obecnego pokolenia bez umniejszania szans rozwojowych przyszłych pokoleń [GUS 2016, s. 11]. Uznany za Zasadę Konstytucyjną Rzeczypospolitej Polskiej zrównoważony rozwój kraju został zdefiniowany w Ustawie Prawo Ochrony Środowiska jako rozwój społeczno-gospodarczy integrujący działania polityczne, gospodarcze i społeczne, z zachowaniem równowagi przyrodniczej w celu zagwarantowania zaspokojenia potrzeb zarówno współczesnego, jak i przyszłych pokoleń [GUS 2015, s. 3]. We wrześniu 2015 roku podczas szczytu ONZ 193 państwa członkowskie, w tym Polska, przyjęły plan zrównoważonego rozwoju dla świata Agendę Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 27

8 W publikacjach i na stronie Głównego Urzędu Statystycznego znaleźć można szereg wskaźników pozwalających monitorować zrównoważony rozwój kraju w układzie czterech ładów: społecznego, gospodarczego, środowiskowego i instytucjonalno-politycznego. W przedstawionym przykładzie wykorzystane zostały dane dotyczące wybranych dziewięciu wskaźników opisujących ład środowiskowy w ujęciu wojewódzkim w roku Wskaźniki te należą do 5 dziedzin (por. tabela 2). Tabela 2. Wybrane wskaźniki dla ładu środowiskowego. Dziedzina Energia Ochrona powietrza Gospodarka odpadami Użytkowanie gruntów Bioróżnorodność Wskaźniki X1 Udział energii odnawialnej w produkcji energii elektrycznej ogółem (%) X2 X3 X4 X5 Zużycie energii elektrycznej na 1 mln zł PKB (GWh) Nakłady na środki trwałe służące ochronie środowiska związane z oszczędzaniem energii elektrycznej na 1 mieszkańca (zł) Emisja zanieczyszczeń powietrza z zakładów szczególnie uciążliwych - gazowych (t/r) Odpady komunalne zebrane selektywnie w relacji do ogółu odpadów komunalnych zebranych w ciągu roku (%) X6 Lesistość (%) X7 Udział powierzchni użytków rolnych w powierzchni ogółem (%) X8 X9 Źródło: opracowanie własne. Udział powierzchni obszarów Natura 2000 w powierzchni ogółem - obszary specjalnej ochrony ptaków (%) Udział powierzchni obszarów Natura 2000 w powierzchni ogółem - specjalne obszary ochrony siedlisk (%) Każdy z analizowanych wskaźników można badać osobno, podając podstawowe statystyki opisowe lub prezentując w formie graficznej rozkłady badanych zmiennych. Na rys. 1a-1d przedstawiono wybrane 4 wskaźniki ładu środowiskowego w układzie wojewódzkim wykorzystując Zestaw Mapy z pakietu Statistica. Analiza poszczególnych rysunków umożliwia identyfikację grupy województw podobnych z punktu widzenia wartości każdego badanego wskaźnika. Prezentacja graficzna wielkości poszczególnych wskaźników według województw nie pozwoli jednak odpowiedzieć na szereg pytań - na przykład: czy istnieją związki między 28 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl

9 badanymi wskaźnikami lub czy można wskazać grupy województw podobnych z punktu widzenia więcej niż jednego wskaźnika opisującego ład środowiskowy. Aby wykonać bardziej pogłębioną analizę zebranych danych, konieczne jest podejście wielowymiarowe. Pomocnym rozwiązaniem będzie w tej sytuacji wykorzystanie analizy głównych składowych (PCA). Rys. 1a. Udział energii odnawialnej w produkcji energii elektrycznej ogółem wg województw. Rys. 1b. Emisja gazowych zanieczyszczeń powietrza z zakładów szczególnie uciążliwych wg województw. Rys. 1c. Odpady komunalne zebrane selektywnie wg województw. Rys. 1d. Lesistość wg województw. Legenda: D dolnośląskie; C kujawsko-pomorskie; L lubelskie; F lubuskie; E łódzkie; K małopolskie; W mazowieckie; O opolskie; R podkarpackie; B podlaskie; G pomorskie; S śląskie; T świętokrzyskie; N warmińsko-mazurskie; P wielkopolskie; Z zachodniopomorskie. Źródło: Opracowanie własne z wykorzystaniem pakietu Statistica i Zestawu Mapy. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 29

10 W rozważanym przykładzie zmienne opisujące ład środowiskowy nie są porównywalne, wymagana jest zatem ich standaryzacja. Wobec tego punktem wyjścia do dalszych analiz będzie macierz korelacji. Ze względu na cel pracy pominięto szczegółowe wyniki analizy głównych składowych, skupiając się wyłącznie na wizualizacji wyników i jej interpretacji. Liczba głównych składowych, które można wyznaczyć, jest równa liczbie zmiennych pierwotnych, czyli w rozważanym przykładzie wynosi 9. Dwie pierwsze główne składowe wyjaśniają łącznie 73,16% całkowitej wariancji. Rys. 2. Wykres rozrzutu ładunków czynnikowych zmiennych (koło korelacyjne). Rys. 3. Wykres rozrzutu województw w przestrzeni 2 pierwszych głównych składowych. Źródło: Opracowanie własne z wykorzystaniem pakietu Statistica. Legenda: D dolnośląskie; C kujawsko-pomorskie; L lubelskie; F lubuskie; E łódzkie; K małopolskie; W mazowieckie; O opolskie; R podkarpackie; B podlaskie; G pomorskie; S śląskie; T świętokrzyskie; N warmińsko-mazurskie; P wielkopolskie; Z zachodniopomorskie; X1 - udział energii odnawialnej w produkcji energii elektrycznej; X2 - zużycie energii elektrycznej na 1 mln zł PKB (GWh); X3 - nakłady na środki trwałe służące ochronie środowiska związane z oszczędzaniem energii elektrycznej na 1 mieszkańca (zł); X4 - emisja gazowych zanieczyszczeń powietrza z zakładów szczególnie uciążliwych; X5 - odpady komunalne zebrane selektywnie (%); X6 - lesistość (%), X7 - udział powierzchni użytków rolnych w powierzchni ogółem (%); X8 - obszary specjalnej ochrony ptaków Natura 2000 (%); X9 - specjalne obszary ochrony siedlisk Natura 2000 (%). 30 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl

11 Na rys. 2 przedstawiono wykres rozrzutu ładunków czynnikowych, a na rys. 3 wykres rozrzutu obiektów w przestrzeni wyznaczonej przez dwie pierwsze główne składowe. Na rys. 4 i 5 z kolei przedstawione są biploty, na których jednocześnie prezentowane są informacje dotyczące badanych zmiennych oraz analizowanych województw. Na rys. 2 przedstawione są ładunki czynnikowe, czyli korelacje między zmiennymi pierwotnymi i głównymi składowymi. Ponieważ współczynniki korelacji przyjmują wartości z przedziału [-1; 1], rozmieszczone są w obrębie tzw. koła jednostkowego, zwanego też kołem korelacyjnym. Im dalej od środka koła znajduje się dany punkt, tym wyższa korelacja danej zmiennej z daną osią ordynacyjną (czyli główną składową). Jak łatwo zauważyć, z pierwszą główną składową najsilniej skorelowane są zmienne: X8 (udział obszarów specjalnej ochrony ptaków), X5 (udział odpadów komunalnych zebranych selektywnie) i X4 (emisja zanieczyszczeń powietrza), a z drugą zmienne: X7 (użytki rolne), X6 (lesistość) i X3 (nakłady na środki trwałe związane z oszczędzaniem energii). Kąty między wektorami obrazującymi badane zmienne wskazują na skorelowanie tych zmiennych, przy czym: kąty ostre (wektory położone blisko siebie) świadczą o występowaniu korelacji dodatniej, kąt prosty (wektory prostopadłe) o braku korelacji, natomiast kąty rozwarte (wektory po przeciwnych stronach środka koła korelacyjnego) o korelacji ujemnej. Na rys. 2 widać dwie wiązki wektorów jedną grupę stanowią zmienne: X1 (energia odnawialna), X8 (obszary ochrony ptaków), X9 (obszary ochrony siedlisk) i X6 (lesistość), a drugą grupę zmienne: X2 (zużycie energii elektrycznej), X3 (nakłady na środki trwałe związane z oszczędzaniem energii elektrycznej), X4 (emisja gazowych zanieczyszczeń powietrza), X5 (odpady komunalne zebrane selektywnie). W obrębie każdej z tych grup zmienne są dodatnio skorelowane, natomiast korelacje ujemne występują między parami zmiennych z różnych grup. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 31

12 Na podstawie wzajemnego położenia wektorów odpowiadających poszczególnym wskaźnikom ładu środowiskowego można wyciągnąć m. in. następujące wnioski: 1. Najsilniej skorelowane pary zmiennych to: X8 i X9, X2 i X3, X4 i X5, X2 i X5, X6 i X8 oraz X9 (korelacje dodatnie), a także: X6 i X7, X5 i X8, X2 i X8, X1 i X5, X4 i X8 (korelacje ujemne); szczególną uwagę zwraca ujemna zależność między lesistością (X6) a udziałem powierzchni użytków rolnych (X7) kąt między tymi wektorami jest bliski 180 o. 2. Zmienne nieskorelowane lub bardzo słabo skorelowane to: X2 i X7 (kąt prosty między wektorami) oraz X1 i X7, X1 i X6, X3 i X9. Wykres rozrzutu obiektów w przestrzeni wyznaczonej przez dwie pierwsze główne składowe (rys. 3) również dostarcza interesujących informacji. Można zauważyć cztery dość zwarte skupienia punktów obrazujących województwa: (1) podlaskie (B) i warmińsko-mazurskie (N), (2) podkarpackie (R), zachodniopomorskie (Z), lubuskie (F) i pomorskie (G), (3) dolnośląskie (D), wielkopolskie (P), małopolskie (K), kujawsko-pomorskie (C), lubelskie (L) i mazowieckie (W), (4) świętokrzyskie (T), opolskie (O), śląskie (S) i łódzkie (E). Posługując się wyłącznie prostymi wykresami rozrzutu, nie można ocenić powiązań między zmiennymi (wskaźnikami) a obiektami (województwami). Takie informacje można natomiast uzyskać, analizując biplot (rys. 4). Wykres ten powstał poprzez scalenie rys. 2 z rys.3. W celu ujednolicenia skali, współrzędne obiektów w przestrzeni dwóch pierwszych głównych składowych zostały przemnożone przez stałą (rys. 5) taki zabieg nie ma wpływu na interpretację wyników. Rzuty prostopadłe punktów reprezentujących obiekty na wektory zmiennych pokazują przybliżone uporządkowanie obiektów (województw) względem danej zmiennej. 32 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl

13 Rys. 4. Biplot wyniki analizy głównych składowych dla zmiennych opisujących ład środowiskowy w 2015 r. Rys. 5. Biplot wyniki analizy głównych składowych dla zmiennych opisujących ład środowiskowy w 2015 r. po przeskalowaniu Źródło: Opracowanie własne z wykorzystaniem pakietu Statistica. Legenda: D dolnośląskie; C kujawsko-pomorskie; L lubelskie; F lubuskie; E łódzkie; K małopolskie; W mazowieckie; O opolskie; R podkarpackie; B podlaskie; G pomorskie; S śląskie; T świętokrzyskie; N warmińsko-mazurskie; P wielkopolskie; Z zachodniopomorskie; X1 - udział energii odnawialnej w produkcji energii elektrycznej; X2 - zużycie energii elektrycznej na 1 mln zł PKB (GWh); X3 - nakłady na środki trwałe służące ochronie środowiska związane z oszczędzaniem energii elektrycznej na 1 mieszkańca (zł); X4 - emisja gazowych zanieczyszczeń powietrza z zakładów szczególnie uciążliwych; X5 - odpady komunalne zebrane selektywnie (%); X6 - lesistość (%), X7 - udział powierzchni użytków rolnych w powierzchni ogółem (%); X8 - obszary specjalnej ochrony ptaków Natura 2000 (%); X9 - specjalne obszary ochrony siedlisk Natura 2000 (%). Jak już wspomniano, można wyodrębnić dość zwarte skupienia punktów obrazujących województwa. Województwa rozmieszczone skrajnie z lewej strony rys. 5 podlaskie (B) i warmińsko-mazurskie (N) charakteryzują się najwyższym udziałem energii odnawialnej w produkcji energii elektrycznej ogółem (X1), a także wysokim udziałem powierzchni obszarów Natura 2000 w powierzchni ogółem (X8 i X9). Podobnie wysoki udział obszarów specjalnej ochrony ptaków i siedlisk dotyczy województw: podkarpackiego (R), zachodniopomorskiego (Z), pomorskiego (G) i lubuskiego (F). Województwo lubuskie (F) ponadto jest Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 33

14 województwem najbardziej zalesionym (X6) i o najniższym udziale powierzchni użytków rolnych w powierzchni ogółem (X7). Województwa, które znajdują się skrajnie z prawej strony rys. 5 łódzkie (E) i śląskie (S) oraz, w mniejszym stopniu, opolskie (O) i świętokrzyskie (T) to województwa o najwyższym zużyciu energii elektrycznej (X2) i najwyższej emisji gazowych zanieczyszczeń powietrza z zakładów szczególnie uciążliwych (X4). Ponadto, województwa te charakteryzują się wysokimi nakładami na środki trwałe służące ochronie środowiska związane z oszczędzaniem energii elektrycznej na 1 mieszkańca (X3) oraz wysokim udziałem odpadów komunalnych zebranych selektywnie w relacji do ogółu odpadów komunalnych zebranych w ciągu roku (X5). Punkt obrazujący województwo dolnośląskie (D) znajduje się blisko początku układu współrzędnych. Oznacza to, że w tym województwie wartości badanych wskaźników opisujących ład środowiskowy są najbliższe wartościom przeciętnym (średnim arytmetycznym obliczonym dla wszystkich 16 województw). Należy także zwrócić uwagę na grupę województw charakteryzujących się m.in. wysokim udziałem powierzchni użytków rolnych w powierzchni ogółem (X7) są to województwa: mazowieckie (W), lubelskie (L), kujawsko-pomorskie (C) i wielkopolskie (P). Co ciekawe, wysoką pozycję w rankingu według wartości tej zmiennej zajmuje także województwo łódzkie (E). Warto w tym miejscu zauważyć, że prezentacja graficzna wyników w postaci biplotu pozwoliła w prosty sposób przekazać wiele złożonych informacji. Aby można było wyciągnąć analogiczne wnioski, opierając się na wynikach obliczeń przedstawionych w postaci tablic, należałoby przeanalizować co najmniej 4 tablice wynikowe (por. rys. 6). Przedstawione na rys. 4 i 5 biploty zachowują konwencję zaproponowaną przez Gabriela [1971] zmienne przedstawione są w postaci wektorów wychodzących z początku układu współrzędnych. Gower, Le Roux i Gardner-Lubbe [2011, 2015] preferują natomiast nieco 34 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl

15 inną formę biplotu, wykorzystującą tzw. osie skalibrowane (calibrated axes). Dla danych z omawianego przykładu taki biplot przedstawiono na rys. 7. Do przygotowania wykresu wykorzystano Zestaw Plus z pakietu Statistica. Rys. 6. Przykładowe zestawienie tablic niezbędnych do interpretacji wyników analizy głównych składowych. Źródło: opracowanie własne z wykorzystaniem pakietu Statistica. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 35

16 Rys. 7. Standaryzowany biplot dla zmiennych opisujących ład środowiskowy w roku Źródło: opracowanie własne z wykorzystaniem pakietu Statistica. Legenda: D dolnośląskie; C kujawsko-pomorskie; L lubelskie; F lubuskie; E łódzkie; K małopolskie; W mazowieckie; O opolskie; R podkarpackie; B podlaskie; G pomorskie; S śląskie; T świętokrzyskie; N warmińsko-mazurskie; P wielkopolskie; Z zachodniopomorskie; X1 - udział energii odnawialnej w produkcji energii elektrycznej; X2 - zużycie energii elektrycznej na 1 mln zł PKB (GWh); X3 - nakłady na środki trwałe służące ochronie środowiska związane z oszczędzaniem energii elektrycznej na 1 mieszkańca (zł); X4 - emisja gazowych zanieczyszczeń powietrza z zakładów szczególnie uciążliwych; X5 - odpady komunalne zebrane selektywnie (%); X6 - lesistość (%), X7 - udział powierzchni użytków rolnych w powierzchni ogółem (%); X8 - obszary specjalnej ochrony ptaków Natura 2000 (%); X9 - specjalne obszary ochrony siedlisk Natura 2000 (%). Obiekty na rys. 7 są przedstawione za pomocą punktów z etykietą identyfikującą nazwę województwa, natomiast 9 badanych zmiennych jest reprezentowanych przez 9 nieortogonalnych osi biplotu (biplot axes), przecinających się w jednym punkcie (centroidzie 36 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl

17 wyznaczonym na podstawie wartości zmiennych opisujących obiekty; w analizowanym przykładzie jest to punkt o współrzędnych (0, 0), gdyż zmienne pierwotne zostały wystandaryzowane) i przebiegających przez cały obszar wykresu. Każda z osi biplotu jest osią współrzędnych wyrażonych w jednostkach pomiaru danej zmiennej. Rzuty prostopadłe punktów obrazujących województwa na osie biplotu dają informacje o uporządkowaniu obiektów względem każdej zmiennej oraz o przybliżonych wartościach tej zmiennej w danym obiekcie. Dodatkowo na rys. 7 pokazany jest wykres workowy (bagplot), będący dwuwymiarową wersją wykresu pudełkowego. Zaciemniony kwadrat, położony blisko punktu przecięcia osi biplotu, oznacza medianę Tukeya, ciemniejszym kolorem zaznaczony jest obszar zwany workiem, natomiast jaśniejszym - otoczka worka. Można zauważyć 4 punkty odstające są to województwa: łódzkie (E), śląskie (S), lubuskie (F) oraz podlaskie (B). Co mówi triplot, czyli analiza wyników wyborów do Sejmu RP w 2015 roku Przedstawiony przykład pochodzi z pracy Misztal [2016]. Wybory do Sejmu RP odbyły się 25 października 2015 roku. 8 komitetów wyborczych zarejestrowało listy kandydatów do Sejmu w co najmniej połowie okręgów wyborczych, były to: (1) Prawo i Sprawiedliwość (PiS), (2) Platforma Obywatelska (PO), (3) Partia Razem, (4) Koalicja Odnowy Rzeczypospolitej Wolność i Nadzieja (KORWiN), (5) Polskie Stronnictwo Ludowe (PSL), (6) Zjednoczona Lewica (ZL), (7) Kukiz 15 oraz (8) Nowoczesna Ryszarda Petru (.N). Listy wyborcze zarejestrowało także 9 komitetów regionalnych (w dalszych analizach potraktowano te komitety łącznie). Wyniki wyborów (% poparcia) w poszczególnych województwach przedstawiono w tabeli 3. Dodatkowo przeanalizowano także 16 różnych czynników (zmiennych objaśniających charakteryzujących badane województwa) mogących mieć wpływ na wyniki wyborów do Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 37

18 Sejmu. Ze względu na niewielką liczbę badanych obiektów (16 województw) przyjęto założenie, że zmiennych objaśniających nie powinno być więcej niż 4-5. Zmienne te powinny być silnie skorelowane ze zmiennymi objaśnianymi (wynikami wyborów) i słabo skorelowane między sobą. Wykorzystując procedury symulacyjne oparte na testach permutacyjnych, szczegółowo opisane w pracy Lepša i Šmilauera [2003, s ], dokonano selekcji zmiennych objaśniających. W dalszych analizach uwzględnione zostały ostatecznie 4 zmienne: (1) pracujący w rolnictwie w % ogółu, (2) stopa bezrobocia (%), (3) korzystający ze świadczeń pomocy społecznej na 10 tysięcy ludności ogółem i (4) frekwencja wyborcza (%). Tabela 3. Wyniki wyborów do Sejmu 2015 (% poparcia). Województwo Komitety wyborcze: PIS PO RAZEM KORWIN PSL ZL KUKIZ 15.N INNE D 32,63 29,26 3,86 4,74 3,14 8,05 9,03 8,69 0,59 C 31,86 27,74 3,70 4,23 6,40 10,39 8,04 6,91 0,72 L 47,76 14,83 2,60 4,74 9,24 6,45 9,79 4,22 0,38 F 28,27 28,21 3,99 4,99 5,12 10,02 8,75 9,99 0,65 E 38,35 23,15 3,79 4,29 5,93 8,79 8,65 6,70 0,36 K 48,18 19,43 3,08 5,20 4,19 4,73 8,14 6,58 0,47 W 38,30 22,61 4,21 5,15 4,84 6,92 7,89 9,53 0,55 O 27,77 26,23 3,02 3,95 3,68 6,75 12,57 7,14 8,88 R 55,09 13,37 2,30 4,69 5,69 4,47 9,23 4,09 1,05 B 45,38 16,74 2,59 4,66 8,07 7,35 9,07 5,37 0,76 G 30,45 34,06 4,02 4,70 3,13 6,62 7,60 8,67 0,75 S 34,82 25,56 3,91 4,88 2,52 8,33 10,69 8,06 1,23 T 42,81 17,25 2,80 4,14 9,51 7,87 9,41 4,98 1,23 N 30,91 28,38 3,76 4,94 7,69 8,30 8,66 6,39 0,97 P 29,61 28,45 3,94 4,32 6,62 9,28 7,77 9,32 0,70 Z 28,91 31,25 4,04 5,01 3,97 9,59 8,78 8,44 0,00 Źródło: Ponieważ dostępne są informacje o zmiennych objaśniających, do analizy wyników wyborów wykorzystano analizę redundancji (RDA). 38 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl

19 W przypadku analizy głównych składowych można wyznaczyć tyle składowych, ile jest zmiennych pierwotnych (objaśnianych), czyli w rozważanym przypadku 9. W analizie redundancji można wyznaczyć tyle osi kanonicznych, ile jest zmiennych objaśniających, czyli w rozważanym przypadku 4. Cztery osie kanoniczne wyjaśniają łącznie 83% zmienności całkowitej (w tym: pierwsza oś kanoniczna wyjaśnia 75,6% całkowitej zmienności, a druga 4,5%). Natomiast biorąc pod uwagę tylko osie kanoniczne, pierwsza oś kanoniczna wyjaśnia 91% zmienności w części kanonicznej, a druga 5,3%. OPOLSKIE INNE KUKIZ15 WARMIŃSKO-MAZURSKIE WIELKOPOLSKIE ZL PODLASKIE korzystający ze świadczeń pomocy społ. LUBUSKIE KUJAWSKO-POMORSKIE ZACHODNIOPOMORSKIE PSL pracujący w rolnictwie LUBELSKIE ŚWIĘTOKRZYSKIE stopa bezrobocia PO.N RAZEM DOLNOŚLĄSKIE ŚLĄSKIE POMORSKIE KORWIN PIS ŁÓDZKIE PODKARPACKIE MAŁOPOLSKIE MAZOWIECKIE frekwencja wyborcza Rys. 8. Wyniki analizy redundancji triplot. Źródło: opracowanie własne na podstawie obliczeń w środowisku R. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 39

20 Uzyskane wyniki RDA przedstawione zostały na triplocie (rys. 8 - powyżej). Wykres ten przygotowano na podstawie wyników obliczeń wykonanych w środowisku R. Przyjęto skalowanie typu II, czyli zachowujące korelacje między zmiennymi. Zmienne objaśniane i objaśniające przedstawiono za pomocą wektorów (odpowiednio: linia czarna ciągła i linia szara przerywana), obiekty województwa zobrazowano za pomocą czarnych kółek. Pamiętać należy, że obie osie kanoniczne są kombinacjami liniowymi zmiennych objaśniających. Kąty między wektorami obrazującymi badane zmienne wskazują na skorelowanie tych zmiennych, zatem na podstawie rys. 8 można wyciągnąć m.in. następujące wnioski: 1. Silnie dodatnio skorelowane są wyniki wyborów uzyskane przez PO, Nowoczesną i Partię Razem, a także Kukiz 15 i komitety regionalne. 2. Silna ujemna korelacja występuje między wynikiem wyborczym Prawa i Sprawiedliwości a poparciem dla Platformy Obywatelskiej, Zjednoczonej Lewicy, Nowoczesnej i Partii Razem. 3. Brak jest zależności między wynikami wyborczymi partii KORWiN i PiS oraz KOR- WiN i Zjednoczona Lewica. 4. Stopa bezrobocia i odsetek pracujących w rolnictwie są najsilniej skorelowane z pierwszą osią ordynacyjną, natomiast z drugą osią ordynacyjną najsilniej skorelowana jest frekwencja wyborcza. 5. Pomiędzy odsetkiem pracujących w rolnictwie i wielkością stopy bezrobocia występuje zależność dodatnia, o średniej sile; z kolei frekwencja wyborcza i liczba pobierających świadczenia społeczne są silnie ujemnie skorelowane. 6. Zależność dodatnia o dużej sile występuje między odsetkiem pracujących w rolnictwie i wynikiem wyborczym PSL; z kolei wyniki wyborcze Partii Razem, Nowoczesnej i Platformy Obywatelskiej są z odsetkiem pracujących w rolnictwie skorelowane ujemnie. 7. Odsetek głosów oddanych na PiS rośnie wraz ze wzrostem stopy bezrobocia, natomiast poparcie dla Kukiz 15 i komitetów regionalnych wzrasta w okręgach wyborczych 40 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl

21 z wyższą liczbą osób pobierających świadczenia społeczne. Poparcie dla partii KOR- WiN z kolei rosło wraz ze wzrostem frekwencji wyborczej. Rzutowanie punktów reprezentujących obiekty na wektory zmiennych objaśnianych i objaśniających pozwala uzyskać następujące informacje: 1. Najlepsze wyniki wyborcze dla PSL odnotowano w województwach: lubelskim, świętokrzyskim i podlaskim. Są to województwa z najwyższym odsetkiem pracujących w rolnictwie. Najniższe poparcie dla PSL zaobserwowano w województwie śląskim, a więc najbardziej uprzemysłowionym. 2. Prawo i Sprawiedliwość zdobyło najwyższe poparcie w województwie podkarpackim, czyli województwie z najwyższą stopą bezrobocia. 3. Partia KORWiN największy odsetek głosów zdobyła w województwie mazowieckiem, w którym odnotowano najwyższą frekwencję wyborczą. 4. Platforma Obywatelska uzyskała najlepszy wynik wyborczy w województwie pomorskim, Zjednoczona Lewica w województwie lubuskim, a Kukiz 15 w województwie opolskim. 5. Charakterystycznym województwem jest kujawsko-pomorskie, dla którego wyniki wyborcze były najbardziej zbliżone do średniej dla całej Polski (punkt obrazujący to województwo leży niemal w początku układu współrzędnych). Przedstawione wnioski nie są oczywiście wszystkimi, które można wyciągnąć, analizując triplot z rys. 8. Ze względu na ograniczoną objętość artykułu wskazano tylko najbardziej interesujące relacje między zmiennymi objaśnianymi, objaśniającymi i obiektami. Jednakże nawet te wypunktowane zależności i powiązania pokazują, jak silnym narzędziem analizy danych może być triplot. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 41

22 Uwagi końcowe Friendly i Sigal [2014] nieco żartobliwie sugerują: there are two kinds of people in this world graph people and table people. Badacze wykorzystujący w swojej pracy metody ordynacyjne według wspomnianych autorów należą do grupy graph people, którą można scharakteryzować jako (...) grupę ludzi, którzy pomimo zainteresowania formalnym, matematycznym opisem związków i wzorców istniejących w danych, nadal słyszą głos bóstwa głoszącego znaczenie wizualizacji danych w celu ich doskonalszego zrozumienia.. Prezentacja graficzna wyników liniowych technik ordynacyjnych z wykorzystaniem biplotów i triplotów znacznie ułatwia analizę powiązań między zmiennością rozkładów badanych zmiennych i czynnikami mającymi wpływ na tę zmienność. Umiejętność interpretacji diagramów ordynacyjnych (przygotowanych w programie statystycznym) nie wymaga wykonywania skomplikowanych obliczeń numerycznych, a zatem może być użyteczna dla badaczy z każdej dziedziny. Zauważmy, że zarówno PCA, jak i RDA, to techniki eksploracyjnej analizy danych, których celem jest wykrycie związków między zmiennymi i przedstawienie struktury danych; mogą być stosowane jako metody wstępne przed zastosowaniem bardziej formalnych metod analizy danych. Wizualizacja w przypadku tych metod jest nierozerwalnie związana z procesem analizy danych i stanowi podstawę interpretacji uzyskanych wyników. Analizując biplot lub triplot, można odkryć wiele użytecznych informacji, np. wyodrębnić skupienia obiektów podobnych czy znaleźć powiązania między zmiennymi. Każda taka uzyskana informacja powinna być w kolejnych krokach analiz zinterpretowana, skomentowana lub poddana dalszym badaniom. Jak można było zauważyć w przedstawionych przykładach, prezentacja graficzna wyników w postaci diagramu ordynacyjnego pozwala w prosty sposób przekazać wiele złożonych informacji. Jeden obraz bywa wart więcej niż tysiąc słów. 42 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl

23 Literatura 1. Balicki A., 2009, Statystyczna analiza wielowymiarowa i jej zastosowania społecznoekonomiczne, Wydawnictwo Uniwersytetu Gdańskiego, Gdańsk. 2. Everitt B.S., Skrondal A., 2010, The Cambridge Dictionary of Statistics, Fourth Edition, Cambridge University Press, Cambridge. 3. Friendly M., Sigal M., 2014, Some Prehistory of CARME: Visual Language and Visual Thinking, (in:) Blasius J., Greenacre M. [ed.] Visualization and Verbalization of Data, CRC Press, s Gabriel K.R., 1971, The biplot graphical display of matrices with application to principal component analysis, Biometrika, vol. 58 (3), s Gatnar E., Walesiak M. (red.), 2004, Metody statystycznej analizy wielowymiarowej w badaniach marketingowych, Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław. 6. Goodall D.W., 1954, Objective methods for the classification of vegetation. III. An essay in the use of factor analysis, Australian Journal of Botany, Vol. 2, s Gower J.C., 1984, Ordination, multidimensional scaling and allied topics, (in:) W. Lederman [ed.] Handbook of Applicable Mathematics, Vol. VI: E. Lloyd [ed.] Statistics, Wiley, Chichester, s Gower J.C., Le Roux N.C., Gardner-Lubbe S., 2011, Understanding biplots, John Wiley&Sons, Ltd. 9. Gower J.C., Le Roux N.C., Gardner-Lubbe S., 2015, Biplots: quantitative data, WIREs Comput Stat, no. 7, s (doi: /wics.1338). 10. GUS, 2015, Wskaźniki zrównoważonego rozwoju Polski 2015, Urząd Statystyczny w Katowicach, Katowice. 11. GUS, 2016, Na ścieżce zrównoważonego rozwoju, Główny Urząd Statystyczny, Warszawa. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 43

24 12. Hotelling H., 1933, Analysis of a complex of statistical variables into principal components, Journal of Educational Psychology, vol. 24, s , Jongman R.H.G., ter Braak C.J.F., van Tongeren O.F.R. (red.), 1995, Data Analysis in Community and Landscape Ecology, Cambridge University Press, Cambridge. 14. Legendre P., Legendre L., 2012, Numerical ecology, Third edition, Elsevier Science B.V., Amsterdam. 15. Lepš J., Šmilauer P., 2003, Multivariate analysis of ecological data using CANOCO, Cambridge University Press, Cambridge. 16. Misztal M., 2016, On the use of selected ordination techniques to analyze the parliamentary election results, Acta Universitatis Lodziensis, Folia Oeconomica 3(322), s Misztal M., 2017, Wizualizacja wyników liniowych technik ordynacyjnych na przykładzie analizy przestępczości przeciwko mieniu w Polsce, (w:) Taksonomia 28, Klasyfikacja i analiza danych teoria i zastosowania, pod red. K. Jajugi i M. Walesiaka, Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu nr 468, s Pearson K., 1901, On lines and planes of closest fit to systems of points in space, Philosophical Magazine, Ser. 6, vol. 2, s Rao C.R., 1964, The use and interpretation of principal component analysis in applied research, Sankhyā: The Indian Journal of Statistics, Series A ( ), vol. 26, no. 4 (Dec., 1964), s Sagan A., 2004, Jeden obraz ukazuje więcej niż 10 liczb, czyli jak budować mapy zadowolenia klienta z wykorzystaniem programu Statistica, Statsoft Polska, Kraków. 21. van den Wollenberg A.L., 1977, Redundancy analysis. An alternative for canonical correlation analysis, Psychometrika, vol. 42, no. 2, s Copyright StatSoft Polska 2018, info@danewiedzasukces.pl

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Emerytury nowosystemowe wypłacone w grudniu 2018 r. w wysokości niższej niż wysokość najniższej emerytury (tj. niższej niż 1029,80 zł)

Emerytury nowosystemowe wypłacone w grudniu 2018 r. w wysokości niższej niż wysokość najniższej emerytury (tj. niższej niż 1029,80 zł) Emerytury nowosystemowe wypłacone w grudniu 18 r. w wysokości niższej niż wysokość najniższej emerytury (tj. niższej niż 9,8 zł) DEPARTAMENT STATYSTYKI I PROGNOZ AKTUARIALNYCH Warszawa 19 1 Zgodnie z art.

Bardziej szczegółowo

METODA DEA W ANALIZIE EFEKTYWNOŚCI NAKŁADÓW NA GOSPODARKĘ ODPADAMI

METODA DEA W ANALIZIE EFEKTYWNOŚCI NAKŁADÓW NA GOSPODARKĘ ODPADAMI Katedra Statystyki METODA DEA W ANALIZIE EFEKTYWNOŚCI NAKŁADÓW NA GOSPODARKĘ ODPADAMI XX MIĘDZYNARODOWA KONFERENCJA NAUKOWA GOSPODARKA LOKALNA I REGIONALNA W TEORII I PRAKTYCE Mysłakowice k. Karpacza 17-18

Bardziej szczegółowo

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę

Bardziej szczegółowo

Działalność badawcza i rozwojowa w Polsce w 2012 r.

Działalność badawcza i rozwojowa w Polsce w 2012 r. GŁÓWNY URZĄD STATYSTYCZNY Urząd Statystyczny w Szczecinie Warszawa, październik 2013 r. Informacja sygnalna WYNIKI BADAŃ GUS Działalność badawcza i rozwojowa w Polsce w 2012 r. Wprowadzenie Niniejsza informacja

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

3. Wojewódzkie zróżnicowanie zatrudnienia w ochronie zdrowia w latach Opis danych statystycznych

3. Wojewódzkie zróżnicowanie zatrudnienia w ochronie zdrowia w latach Opis danych statystycznych 3. Wojewódzkie zróżnicowanie zatrudnienia w ochronie zdrowia w latach 1995-2005 3.1. Opis danych statystycznych Badanie zmian w potencjale opieki zdrowotnej można przeprowadzić w oparciu o dane dotyczące

Bardziej szczegółowo

Kto wygra drugą turę wyborów prezydenckich 2015 r.?

Kto wygra drugą turę wyborów prezydenckich 2015 r.? Kto wygra drugą turę wyborów prezydenckich 2015 r.? Spróbujmy odpowiedzieć na to pytanie korzystając jedynie z oficjalnych wyników wyborów z pierwszej tury w podziale na województwa. Opieramy się zatem

Bardziej szczegółowo

Analiza składowych głównych

Analiza składowych głównych Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 - wyniki niskie - wyniki średnie - wyniki wysokie liczba

Bardziej szczegółowo

Sytuacja młodych na rynku pracy

Sytuacja młodych na rynku pracy Sytuacja młodych na rynku pracy Plan prezentacji Zamiany w modelu: w obrębie każdego z obszarów oraz zastosowanych wskaźników cząstkowych w metodologii obliczeń wskaźników syntetycznych w obrębie syntetycznego

Bardziej szczegółowo

Klasówka po szkole podstawowej Historia. Edycja 2006/2007. Raport zbiorczy

Klasówka po szkole podstawowej Historia. Edycja 2006/2007. Raport zbiorczy Klasówka po szkole podstawowej Historia Edycja 2006/2007 Raport zbiorczy Opracowano w: Gdańskiej Fundacji Rozwoju im. Adama Mysiora Informacje ogólne... 3 Raport szczegółowy... 3 Tabela 1. Podział liczby

Bardziej szczegółowo

na podstawie opracowania źródłowego pt.:

na podstawie opracowania źródłowego pt.: INFORMACJA O DOCHODACH I WYDATKACH SEKTORA FINASÓW PUBLICZNYCH WOJEWÓDZTWA KUJAWSKO-POMORSKIEGO W LATACH 2004-2011 ZE SZCZEGÓLNYM UWZGLĘDNIENIEM WYDATKÓW STRUKTURALNYCH na podstawie opracowania źródłowego

Bardziej szczegółowo

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Analiza głównych składowych- redukcja wymiaru, wykł. 12 Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają

Bardziej szczegółowo

Żłobki i kluby dziecięce w 2013 r.

Żłobki i kluby dziecięce w 2013 r. Materiał na konferencję prasową w dniu 3 maja 214 r. GŁÓWNY URZĄD STATYSTYCZNY Departament Badań Społecznych i Warunków Życia Notatka informacyjna Żłobki i kluby dziecięce w 213 r. W pierwszym kwartale

Bardziej szczegółowo

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ Korelacja oznacza fakt współzależności zmiennych, czyli istnienie powiązania pomiędzy nimi. Siłę i kierunek powiązania określa się za pomocą współczynnika korelacji

Bardziej szczegółowo

Jarosław Zbieranek. Instytut Spraw Publicznych

Jarosław Zbieranek. Instytut Spraw Publicznych Jarosław Zbieranek Instytut Spraw Publicznych Głosy nieważne. Analiza zjawiska przez pryzmat wyborów samorządowych w latach 2002 i 2006 (Materiał roboczy) Warszawa 2010 INSTYTUT SPRAW PUBLICZNYCH Program

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 - wyniki niskie - wyniki średnie - wyniki wysokie liczba punktów Parametry

Bardziej szczegółowo

GŁÓWNY URZĄD STATYSTYCZNY Urząd Statystyczny w Katowicach

GŁÓWNY URZĄD STATYSTYCZNY Urząd Statystyczny w Katowicach GŁÓWNY URZĄD STATYSTYCZNY Urząd Statystyczny w Katowicach Notatka informacyjna PRODUKT KRAJOWY BRUTTO RACHUNKI REGIONALNE W 2008 R. 1 PRODUKT KRAJOWY BRUTTO W 2008 roku wartość wytworzonego produktu krajowego

Bardziej szczegółowo

WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH:

WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH: WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH: Zasada podstawowa: Wykorzystujemy możliwie najmniej skomplikowaną formę wykresu, jeżeli to możliwe unikamy wykresów 3D (zaciemnianie treści), uwaga na kolory

Bardziej szczegółowo

Spis tabel. Tabela 5.6. Indeks rywalizacyjności oraz efektywna liczba partii w wyborach

Spis tabel. Tabela 5.6. Indeks rywalizacyjności oraz efektywna liczba partii w wyborach Tabela 1.1. Wydatki z budżetów wojewódzkich (2011 rok), według wyodrębnionych kategorii, w wybranych województwach...25 Tabela 2.1. Powierzchnia i ludność województw...36 Tabela 2.2. Struktura zamieszkania

Bardziej szczegółowo

Raport z cen korepetycji w Polsce 2016/2017. Na podstawie cen z serwisu e-korepetycje.net

Raport z cen korepetycji w Polsce 2016/2017. Na podstawie cen z serwisu e-korepetycje.net Raport z cen korepetycji w Polsce 2016/2017 Na podstawie cen z serwisu e-korepetycje.net Spis treści WSTĘP... 3 ZAŁOŻENIA DO RAPORTU... 3 ANALIZA WOJEWÓDZTW... 3 Województwo dolnośląskie... 5 Województwo

Bardziej szczegółowo

1. Analiza wskaźnikowa... 3 1.1. Wskaźniki szczegółowe... 3 1.2. Wskaźniki syntetyczne... 53 1.2.1.

1. Analiza wskaźnikowa... 3 1.1. Wskaźniki szczegółowe... 3 1.2. Wskaźniki syntetyczne... 53 1.2.1. Spis treści 1. Analiza wskaźnikowa... 3 1.1. Wskaźniki szczegółowe... 3 1.2. Wskaźniki syntetyczne... 53 1.2.1. Zastosowana metodologia rangowania obiektów wielocechowych... 53 1.2.2. Potencjał innowacyjny

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 liczba punktów - wyniki niskie - wyniki średnie - wyniki wysokie Parametry

Bardziej szczegółowo

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować

Bardziej szczegółowo

Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym

Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym Zeszyty Naukowe Wyższej Szkoły Bankowej w Poznaniu Nr 42/2012 Rafał Klóska Uniwersytet Szczeciński Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym Streszczenie.

Bardziej szczegółowo

Raport z cen korepetycji w Polsce Na podstawie cen z serwisu e-korepetycje.net

Raport z cen korepetycji w Polsce Na podstawie cen z serwisu e-korepetycje.net Raport z cen korepetycji w Polsce 2016 Na podstawie cen z serwisu e-korepetycje.net Spis treści WSTĘP... 3 ZAŁOŻENIA DO RAPORTU... 3 ANALIZA WOJEWÓDZTW... 3 Województwo dolnośląskie... 6 Województwo kujawsko-pomorskie...

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 - wyniki niskie - wyniki średnie - wyniki wysokie liczba

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 liczba punktów - wyniki niskie - wyniki średnie - wyniki wysokie Parametry rozkładu

Bardziej szczegółowo

Charakterystyka przedsiębiorstw transportu samochodowego w Polsce w latach

Charakterystyka przedsiębiorstw transportu samochodowego w Polsce w latach Logistyka - nauka Krystyna Bentkowska-Senator, Zdzisław Kordel Instytut Transportu Samochodowego w Warszawie Charakterystyka przedsiębiorstw transportu samochodowego w Polsce w latach 2007-2010 Pozytywnym

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 25 22.5 2 17.5 procent uczniów 15 12.5 1 7.5 5 2.5 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 - wyniki niskie - wyniki średnie - wyniki wysokie liczba punktów

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 liczba punktów - wyniki niskie - wyniki średnie - wyniki wysokie Parametry rozkładu

Bardziej szczegółowo

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji

Bardziej szczegółowo

Działalność badawcza i rozwojowa w Polsce w 2013 r. Główne wnioski

Działalność badawcza i rozwojowa w Polsce w 2013 r. Główne wnioski GŁÓWNY URZĄD STATYSTYCZNY Urząd Statystyczny w Szczecinie Warszawa, listopad 2014 r. Informacja sygnalna WYNIKI BADAŃ GUS Główne wnioski Wartość nakładów wewnętrznych 1 ogółem na działalność badawczo-rozwojową

Bardziej szczegółowo

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 - wyniki niskie - wyniki średnie - wyniki wysokie liczba punktów Parametry

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

ANALIZA PORÓWNAWCZA KONIUNKTURY WOJEWÓDZTW POLSKI W LATACH

ANALIZA PORÓWNAWCZA KONIUNKTURY WOJEWÓDZTW POLSKI W LATACH Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach ISSN 2083-8611 Nr 318 2017 Uniwersytet Ekonomiczny w Katowicach Wydział Zarządzania Katedra Ekonometrii jozef.biolik@ue.katowice.pl

Bardziej szczegółowo

ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH

ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE (Źródło informacji ROCZNIK STATYSTYCZNY ROLNICTWA 2010 Głównego Urzędu Statystycznego) ROLNICZE UŻYTKOWANIE GRUNTÓW WEDŁUG WOJEWÓDZTW użytki

Bardziej szczegółowo

Analiza zależności liniowych

Analiza zależności liniowych Narzędzie do ustalenia, które zmienne są ważne dla Inwestora Analiza zależności liniowych Identyfikuje siłę i kierunek powiązania pomiędzy zmiennymi Umożliwia wybór zmiennych wpływających na giełdę Ustala

Bardziej szczegółowo

Powierzchnia województw w 2012 roku w km²

Powierzchnia województw w 2012 roku w km² - 10 %? powierzchnia w km2 lokata DOLNOŚLĄSKIE 19947 7 KUJAWSKO-POMORSKIE 17972 10 LUBELSKIE 25122 3 LUBUSKIE 13988 13 ŁÓDZKIE 18219 9 MAŁOPOLSKIE 15183 12 MAZOWIECKIE 35558 1 OPOLSKIE 9412 16 PODKARPACKIE

Bardziej szczegółowo

Wybory na mapach GradeStatu. Anna Welcz Weronika Welcz

Wybory na mapach GradeStatu. Anna Welcz Weronika Welcz Anna Welcz Weronika Welcz Wybory 2007 na mapach GradeStatu Na jaką koalicję głosowali wyborcy? Zaskakujące korelacje między partiami, które weszły do sejmu Krajobraz po wyborczej bitwie w obiektywie GradeStatu

Bardziej szczegółowo

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe. Idea (ang. principal components analysis PCA), zwana również dekompozycją według wartości osobliwych (SVD) lub dekompozycją spektralną, jest popularną techniką redukcji wymiarowości danych(liczby cech).

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 - wyniki niskie - wyniki średnie - wyniki wysokie liczba punktów Parametry rozkładu

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 10 9 8 7 procent uczniów 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 - wyniki niskie -

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 10 9 8 7 procent uczniów 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 - wyniki niskie -

Bardziej szczegółowo

CBOS CENTRUM BADANIA OPINII SPOŁECZNEJ POPARCIE DLA UGRUPOWAŃ POLITYCZNYCH W NOWYCH WOJEWÓDZTWACH BS/72/99 KOMUNIKAT Z BADAŃ WARSZAWA, KWIECIEŃ 99

CBOS CENTRUM BADANIA OPINII SPOŁECZNEJ POPARCIE DLA UGRUPOWAŃ POLITYCZNYCH W NOWYCH WOJEWÓDZTWACH BS/72/99 KOMUNIKAT Z BADAŃ WARSZAWA, KWIECIEŃ 99 CENTRUM BADANIA OPINII SPOŁECZNEJ SEKRETARIAT ZESPÓŁ REALIZACJI BADAŃ 629-35 - 69, 628-37 - 04 621-07 - 57, 628-90 - 17 UL. ŻURAWIA 4A, SKR. PT.24 00-503 W A R S Z A W A TELEFAX 629-40 - 89 INTERNET: http://www.cbos.pl

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE

ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE (Źródło informacji ROCZNIK STATYSTYCZNY ROLNICTWA 2014 Głównego Urzędu Statystycznego) POWIERZCHNIA UŻYTKÓW ROLNYCH WEDŁUG WOJEWÓDZTW według

Bardziej szczegółowo

Departament Koordynacji Polityki Strukturalnej. Fundusze unijne. a zróżnicowanie regionalne kraju. Warszawa, 27 marca 2008 r. 1

Departament Koordynacji Polityki Strukturalnej. Fundusze unijne. a zróżnicowanie regionalne kraju. Warszawa, 27 marca 2008 r. 1 Departament Koordynacji Polityki Strukturalnej Fundusze unijne a zróżnicowanie regionalne kraju Warszawa, 27 marca 2008 r. 1 Proces konwergencji w wybranych krajach UE (zmiany w stosunku do średniego PKB

Bardziej szczegółowo

10. Redukcja wymiaru - metoda PCA

10. Redukcja wymiaru - metoda PCA Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component

Bardziej szczegółowo

ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE (Źródło informacji ROCZNIK STATYSTYCZNY ROLNICTWA 2013 Głównego Urzędu Statystycznego)

ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE (Źródło informacji ROCZNIK STATYSTYCZNY ROLNICTWA 2013 Głównego Urzędu Statystycznego) ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE (Źródło informacji ROCZNIK STATYSTYCZNY ROLNICTWA 2013 Głównego Urzędu Statystycznego) POWIERZCHNIA UŻYTKÓW ROLNYCH WEDŁUG WOJEWÓDZTW według

Bardziej szczegółowo

POWIERZCHNIA UŻYTKÓW ROLNYCH WEDŁUG WOJEWÓDZTW. Województwo

POWIERZCHNIA UŻYTKÓW ROLNYCH WEDŁUG WOJEWÓDZTW. Województwo ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE (Źródło informacji ROCZNIK STATYSTYCZNY ROLNICTWA 2015 Głównego Urzędu Statystycznego opublikowany 15 stycznia 2016 r.) POWIERZCHNIA UŻYTKÓW

Bardziej szczegółowo

POWIERZCHNIA UŻYTKÓW ROLNYCH WEDŁUG WOJEWÓDZTW. Województwo

POWIERZCHNIA UŻYTKÓW ROLNYCH WEDŁUG WOJEWÓDZTW. Województwo ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE (Źródło informacji ROCZNIK STATYSTYCZNY ROLNICTWA 2016 Głównego Urzędu Statystycznego opublikowany 15 stycznia 2017 r.) POWIERZCHNIA UŻYTKÓW

Bardziej szczegółowo

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Badanie współzależności zmiennych Uwzględniając ilość zmiennych otrzymamy 4 odmiany zależności: Zmienna zależna jednowymiarowa oraz jedna

Bardziej szczegółowo

Żłobki i kluby dziecięce w 2012 r.

Żłobki i kluby dziecięce w 2012 r. Materiał na konferencję prasową w dniu 29 maja 213 r. GŁÓWNY URZĄD STATYSTYCZNY Departament Badań Społecznych i Warunków Życia Notatka informacyjna Żłobki i kluby dziecięce w 212 r. W pierwszym kwartale

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

Nakłady na środki trwałe służące ochronie środowiska i gospodarce wodnej w Polsce w 2012 r.

Nakłady na środki trwałe służące ochronie środowiska i gospodarce wodnej w Polsce w 2012 r. mld zł GŁÓWNY URZĄD STATYSTYCZNY Departament Badań Regionalnych i Środowiska Notatka informacyjna WYNIKI BADAŃ GUS Nakłady na środki trwałe służące ochronie środowiska i gospodarce wodnej w Polsce w 2012

Bardziej szczegółowo

Klasówka po gimnazjum język polski

Klasówka po gimnazjum język polski Klasówka po gimnazjum język polski Rok 2005 Raport zbiorczy Opracowano w: Gdańskiej Fundacji Rozwoju im. Adama Mysiora Informacje ogólne...3 Informacje dotyczące wyników testu...4 2 Informacje ogólne Tegoroczna

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO

STATYSTYKA I DOŚWIADCZALNICTWO STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.

Bardziej szczegółowo

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór. L a b o r a t o r i u m S P S S S t r o n a 1 W zbiorze Pytania zamieszczono odpowiedzi 25 opiekunów dzieci w wieku 8. lat na następujące pytania 1 : P1. Dziecko nie reaguje na bieżące uwagi opiekuna gdy

Bardziej szczegółowo

Zmiany bezrobocia w województwie zachodniopomorskim w I półroczu 2018 roku

Zmiany bezrobocia w województwie zachodniopomorskim w I półroczu 2018 roku Zmiany bezrobocia w województwie zachodniopomorskim w I półroczu 2018 roku Szczecin 2018 Według danych Eurostat zharmonizowana stopa bezrobocia 1 dla Polski w czerwcu 2018 roku 2 wynosiła 3,7% tj. o 1,1

Bardziej szczegółowo

POLITECHNIKA OPOLSKA

POLITECHNIKA OPOLSKA POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych

Bardziej szczegółowo

Badanie zależności skala nominalna

Badanie zależności skala nominalna Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność

Bardziej szczegółowo

Egzamin Gimnazjalny z WSiP LISTOPAD Analiza wyników próbnego egzaminu gimnazjalnego Część matematyczno-przyrodnicza MATEMATYKA

Egzamin Gimnazjalny z WSiP LISTOPAD Analiza wyników próbnego egzaminu gimnazjalnego Część matematyczno-przyrodnicza MATEMATYKA Egzamin Gimnazjalny z WSiP LISTOPAD 2015 Analiza wyników próbnego egzaminu gimnazjalnego Część matematyczno-przyrodnicza MATEMATYKA Arkusz egzaminu próbnego składał się z 20 zadań zamkniętych różnego typu

Bardziej szczegółowo

II. BUDOWNICTWO MIESZKANIOWE

II. BUDOWNICTWO MIESZKANIOWE II. BUDOWNICTWO MIESZKANIOWE 1. Mieszkania oddane do eksploatacji w 2007 r. 1 Według danych Głównego Urzędu Statystycznego, w Polsce w 2007 r. oddano do użytku 133,8 tys. mieszkań, tj. o około 16% więcej

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 5 4.5 4 3.5 procent uczniów 3 2.5 2 1.5 1.5 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 liczba punktów - wyniki niskie - wyniki średnie

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

Średnia wielkość powierzchni gruntów rolnych w gospodarstwie za rok 2006 (w hektarach) Jednostka podziału administracyjnego kraju

Średnia wielkość powierzchni gruntów rolnych w gospodarstwie za rok 2006 (w hektarach) Jednostka podziału administracyjnego kraju ROLNYCH W GOSPODARSTWIE W KRAJU ZA 2006 ROK w gospodarstwie za rok 2006 (w hektarach) Województwo dolnośląskie 14,63 Województwo kujawsko-pomorskie 14,47 Województwo lubelskie 7,15 Województwo lubuskie

Bardziej szczegółowo

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35 Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Raport o sytuacji finansowej przedsiębiorstw w województwie mazowieckim w 2015 r.

Raport o sytuacji finansowej przedsiębiorstw w województwie mazowieckim w 2015 r. Raport o sytuacji finansowej przedsiębiorstw w województwie mazowieckim w 2015 r. Opracowanie: Zespół Mazowieckiego Obserwatorium Rynku Pracy Najważniejsze obserwacje W 2015 r.: Przychody z całokształtu

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 15 13.5 12 1.5 procent uczniów 9 7.5 6 4.5 3 1.5 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 - wyniki niskie - wyniki średnie - wyniki wysokie liczba punktów Parametry

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 - wyniki niskie - wyniki średnie - wyniki wysokie liczba punktów Parametry

Bardziej szczegółowo

Wybory samorządowe 2014 w poszukiwaniu anomalii statystycznych

Wybory samorządowe 2014 w poszukiwaniu anomalii statystycznych Wybory samorządowe 2014 w poszukiwaniu anomalii statystycznych Na podstawie pracy o tym samym tytule autorstwa: Piotr Gawron, Łukasz Pawela, Zbigniew Puchała, Jacek Szklarski, Karol Życzkowski, która ukazała

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 31 32 33 34 35 36 37 38 39 4 41 42 43 44 45 46 47 48 49

Bardziej szczegółowo

Pełen zestaw raportów będzie wkrótce dostępny na naszej

Pełen zestaw raportów będzie wkrótce dostępny na naszej Rynek ziemi rolnej w Polsce w latach 24 28 Przedstawiamy Państwu raport dotyczący rynku ziemi rolniczej w Polsce w latach 24 28. Raport podsumowuje serię 16 analiz realizowanych przez nas od końca 27 roku

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31 Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Funkcja liniowa - podsumowanie

Funkcja liniowa - podsumowanie Funkcja liniowa - podsumowanie 1. Funkcja - wprowadzenie Założenie wyjściowe: Rozpatrywana będzie funkcja opisana w dwuwymiarowym układzie współrzędnych X. Oś X nazywana jest osią odciętych (oś zmiennych

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

ANALIZA CZYNNIKOWA Przykład 1

ANALIZA CZYNNIKOWA Przykład 1 ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie.

Bardziej szczegółowo

Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do analizy dyskryminacyjnej Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela

Bardziej szczegółowo

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1 Temat: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00 0,20) Słaba

Bardziej szczegółowo

Produkt Krajowy Brutto. Rachunki Regionalne w 2014 roku

Produkt Krajowy Brutto. Rachunki Regionalne w 2014 roku WWW.OBSERWATORIUM.MALOPOLSKA.PL Produkt Krajowy Brutto. Rachunki Regionalne w 2014 roku Opracowanie: Małopolskie Obserwatorium Rozwoju Regionalnego Departament Polityki Regionalnej Urząd Marszałkowski

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 - wyniki niskie - wyniki średnie - wyniki wysokie liczba punktów Parametry

Bardziej szczegółowo

Skalowanie wielowymiarowe idea

Skalowanie wielowymiarowe idea Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy

Bardziej szczegółowo

Podstawowe informacje o orzecznictwie sądów powszechnych w sprawach o rozwód

Podstawowe informacje o orzecznictwie sądów powszechnych w sprawach o rozwód Marlena Gilewicz Naczelnik Wydziału Statystyki w Departamencie Organizacyjnym w Ministerstwie Sprawiedliwości Podstawowe informacje o orzecznictwie sądów powszechnych w sprawach o rozwód W latach 2000

Bardziej szczegółowo

Analiza współzależności dwóch cech I

Analiza współzależności dwóch cech I Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych

Bardziej szczegółowo

INNOWACYJNOŚĆ WOJEWÓDZTW W POLSCE

INNOWACYJNOŚĆ WOJEWÓDZTW W POLSCE Rafał Klóska INNOWACYJNOŚĆ WOJEWÓDZTW W POLSCE 1. Wstęp Tematyka konferencji wydaje się szczególnie ważna i interesująca, tym bardziej, że innowacyjność jest stymulanta rozwoju społeczno-gospodarczego,

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Raport z wyników Narodowego Spisu Powszechnego Ludności i Mieszkań 2002 [...]

Raport z wyników Narodowego Spisu Powszechnego Ludności i Mieszkań 2002 [...] Raport z wyników Narodowego Spisu Powszechnego Ludności i Mieszkań 2002 [...] 6. OSOBY NIEPEŁNOSPRAWNE Spisy powszechne ludności są jedynym badaniem pełnym, którego wyniki pozwalają ustalić liczbę osób

Bardziej szczegółowo

Rozkład wyników ogólnopolskich

Rozkład wyników ogólnopolskich Rozkład wyników ogólnopolskich 5 4.5 4 3.5 procent uczniów 3 2.5 2 1.5 1.5 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 31 32 liczba punktów - wyniki niskie - wyniki średnie

Bardziej szczegółowo

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna 1 Laboratorium VIII: Analiza kanoniczna Spis treści Laboratorium VIII: Analiza kanoniczna... 1 Wiadomości ogólne... 2 1. Wstęp teoretyczny.... 2 Przykład... 2 Podstawowe pojęcia... 2 Założenia analizy

Bardziej szczegółowo