JEDEN OBRAZ BYWA WART WIĘCEJ NIŻ TYSIĄC SŁÓW, CZYLI O KORZYŚCIACH Z WIZUALIZACJI WYNIKÓW LINIOWYCH METOD ORDYNACYJNYCH Małgorzata Misztal, Katedra Metod Statystycznych, Wydział Ekonomiczno-Socjologiczny, Uniwersytet Łódzki If statistical graphics, although born just yesterday, extends its reach every day, it is because it replaces long tables of numbers and it allows one not only to embrace at glance the series of phenomena, but also to signal the correspondences or anomalies, to find the causes, to identify the laws. Émile Cheysson, c. 1877 Analiza wielowymiarowa Dynamiczny rozwój technologiczny, mnogość dostępnych informacji oraz zmieniająca się rzeczywistość pozyskiwania danych sprawiają, że kluczowego znaczenia w badaniach naukowych nabiera umiejętność kompleksowej analizy zebranych danych i formułowania na podstawie uzyskanych wyników użytecznych wniosków. Jak słusznie zauważył w swojej książce profesor Andrzej Balicki [2009, s. 15]: większość danych statystycznych ma charakter wielowymiarowy. Oznacza to, że zarówno obiekty zbiorowości, jak też badane zjawiska są opisywane za pomocą wielu różnych, zwykle zależnych cech. ( ) Nie można zatem ograniczać zastosowań metod statystycznych do prostych analiz jednej cechy lub dwóch cech równocześnie. Analizy dużych zbiorów obserwacji, tak aby nie pominąć ich złożoności, ale równocześnie uprościć je i uczynić zrozumiałymi, wymagają stosowania statystycznych metod analizy wielowymiarowej. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 21
Termin analiza wielowymiarowa odnosi się, ogólnie mówiąc, do wszystkich metod statystycznych, wykorzystywanych do badania danych wielowymiarowych, czyli takich, w których każda obserwacja scharakteryzowana jest przez więcej niż jedną zmienną (por. Everitt i Skrondal [2010, s. 293-294]). Do popularnych i często wykorzystywanych metod wielowymiarowych należy m.in.: analiza regresji, analiza skupień, drzewa klasyfikacyjne oraz skalowanie wielowymiarowe. Wiele metod analizy wielowymiarowej należy do tzw. metod eksploracyjnych, których celem jest stworzenie podstaw do formułowania hipotez, a nie do ich testowania (por. Balicki [2009, s. 17]). Popularnym narzędziem analizy eksploracyjnej są metody graficzne, często stosowane bez wcześniejszych założeń co do struktury danych i bez definiowania formalnych modeli danych, w celu odkrycia prawidłowości i wzorców w danych, przy minimalnym wykorzystaniu formalnych metod matematycznych lub statystycznych. Z drugiej strony, metody graficzne i wizualizacja wyników analiz w przypadku niektórych metod wielowymiarowej analizy statystycznej są nierozerwalnie związane z procesem analizy danych i stanowią podstawę interpretacji uzyskanych wyników. Do metod, w których wizualizacja wyników odgrywa niebagatelną rolę, zaliczyć należy metody ordynacyjne. Metody ordynacyjne Termin ordynacja (z łac. ordinatio, z niem. ordnung) oznacza ustawienie obiektów w pewnym porządku ( Putting things in order ) [Goodall, 1954]. Jak podkreślił Gower [1984], termin ordynacja spopularyzowały badania ekologiczne, w których odnosi się on do sposobu przedstawiania obiektów w postaci punktów rozmieszczonych wzdłuż jednej bądź kilku osi referencyjnych. Z kolei Everitt i Skrondal [2010, s. 312] zdefiniowali ordynację jako proces redukcji wymiarowości, czyli zmniejszenie liczby zmiennych pierwotnych przez wprowadzenie mniejszej liczby nowych zmiennych (czynników, wymiarów), które wyjaśniają zmienność zmiennych pierwotnych z niewielką utratą informacji. Celem metod ordynacyjnych jest: (1) wykrycie struktury i ogólnych prawidłowości w związkach między 22 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
zmiennymi oraz (2) opis i klasyfikacja badanych obiektów w nowych (ortogonalnych) przestrzeniach zdefiniowanych przez nowe zmienne. Chociaż termin metody ordynacyjne nie jest popularny np. w naukach ekonomiczno-społecznych, to wiele metod statystycznych należących do grupy metod ordynacyjnych jest powszechnie stosowanych w badaniach naukowych niekoniecznie związanych z ekologią. Wśród takich metod znajduje się np. analiza głównych składowych, analiza korespondencji czy, wspomniane już wcześniej, skalowanie wielowymiarowe. Dane wykorzystywane w analizach ordynacyjnych przedstawiane są zwykle w postaci dwóch macierzy zapisanych obok siebie: D = [Y X] = [y ij x ik ], (i = 1, 2,, n; j =1, 2,, m; k =1, 2,, p). Wiersze macierzy D odpowiadają obiektom, pierwszych m kolumn reprezentuje zmienne zależne (objaśniane), a kolejnych p kolumn zmienne niezależne (objaśniające). Wyróżnia się dwie grupy technik ordynacyjnych [Jongman, ter Braak, van Tongeren (red.) 1995]: (1) metody ordynacji pośredniej (indirect/unconstrained ordination), w których analizowana jest tylko macierz Y, a informacje zawarte w macierzy X, jeśli są dostępne, wykorzystywane są wyłącznie pomocniczo do interpretacji uzyskanych wyników oraz (2) metody ordynacji bezpośredniej (direct/constrained ordination), w których obie macierze, X i Y, są analizowane. Wybór metody zależy od posiadanych informacji o zmiennych zależnych i niezależnych oraz od struktury analizowanych danych; w szczególności kluczowa jest tutaj ocena charakteru zależności (charakter liniowy, charakter unimodalny) pomiędzy zmiennymi objaśnianymi i objaśniającymi. W niniejszym opracowaniu nacisk zostanie położony na korzyści płynące z wizualizacji wyników liniowych metod ordynacyjnych, do których należą: analiza głównych składowych oraz jej kanoniczna forma - analiza redundancji. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 23
Analiza głównych składowych (Principal component analysis - PCA [Pearson 1901; Hotelling 1933]) należy do najpopularniejszych metod statystycznej analizy wielowymiarowej i jest szczegółowo opisana w wielu pracach [por. np. Gatnar i Walesiak (red.) 2004]. W metodzie tej wykorzystywane są rotacje osi pierwotnych wyznaczonych przez zmienne zależne w taki sposób, aby nowe osie (tzw. główne składowe, będące liniowymi kombinacjami zmiennych pierwotnych) były ortogonalne i kolejno wyjaśniały coraz niższy procent wariancji. Analiza redundancji (Redundancy analysis - RDA [Rao 1964; van den Wollenberg 1977]) jest kanoniczną formą analizy głównych składowych i przeprowadzana jest w dwóch krokach [Legendre i Legendre 2012]. Krok 1 polega na zbudowaniu wielowymiarowych modeli regresji liniowej Y względem X tak, aby uzyskać macierz wartości teoretycznych: Y = X[X T X] 1 X T Y. Postępowanie w tym kroku jest równoważne zbudowaniu serii modeli regresji wielokrotnej poszczególnych zmiennych zależnych y j względem X, wyznaczeniu wektorów wartości teoretycznych y j, a następnie zapisaniu tych wektorów w postaci macierzy Y. Wykorzystywane są modele regresji II rodzaju, a parametry tych modeli szacuje się metodą najmniejszych kwadratów. W kroku 2 dla macierzy Y przeprowadzana jest analiza głównych składowych. Uzyskane osie kanoniczne są liniowymi kombinacjami zmiennych objaśniających X. Wyniki analizy głównych składowych i analizy redundancji przedstawić można graficznie z wykorzystaniem diagramów ordynacyjnych. Diagramy ordynacyjne Do diagramów ordynacyjnych zalicza się wykresy rozrzutu, biploty i triploty, różniące się między sobą zawartością informacyjną. 24 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
Na wykresach rozrzutu przedstawiany jest jeden rodzaj informacji, może to być np. rozrzut zbioru obiektów lub rozrzut ładunków czynnikowych na płaszczyźnie rozpiętej na wybranej parze składowych. Definiując biplot, czyli wykres zaproponowany przez Gabriela [1971], warto przytoczyć fragment artykułu Gowera, Le Roux i Gardner-Lubbe [2015, s. 42]: A biplot is exactly what it says. It is a plot of two kinds of information displayed together. The bi in biplot refers to the two kinds of information and not to the usual, but not necessary, use of two dimensions. A zatem biplot to taki rodzaj wykresu, na którym prezentowane są łącznie dwa rodzaje informacji (np. dotyczących obiektów i zmiennych objaśnianych lub zmiennych objaśnianych i objaśniających). Triplot wreszcie to taki wykres, na którym przedstawione są łącznie trzy rodzaje informacji (obiekty, zmienne objaśniane i zmienne objaśniające). Biplot i triplot pozwalają uzyskać dodatkową informację, niewidoczną na prostych wykresach rozrzutu, dotyczącą powiązań między zmiennymi objaśnianymi lub objaśniającymi oraz badanymi obiektami. Istotny dla interpretacji diagramu ordynacyjnego jest sposób skalowania. Wyróżnia się dwa rodzaje skalowania: (1) zachowujące odległości między obiektami (type I scaling: focus on distances) i (2) zachowujące korelacje między zmiennymi objaśnianymi (type II scaling: focus on correlations). W tabeli 1 (poniżej) podsumowano sposób interpretacji diagramu ordynacyjnego w zależności od wybranego typu skalowania. Na diagramach ordynacyjnych ilościowe zmienne objaśniające oraz zmienne objaśniane przedstawiane są zwykle w postaci wektorów. Kierunek wektora odpowiada kierunkowi największej zmienności danej zmiennej (czyli gradientowi), a długość wektora, opisująca dynamikę zmian, pozwala jednocześnie ocenić wkład danej zmiennej do budowy osi ordynacyjnych. Nominalne zmienne objaśniające przestawiane są w postaci punktów dla Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 25
każdej kategorii zmiennej, podobnie jak obiekty, przy czym zaleca się dla odróżnienia stosowanie różnych symboli (kółka, trójkąty). Tabela 1. Sposób interpretacji powiązań między zmiennymi objaśnianymi, objaśniającymi i obiektami na diagramie ordynacyjnym dla metod liniowych w zależności od rodzaju skalowania. Porównywane elementy diagramu zmienne objaśniane vs obiekty obiekty vs obiekty zmienne objaśniane vs zmienne objaśniane zmienne objaśniane vs zmienne objaśniające obiekty vs zmienne objaśniające zmienne objaśniające vs zmienne objaśniające zmienne objaśniane vs nominalne zmienne objaśniające obiekty vs nominalne zmienne objaśniające nominalne zmienne objaśniające vs nominalne zmienne objaśniające ilościowe zmienne objaśniające vs nominalne zmienne objaśniające Skalowanie typu I Skalowanie typu II (focus on distances) (focus on correlations) przybliżone uporządkowanie obiektów względem danej zmiennej objaśnianej odległości euklidesowe między (nieinterpretowalne) obiektami ocena liniowych korelacji między (nieinterpretowalne) zmiennymi objaśnianymi ocena liniowych korelacji między zmiennymi objaśnianymi i zmiennymi objaśniającymi przybliżone uporządkowanie (nieinterpretowalne) obiektów względem wartości zmiennej objaśniającej ocena znaczenia poszczególnych zmiennych objaśniających ocena liniowych korelacji między w wyjaśnianiu zmienności zmiennymi objaśniającymi zmiennych objaśnianych średnie wartości zmiennych objaśnianych dla danej kategorii zmiennej objaśniającej grupy obiektów z daną kategorią zmiennej objaśniającej odległości euklidesowe między poszczególnymi kategoriami zmiennych objaśniających (nieinterpretowalne) Źródło: Misztal [2017, s. 164] na podstawie [Lepš i Šmilauer 2003, s. 150]. (nieinterpretowalne) średnie wartości ilościowych zmiennych objaśniających dla danych kategorii nominalnych zmiennych objaśniających W większości przypadków wartości współrzędnych obiektów czy zmiennych przedstawionych na diagramie ordynacyjnym nie mają specjalnego znaczenia; w interpretacji mówi się o względnych odległościach, względnych kierunkach czy względnym uporządkowaniu zrzutowanych punktów. 26 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
Sposób interpretacji biplotów na przykładzie zastosowań marketingowych szczegółowo opisał Sagan [2004], a wskazówki ułatwiające interpretację triplotów znaleźć można m.in. w pracy Misztal [2017]. Zauważmy jeszcze, że w literaturze przedmiotu zamiast określenia diagram ordynacyjny pojawia się często określenie mapa percepcji. Jak zauważają Gower, Le Roux i Gardner- Lubbe [2015, s. 42], słowo mapa jest tu używane w znaczeniu mapy danych, bez żadnych konotacji geograficznych. I jak to bywa z każdą mapą, celem budowy mapy percepcji jest prezentacja powiązań między obiektami i dowolnym zestawem zmiennych. Jako że: knowledge is of no value unless you put it into practice (Antoni Czechow), sposób analizy, prezentacji graficznej i interpretacji wyników liniowych metod ordynacyjnych przedstawiony zostanie na przykładach. Co widać na biplocie, czyli analiza różnic w poziomie zrównoważonego rozwoju w zakresie ładu środowiskowego województw w Polsce Według definicji sformułowanej w 1987 roku w raporcie Światowej Komisji ds. Środowiska i Rozwoju, zrównoważony rozwój to taki, który zapewnia zaspokajanie potrzeb obecnego pokolenia bez umniejszania szans rozwojowych przyszłych pokoleń [GUS 2016, s. 11]. Uznany za Zasadę Konstytucyjną Rzeczypospolitej Polskiej zrównoważony rozwój kraju został zdefiniowany w Ustawie Prawo Ochrony Środowiska jako rozwój społeczno-gospodarczy integrujący działania polityczne, gospodarcze i społeczne, z zachowaniem równowagi przyrodniczej w celu zagwarantowania zaspokojenia potrzeb zarówno współczesnego, jak i przyszłych pokoleń [GUS 2015, s. 3]. We wrześniu 2015 roku podczas szczytu ONZ 193 państwa członkowskie, w tym Polska, przyjęły plan zrównoważonego rozwoju dla świata Agendę 2030. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 27
W publikacjach i na stronie Głównego Urzędu Statystycznego znaleźć można szereg wskaźników pozwalających monitorować zrównoważony rozwój kraju w układzie czterech ładów: społecznego, gospodarczego, środowiskowego i instytucjonalno-politycznego. W przedstawionym przykładzie wykorzystane zostały dane dotyczące wybranych dziewięciu wskaźników opisujących ład środowiskowy w ujęciu wojewódzkim w roku 2015. Wskaźniki te należą do 5 dziedzin (por. tabela 2). Tabela 2. Wybrane wskaźniki dla ładu środowiskowego. Dziedzina Energia Ochrona powietrza Gospodarka odpadami Użytkowanie gruntów Bioróżnorodność Wskaźniki X1 Udział energii odnawialnej w produkcji energii elektrycznej ogółem (%) X2 X3 X4 X5 Zużycie energii elektrycznej na 1 mln zł PKB (GWh) Nakłady na środki trwałe służące ochronie środowiska związane z oszczędzaniem energii elektrycznej na 1 mieszkańca (zł) Emisja zanieczyszczeń powietrza z zakładów szczególnie uciążliwych - gazowych (t/r) Odpady komunalne zebrane selektywnie w relacji do ogółu odpadów komunalnych zebranych w ciągu roku (%) X6 Lesistość (%) X7 Udział powierzchni użytków rolnych w powierzchni ogółem (%) X8 X9 Źródło: opracowanie własne. Udział powierzchni obszarów Natura 2000 w powierzchni ogółem - obszary specjalnej ochrony ptaków (%) Udział powierzchni obszarów Natura 2000 w powierzchni ogółem - specjalne obszary ochrony siedlisk (%) Każdy z analizowanych wskaźników można badać osobno, podając podstawowe statystyki opisowe lub prezentując w formie graficznej rozkłady badanych zmiennych. Na rys. 1a-1d przedstawiono wybrane 4 wskaźniki ładu środowiskowego w układzie wojewódzkim wykorzystując Zestaw Mapy z pakietu Statistica. Analiza poszczególnych rysunków umożliwia identyfikację grupy województw podobnych z punktu widzenia wartości każdego badanego wskaźnika. Prezentacja graficzna wielkości poszczególnych wskaźników według województw nie pozwoli jednak odpowiedzieć na szereg pytań - na przykład: czy istnieją związki między 28 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
badanymi wskaźnikami lub czy można wskazać grupy województw podobnych z punktu widzenia więcej niż jednego wskaźnika opisującego ład środowiskowy. Aby wykonać bardziej pogłębioną analizę zebranych danych, konieczne jest podejście wielowymiarowe. Pomocnym rozwiązaniem będzie w tej sytuacji wykorzystanie analizy głównych składowych (PCA). Rys. 1a. Udział energii odnawialnej w produkcji energii elektrycznej ogółem wg województw. Rys. 1b. Emisja gazowych zanieczyszczeń powietrza z zakładów szczególnie uciążliwych wg województw. Rys. 1c. Odpady komunalne zebrane selektywnie wg województw. Rys. 1d. Lesistość wg województw. Legenda: D dolnośląskie; C kujawsko-pomorskie; L lubelskie; F lubuskie; E łódzkie; K małopolskie; W mazowieckie; O opolskie; R podkarpackie; B podlaskie; G pomorskie; S śląskie; T świętokrzyskie; N warmińsko-mazurskie; P wielkopolskie; Z zachodniopomorskie. Źródło: Opracowanie własne z wykorzystaniem pakietu Statistica i Zestawu Mapy. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 29
W rozważanym przykładzie zmienne opisujące ład środowiskowy nie są porównywalne, wymagana jest zatem ich standaryzacja. Wobec tego punktem wyjścia do dalszych analiz będzie macierz korelacji. Ze względu na cel pracy pominięto szczegółowe wyniki analizy głównych składowych, skupiając się wyłącznie na wizualizacji wyników i jej interpretacji. Liczba głównych składowych, które można wyznaczyć, jest równa liczbie zmiennych pierwotnych, czyli w rozważanym przykładzie wynosi 9. Dwie pierwsze główne składowe wyjaśniają łącznie 73,16% całkowitej wariancji. Rys. 2. Wykres rozrzutu ładunków czynnikowych zmiennych (koło korelacyjne). Rys. 3. Wykres rozrzutu województw w przestrzeni 2 pierwszych głównych składowych. Źródło: Opracowanie własne z wykorzystaniem pakietu Statistica. Legenda: D dolnośląskie; C kujawsko-pomorskie; L lubelskie; F lubuskie; E łódzkie; K małopolskie; W mazowieckie; O opolskie; R podkarpackie; B podlaskie; G pomorskie; S śląskie; T świętokrzyskie; N warmińsko-mazurskie; P wielkopolskie; Z zachodniopomorskie; X1 - udział energii odnawialnej w produkcji energii elektrycznej; X2 - zużycie energii elektrycznej na 1 mln zł PKB (GWh); X3 - nakłady na środki trwałe służące ochronie środowiska związane z oszczędzaniem energii elektrycznej na 1 mieszkańca (zł); X4 - emisja gazowych zanieczyszczeń powietrza z zakładów szczególnie uciążliwych; X5 - odpady komunalne zebrane selektywnie (%); X6 - lesistość (%), X7 - udział powierzchni użytków rolnych w powierzchni ogółem (%); X8 - obszary specjalnej ochrony ptaków Natura 2000 (%); X9 - specjalne obszary ochrony siedlisk Natura 2000 (%). 30 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
Na rys. 2 przedstawiono wykres rozrzutu ładunków czynnikowych, a na rys. 3 wykres rozrzutu obiektów w przestrzeni wyznaczonej przez dwie pierwsze główne składowe. Na rys. 4 i 5 z kolei przedstawione są biploty, na których jednocześnie prezentowane są informacje dotyczące badanych zmiennych oraz analizowanych województw. Na rys. 2 przedstawione są ładunki czynnikowe, czyli korelacje między zmiennymi pierwotnymi i głównymi składowymi. Ponieważ współczynniki korelacji przyjmują wartości z przedziału [-1; 1], rozmieszczone są w obrębie tzw. koła jednostkowego, zwanego też kołem korelacyjnym. Im dalej od środka koła znajduje się dany punkt, tym wyższa korelacja danej zmiennej z daną osią ordynacyjną (czyli główną składową). Jak łatwo zauważyć, z pierwszą główną składową najsilniej skorelowane są zmienne: X8 (udział obszarów specjalnej ochrony ptaków), X5 (udział odpadów komunalnych zebranych selektywnie) i X4 (emisja zanieczyszczeń powietrza), a z drugą zmienne: X7 (użytki rolne), X6 (lesistość) i X3 (nakłady na środki trwałe związane z oszczędzaniem energii). Kąty między wektorami obrazującymi badane zmienne wskazują na skorelowanie tych zmiennych, przy czym: kąty ostre (wektory położone blisko siebie) świadczą o występowaniu korelacji dodatniej, kąt prosty (wektory prostopadłe) o braku korelacji, natomiast kąty rozwarte (wektory po przeciwnych stronach środka koła korelacyjnego) o korelacji ujemnej. Na rys. 2 widać dwie wiązki wektorów jedną grupę stanowią zmienne: X1 (energia odnawialna), X8 (obszary ochrony ptaków), X9 (obszary ochrony siedlisk) i X6 (lesistość), a drugą grupę zmienne: X2 (zużycie energii elektrycznej), X3 (nakłady na środki trwałe związane z oszczędzaniem energii elektrycznej), X4 (emisja gazowych zanieczyszczeń powietrza), X5 (odpady komunalne zebrane selektywnie). W obrębie każdej z tych grup zmienne są dodatnio skorelowane, natomiast korelacje ujemne występują między parami zmiennych z różnych grup. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 31
Na podstawie wzajemnego położenia wektorów odpowiadających poszczególnym wskaźnikom ładu środowiskowego można wyciągnąć m. in. następujące wnioski: 1. Najsilniej skorelowane pary zmiennych to: X8 i X9, X2 i X3, X4 i X5, X2 i X5, X6 i X8 oraz X9 (korelacje dodatnie), a także: X6 i X7, X5 i X8, X2 i X8, X1 i X5, X4 i X8 (korelacje ujemne); szczególną uwagę zwraca ujemna zależność między lesistością (X6) a udziałem powierzchni użytków rolnych (X7) kąt między tymi wektorami jest bliski 180 o. 2. Zmienne nieskorelowane lub bardzo słabo skorelowane to: X2 i X7 (kąt prosty między wektorami) oraz X1 i X7, X1 i X6, X3 i X9. Wykres rozrzutu obiektów w przestrzeni wyznaczonej przez dwie pierwsze główne składowe (rys. 3) również dostarcza interesujących informacji. Można zauważyć cztery dość zwarte skupienia punktów obrazujących województwa: (1) podlaskie (B) i warmińsko-mazurskie (N), (2) podkarpackie (R), zachodniopomorskie (Z), lubuskie (F) i pomorskie (G), (3) dolnośląskie (D), wielkopolskie (P), małopolskie (K), kujawsko-pomorskie (C), lubelskie (L) i mazowieckie (W), (4) świętokrzyskie (T), opolskie (O), śląskie (S) i łódzkie (E). Posługując się wyłącznie prostymi wykresami rozrzutu, nie można ocenić powiązań między zmiennymi (wskaźnikami) a obiektami (województwami). Takie informacje można natomiast uzyskać, analizując biplot (rys. 4). Wykres ten powstał poprzez scalenie rys. 2 z rys.3. W celu ujednolicenia skali, współrzędne obiektów w przestrzeni dwóch pierwszych głównych składowych zostały przemnożone przez stałą (rys. 5) taki zabieg nie ma wpływu na interpretację wyników. Rzuty prostopadłe punktów reprezentujących obiekty na wektory zmiennych pokazują przybliżone uporządkowanie obiektów (województw) względem danej zmiennej. 32 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
Rys. 4. Biplot wyniki analizy głównych składowych dla zmiennych opisujących ład środowiskowy w 2015 r. Rys. 5. Biplot wyniki analizy głównych składowych dla zmiennych opisujących ład środowiskowy w 2015 r. po przeskalowaniu Źródło: Opracowanie własne z wykorzystaniem pakietu Statistica. Legenda: D dolnośląskie; C kujawsko-pomorskie; L lubelskie; F lubuskie; E łódzkie; K małopolskie; W mazowieckie; O opolskie; R podkarpackie; B podlaskie; G pomorskie; S śląskie; T świętokrzyskie; N warmińsko-mazurskie; P wielkopolskie; Z zachodniopomorskie; X1 - udział energii odnawialnej w produkcji energii elektrycznej; X2 - zużycie energii elektrycznej na 1 mln zł PKB (GWh); X3 - nakłady na środki trwałe służące ochronie środowiska związane z oszczędzaniem energii elektrycznej na 1 mieszkańca (zł); X4 - emisja gazowych zanieczyszczeń powietrza z zakładów szczególnie uciążliwych; X5 - odpady komunalne zebrane selektywnie (%); X6 - lesistość (%), X7 - udział powierzchni użytków rolnych w powierzchni ogółem (%); X8 - obszary specjalnej ochrony ptaków Natura 2000 (%); X9 - specjalne obszary ochrony siedlisk Natura 2000 (%). Jak już wspomniano, można wyodrębnić dość zwarte skupienia punktów obrazujących województwa. Województwa rozmieszczone skrajnie z lewej strony rys. 5 podlaskie (B) i warmińsko-mazurskie (N) charakteryzują się najwyższym udziałem energii odnawialnej w produkcji energii elektrycznej ogółem (X1), a także wysokim udziałem powierzchni obszarów Natura 2000 w powierzchni ogółem (X8 i X9). Podobnie wysoki udział obszarów specjalnej ochrony ptaków i siedlisk dotyczy województw: podkarpackiego (R), zachodniopomorskiego (Z), pomorskiego (G) i lubuskiego (F). Województwo lubuskie (F) ponadto jest Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 33
województwem najbardziej zalesionym (X6) i o najniższym udziale powierzchni użytków rolnych w powierzchni ogółem (X7). Województwa, które znajdują się skrajnie z prawej strony rys. 5 łódzkie (E) i śląskie (S) oraz, w mniejszym stopniu, opolskie (O) i świętokrzyskie (T) to województwa o najwyższym zużyciu energii elektrycznej (X2) i najwyższej emisji gazowych zanieczyszczeń powietrza z zakładów szczególnie uciążliwych (X4). Ponadto, województwa te charakteryzują się wysokimi nakładami na środki trwałe służące ochronie środowiska związane z oszczędzaniem energii elektrycznej na 1 mieszkańca (X3) oraz wysokim udziałem odpadów komunalnych zebranych selektywnie w relacji do ogółu odpadów komunalnych zebranych w ciągu roku (X5). Punkt obrazujący województwo dolnośląskie (D) znajduje się blisko początku układu współrzędnych. Oznacza to, że w tym województwie wartości badanych wskaźników opisujących ład środowiskowy są najbliższe wartościom przeciętnym (średnim arytmetycznym obliczonym dla wszystkich 16 województw). Należy także zwrócić uwagę na grupę województw charakteryzujących się m.in. wysokim udziałem powierzchni użytków rolnych w powierzchni ogółem (X7) są to województwa: mazowieckie (W), lubelskie (L), kujawsko-pomorskie (C) i wielkopolskie (P). Co ciekawe, wysoką pozycję w rankingu według wartości tej zmiennej zajmuje także województwo łódzkie (E). Warto w tym miejscu zauważyć, że prezentacja graficzna wyników w postaci biplotu pozwoliła w prosty sposób przekazać wiele złożonych informacji. Aby można było wyciągnąć analogiczne wnioski, opierając się na wynikach obliczeń przedstawionych w postaci tablic, należałoby przeanalizować co najmniej 4 tablice wynikowe (por. rys. 6). Przedstawione na rys. 4 i 5 biploty zachowują konwencję zaproponowaną przez Gabriela [1971] zmienne przedstawione są w postaci wektorów wychodzących z początku układu współrzędnych. Gower, Le Roux i Gardner-Lubbe [2011, 2015] preferują natomiast nieco 34 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
inną formę biplotu, wykorzystującą tzw. osie skalibrowane (calibrated axes). Dla danych z omawianego przykładu taki biplot przedstawiono na rys. 7. Do przygotowania wykresu wykorzystano Zestaw Plus z pakietu Statistica. Rys. 6. Przykładowe zestawienie tablic niezbędnych do interpretacji wyników analizy głównych składowych. Źródło: opracowanie własne z wykorzystaniem pakietu Statistica. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 35
Rys. 7. Standaryzowany biplot dla zmiennych opisujących ład środowiskowy w roku 2015. Źródło: opracowanie własne z wykorzystaniem pakietu Statistica. Legenda: D dolnośląskie; C kujawsko-pomorskie; L lubelskie; F lubuskie; E łódzkie; K małopolskie; W mazowieckie; O opolskie; R podkarpackie; B podlaskie; G pomorskie; S śląskie; T świętokrzyskie; N warmińsko-mazurskie; P wielkopolskie; Z zachodniopomorskie; X1 - udział energii odnawialnej w produkcji energii elektrycznej; X2 - zużycie energii elektrycznej na 1 mln zł PKB (GWh); X3 - nakłady na środki trwałe służące ochronie środowiska związane z oszczędzaniem energii elektrycznej na 1 mieszkańca (zł); X4 - emisja gazowych zanieczyszczeń powietrza z zakładów szczególnie uciążliwych; X5 - odpady komunalne zebrane selektywnie (%); X6 - lesistość (%), X7 - udział powierzchni użytków rolnych w powierzchni ogółem (%); X8 - obszary specjalnej ochrony ptaków Natura 2000 (%); X9 - specjalne obszary ochrony siedlisk Natura 2000 (%). Obiekty na rys. 7 są przedstawione za pomocą punktów z etykietą identyfikującą nazwę województwa, natomiast 9 badanych zmiennych jest reprezentowanych przez 9 nieortogonalnych osi biplotu (biplot axes), przecinających się w jednym punkcie (centroidzie 36 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
wyznaczonym na podstawie wartości zmiennych opisujących obiekty; w analizowanym przykładzie jest to punkt o współrzędnych (0, 0), gdyż zmienne pierwotne zostały wystandaryzowane) i przebiegających przez cały obszar wykresu. Każda z osi biplotu jest osią współrzędnych wyrażonych w jednostkach pomiaru danej zmiennej. Rzuty prostopadłe punktów obrazujących województwa na osie biplotu dają informacje o uporządkowaniu obiektów względem każdej zmiennej oraz o przybliżonych wartościach tej zmiennej w danym obiekcie. Dodatkowo na rys. 7 pokazany jest wykres workowy (bagplot), będący dwuwymiarową wersją wykresu pudełkowego. Zaciemniony kwadrat, położony blisko punktu przecięcia osi biplotu, oznacza medianę Tukeya, ciemniejszym kolorem zaznaczony jest obszar zwany workiem, natomiast jaśniejszym - otoczka worka. Można zauważyć 4 punkty odstające są to województwa: łódzkie (E), śląskie (S), lubuskie (F) oraz podlaskie (B). Co mówi triplot, czyli analiza wyników wyborów do Sejmu RP w 2015 roku Przedstawiony przykład pochodzi z pracy Misztal [2016]. Wybory do Sejmu RP odbyły się 25 października 2015 roku. 8 komitetów wyborczych zarejestrowało listy kandydatów do Sejmu w co najmniej połowie okręgów wyborczych, były to: (1) Prawo i Sprawiedliwość (PiS), (2) Platforma Obywatelska (PO), (3) Partia Razem, (4) Koalicja Odnowy Rzeczypospolitej Wolność i Nadzieja (KORWiN), (5) Polskie Stronnictwo Ludowe (PSL), (6) Zjednoczona Lewica (ZL), (7) Kukiz 15 oraz (8) Nowoczesna Ryszarda Petru (.N). Listy wyborcze zarejestrowało także 9 komitetów regionalnych (w dalszych analizach potraktowano te komitety łącznie). Wyniki wyborów (% poparcia) w poszczególnych województwach przedstawiono w tabeli 3. Dodatkowo przeanalizowano także 16 różnych czynników (zmiennych objaśniających charakteryzujących badane województwa) mogących mieć wpływ na wyniki wyborów do Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 37
Sejmu. Ze względu na niewielką liczbę badanych obiektów (16 województw) przyjęto założenie, że zmiennych objaśniających nie powinno być więcej niż 4-5. Zmienne te powinny być silnie skorelowane ze zmiennymi objaśnianymi (wynikami wyborów) i słabo skorelowane między sobą. Wykorzystując procedury symulacyjne oparte na testach permutacyjnych, szczegółowo opisane w pracy Lepša i Šmilauera [2003, s. 60-72], dokonano selekcji zmiennych objaśniających. W dalszych analizach uwzględnione zostały ostatecznie 4 zmienne: (1) pracujący w rolnictwie w % ogółu, (2) stopa bezrobocia (%), (3) korzystający ze świadczeń pomocy społecznej na 10 tysięcy ludności ogółem i (4) frekwencja wyborcza (%). Tabela 3. Wyniki wyborów do Sejmu 2015 (% poparcia). Województwo Komitety wyborcze: PIS PO RAZEM KORWIN PSL ZL KUKIZ 15.N INNE D 32,63 29,26 3,86 4,74 3,14 8,05 9,03 8,69 0,59 C 31,86 27,74 3,70 4,23 6,40 10,39 8,04 6,91 0,72 L 47,76 14,83 2,60 4,74 9,24 6,45 9,79 4,22 0,38 F 28,27 28,21 3,99 4,99 5,12 10,02 8,75 9,99 0,65 E 38,35 23,15 3,79 4,29 5,93 8,79 8,65 6,70 0,36 K 48,18 19,43 3,08 5,20 4,19 4,73 8,14 6,58 0,47 W 38,30 22,61 4,21 5,15 4,84 6,92 7,89 9,53 0,55 O 27,77 26,23 3,02 3,95 3,68 6,75 12,57 7,14 8,88 R 55,09 13,37 2,30 4,69 5,69 4,47 9,23 4,09 1,05 B 45,38 16,74 2,59 4,66 8,07 7,35 9,07 5,37 0,76 G 30,45 34,06 4,02 4,70 3,13 6,62 7,60 8,67 0,75 S 34,82 25,56 3,91 4,88 2,52 8,33 10,69 8,06 1,23 T 42,81 17,25 2,80 4,14 9,51 7,87 9,41 4,98 1,23 N 30,91 28,38 3,76 4,94 7,69 8,30 8,66 6,39 0,97 P 29,61 28,45 3,94 4,32 6,62 9,28 7,77 9,32 0,70 Z 28,91 31,25 4,04 5,01 3,97 9,59 8,78 8,44 0,00 Źródło: http://parlament2015.pkw.gov.pl. Ponieważ dostępne są informacje o zmiennych objaśniających, do analizy wyników wyborów wykorzystano analizę redundancji (RDA). 38 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
W przypadku analizy głównych składowych można wyznaczyć tyle składowych, ile jest zmiennych pierwotnych (objaśnianych), czyli w rozważanym przypadku 9. W analizie redundancji można wyznaczyć tyle osi kanonicznych, ile jest zmiennych objaśniających, czyli w rozważanym przypadku 4. Cztery osie kanoniczne wyjaśniają łącznie 83% zmienności całkowitej (w tym: pierwsza oś kanoniczna wyjaśnia 75,6% całkowitej zmienności, a druga 4,5%). Natomiast biorąc pod uwagę tylko osie kanoniczne, pierwsza oś kanoniczna wyjaśnia 91% zmienności w części kanonicznej, a druga 5,3%. OPOLSKIE INNE KUKIZ15 WARMIŃSKO-MAZURSKIE WIELKOPOLSKIE ZL PODLASKIE korzystający ze świadczeń pomocy społ. LUBUSKIE KUJAWSKO-POMORSKIE ZACHODNIOPOMORSKIE PSL pracujący w rolnictwie LUBELSKIE ŚWIĘTOKRZYSKIE stopa bezrobocia PO.N RAZEM DOLNOŚLĄSKIE ŚLĄSKIE POMORSKIE KORWIN PIS ŁÓDZKIE PODKARPACKIE MAŁOPOLSKIE MAZOWIECKIE frekwencja wyborcza Rys. 8. Wyniki analizy redundancji triplot. Źródło: opracowanie własne na podstawie obliczeń w środowisku R. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 39
Uzyskane wyniki RDA przedstawione zostały na triplocie (rys. 8 - powyżej). Wykres ten przygotowano na podstawie wyników obliczeń wykonanych w środowisku R. Przyjęto skalowanie typu II, czyli zachowujące korelacje między zmiennymi. Zmienne objaśniane i objaśniające przedstawiono za pomocą wektorów (odpowiednio: linia czarna ciągła i linia szara przerywana), obiekty województwa zobrazowano za pomocą czarnych kółek. Pamiętać należy, że obie osie kanoniczne są kombinacjami liniowymi zmiennych objaśniających. Kąty między wektorami obrazującymi badane zmienne wskazują na skorelowanie tych zmiennych, zatem na podstawie rys. 8 można wyciągnąć m.in. następujące wnioski: 1. Silnie dodatnio skorelowane są wyniki wyborów uzyskane przez PO, Nowoczesną i Partię Razem, a także Kukiz 15 i komitety regionalne. 2. Silna ujemna korelacja występuje między wynikiem wyborczym Prawa i Sprawiedliwości a poparciem dla Platformy Obywatelskiej, Zjednoczonej Lewicy, Nowoczesnej i Partii Razem. 3. Brak jest zależności między wynikami wyborczymi partii KORWiN i PiS oraz KOR- WiN i Zjednoczona Lewica. 4. Stopa bezrobocia i odsetek pracujących w rolnictwie są najsilniej skorelowane z pierwszą osią ordynacyjną, natomiast z drugą osią ordynacyjną najsilniej skorelowana jest frekwencja wyborcza. 5. Pomiędzy odsetkiem pracujących w rolnictwie i wielkością stopy bezrobocia występuje zależność dodatnia, o średniej sile; z kolei frekwencja wyborcza i liczba pobierających świadczenia społeczne są silnie ujemnie skorelowane. 6. Zależność dodatnia o dużej sile występuje między odsetkiem pracujących w rolnictwie i wynikiem wyborczym PSL; z kolei wyniki wyborcze Partii Razem, Nowoczesnej i Platformy Obywatelskiej są z odsetkiem pracujących w rolnictwie skorelowane ujemnie. 7. Odsetek głosów oddanych na PiS rośnie wraz ze wzrostem stopy bezrobocia, natomiast poparcie dla Kukiz 15 i komitetów regionalnych wzrasta w okręgach wyborczych 40 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
z wyższą liczbą osób pobierających świadczenia społeczne. Poparcie dla partii KOR- WiN z kolei rosło wraz ze wzrostem frekwencji wyborczej. Rzutowanie punktów reprezentujących obiekty na wektory zmiennych objaśnianych i objaśniających pozwala uzyskać następujące informacje: 1. Najlepsze wyniki wyborcze dla PSL odnotowano w województwach: lubelskim, świętokrzyskim i podlaskim. Są to województwa z najwyższym odsetkiem pracujących w rolnictwie. Najniższe poparcie dla PSL zaobserwowano w województwie śląskim, a więc najbardziej uprzemysłowionym. 2. Prawo i Sprawiedliwość zdobyło najwyższe poparcie w województwie podkarpackim, czyli województwie z najwyższą stopą bezrobocia. 3. Partia KORWiN największy odsetek głosów zdobyła w województwie mazowieckiem, w którym odnotowano najwyższą frekwencję wyborczą. 4. Platforma Obywatelska uzyskała najlepszy wynik wyborczy w województwie pomorskim, Zjednoczona Lewica w województwie lubuskim, a Kukiz 15 w województwie opolskim. 5. Charakterystycznym województwem jest kujawsko-pomorskie, dla którego wyniki wyborcze były najbardziej zbliżone do średniej dla całej Polski (punkt obrazujący to województwo leży niemal w początku układu współrzędnych). Przedstawione wnioski nie są oczywiście wszystkimi, które można wyciągnąć, analizując triplot z rys. 8. Ze względu na ograniczoną objętość artykułu wskazano tylko najbardziej interesujące relacje między zmiennymi objaśnianymi, objaśniającymi i obiektami. Jednakże nawet te wypunktowane zależności i powiązania pokazują, jak silnym narzędziem analizy danych może być triplot. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 41
Uwagi końcowe Friendly i Sigal [2014] nieco żartobliwie sugerują: there are two kinds of people in this world graph people and table people. Badacze wykorzystujący w swojej pracy metody ordynacyjne według wspomnianych autorów należą do grupy graph people, którą można scharakteryzować jako (...) grupę ludzi, którzy pomimo zainteresowania formalnym, matematycznym opisem związków i wzorców istniejących w danych, nadal słyszą głos bóstwa głoszącego znaczenie wizualizacji danych w celu ich doskonalszego zrozumienia.. Prezentacja graficzna wyników liniowych technik ordynacyjnych z wykorzystaniem biplotów i triplotów znacznie ułatwia analizę powiązań między zmiennością rozkładów badanych zmiennych i czynnikami mającymi wpływ na tę zmienność. Umiejętność interpretacji diagramów ordynacyjnych (przygotowanych w programie statystycznym) nie wymaga wykonywania skomplikowanych obliczeń numerycznych, a zatem może być użyteczna dla badaczy z każdej dziedziny. Zauważmy, że zarówno PCA, jak i RDA, to techniki eksploracyjnej analizy danych, których celem jest wykrycie związków między zmiennymi i przedstawienie struktury danych; mogą być stosowane jako metody wstępne przed zastosowaniem bardziej formalnych metod analizy danych. Wizualizacja w przypadku tych metod jest nierozerwalnie związana z procesem analizy danych i stanowi podstawę interpretacji uzyskanych wyników. Analizując biplot lub triplot, można odkryć wiele użytecznych informacji, np. wyodrębnić skupienia obiektów podobnych czy znaleźć powiązania między zmiennymi. Każda taka uzyskana informacja powinna być w kolejnych krokach analiz zinterpretowana, skomentowana lub poddana dalszym badaniom. Jak można było zauważyć w przedstawionych przykładach, prezentacja graficzna wyników w postaci diagramu ordynacyjnego pozwala w prosty sposób przekazać wiele złożonych informacji. Jeden obraz bywa wart więcej niż tysiąc słów. 42 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
Literatura 1. Balicki A., 2009, Statystyczna analiza wielowymiarowa i jej zastosowania społecznoekonomiczne, Wydawnictwo Uniwersytetu Gdańskiego, Gdańsk. 2. Everitt B.S., Skrondal A., 2010, The Cambridge Dictionary of Statistics, Fourth Edition, Cambridge University Press, Cambridge. 3. Friendly M., Sigal M., 2014, Some Prehistory of CARME: Visual Language and Visual Thinking, (in:) Blasius J., Greenacre M. [ed.] Visualization and Verbalization of Data, CRC Press, s. 3-16. 4. Gabriel K.R., 1971, The biplot graphical display of matrices with application to principal component analysis, Biometrika, vol. 58 (3), s. 453-467. 5. Gatnar E., Walesiak M. (red.), 2004, Metody statystycznej analizy wielowymiarowej w badaniach marketingowych, Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław. 6. Goodall D.W., 1954, Objective methods for the classification of vegetation. III. An essay in the use of factor analysis, Australian Journal of Botany, Vol. 2, s. 304-324. 7. Gower J.C., 1984, Ordination, multidimensional scaling and allied topics, (in:) W. Lederman [ed.] Handbook of Applicable Mathematics, Vol. VI: E. Lloyd [ed.] Statistics, Wiley, Chichester, s. 727-781. 8. Gower J.C., Le Roux N.C., Gardner-Lubbe S., 2011, Understanding biplots, John Wiley&Sons, Ltd. 9. Gower J.C., Le Roux N.C., Gardner-Lubbe S., 2015, Biplots: quantitative data, WIREs Comput Stat, no. 7, s. 42-62 (doi: 10.1002/wics.1338). 10. GUS, 2015, Wskaźniki zrównoważonego rozwoju Polski 2015, Urząd Statystyczny w Katowicach, Katowice. 11. GUS, 2016, Na ścieżce zrównoważonego rozwoju, Główny Urząd Statystyczny, Warszawa. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 43
12. Hotelling H., 1933, Analysis of a complex of statistical variables into principal components, Journal of Educational Psychology, vol. 24, s. 417-441, 498-520. 13. Jongman R.H.G., ter Braak C.J.F., van Tongeren O.F.R. (red.), 1995, Data Analysis in Community and Landscape Ecology, Cambridge University Press, Cambridge. 14. Legendre P., Legendre L., 2012, Numerical ecology, Third edition, Elsevier Science B.V., Amsterdam. 15. Lepš J., Šmilauer P., 2003, Multivariate analysis of ecological data using CANOCO, Cambridge University Press, Cambridge. 16. Misztal M., 2016, On the use of selected ordination techniques to analyze the parliamentary election results, Acta Universitatis Lodziensis, Folia Oeconomica 3(322), s. 127-139. 17. Misztal M., 2017, Wizualizacja wyników liniowych technik ordynacyjnych na przykładzie analizy przestępczości przeciwko mieniu w Polsce, (w:) Taksonomia 28, Klasyfikacja i analiza danych teoria i zastosowania, pod red. K. Jajugi i M. Walesiaka, Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu nr 468, s. 161-170. 18. Pearson K., 1901, On lines and planes of closest fit to systems of points in space, Philosophical Magazine, Ser. 6, vol. 2, s. 559-572. 19. Rao C.R., 1964, The use and interpretation of principal component analysis in applied research, Sankhyā: The Indian Journal of Statistics, Series A (1961-2002), vol. 26, no. 4 (Dec., 1964), s. 329-358. 20. Sagan A., 2004, Jeden obraz ukazuje więcej niż 10 liczb, czyli jak budować mapy zadowolenia klienta z wykorzystaniem programu Statistica, Statsoft Polska, Kraków. 21. van den Wollenberg A.L., 1977, Redundancy analysis. An alternative for canonical correlation analysis, Psychometrika, vol. 42, no. 2, s. 207-219. 44 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl