JEDEN OBRAZ BYWA WART WIĘCEJ NIŻ TYSIĄC SŁÓW, CZYLI O KORZYŚCIACH Z WIZUALIZACJI WYNIKÓW LINIOWYCH METOD ORDYNACYJNYCH
|
|
- Bernard Szymczak
- 5 lat temu
- Przeglądów:
Transkrypt
1 JEDEN OBRAZ BYWA WART WIĘCEJ NIŻ TYSIĄC SŁÓW, CZYLI O KORZYŚCIACH Z WIZUALIZACJI WYNIKÓW LINIOWYCH METOD ORDYNACYJNYCH Małgorzata Misztal, Katedra Metod Statystycznych, Wydział Ekonomiczno-Socjologiczny, Uniwersytet Łódzki If statistical graphics, although born just yesterday, extends its reach every day, it is because it replaces long tables of numbers and it allows one not only to embrace at glance the series of phenomena, but also to signal the correspondences or anomalies, to find the causes, to identify the laws. Émile Cheysson, c Analiza wielowymiarowa Dynamiczny rozwój technologiczny, mnogość dostępnych informacji oraz zmieniająca się rzeczywistość pozyskiwania danych sprawiają, że kluczowego znaczenia w badaniach naukowych nabiera umiejętność kompleksowej analizy zebranych danych i formułowania na podstawie uzyskanych wyników użytecznych wniosków. Jak słusznie zauważył w swojej książce profesor Andrzej Balicki [2009, s. 15]: większość danych statystycznych ma charakter wielowymiarowy. Oznacza to, że zarówno obiekty zbiorowości, jak też badane zjawiska są opisywane za pomocą wielu różnych, zwykle zależnych cech. ( ) Nie można zatem ograniczać zastosowań metod statystycznych do prostych analiz jednej cechy lub dwóch cech równocześnie. Analizy dużych zbiorów obserwacji, tak aby nie pominąć ich złożoności, ale równocześnie uprościć je i uczynić zrozumiałymi, wymagają stosowania statystycznych metod analizy wielowymiarowej. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 21
2 Termin analiza wielowymiarowa odnosi się, ogólnie mówiąc, do wszystkich metod statystycznych, wykorzystywanych do badania danych wielowymiarowych, czyli takich, w których każda obserwacja scharakteryzowana jest przez więcej niż jedną zmienną (por. Everitt i Skrondal [2010, s ]). Do popularnych i często wykorzystywanych metod wielowymiarowych należy m.in.: analiza regresji, analiza skupień, drzewa klasyfikacyjne oraz skalowanie wielowymiarowe. Wiele metod analizy wielowymiarowej należy do tzw. metod eksploracyjnych, których celem jest stworzenie podstaw do formułowania hipotez, a nie do ich testowania (por. Balicki [2009, s. 17]). Popularnym narzędziem analizy eksploracyjnej są metody graficzne, często stosowane bez wcześniejszych założeń co do struktury danych i bez definiowania formalnych modeli danych, w celu odkrycia prawidłowości i wzorców w danych, przy minimalnym wykorzystaniu formalnych metod matematycznych lub statystycznych. Z drugiej strony, metody graficzne i wizualizacja wyników analiz w przypadku niektórych metod wielowymiarowej analizy statystycznej są nierozerwalnie związane z procesem analizy danych i stanowią podstawę interpretacji uzyskanych wyników. Do metod, w których wizualizacja wyników odgrywa niebagatelną rolę, zaliczyć należy metody ordynacyjne. Metody ordynacyjne Termin ordynacja (z łac. ordinatio, z niem. ordnung) oznacza ustawienie obiektów w pewnym porządku ( Putting things in order ) [Goodall, 1954]. Jak podkreślił Gower [1984], termin ordynacja spopularyzowały badania ekologiczne, w których odnosi się on do sposobu przedstawiania obiektów w postaci punktów rozmieszczonych wzdłuż jednej bądź kilku osi referencyjnych. Z kolei Everitt i Skrondal [2010, s. 312] zdefiniowali ordynację jako proces redukcji wymiarowości, czyli zmniejszenie liczby zmiennych pierwotnych przez wprowadzenie mniejszej liczby nowych zmiennych (czynników, wymiarów), które wyjaśniają zmienność zmiennych pierwotnych z niewielką utratą informacji. Celem metod ordynacyjnych jest: (1) wykrycie struktury i ogólnych prawidłowości w związkach między 22 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
3 zmiennymi oraz (2) opis i klasyfikacja badanych obiektów w nowych (ortogonalnych) przestrzeniach zdefiniowanych przez nowe zmienne. Chociaż termin metody ordynacyjne nie jest popularny np. w naukach ekonomiczno-społecznych, to wiele metod statystycznych należących do grupy metod ordynacyjnych jest powszechnie stosowanych w badaniach naukowych niekoniecznie związanych z ekologią. Wśród takich metod znajduje się np. analiza głównych składowych, analiza korespondencji czy, wspomniane już wcześniej, skalowanie wielowymiarowe. Dane wykorzystywane w analizach ordynacyjnych przedstawiane są zwykle w postaci dwóch macierzy zapisanych obok siebie: D = [Y X] = [y ij x ik ], (i = 1, 2,, n; j =1, 2,, m; k =1, 2,, p). Wiersze macierzy D odpowiadają obiektom, pierwszych m kolumn reprezentuje zmienne zależne (objaśniane), a kolejnych p kolumn zmienne niezależne (objaśniające). Wyróżnia się dwie grupy technik ordynacyjnych [Jongman, ter Braak, van Tongeren (red.) 1995]: (1) metody ordynacji pośredniej (indirect/unconstrained ordination), w których analizowana jest tylko macierz Y, a informacje zawarte w macierzy X, jeśli są dostępne, wykorzystywane są wyłącznie pomocniczo do interpretacji uzyskanych wyników oraz (2) metody ordynacji bezpośredniej (direct/constrained ordination), w których obie macierze, X i Y, są analizowane. Wybór metody zależy od posiadanych informacji o zmiennych zależnych i niezależnych oraz od struktury analizowanych danych; w szczególności kluczowa jest tutaj ocena charakteru zależności (charakter liniowy, charakter unimodalny) pomiędzy zmiennymi objaśnianymi i objaśniającymi. W niniejszym opracowaniu nacisk zostanie położony na korzyści płynące z wizualizacji wyników liniowych metod ordynacyjnych, do których należą: analiza głównych składowych oraz jej kanoniczna forma - analiza redundancji. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 23
4 Analiza głównych składowych (Principal component analysis - PCA [Pearson 1901; Hotelling 1933]) należy do najpopularniejszych metod statystycznej analizy wielowymiarowej i jest szczegółowo opisana w wielu pracach [por. np. Gatnar i Walesiak (red.) 2004]. W metodzie tej wykorzystywane są rotacje osi pierwotnych wyznaczonych przez zmienne zależne w taki sposób, aby nowe osie (tzw. główne składowe, będące liniowymi kombinacjami zmiennych pierwotnych) były ortogonalne i kolejno wyjaśniały coraz niższy procent wariancji. Analiza redundancji (Redundancy analysis - RDA [Rao 1964; van den Wollenberg 1977]) jest kanoniczną formą analizy głównych składowych i przeprowadzana jest w dwóch krokach [Legendre i Legendre 2012]. Krok 1 polega na zbudowaniu wielowymiarowych modeli regresji liniowej Y względem X tak, aby uzyskać macierz wartości teoretycznych: Y = X[X T X] 1 X T Y. Postępowanie w tym kroku jest równoważne zbudowaniu serii modeli regresji wielokrotnej poszczególnych zmiennych zależnych y j względem X, wyznaczeniu wektorów wartości teoretycznych y j, a następnie zapisaniu tych wektorów w postaci macierzy Y. Wykorzystywane są modele regresji II rodzaju, a parametry tych modeli szacuje się metodą najmniejszych kwadratów. W kroku 2 dla macierzy Y przeprowadzana jest analiza głównych składowych. Uzyskane osie kanoniczne są liniowymi kombinacjami zmiennych objaśniających X. Wyniki analizy głównych składowych i analizy redundancji przedstawić można graficznie z wykorzystaniem diagramów ordynacyjnych. Diagramy ordynacyjne Do diagramów ordynacyjnych zalicza się wykresy rozrzutu, biploty i triploty, różniące się między sobą zawartością informacyjną. 24 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
5 Na wykresach rozrzutu przedstawiany jest jeden rodzaj informacji, może to być np. rozrzut zbioru obiektów lub rozrzut ładunków czynnikowych na płaszczyźnie rozpiętej na wybranej parze składowych. Definiując biplot, czyli wykres zaproponowany przez Gabriela [1971], warto przytoczyć fragment artykułu Gowera, Le Roux i Gardner-Lubbe [2015, s. 42]: A biplot is exactly what it says. It is a plot of two kinds of information displayed together. The bi in biplot refers to the two kinds of information and not to the usual, but not necessary, use of two dimensions. A zatem biplot to taki rodzaj wykresu, na którym prezentowane są łącznie dwa rodzaje informacji (np. dotyczących obiektów i zmiennych objaśnianych lub zmiennych objaśnianych i objaśniających). Triplot wreszcie to taki wykres, na którym przedstawione są łącznie trzy rodzaje informacji (obiekty, zmienne objaśniane i zmienne objaśniające). Biplot i triplot pozwalają uzyskać dodatkową informację, niewidoczną na prostych wykresach rozrzutu, dotyczącą powiązań między zmiennymi objaśnianymi lub objaśniającymi oraz badanymi obiektami. Istotny dla interpretacji diagramu ordynacyjnego jest sposób skalowania. Wyróżnia się dwa rodzaje skalowania: (1) zachowujące odległości między obiektami (type I scaling: focus on distances) i (2) zachowujące korelacje między zmiennymi objaśnianymi (type II scaling: focus on correlations). W tabeli 1 (poniżej) podsumowano sposób interpretacji diagramu ordynacyjnego w zależności od wybranego typu skalowania. Na diagramach ordynacyjnych ilościowe zmienne objaśniające oraz zmienne objaśniane przedstawiane są zwykle w postaci wektorów. Kierunek wektora odpowiada kierunkowi największej zmienności danej zmiennej (czyli gradientowi), a długość wektora, opisująca dynamikę zmian, pozwala jednocześnie ocenić wkład danej zmiennej do budowy osi ordynacyjnych. Nominalne zmienne objaśniające przestawiane są w postaci punktów dla Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 25
6 każdej kategorii zmiennej, podobnie jak obiekty, przy czym zaleca się dla odróżnienia stosowanie różnych symboli (kółka, trójkąty). Tabela 1. Sposób interpretacji powiązań między zmiennymi objaśnianymi, objaśniającymi i obiektami na diagramie ordynacyjnym dla metod liniowych w zależności od rodzaju skalowania. Porównywane elementy diagramu zmienne objaśniane vs obiekty obiekty vs obiekty zmienne objaśniane vs zmienne objaśniane zmienne objaśniane vs zmienne objaśniające obiekty vs zmienne objaśniające zmienne objaśniające vs zmienne objaśniające zmienne objaśniane vs nominalne zmienne objaśniające obiekty vs nominalne zmienne objaśniające nominalne zmienne objaśniające vs nominalne zmienne objaśniające ilościowe zmienne objaśniające vs nominalne zmienne objaśniające Skalowanie typu I Skalowanie typu II (focus on distances) (focus on correlations) przybliżone uporządkowanie obiektów względem danej zmiennej objaśnianej odległości euklidesowe między (nieinterpretowalne) obiektami ocena liniowych korelacji między (nieinterpretowalne) zmiennymi objaśnianymi ocena liniowych korelacji między zmiennymi objaśnianymi i zmiennymi objaśniającymi przybliżone uporządkowanie (nieinterpretowalne) obiektów względem wartości zmiennej objaśniającej ocena znaczenia poszczególnych zmiennych objaśniających ocena liniowych korelacji między w wyjaśnianiu zmienności zmiennymi objaśniającymi zmiennych objaśnianych średnie wartości zmiennych objaśnianych dla danej kategorii zmiennej objaśniającej grupy obiektów z daną kategorią zmiennej objaśniającej odległości euklidesowe między poszczególnymi kategoriami zmiennych objaśniających (nieinterpretowalne) Źródło: Misztal [2017, s. 164] na podstawie [Lepš i Šmilauer 2003, s. 150]. (nieinterpretowalne) średnie wartości ilościowych zmiennych objaśniających dla danych kategorii nominalnych zmiennych objaśniających W większości przypadków wartości współrzędnych obiektów czy zmiennych przedstawionych na diagramie ordynacyjnym nie mają specjalnego znaczenia; w interpretacji mówi się o względnych odległościach, względnych kierunkach czy względnym uporządkowaniu zrzutowanych punktów. 26 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
7 Sposób interpretacji biplotów na przykładzie zastosowań marketingowych szczegółowo opisał Sagan [2004], a wskazówki ułatwiające interpretację triplotów znaleźć można m.in. w pracy Misztal [2017]. Zauważmy jeszcze, że w literaturze przedmiotu zamiast określenia diagram ordynacyjny pojawia się często określenie mapa percepcji. Jak zauważają Gower, Le Roux i Gardner- Lubbe [2015, s. 42], słowo mapa jest tu używane w znaczeniu mapy danych, bez żadnych konotacji geograficznych. I jak to bywa z każdą mapą, celem budowy mapy percepcji jest prezentacja powiązań między obiektami i dowolnym zestawem zmiennych. Jako że: knowledge is of no value unless you put it into practice (Antoni Czechow), sposób analizy, prezentacji graficznej i interpretacji wyników liniowych metod ordynacyjnych przedstawiony zostanie na przykładach. Co widać na biplocie, czyli analiza różnic w poziomie zrównoważonego rozwoju w zakresie ładu środowiskowego województw w Polsce Według definicji sformułowanej w 1987 roku w raporcie Światowej Komisji ds. Środowiska i Rozwoju, zrównoważony rozwój to taki, który zapewnia zaspokajanie potrzeb obecnego pokolenia bez umniejszania szans rozwojowych przyszłych pokoleń [GUS 2016, s. 11]. Uznany za Zasadę Konstytucyjną Rzeczypospolitej Polskiej zrównoważony rozwój kraju został zdefiniowany w Ustawie Prawo Ochrony Środowiska jako rozwój społeczno-gospodarczy integrujący działania polityczne, gospodarcze i społeczne, z zachowaniem równowagi przyrodniczej w celu zagwarantowania zaspokojenia potrzeb zarówno współczesnego, jak i przyszłych pokoleń [GUS 2015, s. 3]. We wrześniu 2015 roku podczas szczytu ONZ 193 państwa członkowskie, w tym Polska, przyjęły plan zrównoważonego rozwoju dla świata Agendę Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 27
8 W publikacjach i na stronie Głównego Urzędu Statystycznego znaleźć można szereg wskaźników pozwalających monitorować zrównoważony rozwój kraju w układzie czterech ładów: społecznego, gospodarczego, środowiskowego i instytucjonalno-politycznego. W przedstawionym przykładzie wykorzystane zostały dane dotyczące wybranych dziewięciu wskaźników opisujących ład środowiskowy w ujęciu wojewódzkim w roku Wskaźniki te należą do 5 dziedzin (por. tabela 2). Tabela 2. Wybrane wskaźniki dla ładu środowiskowego. Dziedzina Energia Ochrona powietrza Gospodarka odpadami Użytkowanie gruntów Bioróżnorodność Wskaźniki X1 Udział energii odnawialnej w produkcji energii elektrycznej ogółem (%) X2 X3 X4 X5 Zużycie energii elektrycznej na 1 mln zł PKB (GWh) Nakłady na środki trwałe służące ochronie środowiska związane z oszczędzaniem energii elektrycznej na 1 mieszkańca (zł) Emisja zanieczyszczeń powietrza z zakładów szczególnie uciążliwych - gazowych (t/r) Odpady komunalne zebrane selektywnie w relacji do ogółu odpadów komunalnych zebranych w ciągu roku (%) X6 Lesistość (%) X7 Udział powierzchni użytków rolnych w powierzchni ogółem (%) X8 X9 Źródło: opracowanie własne. Udział powierzchni obszarów Natura 2000 w powierzchni ogółem - obszary specjalnej ochrony ptaków (%) Udział powierzchni obszarów Natura 2000 w powierzchni ogółem - specjalne obszary ochrony siedlisk (%) Każdy z analizowanych wskaźników można badać osobno, podając podstawowe statystyki opisowe lub prezentując w formie graficznej rozkłady badanych zmiennych. Na rys. 1a-1d przedstawiono wybrane 4 wskaźniki ładu środowiskowego w układzie wojewódzkim wykorzystując Zestaw Mapy z pakietu Statistica. Analiza poszczególnych rysunków umożliwia identyfikację grupy województw podobnych z punktu widzenia wartości każdego badanego wskaźnika. Prezentacja graficzna wielkości poszczególnych wskaźników według województw nie pozwoli jednak odpowiedzieć na szereg pytań - na przykład: czy istnieją związki między 28 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
9 badanymi wskaźnikami lub czy można wskazać grupy województw podobnych z punktu widzenia więcej niż jednego wskaźnika opisującego ład środowiskowy. Aby wykonać bardziej pogłębioną analizę zebranych danych, konieczne jest podejście wielowymiarowe. Pomocnym rozwiązaniem będzie w tej sytuacji wykorzystanie analizy głównych składowych (PCA). Rys. 1a. Udział energii odnawialnej w produkcji energii elektrycznej ogółem wg województw. Rys. 1b. Emisja gazowych zanieczyszczeń powietrza z zakładów szczególnie uciążliwych wg województw. Rys. 1c. Odpady komunalne zebrane selektywnie wg województw. Rys. 1d. Lesistość wg województw. Legenda: D dolnośląskie; C kujawsko-pomorskie; L lubelskie; F lubuskie; E łódzkie; K małopolskie; W mazowieckie; O opolskie; R podkarpackie; B podlaskie; G pomorskie; S śląskie; T świętokrzyskie; N warmińsko-mazurskie; P wielkopolskie; Z zachodniopomorskie. Źródło: Opracowanie własne z wykorzystaniem pakietu Statistica i Zestawu Mapy. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 29
10 W rozważanym przykładzie zmienne opisujące ład środowiskowy nie są porównywalne, wymagana jest zatem ich standaryzacja. Wobec tego punktem wyjścia do dalszych analiz będzie macierz korelacji. Ze względu na cel pracy pominięto szczegółowe wyniki analizy głównych składowych, skupiając się wyłącznie na wizualizacji wyników i jej interpretacji. Liczba głównych składowych, które można wyznaczyć, jest równa liczbie zmiennych pierwotnych, czyli w rozważanym przykładzie wynosi 9. Dwie pierwsze główne składowe wyjaśniają łącznie 73,16% całkowitej wariancji. Rys. 2. Wykres rozrzutu ładunków czynnikowych zmiennych (koło korelacyjne). Rys. 3. Wykres rozrzutu województw w przestrzeni 2 pierwszych głównych składowych. Źródło: Opracowanie własne z wykorzystaniem pakietu Statistica. Legenda: D dolnośląskie; C kujawsko-pomorskie; L lubelskie; F lubuskie; E łódzkie; K małopolskie; W mazowieckie; O opolskie; R podkarpackie; B podlaskie; G pomorskie; S śląskie; T świętokrzyskie; N warmińsko-mazurskie; P wielkopolskie; Z zachodniopomorskie; X1 - udział energii odnawialnej w produkcji energii elektrycznej; X2 - zużycie energii elektrycznej na 1 mln zł PKB (GWh); X3 - nakłady na środki trwałe służące ochronie środowiska związane z oszczędzaniem energii elektrycznej na 1 mieszkańca (zł); X4 - emisja gazowych zanieczyszczeń powietrza z zakładów szczególnie uciążliwych; X5 - odpady komunalne zebrane selektywnie (%); X6 - lesistość (%), X7 - udział powierzchni użytków rolnych w powierzchni ogółem (%); X8 - obszary specjalnej ochrony ptaków Natura 2000 (%); X9 - specjalne obszary ochrony siedlisk Natura 2000 (%). 30 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
11 Na rys. 2 przedstawiono wykres rozrzutu ładunków czynnikowych, a na rys. 3 wykres rozrzutu obiektów w przestrzeni wyznaczonej przez dwie pierwsze główne składowe. Na rys. 4 i 5 z kolei przedstawione są biploty, na których jednocześnie prezentowane są informacje dotyczące badanych zmiennych oraz analizowanych województw. Na rys. 2 przedstawione są ładunki czynnikowe, czyli korelacje między zmiennymi pierwotnymi i głównymi składowymi. Ponieważ współczynniki korelacji przyjmują wartości z przedziału [-1; 1], rozmieszczone są w obrębie tzw. koła jednostkowego, zwanego też kołem korelacyjnym. Im dalej od środka koła znajduje się dany punkt, tym wyższa korelacja danej zmiennej z daną osią ordynacyjną (czyli główną składową). Jak łatwo zauważyć, z pierwszą główną składową najsilniej skorelowane są zmienne: X8 (udział obszarów specjalnej ochrony ptaków), X5 (udział odpadów komunalnych zebranych selektywnie) i X4 (emisja zanieczyszczeń powietrza), a z drugą zmienne: X7 (użytki rolne), X6 (lesistość) i X3 (nakłady na środki trwałe związane z oszczędzaniem energii). Kąty między wektorami obrazującymi badane zmienne wskazują na skorelowanie tych zmiennych, przy czym: kąty ostre (wektory położone blisko siebie) świadczą o występowaniu korelacji dodatniej, kąt prosty (wektory prostopadłe) o braku korelacji, natomiast kąty rozwarte (wektory po przeciwnych stronach środka koła korelacyjnego) o korelacji ujemnej. Na rys. 2 widać dwie wiązki wektorów jedną grupę stanowią zmienne: X1 (energia odnawialna), X8 (obszary ochrony ptaków), X9 (obszary ochrony siedlisk) i X6 (lesistość), a drugą grupę zmienne: X2 (zużycie energii elektrycznej), X3 (nakłady na środki trwałe związane z oszczędzaniem energii elektrycznej), X4 (emisja gazowych zanieczyszczeń powietrza), X5 (odpady komunalne zebrane selektywnie). W obrębie każdej z tych grup zmienne są dodatnio skorelowane, natomiast korelacje ujemne występują między parami zmiennych z różnych grup. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 31
12 Na podstawie wzajemnego położenia wektorów odpowiadających poszczególnym wskaźnikom ładu środowiskowego można wyciągnąć m. in. następujące wnioski: 1. Najsilniej skorelowane pary zmiennych to: X8 i X9, X2 i X3, X4 i X5, X2 i X5, X6 i X8 oraz X9 (korelacje dodatnie), a także: X6 i X7, X5 i X8, X2 i X8, X1 i X5, X4 i X8 (korelacje ujemne); szczególną uwagę zwraca ujemna zależność między lesistością (X6) a udziałem powierzchni użytków rolnych (X7) kąt między tymi wektorami jest bliski 180 o. 2. Zmienne nieskorelowane lub bardzo słabo skorelowane to: X2 i X7 (kąt prosty między wektorami) oraz X1 i X7, X1 i X6, X3 i X9. Wykres rozrzutu obiektów w przestrzeni wyznaczonej przez dwie pierwsze główne składowe (rys. 3) również dostarcza interesujących informacji. Można zauważyć cztery dość zwarte skupienia punktów obrazujących województwa: (1) podlaskie (B) i warmińsko-mazurskie (N), (2) podkarpackie (R), zachodniopomorskie (Z), lubuskie (F) i pomorskie (G), (3) dolnośląskie (D), wielkopolskie (P), małopolskie (K), kujawsko-pomorskie (C), lubelskie (L) i mazowieckie (W), (4) świętokrzyskie (T), opolskie (O), śląskie (S) i łódzkie (E). Posługując się wyłącznie prostymi wykresami rozrzutu, nie można ocenić powiązań między zmiennymi (wskaźnikami) a obiektami (województwami). Takie informacje można natomiast uzyskać, analizując biplot (rys. 4). Wykres ten powstał poprzez scalenie rys. 2 z rys.3. W celu ujednolicenia skali, współrzędne obiektów w przestrzeni dwóch pierwszych głównych składowych zostały przemnożone przez stałą (rys. 5) taki zabieg nie ma wpływu na interpretację wyników. Rzuty prostopadłe punktów reprezentujących obiekty na wektory zmiennych pokazują przybliżone uporządkowanie obiektów (województw) względem danej zmiennej. 32 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
13 Rys. 4. Biplot wyniki analizy głównych składowych dla zmiennych opisujących ład środowiskowy w 2015 r. Rys. 5. Biplot wyniki analizy głównych składowych dla zmiennych opisujących ład środowiskowy w 2015 r. po przeskalowaniu Źródło: Opracowanie własne z wykorzystaniem pakietu Statistica. Legenda: D dolnośląskie; C kujawsko-pomorskie; L lubelskie; F lubuskie; E łódzkie; K małopolskie; W mazowieckie; O opolskie; R podkarpackie; B podlaskie; G pomorskie; S śląskie; T świętokrzyskie; N warmińsko-mazurskie; P wielkopolskie; Z zachodniopomorskie; X1 - udział energii odnawialnej w produkcji energii elektrycznej; X2 - zużycie energii elektrycznej na 1 mln zł PKB (GWh); X3 - nakłady na środki trwałe służące ochronie środowiska związane z oszczędzaniem energii elektrycznej na 1 mieszkańca (zł); X4 - emisja gazowych zanieczyszczeń powietrza z zakładów szczególnie uciążliwych; X5 - odpady komunalne zebrane selektywnie (%); X6 - lesistość (%), X7 - udział powierzchni użytków rolnych w powierzchni ogółem (%); X8 - obszary specjalnej ochrony ptaków Natura 2000 (%); X9 - specjalne obszary ochrony siedlisk Natura 2000 (%). Jak już wspomniano, można wyodrębnić dość zwarte skupienia punktów obrazujących województwa. Województwa rozmieszczone skrajnie z lewej strony rys. 5 podlaskie (B) i warmińsko-mazurskie (N) charakteryzują się najwyższym udziałem energii odnawialnej w produkcji energii elektrycznej ogółem (X1), a także wysokim udziałem powierzchni obszarów Natura 2000 w powierzchni ogółem (X8 i X9). Podobnie wysoki udział obszarów specjalnej ochrony ptaków i siedlisk dotyczy województw: podkarpackiego (R), zachodniopomorskiego (Z), pomorskiego (G) i lubuskiego (F). Województwo lubuskie (F) ponadto jest Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 33
14 województwem najbardziej zalesionym (X6) i o najniższym udziale powierzchni użytków rolnych w powierzchni ogółem (X7). Województwa, które znajdują się skrajnie z prawej strony rys. 5 łódzkie (E) i śląskie (S) oraz, w mniejszym stopniu, opolskie (O) i świętokrzyskie (T) to województwa o najwyższym zużyciu energii elektrycznej (X2) i najwyższej emisji gazowych zanieczyszczeń powietrza z zakładów szczególnie uciążliwych (X4). Ponadto, województwa te charakteryzują się wysokimi nakładami na środki trwałe służące ochronie środowiska związane z oszczędzaniem energii elektrycznej na 1 mieszkańca (X3) oraz wysokim udziałem odpadów komunalnych zebranych selektywnie w relacji do ogółu odpadów komunalnych zebranych w ciągu roku (X5). Punkt obrazujący województwo dolnośląskie (D) znajduje się blisko początku układu współrzędnych. Oznacza to, że w tym województwie wartości badanych wskaźników opisujących ład środowiskowy są najbliższe wartościom przeciętnym (średnim arytmetycznym obliczonym dla wszystkich 16 województw). Należy także zwrócić uwagę na grupę województw charakteryzujących się m.in. wysokim udziałem powierzchni użytków rolnych w powierzchni ogółem (X7) są to województwa: mazowieckie (W), lubelskie (L), kujawsko-pomorskie (C) i wielkopolskie (P). Co ciekawe, wysoką pozycję w rankingu według wartości tej zmiennej zajmuje także województwo łódzkie (E). Warto w tym miejscu zauważyć, że prezentacja graficzna wyników w postaci biplotu pozwoliła w prosty sposób przekazać wiele złożonych informacji. Aby można było wyciągnąć analogiczne wnioski, opierając się na wynikach obliczeń przedstawionych w postaci tablic, należałoby przeanalizować co najmniej 4 tablice wynikowe (por. rys. 6). Przedstawione na rys. 4 i 5 biploty zachowują konwencję zaproponowaną przez Gabriela [1971] zmienne przedstawione są w postaci wektorów wychodzących z początku układu współrzędnych. Gower, Le Roux i Gardner-Lubbe [2011, 2015] preferują natomiast nieco 34 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
15 inną formę biplotu, wykorzystującą tzw. osie skalibrowane (calibrated axes). Dla danych z omawianego przykładu taki biplot przedstawiono na rys. 7. Do przygotowania wykresu wykorzystano Zestaw Plus z pakietu Statistica. Rys. 6. Przykładowe zestawienie tablic niezbędnych do interpretacji wyników analizy głównych składowych. Źródło: opracowanie własne z wykorzystaniem pakietu Statistica. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 35
16 Rys. 7. Standaryzowany biplot dla zmiennych opisujących ład środowiskowy w roku Źródło: opracowanie własne z wykorzystaniem pakietu Statistica. Legenda: D dolnośląskie; C kujawsko-pomorskie; L lubelskie; F lubuskie; E łódzkie; K małopolskie; W mazowieckie; O opolskie; R podkarpackie; B podlaskie; G pomorskie; S śląskie; T świętokrzyskie; N warmińsko-mazurskie; P wielkopolskie; Z zachodniopomorskie; X1 - udział energii odnawialnej w produkcji energii elektrycznej; X2 - zużycie energii elektrycznej na 1 mln zł PKB (GWh); X3 - nakłady na środki trwałe służące ochronie środowiska związane z oszczędzaniem energii elektrycznej na 1 mieszkańca (zł); X4 - emisja gazowych zanieczyszczeń powietrza z zakładów szczególnie uciążliwych; X5 - odpady komunalne zebrane selektywnie (%); X6 - lesistość (%), X7 - udział powierzchni użytków rolnych w powierzchni ogółem (%); X8 - obszary specjalnej ochrony ptaków Natura 2000 (%); X9 - specjalne obszary ochrony siedlisk Natura 2000 (%). Obiekty na rys. 7 są przedstawione za pomocą punktów z etykietą identyfikującą nazwę województwa, natomiast 9 badanych zmiennych jest reprezentowanych przez 9 nieortogonalnych osi biplotu (biplot axes), przecinających się w jednym punkcie (centroidzie 36 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
17 wyznaczonym na podstawie wartości zmiennych opisujących obiekty; w analizowanym przykładzie jest to punkt o współrzędnych (0, 0), gdyż zmienne pierwotne zostały wystandaryzowane) i przebiegających przez cały obszar wykresu. Każda z osi biplotu jest osią współrzędnych wyrażonych w jednostkach pomiaru danej zmiennej. Rzuty prostopadłe punktów obrazujących województwa na osie biplotu dają informacje o uporządkowaniu obiektów względem każdej zmiennej oraz o przybliżonych wartościach tej zmiennej w danym obiekcie. Dodatkowo na rys. 7 pokazany jest wykres workowy (bagplot), będący dwuwymiarową wersją wykresu pudełkowego. Zaciemniony kwadrat, położony blisko punktu przecięcia osi biplotu, oznacza medianę Tukeya, ciemniejszym kolorem zaznaczony jest obszar zwany workiem, natomiast jaśniejszym - otoczka worka. Można zauważyć 4 punkty odstające są to województwa: łódzkie (E), śląskie (S), lubuskie (F) oraz podlaskie (B). Co mówi triplot, czyli analiza wyników wyborów do Sejmu RP w 2015 roku Przedstawiony przykład pochodzi z pracy Misztal [2016]. Wybory do Sejmu RP odbyły się 25 października 2015 roku. 8 komitetów wyborczych zarejestrowało listy kandydatów do Sejmu w co najmniej połowie okręgów wyborczych, były to: (1) Prawo i Sprawiedliwość (PiS), (2) Platforma Obywatelska (PO), (3) Partia Razem, (4) Koalicja Odnowy Rzeczypospolitej Wolność i Nadzieja (KORWiN), (5) Polskie Stronnictwo Ludowe (PSL), (6) Zjednoczona Lewica (ZL), (7) Kukiz 15 oraz (8) Nowoczesna Ryszarda Petru (.N). Listy wyborcze zarejestrowało także 9 komitetów regionalnych (w dalszych analizach potraktowano te komitety łącznie). Wyniki wyborów (% poparcia) w poszczególnych województwach przedstawiono w tabeli 3. Dodatkowo przeanalizowano także 16 różnych czynników (zmiennych objaśniających charakteryzujących badane województwa) mogących mieć wpływ na wyniki wyborów do Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 37
18 Sejmu. Ze względu na niewielką liczbę badanych obiektów (16 województw) przyjęto założenie, że zmiennych objaśniających nie powinno być więcej niż 4-5. Zmienne te powinny być silnie skorelowane ze zmiennymi objaśnianymi (wynikami wyborów) i słabo skorelowane między sobą. Wykorzystując procedury symulacyjne oparte na testach permutacyjnych, szczegółowo opisane w pracy Lepša i Šmilauera [2003, s ], dokonano selekcji zmiennych objaśniających. W dalszych analizach uwzględnione zostały ostatecznie 4 zmienne: (1) pracujący w rolnictwie w % ogółu, (2) stopa bezrobocia (%), (3) korzystający ze świadczeń pomocy społecznej na 10 tysięcy ludności ogółem i (4) frekwencja wyborcza (%). Tabela 3. Wyniki wyborów do Sejmu 2015 (% poparcia). Województwo Komitety wyborcze: PIS PO RAZEM KORWIN PSL ZL KUKIZ 15.N INNE D 32,63 29,26 3,86 4,74 3,14 8,05 9,03 8,69 0,59 C 31,86 27,74 3,70 4,23 6,40 10,39 8,04 6,91 0,72 L 47,76 14,83 2,60 4,74 9,24 6,45 9,79 4,22 0,38 F 28,27 28,21 3,99 4,99 5,12 10,02 8,75 9,99 0,65 E 38,35 23,15 3,79 4,29 5,93 8,79 8,65 6,70 0,36 K 48,18 19,43 3,08 5,20 4,19 4,73 8,14 6,58 0,47 W 38,30 22,61 4,21 5,15 4,84 6,92 7,89 9,53 0,55 O 27,77 26,23 3,02 3,95 3,68 6,75 12,57 7,14 8,88 R 55,09 13,37 2,30 4,69 5,69 4,47 9,23 4,09 1,05 B 45,38 16,74 2,59 4,66 8,07 7,35 9,07 5,37 0,76 G 30,45 34,06 4,02 4,70 3,13 6,62 7,60 8,67 0,75 S 34,82 25,56 3,91 4,88 2,52 8,33 10,69 8,06 1,23 T 42,81 17,25 2,80 4,14 9,51 7,87 9,41 4,98 1,23 N 30,91 28,38 3,76 4,94 7,69 8,30 8,66 6,39 0,97 P 29,61 28,45 3,94 4,32 6,62 9,28 7,77 9,32 0,70 Z 28,91 31,25 4,04 5,01 3,97 9,59 8,78 8,44 0,00 Źródło: Ponieważ dostępne są informacje o zmiennych objaśniających, do analizy wyników wyborów wykorzystano analizę redundancji (RDA). 38 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
19 W przypadku analizy głównych składowych można wyznaczyć tyle składowych, ile jest zmiennych pierwotnych (objaśnianych), czyli w rozważanym przypadku 9. W analizie redundancji można wyznaczyć tyle osi kanonicznych, ile jest zmiennych objaśniających, czyli w rozważanym przypadku 4. Cztery osie kanoniczne wyjaśniają łącznie 83% zmienności całkowitej (w tym: pierwsza oś kanoniczna wyjaśnia 75,6% całkowitej zmienności, a druga 4,5%). Natomiast biorąc pod uwagę tylko osie kanoniczne, pierwsza oś kanoniczna wyjaśnia 91% zmienności w części kanonicznej, a druga 5,3%. OPOLSKIE INNE KUKIZ15 WARMIŃSKO-MAZURSKIE WIELKOPOLSKIE ZL PODLASKIE korzystający ze świadczeń pomocy społ. LUBUSKIE KUJAWSKO-POMORSKIE ZACHODNIOPOMORSKIE PSL pracujący w rolnictwie LUBELSKIE ŚWIĘTOKRZYSKIE stopa bezrobocia PO.N RAZEM DOLNOŚLĄSKIE ŚLĄSKIE POMORSKIE KORWIN PIS ŁÓDZKIE PODKARPACKIE MAŁOPOLSKIE MAZOWIECKIE frekwencja wyborcza Rys. 8. Wyniki analizy redundancji triplot. Źródło: opracowanie własne na podstawie obliczeń w środowisku R. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 39
20 Uzyskane wyniki RDA przedstawione zostały na triplocie (rys. 8 - powyżej). Wykres ten przygotowano na podstawie wyników obliczeń wykonanych w środowisku R. Przyjęto skalowanie typu II, czyli zachowujące korelacje między zmiennymi. Zmienne objaśniane i objaśniające przedstawiono za pomocą wektorów (odpowiednio: linia czarna ciągła i linia szara przerywana), obiekty województwa zobrazowano za pomocą czarnych kółek. Pamiętać należy, że obie osie kanoniczne są kombinacjami liniowymi zmiennych objaśniających. Kąty między wektorami obrazującymi badane zmienne wskazują na skorelowanie tych zmiennych, zatem na podstawie rys. 8 można wyciągnąć m.in. następujące wnioski: 1. Silnie dodatnio skorelowane są wyniki wyborów uzyskane przez PO, Nowoczesną i Partię Razem, a także Kukiz 15 i komitety regionalne. 2. Silna ujemna korelacja występuje między wynikiem wyborczym Prawa i Sprawiedliwości a poparciem dla Platformy Obywatelskiej, Zjednoczonej Lewicy, Nowoczesnej i Partii Razem. 3. Brak jest zależności między wynikami wyborczymi partii KORWiN i PiS oraz KOR- WiN i Zjednoczona Lewica. 4. Stopa bezrobocia i odsetek pracujących w rolnictwie są najsilniej skorelowane z pierwszą osią ordynacyjną, natomiast z drugą osią ordynacyjną najsilniej skorelowana jest frekwencja wyborcza. 5. Pomiędzy odsetkiem pracujących w rolnictwie i wielkością stopy bezrobocia występuje zależność dodatnia, o średniej sile; z kolei frekwencja wyborcza i liczba pobierających świadczenia społeczne są silnie ujemnie skorelowane. 6. Zależność dodatnia o dużej sile występuje między odsetkiem pracujących w rolnictwie i wynikiem wyborczym PSL; z kolei wyniki wyborcze Partii Razem, Nowoczesnej i Platformy Obywatelskiej są z odsetkiem pracujących w rolnictwie skorelowane ujemnie. 7. Odsetek głosów oddanych na PiS rośnie wraz ze wzrostem stopy bezrobocia, natomiast poparcie dla Kukiz 15 i komitetów regionalnych wzrasta w okręgach wyborczych 40 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
21 z wyższą liczbą osób pobierających świadczenia społeczne. Poparcie dla partii KOR- WiN z kolei rosło wraz ze wzrostem frekwencji wyborczej. Rzutowanie punktów reprezentujących obiekty na wektory zmiennych objaśnianych i objaśniających pozwala uzyskać następujące informacje: 1. Najlepsze wyniki wyborcze dla PSL odnotowano w województwach: lubelskim, świętokrzyskim i podlaskim. Są to województwa z najwyższym odsetkiem pracujących w rolnictwie. Najniższe poparcie dla PSL zaobserwowano w województwie śląskim, a więc najbardziej uprzemysłowionym. 2. Prawo i Sprawiedliwość zdobyło najwyższe poparcie w województwie podkarpackim, czyli województwie z najwyższą stopą bezrobocia. 3. Partia KORWiN największy odsetek głosów zdobyła w województwie mazowieckiem, w którym odnotowano najwyższą frekwencję wyborczą. 4. Platforma Obywatelska uzyskała najlepszy wynik wyborczy w województwie pomorskim, Zjednoczona Lewica w województwie lubuskim, a Kukiz 15 w województwie opolskim. 5. Charakterystycznym województwem jest kujawsko-pomorskie, dla którego wyniki wyborcze były najbardziej zbliżone do średniej dla całej Polski (punkt obrazujący to województwo leży niemal w początku układu współrzędnych). Przedstawione wnioski nie są oczywiście wszystkimi, które można wyciągnąć, analizując triplot z rys. 8. Ze względu na ograniczoną objętość artykułu wskazano tylko najbardziej interesujące relacje między zmiennymi objaśnianymi, objaśniającymi i obiektami. Jednakże nawet te wypunktowane zależności i powiązania pokazują, jak silnym narzędziem analizy danych może być triplot. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 41
22 Uwagi końcowe Friendly i Sigal [2014] nieco żartobliwie sugerują: there are two kinds of people in this world graph people and table people. Badacze wykorzystujący w swojej pracy metody ordynacyjne według wspomnianych autorów należą do grupy graph people, którą można scharakteryzować jako (...) grupę ludzi, którzy pomimo zainteresowania formalnym, matematycznym opisem związków i wzorców istniejących w danych, nadal słyszą głos bóstwa głoszącego znaczenie wizualizacji danych w celu ich doskonalszego zrozumienia.. Prezentacja graficzna wyników liniowych technik ordynacyjnych z wykorzystaniem biplotów i triplotów znacznie ułatwia analizę powiązań między zmiennością rozkładów badanych zmiennych i czynnikami mającymi wpływ na tę zmienność. Umiejętność interpretacji diagramów ordynacyjnych (przygotowanych w programie statystycznym) nie wymaga wykonywania skomplikowanych obliczeń numerycznych, a zatem może być użyteczna dla badaczy z każdej dziedziny. Zauważmy, że zarówno PCA, jak i RDA, to techniki eksploracyjnej analizy danych, których celem jest wykrycie związków między zmiennymi i przedstawienie struktury danych; mogą być stosowane jako metody wstępne przed zastosowaniem bardziej formalnych metod analizy danych. Wizualizacja w przypadku tych metod jest nierozerwalnie związana z procesem analizy danych i stanowi podstawę interpretacji uzyskanych wyników. Analizując biplot lub triplot, można odkryć wiele użytecznych informacji, np. wyodrębnić skupienia obiektów podobnych czy znaleźć powiązania między zmiennymi. Każda taka uzyskana informacja powinna być w kolejnych krokach analiz zinterpretowana, skomentowana lub poddana dalszym badaniom. Jak można było zauważyć w przedstawionych przykładach, prezentacja graficzna wyników w postaci diagramu ordynacyjnego pozwala w prosty sposób przekazać wiele złożonych informacji. Jeden obraz bywa wart więcej niż tysiąc słów. 42 Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
23 Literatura 1. Balicki A., 2009, Statystyczna analiza wielowymiarowa i jej zastosowania społecznoekonomiczne, Wydawnictwo Uniwersytetu Gdańskiego, Gdańsk. 2. Everitt B.S., Skrondal A., 2010, The Cambridge Dictionary of Statistics, Fourth Edition, Cambridge University Press, Cambridge. 3. Friendly M., Sigal M., 2014, Some Prehistory of CARME: Visual Language and Visual Thinking, (in:) Blasius J., Greenacre M. [ed.] Visualization and Verbalization of Data, CRC Press, s Gabriel K.R., 1971, The biplot graphical display of matrices with application to principal component analysis, Biometrika, vol. 58 (3), s Gatnar E., Walesiak M. (red.), 2004, Metody statystycznej analizy wielowymiarowej w badaniach marketingowych, Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław. 6. Goodall D.W., 1954, Objective methods for the classification of vegetation. III. An essay in the use of factor analysis, Australian Journal of Botany, Vol. 2, s Gower J.C., 1984, Ordination, multidimensional scaling and allied topics, (in:) W. Lederman [ed.] Handbook of Applicable Mathematics, Vol. VI: E. Lloyd [ed.] Statistics, Wiley, Chichester, s Gower J.C., Le Roux N.C., Gardner-Lubbe S., 2011, Understanding biplots, John Wiley&Sons, Ltd. 9. Gower J.C., Le Roux N.C., Gardner-Lubbe S., 2015, Biplots: quantitative data, WIREs Comput Stat, no. 7, s (doi: /wics.1338). 10. GUS, 2015, Wskaźniki zrównoważonego rozwoju Polski 2015, Urząd Statystyczny w Katowicach, Katowice. 11. GUS, 2016, Na ścieżce zrównoważonego rozwoju, Główny Urząd Statystyczny, Warszawa. Copyright StatSoft Polska 2018, info@danewiedzasukces.pl 43
24 12. Hotelling H., 1933, Analysis of a complex of statistical variables into principal components, Journal of Educational Psychology, vol. 24, s , Jongman R.H.G., ter Braak C.J.F., van Tongeren O.F.R. (red.), 1995, Data Analysis in Community and Landscape Ecology, Cambridge University Press, Cambridge. 14. Legendre P., Legendre L., 2012, Numerical ecology, Third edition, Elsevier Science B.V., Amsterdam. 15. Lepš J., Šmilauer P., 2003, Multivariate analysis of ecological data using CANOCO, Cambridge University Press, Cambridge. 16. Misztal M., 2016, On the use of selected ordination techniques to analyze the parliamentary election results, Acta Universitatis Lodziensis, Folia Oeconomica 3(322), s Misztal M., 2017, Wizualizacja wyników liniowych technik ordynacyjnych na przykładzie analizy przestępczości przeciwko mieniu w Polsce, (w:) Taksonomia 28, Klasyfikacja i analiza danych teoria i zastosowania, pod red. K. Jajugi i M. Walesiaka, Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu nr 468, s Pearson K., 1901, On lines and planes of closest fit to systems of points in space, Philosophical Magazine, Ser. 6, vol. 2, s Rao C.R., 1964, The use and interpretation of principal component analysis in applied research, Sankhyā: The Indian Journal of Statistics, Series A ( ), vol. 26, no. 4 (Dec., 1964), s Sagan A., 2004, Jeden obraz ukazuje więcej niż 10 liczb, czyli jak budować mapy zadowolenia klienta z wykorzystaniem programu Statistica, Statsoft Polska, Kraków. 21. van den Wollenberg A.L., 1977, Redundancy analysis. An alternative for canonical correlation analysis, Psychometrika, vol. 42, no. 2, s Copyright StatSoft Polska 2018, info@danewiedzasukces.pl
Analiza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Bardziej szczegółowoMETODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Bardziej szczegółowoZmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Bardziej szczegółowoAnaliza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Bardziej szczegółowoEmerytury nowosystemowe wypłacone w grudniu 2018 r. w wysokości niższej niż wysokość najniższej emerytury (tj. niższej niż 1029,80 zł)
Emerytury nowosystemowe wypłacone w grudniu 18 r. w wysokości niższej niż wysokość najniższej emerytury (tj. niższej niż 9,8 zł) DEPARTAMENT STATYSTYKI I PROGNOZ AKTUARIALNYCH Warszawa 19 1 Zgodnie z art.
Bardziej szczegółowoMETODA DEA W ANALIZIE EFEKTYWNOŚCI NAKŁADÓW NA GOSPODARKĘ ODPADAMI
Katedra Statystyki METODA DEA W ANALIZIE EFEKTYWNOŚCI NAKŁADÓW NA GOSPODARKĘ ODPADAMI XX MIĘDZYNARODOWA KONFERENCJA NAUKOWA GOSPODARKA LOKALNA I REGIONALNA W TEORII I PRAKTYCE Mysłakowice k. Karpacza 17-18
Bardziej szczegółowoZałóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Bardziej szczegółowoDziałalność badawcza i rozwojowa w Polsce w 2012 r.
GŁÓWNY URZĄD STATYSTYCZNY Urząd Statystyczny w Szczecinie Warszawa, październik 2013 r. Informacja sygnalna WYNIKI BADAŃ GUS Działalność badawcza i rozwojowa w Polsce w 2012 r. Wprowadzenie Niniejsza informacja
Bardziej szczegółowoWprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Bardziej szczegółowo3. Wojewódzkie zróżnicowanie zatrudnienia w ochronie zdrowia w latach Opis danych statystycznych
3. Wojewódzkie zróżnicowanie zatrudnienia w ochronie zdrowia w latach 1995-2005 3.1. Opis danych statystycznych Badanie zmian w potencjale opieki zdrowotnej można przeprowadzić w oparciu o dane dotyczące
Bardziej szczegółowoKto wygra drugą turę wyborów prezydenckich 2015 r.?
Kto wygra drugą turę wyborów prezydenckich 2015 r.? Spróbujmy odpowiedzieć na to pytanie korzystając jedynie z oficjalnych wyników wyborów z pierwszej tury w podziale na województwa. Opieramy się zatem
Bardziej szczegółowoAnaliza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 - wyniki niskie - wyniki średnie - wyniki wysokie liczba
Bardziej szczegółowoSytuacja młodych na rynku pracy
Sytuacja młodych na rynku pracy Plan prezentacji Zamiany w modelu: w obrębie każdego z obszarów oraz zastosowanych wskaźników cząstkowych w metodologii obliczeń wskaźników syntetycznych w obrębie syntetycznego
Bardziej szczegółowoKlasówka po szkole podstawowej Historia. Edycja 2006/2007. Raport zbiorczy
Klasówka po szkole podstawowej Historia Edycja 2006/2007 Raport zbiorczy Opracowano w: Gdańskiej Fundacji Rozwoju im. Adama Mysiora Informacje ogólne... 3 Raport szczegółowy... 3 Tabela 1. Podział liczby
Bardziej szczegółowona podstawie opracowania źródłowego pt.:
INFORMACJA O DOCHODACH I WYDATKACH SEKTORA FINASÓW PUBLICZNYCH WOJEWÓDZTWA KUJAWSKO-POMORSKIEGO W LATACH 2004-2011 ZE SZCZEGÓLNYM UWZGLĘDNIENIEM WYDATKÓW STRUKTURALNYCH na podstawie opracowania źródłowego
Bardziej szczegółowoAnaliza głównych składowych- redukcja wymiaru, wykł. 12
Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają
Bardziej szczegółowoŻłobki i kluby dziecięce w 2013 r.
Materiał na konferencję prasową w dniu 3 maja 214 r. GŁÓWNY URZĄD STATYSTYCZNY Departament Badań Społecznych i Warunków Życia Notatka informacyjna Żłobki i kluby dziecięce w 213 r. W pierwszym kwartale
Bardziej szczegółowoREGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ Korelacja oznacza fakt współzależności zmiennych, czyli istnienie powiązania pomiędzy nimi. Siłę i kierunek powiązania określa się za pomocą współczynnika korelacji
Bardziej szczegółowoJarosław Zbieranek. Instytut Spraw Publicznych
Jarosław Zbieranek Instytut Spraw Publicznych Głosy nieważne. Analiza zjawiska przez pryzmat wyborów samorządowych w latach 2002 i 2006 (Materiał roboczy) Warszawa 2010 INSTYTUT SPRAW PUBLICZNYCH Program
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 - wyniki niskie - wyniki średnie - wyniki wysokie liczba punktów Parametry
Bardziej szczegółowoGŁÓWNY URZĄD STATYSTYCZNY Urząd Statystyczny w Katowicach
GŁÓWNY URZĄD STATYSTYCZNY Urząd Statystyczny w Katowicach Notatka informacyjna PRODUKT KRAJOWY BRUTTO RACHUNKI REGIONALNE W 2008 R. 1 PRODUKT KRAJOWY BRUTTO W 2008 roku wartość wytworzonego produktu krajowego
Bardziej szczegółowoWYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH:
WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH: Zasada podstawowa: Wykorzystujemy możliwie najmniej skomplikowaną formę wykresu, jeżeli to możliwe unikamy wykresów 3D (zaciemnianie treści), uwaga na kolory
Bardziej szczegółowoSpis tabel. Tabela 5.6. Indeks rywalizacyjności oraz efektywna liczba partii w wyborach
Tabela 1.1. Wydatki z budżetów wojewódzkich (2011 rok), według wyodrębnionych kategorii, w wybranych województwach...25 Tabela 2.1. Powierzchnia i ludność województw...36 Tabela 2.2. Struktura zamieszkania
Bardziej szczegółowoRaport z cen korepetycji w Polsce 2016/2017. Na podstawie cen z serwisu e-korepetycje.net
Raport z cen korepetycji w Polsce 2016/2017 Na podstawie cen z serwisu e-korepetycje.net Spis treści WSTĘP... 3 ZAŁOŻENIA DO RAPORTU... 3 ANALIZA WOJEWÓDZTW... 3 Województwo dolnośląskie... 5 Województwo
Bardziej szczegółowo1. Analiza wskaźnikowa... 3 1.1. Wskaźniki szczegółowe... 3 1.2. Wskaźniki syntetyczne... 53 1.2.1.
Spis treści 1. Analiza wskaźnikowa... 3 1.1. Wskaźniki szczegółowe... 3 1.2. Wskaźniki syntetyczne... 53 1.2.1. Zastosowana metodologia rangowania obiektów wielocechowych... 53 1.2.2. Potencjał innowacyjny
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 liczba punktów - wyniki niskie - wyniki średnie - wyniki wysokie Parametry
Bardziej szczegółowoRegresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Bardziej szczegółowoStatystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym
Zeszyty Naukowe Wyższej Szkoły Bankowej w Poznaniu Nr 42/2012 Rafał Klóska Uniwersytet Szczeciński Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym Streszczenie.
Bardziej szczegółowoRaport z cen korepetycji w Polsce Na podstawie cen z serwisu e-korepetycje.net
Raport z cen korepetycji w Polsce 2016 Na podstawie cen z serwisu e-korepetycje.net Spis treści WSTĘP... 3 ZAŁOŻENIA DO RAPORTU... 3 ANALIZA WOJEWÓDZTW... 3 Województwo dolnośląskie... 6 Województwo kujawsko-pomorskie...
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 - wyniki niskie - wyniki średnie - wyniki wysokie liczba
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 liczba punktów - wyniki niskie - wyniki średnie - wyniki wysokie Parametry rozkładu
Bardziej szczegółowoCharakterystyka przedsiębiorstw transportu samochodowego w Polsce w latach
Logistyka - nauka Krystyna Bentkowska-Senator, Zdzisław Kordel Instytut Transportu Samochodowego w Warszawie Charakterystyka przedsiębiorstw transportu samochodowego w Polsce w latach 2007-2010 Pozytywnym
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 25 22.5 2 17.5 procent uczniów 15 12.5 1 7.5 5 2.5 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 - wyniki niskie - wyniki średnie - wyniki wysokie liczba punktów
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 liczba punktów - wyniki niskie - wyniki średnie - wyniki wysokie Parametry rozkładu
Bardziej szczegółowoREGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji
Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji
Bardziej szczegółowoDziałalność badawcza i rozwojowa w Polsce w 2013 r. Główne wnioski
GŁÓWNY URZĄD STATYSTYCZNY Urząd Statystyczny w Szczecinie Warszawa, listopad 2014 r. Informacja sygnalna WYNIKI BADAŃ GUS Główne wnioski Wartość nakładów wewnętrznych 1 ogółem na działalność badawczo-rozwojową
Bardziej szczegółowoĆwiczenie: Wybrane zagadnienia z korelacji i regresji.
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)
Bardziej szczegółowoWykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 - wyniki niskie - wyniki średnie - wyniki wysokie liczba punktów Parametry
Bardziej szczegółowoMODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Bardziej szczegółowoElementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Bardziej szczegółowoANALIZA PORÓWNAWCZA KONIUNKTURY WOJEWÓDZTW POLSKI W LATACH
Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach ISSN 2083-8611 Nr 318 2017 Uniwersytet Ekonomiczny w Katowicach Wydział Zarządzania Katedra Ekonometrii jozef.biolik@ue.katowice.pl
Bardziej szczegółowoROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH
ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE (Źródło informacji ROCZNIK STATYSTYCZNY ROLNICTWA 2010 Głównego Urzędu Statystycznego) ROLNICZE UŻYTKOWANIE GRUNTÓW WEDŁUG WOJEWÓDZTW użytki
Bardziej szczegółowoAnaliza zależności liniowych
Narzędzie do ustalenia, które zmienne są ważne dla Inwestora Analiza zależności liniowych Identyfikuje siłę i kierunek powiązania pomiędzy zmiennymi Umożliwia wybór zmiennych wpływających na giełdę Ustala
Bardziej szczegółowoPowierzchnia województw w 2012 roku w km²
- 10 %? powierzchnia w km2 lokata DOLNOŚLĄSKIE 19947 7 KUJAWSKO-POMORSKIE 17972 10 LUBELSKIE 25122 3 LUBUSKIE 13988 13 ŁÓDZKIE 18219 9 MAŁOPOLSKIE 15183 12 MAZOWIECKIE 35558 1 OPOLSKIE 9412 16 PODKARPACKIE
Bardziej szczegółowoWybory na mapach GradeStatu. Anna Welcz Weronika Welcz
Anna Welcz Weronika Welcz Wybory 2007 na mapach GradeStatu Na jaką koalicję głosowali wyborcy? Zaskakujące korelacje między partiami, które weszły do sejmu Krajobraz po wyborczej bitwie w obiektywie GradeStatu
Bardziej szczegółowoIdea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.
Idea (ang. principal components analysis PCA), zwana również dekompozycją według wartości osobliwych (SVD) lub dekompozycją spektralną, jest popularną techniką redukcji wymiarowości danych(liczby cech).
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 - wyniki niskie - wyniki średnie - wyniki wysokie liczba punktów Parametry rozkładu
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 10 9 8 7 procent uczniów 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 - wyniki niskie -
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 10 9 8 7 procent uczniów 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 - wyniki niskie -
Bardziej szczegółowoCBOS CENTRUM BADANIA OPINII SPOŁECZNEJ POPARCIE DLA UGRUPOWAŃ POLITYCZNYCH W NOWYCH WOJEWÓDZTWACH BS/72/99 KOMUNIKAT Z BADAŃ WARSZAWA, KWIECIEŃ 99
CENTRUM BADANIA OPINII SPOŁECZNEJ SEKRETARIAT ZESPÓŁ REALIZACJI BADAŃ 629-35 - 69, 628-37 - 04 621-07 - 57, 628-90 - 17 UL. ŻURAWIA 4A, SKR. PT.24 00-503 W A R S Z A W A TELEFAX 629-40 - 89 INTERNET: http://www.cbos.pl
Bardziej szczegółowoWykład 5: Statystyki opisowe (część 2)
Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz
Bardziej szczegółowoROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE
ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE (Źródło informacji ROCZNIK STATYSTYCZNY ROLNICTWA 2014 Głównego Urzędu Statystycznego) POWIERZCHNIA UŻYTKÓW ROLNYCH WEDŁUG WOJEWÓDZTW według
Bardziej szczegółowoDepartament Koordynacji Polityki Strukturalnej. Fundusze unijne. a zróżnicowanie regionalne kraju. Warszawa, 27 marca 2008 r. 1
Departament Koordynacji Polityki Strukturalnej Fundusze unijne a zróżnicowanie regionalne kraju Warszawa, 27 marca 2008 r. 1 Proces konwergencji w wybranych krajach UE (zmiany w stosunku do średniego PKB
Bardziej szczegółowo10. Redukcja wymiaru - metoda PCA
Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component
Bardziej szczegółowoROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE (Źródło informacji ROCZNIK STATYSTYCZNY ROLNICTWA 2013 Głównego Urzędu Statystycznego)
ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE (Źródło informacji ROCZNIK STATYSTYCZNY ROLNICTWA 2013 Głównego Urzędu Statystycznego) POWIERZCHNIA UŻYTKÓW ROLNYCH WEDŁUG WOJEWÓDZTW według
Bardziej szczegółowoPOWIERZCHNIA UŻYTKÓW ROLNYCH WEDŁUG WOJEWÓDZTW. Województwo
ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE (Źródło informacji ROCZNIK STATYSTYCZNY ROLNICTWA 2015 Głównego Urzędu Statystycznego opublikowany 15 stycznia 2016 r.) POWIERZCHNIA UŻYTKÓW
Bardziej szczegółowoPOWIERZCHNIA UŻYTKÓW ROLNYCH WEDŁUG WOJEWÓDZTW. Województwo
ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE (Źródło informacji ROCZNIK STATYSTYCZNY ROLNICTWA 2016 Głównego Urzędu Statystycznego opublikowany 15 stycznia 2017 r.) POWIERZCHNIA UŻYTKÓW
Bardziej szczegółowoWielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna
Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Badanie współzależności zmiennych Uwzględniając ilość zmiennych otrzymamy 4 odmiany zależności: Zmienna zależna jednowymiarowa oraz jedna
Bardziej szczegółowoŻłobki i kluby dziecięce w 2012 r.
Materiał na konferencję prasową w dniu 29 maja 213 r. GŁÓWNY URZĄD STATYSTYCZNY Departament Badań Społecznych i Warunków Życia Notatka informacyjna Żłobki i kluby dziecięce w 212 r. W pierwszym kwartale
Bardziej szczegółowoSposoby prezentacji problemów w statystyce
S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki
Bardziej szczegółowoNakłady na środki trwałe służące ochronie środowiska i gospodarce wodnej w Polsce w 2012 r.
mld zł GŁÓWNY URZĄD STATYSTYCZNY Departament Badań Regionalnych i Środowiska Notatka informacyjna WYNIKI BADAŃ GUS Nakłady na środki trwałe służące ochronie środowiska i gospodarce wodnej w Polsce w 2012
Bardziej szczegółowoKlasówka po gimnazjum język polski
Klasówka po gimnazjum język polski Rok 2005 Raport zbiorczy Opracowano w: Gdańskiej Fundacji Rozwoju im. Adama Mysiora Informacje ogólne...3 Informacje dotyczące wyników testu...4 2 Informacje ogólne Tegoroczna
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.
Bardziej szczegółowoZadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.
L a b o r a t o r i u m S P S S S t r o n a 1 W zbiorze Pytania zamieszczono odpowiedzi 25 opiekunów dzieci w wieku 8. lat na następujące pytania 1 : P1. Dziecko nie reaguje na bieżące uwagi opiekuna gdy
Bardziej szczegółowoZmiany bezrobocia w województwie zachodniopomorskim w I półroczu 2018 roku
Zmiany bezrobocia w województwie zachodniopomorskim w I półroczu 2018 roku Szczecin 2018 Według danych Eurostat zharmonizowana stopa bezrobocia 1 dla Polski w czerwcu 2018 roku 2 wynosiła 3,7% tj. o 1,1
Bardziej szczegółowoPOLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych
Bardziej szczegółowoBadanie zależności skala nominalna
Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność
Bardziej szczegółowoEgzamin Gimnazjalny z WSiP LISTOPAD Analiza wyników próbnego egzaminu gimnazjalnego Część matematyczno-przyrodnicza MATEMATYKA
Egzamin Gimnazjalny z WSiP LISTOPAD 2015 Analiza wyników próbnego egzaminu gimnazjalnego Część matematyczno-przyrodnicza MATEMATYKA Arkusz egzaminu próbnego składał się z 20 zadań zamkniętych różnego typu
Bardziej szczegółowoII. BUDOWNICTWO MIESZKANIOWE
II. BUDOWNICTWO MIESZKANIOWE 1. Mieszkania oddane do eksploatacji w 2007 r. 1 Według danych Głównego Urzędu Statystycznego, w Polsce w 2007 r. oddano do użytku 133,8 tys. mieszkań, tj. o około 16% więcej
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 5 4.5 4 3.5 procent uczniów 3 2.5 2 1.5 1.5 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 liczba punktów - wyniki niskie - wyniki średnie
Bardziej szczegółowoAnaliza regresji - weryfikacja założeń
Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.
Bardziej szczegółowoŚrednia wielkość powierzchni gruntów rolnych w gospodarstwie za rok 2006 (w hektarach) Jednostka podziału administracyjnego kraju
ROLNYCH W GOSPODARSTWIE W KRAJU ZA 2006 ROK w gospodarstwie za rok 2006 (w hektarach) Województwo dolnośląskie 14,63 Województwo kujawsko-pomorskie 14,47 Województwo lubelskie 7,15 Województwo lubuskie
Bardziej szczegółowoStatystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35
Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoRaport o sytuacji finansowej przedsiębiorstw w województwie mazowieckim w 2015 r.
Raport o sytuacji finansowej przedsiębiorstw w województwie mazowieckim w 2015 r. Opracowanie: Zespół Mazowieckiego Obserwatorium Rynku Pracy Najważniejsze obserwacje W 2015 r.: Przychody z całokształtu
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 15 13.5 12 1.5 procent uczniów 9 7.5 6 4.5 3 1.5 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 - wyniki niskie - wyniki średnie - wyniki wysokie liczba punktów Parametry
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 - wyniki niskie - wyniki średnie - wyniki wysokie liczba punktów Parametry
Bardziej szczegółowoWybory samorządowe 2014 w poszukiwaniu anomalii statystycznych
Wybory samorządowe 2014 w poszukiwaniu anomalii statystycznych Na podstawie pracy o tym samym tytule autorstwa: Piotr Gawron, Łukasz Pawela, Zbigniew Puchała, Jacek Szklarski, Karol Życzkowski, która ukazała
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 31 32 33 34 35 36 37 38 39 4 41 42 43 44 45 46 47 48 49
Bardziej szczegółowoPełen zestaw raportów będzie wkrótce dostępny na naszej
Rynek ziemi rolnej w Polsce w latach 24 28 Przedstawiamy Państwu raport dotyczący rynku ziemi rolniczej w Polsce w latach 24 28. Raport podsumowuje serię 16 analiz realizowanych przez nas od końca 27 roku
Bardziej szczegółowoStatystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31
Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoFunkcja liniowa - podsumowanie
Funkcja liniowa - podsumowanie 1. Funkcja - wprowadzenie Założenie wyjściowe: Rozpatrywana będzie funkcja opisana w dwuwymiarowym układzie współrzędnych X. Oś X nazywana jest osią odciętych (oś zmiennych
Bardziej szczegółowoElementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Bardziej szczegółowoInteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Bardziej szczegółowoANALIZA CZYNNIKOWA Przykład 1
ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie.
Bardziej szczegółowoWprowadzenie do analizy dyskryminacyjnej
Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela
Bardziej szczegółowoW statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1
Temat: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00 0,20) Słaba
Bardziej szczegółowoProdukt Krajowy Brutto. Rachunki Regionalne w 2014 roku
WWW.OBSERWATORIUM.MALOPOLSKA.PL Produkt Krajowy Brutto. Rachunki Regionalne w 2014 roku Opracowanie: Małopolskie Obserwatorium Rozwoju Regionalnego Departament Polityki Regionalnej Urząd Marszałkowski
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 1 9 8 7 procent uczniów 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 - wyniki niskie - wyniki średnie - wyniki wysokie liczba punktów Parametry
Bardziej szczegółowoSkalowanie wielowymiarowe idea
Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy
Bardziej szczegółowoPodstawowe informacje o orzecznictwie sądów powszechnych w sprawach o rozwód
Marlena Gilewicz Naczelnik Wydziału Statystyki w Departamencie Organizacyjnym w Ministerstwie Sprawiedliwości Podstawowe informacje o orzecznictwie sądów powszechnych w sprawach o rozwód W latach 2000
Bardziej szczegółowoAnaliza współzależności dwóch cech I
Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych
Bardziej szczegółowoINNOWACYJNOŚĆ WOJEWÓDZTW W POLSCE
Rafał Klóska INNOWACYJNOŚĆ WOJEWÓDZTW W POLSCE 1. Wstęp Tematyka konferencji wydaje się szczególnie ważna i interesująca, tym bardziej, że innowacyjność jest stymulanta rozwoju społeczno-gospodarczego,
Bardziej szczegółowoStatystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Bardziej szczegółowoRaport z wyników Narodowego Spisu Powszechnego Ludności i Mieszkań 2002 [...]
Raport z wyników Narodowego Spisu Powszechnego Ludności i Mieszkań 2002 [...] 6. OSOBY NIEPEŁNOSPRAWNE Spisy powszechne ludności są jedynym badaniem pełnym, którego wyniki pozwalają ustalić liczbę osób
Bardziej szczegółowoRozkład wyników ogólnopolskich
Rozkład wyników ogólnopolskich 5 4.5 4 3.5 procent uczniów 3 2.5 2 1.5 1.5 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 31 32 liczba punktów - wyniki niskie - wyniki średnie
Bardziej szczegółowoInżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna
1 Laboratorium VIII: Analiza kanoniczna Spis treści Laboratorium VIII: Analiza kanoniczna... 1 Wiadomości ogólne... 2 1. Wstęp teoretyczny.... 2 Przykład... 2 Podstawowe pojęcia... 2 Założenia analizy
Bardziej szczegółowo