WIZUALIZACJA DANYCH JAKO UZUPEŁNIENIE METOD ANALITYCZNYCH



Podobne dokumenty
PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

GRAFICZNA PREZENTACJA DANYCH NA MAPACH W PROGRAMIE MAPY STATISTICA

3.7. Wykresy czyli popatrzmy na statystyki

Wykład 4: Statystyki opisowe (część 1)

Zadanie Wstaw wykres i dokonaj jego edycji dla poniższych danych. 8a 3,54 8b 5,25 8c 4,21 8d 4,85

Tworzenie prezentacji w MS PowerPoint

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

Wykład 5: Statystyki opisowe (część 2)

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Dopasowywanie modelu do danych

Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1

Uruchom polecenie z menu Wstaw Wykres lub ikonę Kreator wykresów na Standardowym pasku narzędzi.

Metodyka wykonania kartogramu z podziałem na klasy wg punktów charakterystycznych wraz z opracowaniem kartogramicznej legendy.

MS Excel. Podstawowe wiadomości

Regresja linearyzowalna

Analiza zależności liniowych

Ćwiczenia nr 4. Arkusz kalkulacyjny i programy do obliczeń statystycznych

Wprowadzenie do analizy dyskryminacyjnej

JAK EFEKTYWNIE I POPRAWNIE WYKONAĆ ANALIZĘ I RAPORT Z BADAŃ BIEGŁOŚCI I WALIDACJI PRAKTYCZNE WSKAZÓWKI

Po naciśnięciu przycisku Dalej pojawi się okienko jak poniżej,

WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH:

Sposoby prezentacji problemów w statystyce

Praktyczny Excel. Wykresy i grafika. w Excelu krok po kroku

1. Przypisy, indeks i spisy.

Temat: Graficzna ilustracja danych - wykresy

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Spis treści Szybki start... 4 Podstawowe informacje opis okien... 6 Tworzenie, zapisywanie oraz otwieranie pliku... 23

You created this PDF from an application that is not licensed to print to novapdf printer (

1. Opis okna podstawowego programu TPrezenter.

Instrukcja właściwego wykonania wykresów na zajęcia dydaktyczne.

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9

Statystyki opisowe i szeregi rozdzielcze

PRZYKŁAD AUTOMATYZACJI STATYSTYCZNEJ OBRÓBKI WYNIKÓW

Jedną z ciekawych funkcjonalności NOLa jest możliwość dokonywania analizy technicznej na wykresach, które mogą być otwierane z poziomu okna notowań:

Praktyczny Excel. Wykresy i grafika. w Excelu krok po kroku

2. Wprowadzenie do oprogramowania gretl. Podstawowe operacje na danych.

Animacje z zastosowaniem suwaka i przycisku

Wykład 5: Analiza dynamiki szeregów czasowych

Laboratorium 7b w domu wykresy w Excelu

Tworzenie szablonów użytkownika

6.4. Efekty specjalne

LEGISLATOR. Data dokumentu:24 maja 2013 Wersja: 1.3 Autor: Paweł Jankowski, Piotr Jegorow

Google Earth. Co to jest Google Earth? Co to jest KML? Skąd można pobrać Google Earth?

Jak korzystać z Excela?

8.2 Drukowanie arkusza kalkulacyjnego

Fotografia cyfrowa obsługa programu GIMP. Cz. 18. Tworzenie ramki do zdjęcia. materiały dla osób prowadzących zajęcia komputerowe w bibliotekach

Samouczek do korzystania z dokumentów Google

OpenOfficePL. Zestaw szablonów magazynowych. Instrukcja obsługi

Spis treści. Wstęp. Pierwsze logowanie. Wygląd platformy po zalogowaniu. Składnianie zleceń. Widok nowego zlecenia na wykresie oraz w zakładce handel

Skumulowane wykresy słupkowe: pokazują zależności zachodzące między indywidualnymi elementami i całością.

Tworzenie infografik za pomocą narzędzia Canva

Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4

Wykład 6/7/8: Graficzna analiza danych

Baza danych. Program: Access 2007

Wykresy. Informatyka Arkusz kalkulacyjny Excel dla WINDOWS. Excel. cz.4. Wykresy. Wykresy. Wykresy. Wykresy

Planowanie zajęć równoległych i mieszanych

W każdej sali najważniejszym narzędziem są prawdopodobnie Zasoby. Przyjrzyjmy się teraz temu narzędziu, któremu zmieniono poniżej nazwę na Wspólne

Ćwiczenie 3. I. Wymiarowanie

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Dane w poniższej tabeli przedstawiają sprzedaż w dolarach i sztukach oraz marżę wyrażoną w dolarach dla:

Wskazówki: 1. Proszę wypełnić dwie sąsiadujące komórki zgodne z zasadą ciągu, a następnie zaznaczyć komórki w następujący sposób:

ALGORYTMY SZTUCZNEJ INTELIGENCJI

1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych.

Praktyczne przykłady wykorzystania GeoGebry podczas lekcji na II etapie edukacyjnym.

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

TITAN 2.0. Analiza czasowo- przestrzenna. Opis zmian wprowadzonych do wersji 2.0 w odniesieniu do wersji 1.0

Praktyczne wykorzystanie arkusza kalkulacyjnego w pracy nauczyciela część 1

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Podstawowe definicje statystyczne

Samouczek edycji dokumentów tekstowych

Wykład 6: Analiza danych czasowych Wykresy, indeksy dynamiki

EXCEL. Diagramy i wykresy w arkuszu lekcja numer 6. Instrukcja. dla Gimnazjum 36 - Ryszard Rogacz Strona 20

CO STATYSTYKA I WYKRESY MOGĄ POWIEDZIEĆ O PROCESIE?

INSTRUKCJA OTWIERANIA PLIKU DPT (data point table)

POMIARY WIDEO W PROGRAMIE COACH 5

Co to jest arkusz kalkulacyjny?

W pustym arkuszu utwórz automatycznie tabliczkę mnożenia w zakresie od 1*1 do 25*25.

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Adobe InDesign lab.1 Jacek Wiślicki, Paweł Kośla. Spis treści: 1 Podstawy pracy z aplikacją Układ strony... 2.

Tworzenie tabeli przestawnej krok po kroku

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

5.4. Efekty specjalne

A posteriori wsparcie w podejmowaniu decyzji biznesowych.

Wstawianie nowej strony

5.5. Wybieranie informacji z bazy

BIBLIOTEKA LOKALNE CENTRUM WIEDZY PRAKTYCZNEJ PRZEWODNIK PO NARZĘDZIACH WARSZTAT NR 1: ARKUSZE KALKULACYJNE - MINI SKRYPT

narzędzie Linia. 2. W polu koloru kliknij kolor, którego chcesz użyć. 3. Aby coś narysować, przeciągnij wskaźnikiem w obszarze rysowania.

1. Instalacja certyfkatu OSX 10.9

MATERIAŁY DYDAKTYCZNE. Streszczenie: Z G Łukasz Próchnicki NIP w ramach projektu nr RPMA /15

Zadanie Tworzenie próbki z rozkładu logarytmiczno normalnego LN(5, 2) Plot Probability Distributions

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

WRMZ Program Dyplomowy

MONITOROWANIE DZIAŁAŃ NIEPOŻĄDANYCH

Analiza sezonowości. Sezonowość może mieć charakter addytywny lub multiplikatywny

Wykład 3: Statystyki opisowe - miary położenia, miary zmienności, miary asymetrii

kolorami komplementarnymi.

Rysunek 1. Rysunek 2. Copyright 2016, mgr inż. Janusz Bonarowski, mgr inż. Bogusław Kozicki 1

prosta baza danych (nawet trochę bardziej niż prosta) tworzenie dokumentów (zwłaszcza z dużą ilością tabel lub o tabularycznej

Transkrypt:

WIZUALIZACJA DANYCH JAKO UZUPEŁNIENIE METOD ANALITYCZNYCH Krzysztof Suwada, StatSoft Polska Sp. z o.o. Techniki graficzne stanowią efektywny sposób prezentacji i przekazywania informacji. Dobrze zaprojektowany wykres jest w stanie zastąpić setki, a nawet tysiące liczb. Ponadto różne techniki graficzne mogą stanowić potężne analityczne narzędzia do eksploracji danych i sprawdzania hipotez. STATISTICA zawiera obszerny wybór metod graficznych, służących zarówno do analizy danych, jak i prezentacji wyników. Rys. 1. Lista wykresów. Copyright StatSoft Polska 29 www.statsoft.pl/czytelnia.html 131

Wszystkie wykresy dostępne w programie STATISTICA zawierają szereg wbudowanych interaktywnych technik analitycznych oraz szeroki zakres narzędzi dostosowywania, umożliwiających użytkownikowi interaktywne sterowanie prawie wszystkimi aspektami wykresu. Podczas prezentacji przedstawione zostaną przykładowe metody, którymi można posługiwać się podczas analizy danych, otrzymując ciekawe wykresy i zestawienia. Wykresy wykonane w programie STATISTICA można bardzo łatwo eksportować do popularnych formatów graficznych, takich jak: wmf, emf, JPG, tiff czy png. Wykresy utworzone w programie można także osadzać w innych aplikacjach, dzięki czemu możliwa jest ich późniejsza edycja, można je wtedy wygodnie skalować bez utraty jakości. Identyfikacja obiektów i segmentacja Jedną z podstawowych technik analizy i zwykle jedną z pierwszych jest tworzenie prostych charakterystyk danych, jak: średnia, mediana czy odchylenie standardowe. Taki opis zestawem liczb jest cenny, ale nie daje analitykowi pełnej informacji o zbiorze danych. Bardzo cennych informacji dostarczają różnego rodzaju wykresy rozrzutu. W naszym przykładzie wykorzystamy dane o klasyfikacji medalowej poszczególnych państw prowadzonej przez MKOI. Dane zawierają informacje o ogólnej licznie zdobytych medali we wszystkich konkurencjach złotych, srebrnych i brązowych. Na tej podstawie wyznaczany jest ranking państw. Aby dokonać wstępnej eksploracji zbioru danych, utwórzmy wykresy rozrzutu. 12 Wykres rozrzutu Razem względem Złote 1 8 Razem 6 4 2-2 -1 1 2 3 4 5 6 Złote Rys. 2. Sumaryczna liczba medali a złote medale. 132 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 29

4 Wykres rozrzutu Srebrne względem Złote 35 3 25 Srebrne 2 15 1 5-5 -1 1 2 3 4 5 6 Złote Rys. 3. Liczba srebrnych a liczba złotych medali. 4 Wykres rozrzutu Brązowe względem Złote 35 3 25 Brązowe 2 15 1 5-5 -1 1 2 3 4 5 6 Złote Rys. 4. Liczba brązowych a liczba złotych medali. Utworzone wykresy dostarczają informacji na temat zależności między poszczególnymi parami zmiennych. Na każdym z wykresów łatwo zauważyć kilka obserwacji nietypowych, które znajdują się w okolicy prawego górnego rogu wykresu. Program STATISTICA dostarcza bardzo użytecznego narzędzia pozwalającego bardzo łatwo dokonać identyfikacji poszczególnych przypadków na wykresie. Aby sprawdzić, Copyright StatSoft Polska 29 www.statsoft.pl/czytelnia.html 133

które państwa odstają od pozostałych, wykorzystamy narzędzie Wyróżnianie. W tym celu, mając aktywny wykres, klikamy ikonkę, którą na poniższym rysunku zaznaczono czerwonym kwadratem. Rys. 5. Wyróżnianie. W oknie, które się pojawi, wybieramy Etykietuj oraz celownik Ramka. Otaczamy ramką interesujące nas punkty i klikamy przycisk Zastosuj. 12 Wykres rozrzutu Razem względem Złote United States 1 China 8 Russian Fed. Razem 6 4 2-2 -1 1 2 3 4 5 6 Złote Rys. 6. Efekt wyróżniania. W ten prosty sposób udało nam się błyskawicznie zidentyfikować obiekty, które wyraźnie odstają od pozostałych. Interesującą z naszego punktu widzenia jest także informacja, gdzie wśród tych wszystkich punktów znajduje się Polska i np. jeden z naszych sąsiadów Niemcy. Aby zobaczyć, gdzie na wykresie znajdują się odpowiadające im punkty, przechodzimy do arkusza i oznaczamy interesujące nas przypadki jako Etykietowane. Jak widać, przypadki zaznaczone na wykresie mają już ustawioną taką właściwość. 134 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 29

12 Wykres rozrzutu Razem względem Złote United States 1 China 8 Russian Fed. Razem 6 4 Germany 2 Poland -2-1 1 2 3 4 5 6 Złote Rys. 7. Polska i kraje prowadzące w klasyfikacji medalowej. Ze względu na małą liczbę zmiennych, możemy także zobaczyć, jak poszczególne punkty układają się na wykresie 3D, wybierając jako poszczególne osie liczby zdobytych medali. Zanim wykonamy wykres, oznaczmy przypadek odpowiadający Polsce nie jako Etykietowany, ale Zaznaczony. Na trójwymiarowym wykresie rozrzutu będzie on zaznaczony wypełnioną na niebiesko kropką. Rys. 8. Polska i kraje wiodące w klasyfikacji medalowej w 3D. Copyright StatSoft Polska 29 www.statsoft.pl/czytelnia.html 135

Wykonane rysunki sugerują, że mamy do czynienia z dwoma znacząco różniącymi się grupami państw. Nasze przypuszczenia możemy sprawdzić, wykonując segmentację, np. metodą k-średnich lub metodą EM (obie są dostępne w programie STATISTICA). Wyniki segmentacji potwierdzają nasze przypuszczenia. Analiza ujawniła istnienie dwóch istotnie różnych statystycznie segmentów, do pierwszego skupienia należą: Chiny, USA oraz Rosja. W drugim znajdują się wszystkie pozostałe kraje. Wyniki analizy prezentuje wykres. 1,,9,8,7 Średnie normalizowane,6,5,4,3 Skupienie 1 Skupienie 2,2,1, Z S B Zmienne Rys. 9. Średnie skupień po segmentacji. Wizualizacja wyników Obecnie praktycznie w każdej dziedzinie życia wykorzystuje się mniej lub bardziej zaawansowane metody analizy danych i ich wizualizacji. Jak widzimy, można je wykorzystywać także w sporcie. W kolejnym przykładzie zademonstrujemy możliwości wizualizacji danych w programie STATISTICA na przykładzie wyników dwóch strzelców. Załóżmy, że mamy dane dotyczące współrzędnych trafień w tarczę dla dwóch strzelców, jako środek tarczy przyjmujemy punkt (,). Na początek zobaczmy, jak wyglądały tarcze obu strzelców tuż po strzelaniu. W programie STATISTICA bardzo łatwo ten cel osiągnąć, korzystając ze skategoryzowanego wykresu rozrzutu (rys. 1). Widzimy teraz dokładnie, gdzie trafił dany strzelec. Jako dodatkowy efekt, zamiast standardowego znacznika punktu został użyty obrazek dziury po kuli. Kolejnym krokiem może być bardziej wnikliwa analiza wyników strzelania, wykonana np. z wykorzystaniem wykresu workowego, tym razem już ze standardowymi znacznikami (rys. 11). 136 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 29

Rys. 1. Wyniki strzelców. 5 4 3 2 Y 1-1 -2-3 -4-3 -2-1 1 2 3 4 5 X Y Mediana Odstające Rys. 11. Wykres workowy. Wykres workowy w przystępny sposób pokazuje nam, gdzie najczęściej powinien trafiać strzelec, z wykorzystaniem dwuwymiarowego uogólnienia Tukeya jednowymiarowego wykresu ramka-wąsy dla identyfikacji rozkładu (i wartości odstających) w przestrzeni dwuwymiarowej. Jak widać, jest sporo obserwacji odstających, co może sugerować rozregulowanie przyrządów celowniczych lub inny problem ze sprzętem. W dzisiejszych czasach w celu osiągnięcia jak najlepszych wyników niemal wszystkie aspekty rywalizacji podlegają optymalizacji. Jednym z czynników, który może wpłynąć na celność, jest czas celowania. Zobaczmy, jak to wygląda w naszym przypadku. Na podstawie Copyright StatSoft Polska 29 www.statsoft.pl/czytelnia.html 137

4 strzałów otrzymano oszacowanie średniej czasu celowania na poziomie około :3:41. Zobaczmy, jak na wykresie słupkowym wyglądają pozostałe czasy celowania. Aby ułatwić sobie zadanie interpretacji, zmieniamy także punkt odniesienia, przesuwając zero. :3:45 :3:44 :3:43 :3:42 :3:41 :3:4 :3:39 :3:39 :3:38 :3:37 :3:36 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 Czas celowania Rys. 12. Analiza czasu celowania. Jak widać, w niektórych przypadkach czas celowania jest o kilkanaście setnych sekundy krótszy lub dłuższy niż średni. Zobaczmy, czy ma to wpływ na celność, wykonując ponownie wykres workowy i etykietując punkty wartościami czasu celowania. 5 4 :3:4 3 :3:43 :3:39 :3:44 Y 2 1 :3:37 :3:36 :3:39 :3:44 :3:41 :3:44 :3:42 :3:39 :3:44 :3:54-1 :3:56 :3:38 :3:4 :3:38-2 :3:39 :3:43-3 -4-3 -2-1 1 2 3 4 5 X Y Mediana Odstające Rys. 13. Czas celowania a obserwacje odstające. 138 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 29

Jak widać, dwie odstające obserwacje mają czasy celowania o kilkanaście setnych sekundy wyższe od średniej. Można podejrzewać, że dłuższy czas celowania nawet o kilkanaście setnych sekundy niekorzystnie wpływa na celność. Oczywiście ilość danych zebranych na tym etapie jest niewystarczająca, ale wskazuje jeden z możliwych kierunków dalszych badań. Wykonaliśmy tylko kilka prostych wykresów, ale łatwo zauważyć, że ilość przekazywanych przez nie informacji jest dosyć duża, a sposób ich prezentacji znacznie ułatwia ich analizę. Zależności geograficzne Często zdarza się, że dane, które chcemy analizować, dotyczą pewnego obszaru geograficznego, np. kraju, województwa czy powiatu. Zwykle tego typu dane składają się z większej liczby zmiennych i nie da się ich przedstawić na wykresie rozrzutu. Możliwym rozwiązaniem jest przedstawienie ich z wykorzystaniem twarzy Chernoffa. W programie STATISTICA dostępne są one w menu Wykresy obrazkowe. Wynik wizualizacji przedstawiony został poniżej na rys. 14. twarz/szer. = baseball uszy/poziom = hokej na trawie twarz/poł.wys. = koszykówka górna poł. twarzy/eksc. = piłka nożna dolna poł. twarzy/eksc. = piłka ręczna nos/dłg. = piłka siatkowa usta/środ. = piłka wodna Rys. 14. Twarze Chernoffa. Twarze Chernoffa to jeden z możliwych sposobów wizualizacji danych wielowymiarowych, jednak aby analiza takich danych była kompletna, nie można zapomnieć o wizualizacji danych na odpowiednich mapach. Przedstawienie danych tylko w postaci zwykłej tabelki może doprowadzić do pominięcia pewnych istotnych zależności wynikających właśnie z położenia geograficznego. Copyright StatSoft Polska 29 www.statsoft.pl/czytelnia.html 139

W środowisku STATISTICA do wizualizacji służy dodatek Mapy, który można pobrać ze strony www.statsoft.pl. W kolejnym przykładzie posłużymy się danymi o liczbie osób uprawiających poszczególne dyscypliny sportowe w klubach na terenie Polski. Ilość osób należących do klubu sportowego 1-2 2-28 28-38 38-48 48-56 56-65 65-75 koszykówka piłka nożna piłka ręczna piłka siatkowa Rys. 15. Mapy i wykresy kołowe. 1-2 2-28 28-38 38-48 48-56 56-65 65-75 baseball hokej na trawie piłka wodna rugby unihokej Rys. 16. Mapy i wykresy słupkowe. 14 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 29

Z rys. 15 jesteśmy w stanie odczytać informację o ogólnej liczbie osób należących do klubów sportowych (kolor tła mapy), zobaczyć, jak ta liczba rozkłada się na terytorium całego kraju. Dodatkowo w postaci wykresów kołowych przedstawiono strukturę popularności wybranych dyscyplin. Dzięki wykresom można bez trudu porównać ich popularność w poszczególnych województwach. Inną ciekawą funkcjonalnością jest możliwość nakładania na mapę wykresów słupkowych, w których słupki skalowane są względem danej kolumny (rys. 16). Umożliwia to graficzną ocenę, w którym województwie dana dyscyplina sportowa jest najbardziej popularna. Ilość informacji przedstawionych na tej jednej mapie i ich czytelność jest czymś nieosiągalnym, gdy korzystamy z tabeli, czy nawet zestawu tabel. Warto więc pamiętać także o tym sposobie wizualizacji danych. Literatura 1. G. Harańczyk, Metody wizualizacji danych, Materiały kursowe StatSoft Polska, 29. 2. http://gus.pl. 3. http://results.beijing28.cn/wrm/eng/inf/gl/95a/gl.shtml. Copyright StatSoft Polska 29 www.statsoft.pl/czytelnia.html 141