WIZUALNE ODKRYWANIE WIEDZY W STATISTICA INTERACTIVE VISUALISATION & DASHBOARDS. Wprowadzenie: rola wizualizacji i współczesne wymagania

Podobne dokumenty
Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

KATEGORIA OBSZAR WIEDZY

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9

TP1 - TABELE PRZESTAWNE od A do Z

BIBLIOTEKA LOKALNE CENTRUM WIEDZY PRAKTYCZNEJ PRZEWODNIK PO NARZĘDZIACH WARSZTAT NR 1: ARKUSZE KALKULACYJNE - MINI SKRYPT

Hurtownia danych. Załącznik Nr 1 do SIWZ. Opis przedmiotu zamówienia. Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE

Projektowanie kokpitów najlepsze praktyki

Program szkoleniowy. 16 h dydaktycznych (12 h zegarowych) NAZWA SZCZEGÓŁY CZAS. Skróty do przeglądania arkusza. Skróty dostępu do narzędzi

Sposób tworzenia tabeli przestawnej pokażę na przykładzie listy krajów z podstawowymi informacjami o nich.

Sylabus Moduł 4: Grafika menedżerska i prezentacyjna

Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4

Zadanie Wstaw wykres i dokonaj jego edycji dla poniższych danych. 8a 3,54 8b 5,25 8c 4,21 8d 4,85

Tworzenie infografik za pomocą narzędzia Canva

% sumy wiersza nadrzędnego. % sumy kolumny nadrzędnej. % sumy elementu nadrzędnego. Porządkuj od najmniejszych do największych.

1 Wprowadzenie do koncepcji Microsoft Office BI 1 Zakres ksiąŝki 2 Cel ksiąŝki 3 Wprowadzenie do tematu 3 Zawartość rozdziałów 4

PROCES TWORZENIA DOKUMENTU

RAPORTOWANIE I ANALIZA DANYCH W ŚLEDZENIU PRODUKTU (PRODUCT TRACEABILITY)

Narzędzie do pozyskiwania, analizy i prezentowania informacji.

ECDL/ICDL Grafika menedżerska i prezentacyjna Moduł S2 Sylabus - wersja 5.0

WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH:

GRAFICZNA PREZENTACJA DANYCH NA MAPACH W PROGRAMIE MAPY STATISTICA

DATA MINING W STEROWANIU PROCESEM (QC DATA MINING)

Manager Finansów to nowa funkcjonalność wprowadzona w systemie Millenet, pozwalająca zarządzać budżetem domowym.

3.7. Wykresy czyli popatrzmy na statystyki

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

MODUŁ AM4: ARKUSZE KALKULACYJNE

EXCEL. Diagramy i wykresy w arkuszu lekcja numer 6. Instrukcja. dla Gimnazjum 36 - Ryszard Rogacz Strona 20

Praktyczny Excel. Wykresy i grafika. w Excelu krok po kroku

Uruchom polecenie z menu Wstaw Wykres lub ikonę Kreator wykresów na Standardowym pasku narzędzi.

Wizualizacja danych przestrzennych. dr Marta Kuc-Czarnecka

Praktyczny Excel. Wykresy i grafika. w Excelu krok po kroku

Tomasz Demski, StatSoft Polska Sp. z o.o.

1. Opis okna podstawowego programu TPrezenter.

Materiały szkoleniowe OŚRODEK DOSKONALENIA KADRY KIEROWNICZEJ OŚWIATY VULCAN AKREDYTOWANA PLACÓWKA DOSKONALENIA NAUCZYCIELI

Program szkoleniowy. 16 h dydaktycznych (12 h zegarowych) NAZWA SZCZEGÓŁY CZAS. Skróty dostępu do narzędzi

BUDOSERWIS Z.U.H Sp. z o.o. ul. Kościuszki 31, Chorzów Agencja Reklamy, Promocji i Szkoleń

Monitoring procesów z wykorzystaniem systemu ADONIS. Krok po kroku

Krótki przewodnik po Open Calc

Prezentacja i udostępnianie wyników sprzedaży drewna. Ver. 01

Program do wagi SmartScale

Jak korzystać z Excela?

QAD dla przemysłu Maj, 2010

Kolory elementów. Kolory elementów

Jedną z ciekawych funkcjonalności NOLa jest możliwość dokonywania analizy technicznej na wykresach, które mogą być otwierane z poziomu okna notowań:

SZCZEGÓŁOWY HARMONOGRAM SZKOLENIA

Załącznik I.31 Instrukcja użytkownika eregion

Skumulowane wykresy słupkowe: pokazują zależności zachodzące między indywidualnymi elementami i całością.

Ćwiczenia nr 4. Arkusz kalkulacyjny i programy do obliczeń statystycznych

EXCEL ANALIZA DANYCH. Konspekt szczegółowy

MapInfo Professional - 5

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

ERGODESIGN - Podręcznik użytkownika. Wersja 1.0 Warszawa 2010

Dopasowywanie modelu do danych

Regresja linearyzowalna

Funkcje systemu infokadra

Materiały szkoleniowe Moduł Mapa inwestora. Starostwo Powiatowe w Chełmie

Instrukcja obsługi programu Do-Exp

Kolumna Zeszyt Komórka Wiersz Tabela arkusza Zakładki arkuszy

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa

Opracował: mgr inż. Marcin Olech

Spis treści Panel kontrolny - parametry Wybór jednostek Kontrolka czasu Kontrolka wyboru zestawienia danych...

Analiza sezonowości. Sezonowość może mieć charakter addytywny lub multiplikatywny

enova Analizy Wielowymiarowe podręcznik Użytkownika (9.1)

Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1

GIMP. Ćwiczenie nr 6 efekty i filtry. Instrukcja. dla Gimnazjum 36 - Ryszard Rogacz Strona 18

Ćwiczenie 6 MS EXCEL

Straszyński Kołodziejczyk, Paweł Straszyński. Wszelkie prawa zastrzeżone. FoamPro. Instrukcja obsługi

Podręcznik użytkownika programu. Ceremonia 3.1

1. INFORMACJE O DOKUMENCIE 2. WPROWADZENIE

MJUP_Instrukcja obsługi aplikacji. wspomagającej

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania KOMPUTEROWE SYSTEMY STEROWANIA (KSS)

ECDL/ICDL Zaawansowana grafika menedżerska i prezentacyjna Sylabus, wersja 2.0

Podręczna pomoc Microsoft Power Point 2007

Nowy PekaoBIZNES 24. Przewodnik po zmianach w systemie. Departament Bankowości Transakcyjnej

Laboratorium z Grafiki InŜynierskiej CAD. Rozpoczęcie pracy z AutoCAD-em. Uruchomienie programu

TWORZENIE PREZENTACJI MS POWERPOINT

EXCEL ZAAWANSOWANY. Konspekt szczegółowy

Import danych w formacie txt

Wprowadzenie (17) Część I. Makra w Excelu - podstawy (23)

Celem ćwiczenia jest zapoznanie się z podstawowymi funkcjami i pojęciami związanymi ze środowiskiem AutoCAD 2012 w polskiej wersji językowej.

Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej.

Ćwiczenia - MS Power Point

Informatyka Arkusz kalkulacyjny Excel 2010 dla WINDOWS

Doskonałe Wykresy. W poszukiwaniu maksymalnej czytelności wykresów. Mariusz Kanicki. Trendy w raportowaniu spółek giełdowych Warszawa, grudzień 2016

Skrypt wideo Pierwsze kroki z IBM TRIRIGA - Komponenty

Trik 1 Edycja wykresu bezpośrednio w dokumencie Worda

MATERIAŁY DYDAKTYCZNE. Streszczenie: Z G Łukasz Próchnicki NIP w ramach projektu nr RPMA /15

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI

autor poradnika - KS Jak zamieszczać i edytować artykuły na szkolnej stronie internetowej

OLIMPIADA INFORMATYCZNA 2010 ROK ETAP SZKOLNY

SZCZEGÓŁOWY HARMONOGRAM SZKOLENIA

Transkrypt:

WIZUALNE ODKRYWANIE WIEDZY W STATISTICA INTERACTIVE VISUALISATION & DASHBOARDS Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie: rola wizualizacji i współczesne wymagania Trudno przecenić wagę narzędzia umożliwiającego przedstawienie danych, zależności, wzorców i trendów w postaci łatwego do percepcji, przemawiającego do odbiorcy wykresu. Z jednej strony wykres może prezentować pewne wnioski, prawidłowości, czy tendencje, z drugiej strony może służyć do odkrywania zależności, przyczyn, powiązań itp. Warto podkreślić, że wizualizacja służy nie tylko do przedstawienia znanych zależności, wzorców i trendów. Wręcz przeciwnie: obecnie jej najważniejszym zastosowaniem jest odkrywanie prawidłowości, a nawet więcej inspiracja do zadawania nowych pytań i poszukiwania na nie odpowiedzi. W związku z tym w ostatnich latach użytkownicy coraz częściej wymagają, aby wizualizacja nie była statycznym obrazem, ale umożliwiała interakcję: wybór prezentowanych wskaźników, ustawienie kryteriów dla danych i drążenie danych. W praktyce do oceny stanu procesów konieczne jest badanie wielu miar i wskaźników jednocześnie rzadkością jest sytuacja, że wystarczający jest jeden kluczowy wskaźnik efektywności (ang. Key Performance Indicators, KPI), czy jedna miara jakości procesu. Dlatego standardem stały się pulpity menedżerskie przedstawiające graficznie wiele zmiennych na jednym, złożonym obrazie. Jednocześnie opracowano wiele rodzajów sprytnych wykresów ułatwiających percepcję złożonych, wielowymiarowych zależności. Copyright StatSoft Polska 2015, info@danewiedzasukces.pl 205

Zbieranie mnóstwa parametrów procesów produkcyjnych nie jest niczym nowym. Procesami steruje automatyka przemysłowa i wszystkie ustawienia oraz parametry pracy mogą być zapisywane. Do niedawna barierą było długotrwałe przechowywanie danych o procesach. Obecnie dzięki technologii Big Data przechowywanie kompletnych danych, bez konieczności ich agregacji, stało się możliwe zarówno pod względem technologicznym, jak i ekonomicznym. Coraz częściej pojawia się również wymóg uwzględniania bardzo różnorodnych danych. Interesują nas nie tylko mierzone wartości parametrów procesu, ale również pozbawione struktury dane tekstowe, takie jak: raporty po naprawie, opisy awarii, zgłoszenia serwisowe czy opinie użytkowników produktu. Na koniec warto wspomnieć o jeszcze jednej potrzebie: przedstawieniu danych strumieniowych w czasie rzeczywistym. Przy czym chodzi tu nie o odświeżanie danych w zadanych odstępach czasu (co jest powszechne), ale pokazywanie danych w ruchu, reagowanie na zmiany w procesach, gdy tylko one wystąpią. Z technicznego punktu widzenia system powinien być w stanie przedstawiać strumienie danych z: systemów CEP (ang. Complex Event Processing), takich jak SAP Sybase ESP, rozwiązań typu message broker, np. Apache Active MQ. Spełnienie wymienionych powyżej wymagań jest przyczyną wprowadzenia nowego produktu w wersji 12.7 Statistica: Interactive Visualizations & Dashboards. Przegląd możliwości Statistica Interactive Visualizations & Dashboards Moduł Interactive Visualizations & Dashboards jest zintegrowany z innymi procedurami Statistica. Z punktu widzenia użytkownika w programie pojawia się nowy rodzaj dokumentu: pulpit Statistica (ang. Statistica Dashboard). Przykładowy pulpit przedstawia rysunek poniżej. 206 Copyright StatSoft Polska 2015, info@danewiedzasukces.pl

Rys. 1. Przykładowy pulpit Statistica. Na pulpicie możemy umieszczać wiele różnych wykresów dla różnych zmiennych, rozmaite filtry, obiekty (np. logo) oraz dodatkowe elementy sterujące. Ponadto jeden dokument może zawierać wiele kart, przedstawiających różne obrazy. Elementy pulpitu tworzymy w bardzo prosty sposób: zakreślając myszą obszar zajmowany przez element i wybierając potem rodzaj elementu z palety, która program automatycznie wyświetla na ekranie. Pulpit działa w jednym z dwóch trybów: edycji i prezentacji. W trybie edycji tworzymy i zmieniamy pulpit: dodajemy nowe wykresy, filtry, elementy sterujące, określamy dane itp. Tryb prezentacji służy do przeglądania pulpitów. Co ważne, również w trybie prezentacji użytkownik może drążyć dane, filtrować, wybierać zmienne pokazywane na wykresach (jeśli takie możliwości przewidziano podczas przygotowania pulpitu) krótko mówiąc: ma do dyspozycji żywe, interakcyjne narzędzie, a nie statyczny obraz. Copyright StatSoft Polska 2015, info@danewiedzasukces.pl 207

Rys. 2. Wybór składnika pulpitu. Pulpity Statistica wykorzystują jako źródło danych arkusze Statistica, konfiguracje danych Statistica Enterprise oraz wiele innych plików i systemów. Warto zwrócić szczególną uwagę na: rozwiązania Big Data i NoSQL, w tym Hadoop Hive, Cassandra i MongoDB, źródła danych strumieniowych, m.in. Apache Active MQ, KDV+ Tick i SAP Sybase ESP 3. Pulpity Statistica wyposażone są we własne narzędzia przekształcenia, czyszczenia i łączenia danych z różnych źródeł. Zasadniczą funkcjonalnością pulpitów Statistica jest przedstawianie rozmaitych, często złożonych i wielowymiarowych danych w postaci obrazów. Użytkownik ma do dyspozycji wiele różnych, często bardzo sprytnych wykresów, dzięki którym możliwe jest zrozu- 3 Dostęp do danych strumieniowych wymaga specjalnej licencji. 208 Copyright StatSoft Polska 2015, info@danewiedzasukces.pl

mienie skomplikowanych danych i wychwycenie zależności i trendów dotyczących wielu zmiennych. Wykresy te są zoptymalizowane z uwzględnieniem wiedzy o ludzkiej percepcji. Oczywiście pulpity Statistica umożliwiają tworzenie standardowych wykresów słupkowych, liniowych i kołowych. Warto jednak zwrócić szczególną uwagę na kilka sprytnych wykresów: omówimy je pokrótce poniżej. Bullet graph (wykres pociskowy) został opracowany przez Stephena Few. Wykres ten w ergonomiczny sposób przedstawia miary wydajności, jakości względem pewnej wielkości referencyjnej. Przykładowo może to być czas pracy maszyn względem założonej normy, wydajność względem założonego celu itp. Najważniejsze zalety tego wykresu to oszczędne wykorzystanie miejsca i prostota, pozbawiona zbędnych, a rozpraszających ozdobników. Rys. 3. Bullet graph. Copyright StatSoft Polska 2015, info@danewiedzasukces.pl 209

Standardowo na wykresie bullet graph stosuje się odcienie szarości oznaczające różne poziomy zadowolenia z wartości (zły dobry bardzo dobry), wartość miary pokazuje czarny słupek, a wartość referencyjną czarna pionowa linia. Oczywiście wykres ten możemy utworzyć dla grup, w celu ich porównania. Rys. 4. Heat matrix. Heat matrix to coś w rodzaju graficznej tabeli. Wiersze i kolumny tabeli określają dwie zmienne jakościowe, natomiast kolory komórek określone są przez wartości zmiennej ilościowej. Dodatkowo w każdej komórce można umieścić wartość tej zmiennej jako tekst. 210 Copyright StatSoft Polska 2015, info@danewiedzasukces.pl

Treemap (mapa drzewa) jest świetnym sposobem przedstawienia danych hierarchicznych, umożliwiającym pokazanie wartości pewnej miary: dla dużej ilości obiektów o różnej wadze, dla zbiorowości podzielonej na wiele hierarchicznych grup (np. kontynent, region, państwo lub zakład produkcyjny, linia, maszyna). Rys. 5. Mapa drzewa. Na mapie drzewa wartości jednej zmiennej przedstawione są w postaci różnej wielkości prostokątów. Prostokąty te mogą być zagnieżdżone (tzn. prostokąty na najwyższym poziomie są podzielone na prostokąty na niższym poziomie itd.), aby pokazać hierarchię grup. Dzięki temu możemy na jednym obrazie zobaczyć np. liczbę ludności na poziomie kontynentu i państwa. Prostokątom przypisujemy kolor, w celu przedstawienia wartości pewnej zmiennej, a na prostokąty możemy wstawić teksty z wartościami kolejnych zmiennych. Warto podkreślić, że mapa drzewa w naturalny sposób wspiera drążenie danych: po kliknięciu danego prostokąta zobaczymy jego wewnętrzną strukturę. Copyright StatSoft Polska 2015, info@danewiedzasukces.pl 211

Horizon graph to doskonałe narzędzie do pokazania wielu przebiegów, w szczególności do poszukiwania związków wśród bardzo wielu przebiegów czasowych. Punktem wyjścia dla tego wykresu jest zwykły wykres liniowy. Następnie wykres ten jest kolorowany. Standardowo obszary powyżej średniej kolorowane są od bladoniebieskiego koloru do ciemnoniebieskiego, a obszary poniżej średniej od jasnoczerwonego do ciemnoczerwonego im dalej od średniej, tym kolor jest intensywniejszy. Trzeci krok to odbicie obszarów pod linią środkowa względem linii środkowej. Końcowy etap to podział obszaru wykresu na 3 równe części. Wykresy z dwóch odleglejszych od średniej części przenoszone są i nakładane na obszar najbliżej środka. Będą one widoczne, ponieważ są wykreślane ciemniejszym kolorem. W wyniku takiego postępowania uzyskujemy wykres zajmujący 1/6 powierzchni zwykłego wykresu liniowego. Rys. 6. Horizon graph. Przykładowy wykres powyżej pokazuje 13 miar. Wykres liniowy dla takiej liczby miar będzie nieczytelny, natomiast na powyższym wykresie łatwo jest zauważyć związek miar x02 i x08. Dosyć podobny wydaje się również przebieg zmiennych x04, x05, x06, x09 i x10. Bardzo użyteczna jest również złożona tabela. Pokazuje ona wartości miar w grupach także uwzględniając hierarchię grup przy czym może zawierać zarówno wartości liczbowe, jak i wykresy różnego typu oraz ikony wskazujące wartości, na które należy zwrócić szczególną uwagę. 212 Copyright StatSoft Polska 2015, info@danewiedzasukces.pl

Rys. 7. Tabela. Copyright StatSoft Polska 2015, info@danewiedzasukces.pl 213