Gradacyjna analiza danych - program GradeStat

Podobne dokumenty

Gradacyjna analiza danych. Instytut Podstaw Informatyki PAN Wiesław Szczesny Emilia Jarochowska

Wizualizacja spożycia produktów żywnościowych w Europie przy użyciu programu GradeStat

Wybory na mapach GradeStatu. Anna Welcz Weronika Welcz

Anna Welcz. Wybory na mapach GradeStatu

Analiza korespondencji

Gradacyjna eksploracja danych klinicznych

BADANIE ATRAKCYJNOŚCI OFERTY DOSTĘPU DO INTERNETU ZA POMOCĄ ANALIZY GRADACYJNEJ

Sposoby prezentacji problemów w statystyce

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Zadanie Wstaw wykres i dokonaj jego edycji dla poniższych danych. 8a 3,54 8b 5,25 8c 4,21 8d 4,85

B3.5 Koncentracja. Raport pochodzi z portalu

Matematyczne Podstawy Informatyki

Zmienne zależne i niezależne

Abacus Tychy, ul. Pod Lasem 20 tel

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Analiza składowych głównych. Wprowadzenie

METODY GRADACYJNE W ANALIZIE DANYCH WIELOWYMIAROWYCH. infrastruktura i implementacja

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Informatyka w Zarządzaniu

Analiza składowych głównych

Proces badawczy schemat i zasady realizacji

Wykład z dnia 8 lub 15 października 2014 roku

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

POLITECHNIKA OPOLSKA

TP1 - TABELE PRZESTAWNE od A do Z

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Sterowanie wielkością zamówienia w Excelu - cz. 3

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

System magazynowy małego sklepu.

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Przenoszenie, kopiowanie formuł

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Statystyka. Wykład 5. Magdalena Alama-Bućko. 20 marca Magdalena Alama-Bućko Statystyka 20 marca / 26

Testy nieparametryczne

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Wykorzystanie nowoczesnych technik prognozowania popytu i zarządzania zapasami do optymalizacji łańcucha dostaw na przykładzie dystrybucji paliw cz.

III TUTORIAL Z METOD OBLICZENIOWYCH

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Elementy statystyki wielowymiarowej

CZEŚĆ PIERWSZA. Wymagania na poszczególne oceny,,matematyka wokół nas Klasa III I. POTĘGI

Celem ćwiczenia jest zapoznanie się z podstawowymi funkcjami i pojęciami związanymi ze środowiskiem AutoCAD 2012 w polskiej wersji językowej.

Funkcje wyszukiwania i adresu PODAJ.POZYCJĘ

APIO. W7 SPECYFIKACJA (UŻYCIA) DOSTĘPU DO DANYCH I SPOSOBU ICH PRZETWARZANIA 1. METODA CRUD 2. LOGIKA FUNKCJI

Projekt Badawczy Analiza wskaźnikowa przedsiębiorstwa współfinansowany ze środków Unii Europejskiej

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

Przedmiot statystyki. Graficzne przedstawienie danych.

Oszacowanie i rozkład t

PODSTAWY > Figury płaskie (1) KĄTY. Kąt składa się z ramion i wierzchołka. Jego wielkość jest mierzona w stopniach:

Proces badawczy schemat i zasady realizacji

Ogranicz listę klasyfikacji budżetowych do powiązanych z danym kontem księgowym

WYMAGANIA Z MATEMATYKI NA POSZCZEGÓLNE OCENY KLASYFIKACYJNE DLA UCZNIÓW KLAS TRZECICH. Sposoby sprawdzania wiedzy i umiejętności uczniów

Proces badawczy schemat i zasady realizacji

Jak przekształcać zmienne jakościowe?

10. Redukcja wymiaru - metoda PCA

Plan nauczania informatyki Opracował: mgr Daniel Starego

Przed rozpoczęciem pracy otwórz nowy plik (Ctrl +N) wykorzystując szablon acadiso.dwt

Kurs programowania. Wykład 12. Wojciech Macyna. 7 czerwca 2017

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

INFORMATYKA W SELEKCJI

Krój czcionki można wybrać na wstążce w zakładce Narzędzia główne w grupie przycisków Cz cionka.

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

3.7. Wykresy czyli popatrzmy na statystyki

Program szkolenia EXCEL ZAAWANSOWANY Z WPROWADZENIEM DO VBA.

MATEMATYKA Z PLUSEM DLA KLASY VII W KONTEKŚCIE WYMAGAŃ PODSTAWY PROGRAMOWEJ. programowej dla klas IV-VI. programowej dla klas IV-VI.

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Temat: Organizacja skoroszytów i arkuszy

Ćwiczenia nr 4. Arkusz kalkulacyjny i programy do obliczeń statystycznych

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Pracownia Informatyczna Instytut Technologii Mechanicznej Wydział Inżynierii Mechanicznej i Mechatroniki. Podstawy Informatyki i algorytmizacji

PDF created with FinePrint pdffactory Pro trial version

Projektowanie baz danych za pomocą narzędzi CASE

Zajęcia 1. Statystyki opisowe

Maciej Piotr Jankowski

MS Word Długi dokument. Praca z długim dokumentem. Kinga Sorkowska

Inżynieria oprogramowania. Część 8: Metoda szacowania ryzyka - PERT

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

1. TESTY PSYCHOLOGICZNE

Projektowanie graficzne. Wykład 2. Open Office Draw

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Metody komputerowe statystyki Computer Methods in Statistics. Matematyka. Poziom kwalifikacji: II stopnia. Liczba godzin/tydzień: 2W, 3L

Dopasowywanie modelu do danych

KORELACJE I REGRESJA LINIOWA

Rozwiązywanie układów równań liniowych metody dokładne Materiały pomocnicze do ćwiczeń z metod numerycznych

Analiza zależności liniowych

W tym celu korzystam z programu do grafiki wektorowej Inkscape 0.46.

Metody numeryczne Wykład 4

SPIS TREŚCI. Do Czytelnika... 7

Transkrypt:

Wyższa Szkoła Informatyki Stosowanej i Zarządzania w Warszawie Gradacyjna analiza danych - program GradeStat Dane z sondażu European Economic Survey 2005 Grażyna Grabowska 18 grudnia 2006 r.

Zbiór danych można przyrównać do domu: aby go opisać nie wystarczy wiedzieć ile jest w nim pokoi i ile ma metrów kwadratowych. Trzeba wiedzieć jak te elementy komponują się ze sobą. Trzeba widzieć jego całą strukturę. Metody gradacyjne pokazują jak poszczególne dane pasują do siebie. Przedstawiają dokładną strukturę danych nie w sposób teoretyczny, lecz w postaci obrazu, na którym widać występujące między nimi współzależności. Frederick Ruland 2/45

Co oznacza termin gradacyjny? Po raz pierwszy terminu gradacyjny użył Francis Galton, angielski przyrodnik, antropolog i statystyk. Wyrażenie metody gradacyjne pojawiło się w czasopiśmie Biometrika w 1907 roku, w artykule pt. Grades and Deviates. Sir Francis Galton F.R.S. 1822-1911 Według Galtona metody gradacyjne polegały na odpowiednim dzieleniu danych na grupy jakościowe, na podstawie wyboru rangowego. Uporządkowanie danych według konkretnej cechy zbiorczej o przejrzystej interpretacji dawało możliwość dokładnego i rzetelnego opisu wydzielonych w ten sposób grup. 3/45

Współczesna definicja metod gradacyjnych Gradacyjna analiza danych to nowa gałąź szybko rozwijającego się obecnie data miningu. Stanowi istotny krok na drodze do integracji teorii pomiaru, analizy danych, statystyki i taksonomii oraz do jednolitego traktowania danych ciągłych i dyskretnych. Gradacyjną analizę danych można postrzegać jako metodę ukierunkowaną na bardzo dobrą wizualizację danych, w celu lepszego zrozumienia ich ogólnej struktury. Zastosowania metod gradacyjnych występują tam, gdzie poszukuje się trendów (ukrytych struktur), podpopulacji, elementów odstających (outlierów) oraz skupień. 4/45

Gradacyjne podejście do analizy danych opiera się w uproszczeniu na trzech filarach: tzw. miarach nierówności, krzywej koncentracji oraz pojęciu regularności rozkładów dwuwymiarowych. 5/45

Definicja rozłożona na czynniki pierwsze Pomiar nierówności opiera się na zdefiniowaniu przez Lorenza krzywej opisującej stopień równości dystrybucji dochodów w społeczeństwie. Im bliżej jest ta krzywa prostej tym równiejsza jest dystrybucja dochodów. Krzywa koncentracji mierzy koncentrację rozkładu zmiennej losowej Y względem rozkładu zmiennej losowej X. Miedzy krzywymi Lorenza i wypukłymi krzywymi koncentracji istnieje ścisły związek każda wypukła krzywa koncentracji jest krzywą Lorenza pewnej zmiennej losowej. Analiza krzywych koncentracji (oraz krzywych Lorenza) pozwala na mierzenie regularności rozkładów dwuwymiarowych. 6/45

Dokładniej o krzywych koncentracji W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje się krzywą w kwadracie jednostkowym, która reprezentuje koncentrację jednego rozkładu względem drugiego. 7/45

Na czym polegają metody gradacyjne w praktyce? Metody gradacyjne polegają na: Gradacyjna Analiza Danych równoczesnym przestawieniu w tablicy danych jej wierszy i kolumn w taki sposób, żeby w wynikowej tablicy cecha porządkująca wiersze była jak najsilniej dodatnio zależna od cechy porządkującej kolumny. wyznaczeniu klastrów - czyli skupień wierszy i kolumn w taki sposób, żeby do tego samego klastra należały tylko cechy sąsiadujące ze sobą. przedstawieniu otrzymanych danych w formie obrazu mapy nadreprezentacji. 8/45

Metody gradacyjne zazwyczaj wykorzystywane są do: zlokalizowania i bezpośredniego poprawienia błędnych zapisów; wyznaczenia głównych trendów i cech ukrytych; wyszukania elementów odstających (outlierów); uzupełnienia brakujących danych; wprowadzenia do zbioru nowego obiektu (obiektów) i wizualizacji jego pozycji na tle zbioru; dokonania uporządkowanej analizy skupień. 9/45

W skrócie Celem wykorzystywania metod gradacyjnych jest zrozumienie zależności zachodzących między danymi. Gradacyjna analiza danych to: dział eksploracyjnej analizy danych rozwijany przez Zespół Analizy i Modelowania Statystycznego w Zakładzie Sztucznej Inteligencji Instytutu Podstaw Informatyki Polskiej Akademii Nauk; nowoczesna metoda umożliwiająca szybkie rozpoznanie dużych zbiorów danych; analiza oparta na przekształceniach gradacyjnych, wykorzystująca pomiar koncentracji do analizy odpowiedniości, analizy skupień, oceny regularności danych, etc. 10/45

Program CEL: Implementacja metod gradacyjnych (wykrywanie podobieństw oraz różnic pomiędzy wieloma zmiennymi równocześnie, liczbowe ich ujęcie a następnie wizualizacja otrzymanych wyników) autor programu: dr Olaf Matyja (IPI PAN) napisany w języku Microsoft Visual C++ kod źródłowy składa się z 35 000 linii rozmiar: 932 kb (133 plików) 11/45

http://gradestat.ipipan.waw.pl 12/45

Podstawowe zadania programu eksploracja oraz wizualizacja danych; odnajdywanie ukrytej struktury w zbiorach danych; łączenie danych w skupienia; algorytmy uzupełniania brakujących danych; wykrywanie danych pasujących do ogólnego trendu; możliwość wykonania standardowych obliczeń statystycznych; Gradacyjna Analiza Danych tworzenie wykresów, histogramów oraz specjalistycznych map, które pozwalają szybko dostrzec i zrozumieć kluczowe związki pomiędzy danymi. 13/45

Główne procedury zaimplementowane w programie Algorytm GCA (ang. Grade Correspondence Analysis) Mapy nadreprezentacji Wyszukiwanie elementów odstających Uzupełnianie brakujących danych 14/45

Algorytm GCA Gradacyjna Analiza Danych Podstawowym narzędziem gradacyjnej analizy danych jest algorytm GCA (ang. Grade Correspondence Analysis), poszukujący największej regularności w macierzy danych i zarazem największej zależności między wierszami i kolumnami. Przykładowe okno z wynikami GCA GCA odpowiada za ustawienie wierszy i kolumn w taki sposób, aby w sąsiedztwie znajdowały się te z nich, które w miarę możliwości są do siebie najbardziej 15/45

Algorytm GCA jak to działa? Gradacyjna Analiza Danych Zależność pomiędzy wierszami i kolumnami powinna być jak najsilniejsza, co można mierzyć wskaźnikiem zależności w postaci rho Spearmana oznaczanym ρ*. Zależność ta zmienia się przy przestawianiu wierszy i kolumn. Poszukuje się wartości, przy której ρ* ma największą wartość. Algorytm GCA wyznacza tę maksymalną wartość w sposób przybliżony jest ona procedurą typu Monte-Carlo, przez co jej wyniki nie zawsze są identyczne przy kolejnych uruchomieniach dla tych samych danych. Zamiast badać wszystkie możliwe ustawienia wierszy i kolumn, GCA przekształca początkową tablicę danych aż do uzyskania największej wartości ρ*. 16/45

Algorytm GCA i mapy nadreprezentacji Rezultat działania procedury GCA ilustruje mapa nadreprezentacji, która jest obrazem odpowiednio przetworzonej macierzy danych. Gradacyjna Analiza Danych Mapa danych surowych Mapa dla danych uporządkowanych według GCA 17/45

Mapy nadreprezentacji Wyobraź sobie, że poniższy rysunek jest diagramem rozkładu dwóch zmiennych Gradacyjna Analiza Danych 18/45

Mapy nadreprezentacji Gradacyjna Analiza Danych W wyniku przekształcenia gradacyjnego zastosowanego do tego rysunku otrzymujemy następujący rozkład gradacyjny Biały obszar oznacza gęstość równą 0. Czarny kolor maksymalną gęstość na całym diagramie. Gęstość prawdopodobieństwa rozkładu gradacyjnego jest nazwana nadreprezentacją, natomiast jej diagram mapą nadreprezentacji. 19/45

Mapy nadreprezentacji Gęstość rozkładu gradacyjnego w 5 odcieniach szarości. Aby poprawić kontrast rysunku, mapa nadreprezentacji została przedstawiona za pomocą 5 odcieni szarości, reprezentujących 5 zakresów nadreprezentacji. Odcienie szarości odpowiadające różnym zakresom nadreprezentacji <0; 0,67) <0,67; 0,99) <0,99; 1,01) <1,01; 1,5) <1,5; ) 20/45

Wyszukiwanie elementów odstających Elementy odstające - elementy zakłócające regularną strukturę danych. Na podstawie przeprowadzonego wcześniej GCA, dla każdej pary wierszy w tabeli mierzy się odstępstwo między tymi dwoma wierszami. Rezultatem porównania jest obliczenie dla każdego wiersza dwóch wielkości: AvgDistA określa odstępstwo wyliczone ze wszystkich porównań danego wiersza z pozostałymi wierszami. MaxDistA określa największe z wyliczonych odstępstw danego wiersza od pozostałych wierszy w tabeli. 21/45

Dwie grupy danych: FIT i OUT Gdy mamy już wyliczone wartości statystyk AvgDistA i MaxDistA jesteśmy w stanie podzielić całą macierz na dwie grupy danych grupę danych pasującą do głównej struktury (FIT) oraz grupę danych zakłócającą główną strukturę (OUT). FIT OUT 0.16 0.14 0.12 AvgDistA 0.1 0.08 0.06 0.04 0.02 22/45

Uzupełnianie brakujących danych Gradacyjna Analiza Danych Elementy brakujące w przypadku gradacyjnej analizy danych to komórki, w których nie ma wpisanej wartości w tablicy danych. Niezależnie od powodów, wyłączenie z obliczeń wiersza czy kolumny z braku konkretnej danej, wydaje się być marnotrawieniem informacji. Najczęściej w takiej sytuacji stosuje się dwa podejścia: jednokrotne wstawianie (ang. single imputation) polega na wstępnym uzupełnianiu braków danych za pomocą specjalnie zaprojektowanych algorytmów; wielokrotne wstawianie (ang. multiple imputation) polega na wielokrotnym wykonywaniu pewnych czynności 23/45

Wielokrotne wstawianie Gradacyjna Analiza Danych 1. Uzupełnienie braków danych w macierzy za każdym razem w trochę inny sposób; 2. Wykonanie analizy, której nie można było wykonywać przy występowaniu braków danych; 3. Zapamiętanie wyników. Za każdym razem dostajemy tabelę z inaczej uzupełnionymi elementami brakującymi i ewentualnie inną kolejnością wierszy i kolumn. Wypełniona tabela z największymi ρ* (czyli pierwsza na liście GCA) stanowi ostateczny wynik algorytmu. 24/45

Sekwencja działań przy gradacyjnej eksploracji danych Gradacyjna Analiza Danych 1. Dane surowe 4. Procedura GCA, podział na skupienia, ogólny opis struktury danych 2. Przygotowanie danych 3. Ustalenie sposobu normalizacji 5. Dekompozycja zbioru; wydzielenie zbioru elementów odstających (OUT) i zbioru zgodnego z trendem (FIT) 6. Jak w 4 dla FIT i OUT 8. Rezultat analizy 7. Ewentualne dalsze dzielenie zbiorów 25/45

CASE STUDY: Analiza porównawcza klimatów biznesowych państw europejskich przy wykorzystaniu metod gradacyjnych Dane pochodzą z sondażu European Economic Survey 2005 26/45

Instalacja programu GradeStat Strona programu GradeStat: http://gradestat.ipipan.waw.pl Pobieranie programu GradeStat: http://gradestat.ipipan.waw.pl/download.html Pierwsze słowo na 143 stronie książki: mlekiem Kod instalacyjny: 3752-1010-2395-0121 27/45

Skąd pochodzą dane Stowarzyszenie Europejskich Izb Gospodarczych (Eurochambres) to: jedna z największych organizacji ekonomicznych na świecie (członkowie w 44 krajach); sieć 2000 regionalnych i lokalnych Izb Gospodarczych, które łącznie zrzeszają ponad 18,6 mln małych, średnich i dużych przedsiębiorstw. 28/45

Programy i projekty Eurochambres Eurochambres jest inicjatorem wielu programów i projektów, m.in.: Eurochambres Women Network (EWN) odnoszący się do działalności i pozycji kobiet w biznesie; Corporate Social Responsibility (CSR) zwiększający świadomość odpowiedzialności społecznej małych i średnich przedsiębiorstw; European Economic Survey (EES) mający na celu przedstawienie ekonomicznych trendów występujących w gospodarkach rejonów europejskich. 29/45

Sondaż European Economic Survey 2005 European Economic Survey (EES) to coroczne badanie odczuć przedsiębiorców co do warunków oraz perspektyw prowadzenia działalności gospodarczej państw Unii Europejskich oraz krajów kandydujących. Metodologia badań EES opiera się na przeprowadzaniu jednolitego kwestionariusza ankietowego dla wszystkich państw uczestniczących w badaniu, wypełnianego przez kadrę kierowniczą przedsiębiorstw. 30/45

Kwestionariusz W kwestionariuszu znajduje się 12 pytań podzielonych na 6 działów tematycznych: obroty firmy; przychody ze sprzedaży krajowej; sprzedaż eksportowa; zatrudnienie; inwestycje; ocena ogólnych warunków działalności gospodarczej. 31/45

Etapy analizy danych z EES 2005 Gradacyjna Analiza Danych Analiza została przeprowadzona w dwóch etapach: 1. Analiza szczegółowych danych z Polski Analiza danych sektora usług w Polsce. Analiza danych sektora produkcji w Polsce. 2. Analiza danych pochodzących z różnych krajów europejskich. 32/45

Analiza danych sektora usług w Polsce Zmienne zostały podzielone na dwie grupy: sprzedaż krajowa, inwestycje, zatrudnienie obrót, eksport, warunki prowadzenia biznesu W celu dokładniejszej analizy rozpatrzymy jedynie trzy zmienne! Będziemy brać pod uwagę zmienne: sprzedaż, inwestycje i zatrudnienie dla roku 2004 oraz prognozę dla tych samych zmiennych na rok 2005. 33/45

Krok 1 Gradacyjna Analiza Danych Utworzenie macierzy danych na podstawie odpowiedzi udzielonych przez przedsiębiorców. Fragment tabeli danych dla 3 zmiennych: Nr firmy zatrud-04 zatrud-05 inw est-04 inw est-05 sprzedaż-04 sprzedaż-05 1 3 2 1 2 2 1 2 1 3 1 1 1 3 3 3 2 1 3 3 2 4 2 1 2 2 1 1 5 2 1 2 1 2 3 : : : : : : : 1353 2 1 3 2 1 3 Zakodowane odpowiedzi (1, 2, 3) widoczne w tabeli należy interpretować jako pesymizm (1), stagnację (2) oraz optymizm (3). 34/45

Krok 2 Wprowadzenie tabeli do programu GradeStat (Edycja Wstaw tabelę lub CTRL + V) i przeprowadzenie procedury GCA Gradacyjna Analiza Danych GCA Fragment tabeli danych dla 3 zmiennych po GCA: GCA Nr firmy sprzedaż-04 sprzedaż-05 inwest-05 zatrud-05 inwest-04 zatrud-04 1 1143 3 3 3 1 1 1 2 894 3 3 1 1 1 1 3 717 3 3 3 1 1 1 4 1304 3 3 2 2 1 1 : : : : : : : : : : : : : : : : 1350 1200 1 1 2 3 3 3 1351 754 1 1 3 3 3 3 1353 1104 1 1 2 3 3 3 35/45

Krok 3 Tworzenie map nadreprezentacji (Wykresy Mapa danych ) sprze-04 sprze-05 inwest-05 zatrud-05 inwest-04 zatrud-04 silna nadreprezentacja 1.5 słaba nadreprezentacja 1.1 równa reprezentacja 0.9 słaba niedoreprezentacja 0.66 silna niedoreprezentacja 36/45

Krok 4 Gradacyjna Analiza Danych Podział rekordów na skupienia (Analiza skupień Analiza skupień ) sprze-04 sprze-05 inwest-05 zatrud-05 inwest-04 zatrud-04 silna nadreprezentacja 1.5 słaba nadreprezentacja 1.1 równa reprezentacja 0.9 słaba niedoreprezentacja 0.66 silna niedoreprezentacja 37/45

Krok 5 Gradacyjna Analiza Danych Wyłonienie przedsiębiorstw, które pasują do głównego trendu całej macierzy danych, widocznego jako siodło, gdzie ciemne prostokąty są położone możliwie blisko pewnej malejącej krzywej, przechodzącej od górnego lewego rogu do dolnego prawego rogu. (Przegląd danych Znajdź elementy odstające ) 38/45

Krok 6 Utworzenie dwóch nowych zbiorów danych: FIT dane pasujące do trendu OUT dane niepasujące od trendu FIT OUT sprze-04 sprze-05 inwest-05 zatrud-05 inwest-04 zatrud-04 sprze-04 zatrud-04 inwest-04 zatrud-05 sprze-05 inwest-05 1.5 1.5 1.1 1.1 0.9 0.9 0.66 0.66 39/45

Krok 7 Gradacyjna Analiza Danych Dokładna analiza zbioru FIT: ponowny podział na skupienia obliczenie średnich wartości dla poszczególnych skupień (Analiza skupień Agregacja ) sprze-04 sprze-05 inwest-05 zatrud-05 inwest-04 zatrud-04 1 2 2.79 2.71 2.44 1.88 1.45 1.11 2.85 2.9 2.48 2.03 2.06 1.7 3 4 2.91 2.78 2.63 2.78 2 1.91 3 2.64 2.47 2 2.64 2 1.5 5 2.78 3 2.87 2.56 2.56 2.21 6 2.42 3 2.76 2.76 2 2.42 1.1 7 2.83 2.83 3 2 2.83 2.83 8 9 2.59 2.59 2.59 2.59 2.59 2.59 2.63 2.9 2.26 3 2.9 2.63 0.9 10 2.12 2.54 3 2.66 2.45 2.66 11 12 13 14 2.09 1.93 2.37 2.34 2.81 2.21 2 2.51 2.42 2.54 2.54 2.97 1.44 2.08 2.36 2.34 2.62 2.53 1.04 1.18 1.93 1.97 2.14 2.32 0.66 40/45

Krok 8 Utworzenie tabeli korelacji rangowej Spearmana (Przegląd danych Tablice zależności (korelacji) ) sprze-04 sprze-05 inwest-05 zatrud-05 inwest-04 zatrud-04 sprze-04 1 0.67 0.39 0.34 0.27 0.16 sprze-04 0.7 sprze-05 0.67 1 0.59 0.46 0.3 0.22 sprze-05 0.3 inwest-05 0.39 0.59 1 0.46 0.39 0.32 inwest-05 0.1 zatrud-05 0.34 0.46 0.46 1 0.47 0.49 zatrud-05-0.1 inwest-04 0.27 0.3 0.39 0.47 1 0.51 inwest-04-0.3 zatrud-04 0.16 0.22 0.32 0.49 0.51 1 zatrud-04-0.7 sprze-04 sprze-05 inwest-05 zatrud-05 inwest-04 zatrud-04 41/45

Krok 9 Analogiczną analizę przeprowadzamy dla danych ze zbioru OUT Krok 10 Wykonujemy wspólną analizę dla całego sektora usług w Polsce, uwzględniając pozostałą część zmiennych tj. obrót, eksport oraz warunki prowadzenia biznesu. 42/45

Wnioski Gradacyjna Analiza Danych Zarówno w sektorze usług jak i w sektorze produkcji, związki pomiędzy poszczególnymi zmiennymi są bardzo podobne do tego stopnia, że wyniki analizy w tych sektorach trudno od siebie odróżnić! Im bardziej optymistycznie oceniano takie zmienne jak sprzedaż, obrót, inwestycje czy zatrudnienie, tym pesymistyczniej odnoszono się do warunków prowadzenia własnej działalności gospodarczej - i na odwrót. W obu sektorach działalności gospodarczej występuje podobny procent (aż ok. 15%) tych respondentów, którzy wydają się odpowiadać na odczepnego zaznaczając we wszystkich pytaniach tę samą odpowiedź. 43/45

Dotychczasowe zastosowania programu GradeStat: Department of Applied Economics na Uniwersytecie w Cambridge (Wielka Brytania) projekt realizowany w latach 1998-2000 dotyczący analizy sytuacji zawodowej niepełnosprawnych w Polsce; Instytut Rynku Wewnętrznego i Konsumpcji trzy szeroko zakrojone badania rynkowe w 2000 roku; Instytut Podstaw Problemów Techniki PAN badanie właściwości kompozytów cementu; Wyższa Szkoła Oficerska Sił Powietrznych w Dęblinie udział przy budowie systemu eksperckiego prognozującego szanse kandydatów na pilotów wojskowych. 44/45

Bibliografia Gradacyjna Analiza Danych Kowalczyk, T., Pleszczyńska, E., Ruland, F. (red.). (2004). Grade Models and Methods for Data Analysis. With Applications for the Analysis of Data Populations. Seria: Studies in Fuzziness and Soft Computing, Vol. 151. Springer Verlag: Berlin Heidelberg New York. Matyja, O. (2003). Smooth Grade Correspondence Analysis and Related Computer System. Niepublikowana praca doktorska, Instytut Podstaw Informatyki PAN, Warszawa. Książyk J., Matyja O., Pleszczyńska E., Wiech M. (2005). Analiza danych medycznych i demograficznych przy użyciu programu GradeStat. Instytut Podstaw Informatyki PAN, Instytut Pomnik Centrum Zdrowia Dziecka, Warszawa. 45/45