WSPOMAGANIE ANALIZ PROWADZONYCH W OPARCIU O ZMIENNE MIERZONE NA RÓŻNYCH SKALACH ZA POMOCĄ TECHNIK WIZUALIZACYJNYCH 1

Podobne dokumenty
Analiza korespondencji

strona 1 / 12 Autor: Walesiak Marek Publikacje:

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

Skalowanie wielowymiarowe idea

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

Alicja Grześkowiak *

BADANIE ZAUFANIA DO INSTYTUCJI FINANSOWYCH W POLSCE Z WYKORZYSTANIEM ANALIZY KORESPONDENCJI

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

Spis treści. Wstęp... 9

Podstawowe pojęcia statystyczne

Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych

Wykład 10 Skalowanie wielowymiarowe

Analiza. logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R. Justyna Brzeziƒska

Badania eksperymentalne

Graficzna prezentacja danych statystycznych

METODY SKALOWANIA WIELOWYMIAROWEGO OBIEKTÓW SYMBOLICZNYCH

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

WIELOWYMIAROWA ANALIZA UWARUNKOWAŃ ZAANGAŻOWANIA POLAKÓW W KSZTAŁCENIE USTAWICZNE O CHARAKTERZE POZAFORMALNYM 1

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Sposoby prezentacji problemów w statystyce

PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH. Wprowadzenie do problematyki modelowania statystycznego

Hierarchiczna analiza skupień

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki cz. 2. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Jak przekształcać zmienne jakościowe?

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

You created this PDF from an application that is not licensed to print to novapdf printer (

Przedmiot statystyki. Graficzne przedstawienie danych.

Badania marketingowe. Źródło:

FILTROWANIE ZBIORU OFERT NIERUCHOMOŚCI Z WYKORZYSTANIEM INFORMACJI O PREFERENCJACH 1

Badanie zależności skala nominalna

Wykład ze statystyki. Maciej Wolny

Statystyka w pracy badawczej nauczyciela

Wielowymiarowa Analiza Korespondencji. Wielowymiarowa Analiza Danych z wykorzystaniem pakietu SPSS. Joanna Ciecieląg, Marek Pęczkowski WNE UW

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Opisy przedmiotów do wyboru

Nowe narzędzia zarządzania jakością

WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W SKALOWANIU WIELOWYMIAROWYM

Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1

OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ DLA DANYCH PORZĄDKOWYCH. 1. Wstęp

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Zachowania odbiorców. Grupa taryfowa G

ANALIZA KORESPONDENCJI

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Wizualizacja danych przestrzennych. dr Marta Kuc-Czarnecka

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

1 Miary asymetrii i koncentracji

Badanie zróżnicowania krajów członkowskich i stowarzyszonych Unii Europejskiej w oparciu o wybrane zmienne społeczno-gospodarcze

Analiza wydajności pracy w rolnictwie zachodniopomorskim

Z-ZIPN1-004 Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki Niestacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

ZAKŁAD UBEZPIECZEŃ SPOŁECZNYCH DEPARTAMENT STATYSTYKI

Z-LOGN1-006 Statystyka Statistics

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Badania Statystyczne

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Wynagrodzenia w sektorze publicznym w 2011 roku

Przyjmuje dowolne wartości z określonego przedziału (skończonego lub nie). Zmienne ciągłe: wzrost, czas rozwiązana testu, kwota dochodu

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Pomiar i doskonalenie jakości procesów usługowych, metody oceny procesu usługowego- SERIQUAL, CIT, CSI.

Zróżnicowanie poziomu ubóstwa w Polsce z uwzględnieniem płci

Kamila Migdał-Najman, Krzysztof Najman Wspomaganie oceny finansowej podmiotów rynku kapitałowego na podstawie wizualizacji symbolicznej

ZASTOSOWANIE METOD SYMULACYJNYCH W ANALIZIE WIELOWYMIAROWYCH TABLIC WIELODZIELCZYCH

WYKAZ PUBLIKACJI I. Artykuły Ia. Opublikowane przed obroną doktorską

Analiza porównawcza odczuć satysfakcji zawodowej. Polska na tle wybranych krajów Unii Europejskiej

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Nowoczesne techniki matematyczne, statystyczne i informatyczne

Wprowadzenie do analizy dyskryminacyjnej

Krytyczne czynniki sukcesu w zarządzaniu projektami

KOMUNIKATzBADAŃ. Styl jazdy polskich kierowców NR 86/2017 ISSN

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

EKONOMETRIA ECONOMETRICS 3(37) 2012

Wykłady specjalistyczne. (Matematyka w finansach i ekonomii; Matematyczne podstawy informatyki)

Joanna Konieczna Repetytorium ze statystyki opisowej (materiał roboczy)

Wykład 1. Statystyka międzynarodowa - wprowadzenie Rynek pracy w Unii Europejskiej

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Luka płacowa, czyli co zrobić żeby kobiety nie zarabiały mniej?

WYKORZYSTYWANE W ANALIZIE WYNIKÓW METOD WYCENY OBSZARÓW CHRONIONYCH. Dr Dariusz Kayzer

OCENA RYZYKA ZAKUPU I SPRZEDAZY NIERUCHOMOSCI ZA POŚREDNICTWEM INTERNETOWYCH SERWISOW AUKCYJNYCH

Przyjmuje dowolne wartości z określonego przedziału (skończonego lub nie). Zmienne ciągłe: wzrost, czas rozwiązana testu, kwota dochodu

Metodologia badań psychologicznych

ALGORYTM RANDOM FOREST

WYBRANE METODY ANALIZY STATYSTYCZNEJ W OCENIE EFEKTÓW KSZTAŁCENIA NA PRZYKŁADZIE WYNIKÓW EGZAMINU ZE STATYSTYKI OPISOWEJ

4.3 Grupowanie według podobieństwa

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Kilka uwag o testowaniu istotności współczynnika korelacji

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Wstęp Podstawowe oznaczenia stosowane w książce... 13

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Sylabus. Zaawansowana analiza danych eksperymentalnych Advanced analysis of experimental data

Transkrypt:

Alicja Grześkowiak Uniwersytet Ekonomiczny we Wrocławiu WSPOMAGANIE ANALIZ PROWADZONYCH W OPARCIU O ZMIENNE MIERZONE NA RÓŻNYCH SKALACH ZA POMOCĄ TECHNIK WIZUALIZACYJNYCH 1 Wprowadzenie W badaniach społecznych często występują zbiory mierzonych na różnych skalach, przy czym znaczącą rolę pełnią dane o charakterze niemetrycznym. W literaturze przedmiotu proponuje się różne metody analityczne uwzględniające istnienie danych o mieszanym charakterze. Obecnie coraz ważniejszą rolę w analizie danych pełnią techniki wizualizacyjne, które nie tylko uzupełniają prezentację wyników badań, ale także umożliwiają eksplorację zbiorów i wykrywanie istniejących prawidłowości. Towarzyszy temu rozwój oprogramowania statystycznego w zakresie grafiki, zarówno w pakietach komercyjnych, jak i niekomercyjnych. Szczególnie bogate zasoby procedur zawierają biblioteki programu R. Niniejszy artykuł traktuje o wybranych, relatywnie rzadko stosowanych, technikach wizualizacji przydatnych w przypadku dysponowania zmiennymi, których pomiaru dokonano na różnych skalach pomiarowych. Głównym celem jest przegląd procedur dostępnych w pakietach statystycznych wspomagających prowadzenie analiz na podstawie zbiorów danych o mieszanym charakterze. Rozważania dotyczą trzech obszarów: przedstawiania prawidłowości występujących w zbiorze danych, ilustrowania podobieństwa obiektów, prezentowania wyników wybranych analiz wielowymiarowych. 1 Praca naukowa sfinansowana ze środków Narodowego Centrum Nauki w ramach projektu badawczego 2012/05/B/HS4/02499.

Wspomaganie analiz prowadzonych w oparciu o zmienne 45 Jako materiał ilustracyjny zostały wykorzystane dane zebrane w ramach badania Diagnoza społeczna 2 w 2013 roku, odnoszące się do robienia zakupów przez Internet oraz charakteryzujące respondentów (N = 13 825). Zestaw rozpatrywanych był następujący: kupowanie produktów i usług przez Internet: tak, nie (skala nominalna), płeć: kobieta, mężczyzna (skala nominalna), wykształcenie: podstawowe, zawodowe/gimnazjum, średnie, wyższe (skala porządkowa), wiek w latach (skala ilorazowa), czas korzystania z Internetu w ostatnim tygodniu w godzinach (skala ilorazowa). Do wykonania wizualizacji zastosowano programy R, SPSS oraz Parallel Sets, przy czym z programu R wykorzystano różne pakiety, które wymieniono bezpośrednio przy omawianiu poszczególnych metod. 1. Graficzne przedstawianie prawidłowości w zbiorach danych Relacje pomiędzy dwoma zmiennymi: jednej o charakterze nominalnym i drugiej o charakterze porządkowym można przedstawić, wizualizując odpowiadającą im tabelę kontyngencji, np. za pomocą wykresu bąbelkowego dostępnego w pakiecie ggplot2, na którym wielkości powierzchni kół odpowiadają liczebnościom pól tabeli 3, bądź stosując funkcję balloonplot z pakietu gplots, która dodatkowo uwzględnia cieniowanie odzwierciedlające liczebności brzegowe (rys. 1). Na podstawie rys. 1 łatwo zauważyć, że w próbie dominowały osoby dokonujące zakupów przez Internet. Relatywnie najmniej respondentów legitymowało się wykształceniem podstawowym i wśród nich liczebność kupujących i niekupujących była bardzo zbliżona. Natomiast największą rozbieżność odnotowano wśród osób z wykształceniem wyższym, wśród których wyraźnie przeważają osoby deklarujące wykonywanie zakupów za pośrednictwem sieci. 2 3 Rada Monitoringu Społecznego (2013): Diagnoza społeczna: zintegrowana baza danych. www.diagnoza.com [28.03.2014]. Zob. H. Wickham: ggplot2: elegant graphics for data analysis. Springer, New York 2009.

46 Alicja Grześkowiak 2. Wizualizacja relacji pomiędzyy trzema zmiennymi niemetrycznymi (wykształcenie, kupno, płeć) za pomocą wykresu zbio orów równoległych* * Wizualizację uzyskano za pomocą programu Parallel Sets. 4 1. Wizualizacja tabeli kontyngencji dla dwóch niemetrycznych (kupno, wykształ- cenie) za pomocą wykresu bąbelkowego z uwzględnieniem liczebności brzegowych Idea prezentacji przedstawiona na rys. 1 ma wiele zalet, ale ogranicza się do przypadku dwu uwymiarowego. Chcą ąc zilustrować relacje pomiędzyy większą liczbą niem metrycznych, można posłużyć się wykresami zbiorów rów w- noległych (parallell sets),, na których połączenia pom między kategoriami reprezen- tująą liczbęę kombinacji atrybutów 4. Przykład wizualizacji trzech : wy- kształcenia, fakt tu zaku upuu oraz płci przedstawiaa rys. 2. R. Kosara, F. Bendix, H. Hauser: Parallel sets: Interactive exploration and visual analysis of categori- cal data. Transactions on Visualization and Computer Graphics 2006, Vol. 12, No. 4, s. 558-568.

Wspomaganie anal liz prow wadzonych w opar rciu o zmienne 47 Pierwszy podział odpowiadaa danym zawartym w dwuwymiarowej tabeli kontyngencji (analogicznie jak na rys. 1), drugi wnosi informacje o kolejnym wymiarze danych płci, np. nietr rudno zauważyć, że wśródd respondentów o wyk kształceniu średnim niedokonujących zakupów przez Inte ernet prze eważają kobiety. Program Parallel Sets ułat twia równieżż identyfikację poszczególnych kategorii. Przykładowo na rys. 2 wyróżniono najciemniejszym odcieniem męż ż- czyzn o wykształceniu średnim wyk korzystujących globalnąą sieć do zakupów. Takich jednostek jest 1604, co stanowi 11% badanych. Kolejnąą propozycją ilustracji powiązań mierzonych na słabych skalach jest wyk kres rozrzutuu dla dany ych niemetrycznych, dostępny w R w pakie- cie clustersim 5. Na tego rodzaju wykresiee koła reprezentująą pary kategorii, a promieńń częstośćć ich występowaniaa (rys. 3). 3. Wykres rozrzutuu dla trzech zmie ennych niemetrycznych: kupno: 1 nie, 2 tak; płeć: 1 kobieta, 2 mężczyzna; wykształcenie: 1 pods stawowe i niższe, 2 zawodowe/gimnazjum, 3 średnie, 4 wyższe i policealnee W pakieciee clustersim dost ępna jest także funkcja umo ożliwiająca two o- rzenie wykresu rozrzutuu dla trzech o charakterze niemetrycznym w prze estrzeni trójwymiarowej, przy czym prezentacja przyjmuje formę kul, któ- rych promieńń odzwierciedla częstość występowania kategorii 6. Tworzony wy- kres ma interaktywny charakter umożliwiający wglą ąd w strukturę danych. 5 6 M. Walesiak, A. Dudek: clustersim: Searc ching for optimal clustering proc edure for a data set, R package ver. 0.43-4, 2014, http:// /cran.r-project.org/web/packages/clustersim/index.html. Statystyczna analizaa danych z wykorzystaniem programu R. Red. M. Walesiak, E. Gatnar. Wyda awnictwo Naukowe PWN, Warszawa 2012, s. 102; Ana aliza danych jakościowych i symbo- licznych z wykorzystaniem programu R. Red. M. Walesiak, E. Gatnar. Wyda awnictwo C..H. Beck k, Wars zawa 2011, s. 43-4 45.

48 Alicja Grześkowiak Kolejnąą interesującąą kwes stiąą jest graficzne, łączne ujmowanie zmi iennych metrycznych i niemetrycznych. W celu badania zależności jednej zmiennej nie- metrycznej i jednej metrycznej można zastosować spinogram lub wykres warun- kowej gęstości 7 przedstawione na rys. 4, a wykonane za pomocąą funkcji dostęp- nych w R w pak kiecie vcd 8. A B 4. Ilustracja zależności zmiennej kupno od zmiennej wiek za pomocąą spinogramu (A) i wy- kresu warun nkowej gęstości (B) W wizualizacji za pomocąą spinogramu szerokość słupków odpowiada czę- stościom cechy metrycznej (wiek), a wysokość elementów cien niowanych obra a- zuje warunkową częs stość cec chy niemetrycznej (kupno). Wyk kres warunkowej gęstości oddaje tę samą zależność, ale w sposób wygładzony. Obie prez zentacje wskazują na ogólną prawidłowość, że wraz z wiekiem maleje częstość robienia zakupów przez Internet, niesprawdzająca się jedynie w przypadku najmłodszej grupy wieku, być moż że ze wzg ględu na ograniczone środki finansowe. Wykresy przedstawione na rys. 4 ukazują rela acje tylko pomiędzy dwoma zmiennymi. Zależności pomiędzy większąą ich liczbą można zilustrowaćć za po- mocą warunkowego wykresu rozrzutu (funkcja cop plot) z pakietu graphics (adekwatnego dla dwó óch metrycznych i dwóch niemetrycznych) oraz uogólnionego wykresu rozrzutu, któr rego różne wers sje oferująą pakiety GGally 9 oraz gpairs 10. Uog gólniony wykres rozrzutu stan nowi analogon tradycyjnego macierzowego wykresu rozrzutuu stosowanego dla metrycznych, 7 8 9 Zob. B.S. Everitt, T. Hothorn: A handbook of statistical analyses using R. CRC Press, Boca Raton 2009, s. 37-38. D. Meyer, A. Zeileis, K. Hornik: vcd: Visu ualizing Categorical Data. R package ver. 1.3-1, 2013 3, http:/ //cran.r-project. org/ /web/packages/vcd/index.html. B. Schloerkee et al.: GGally: Exten nsion to ggplot2, R package, ver. 0. 4.6, 2014, http://cran.r- project.org/web/ /packages/ggally/index.html. W. Emerson, W.A.. Green: gpairs: The Generalized Pairs Plot, R pack kage ver 1..2, 2013 3, http:/ //cran.r-project. org/ /web/packages/gpairs/index.html. 10 W

Wspomaganie anal liz prow wadzonych w opar rciu o zmienne 49 a rodzaj stosowanej prezentacji danych zależy od typu kom mbinacji: dla par zmienna metryczna zmienna metryczna stosowane sąą wykresy rozrzutuu z pre- zentacją wartości wsp półczynnika kor elacji oraz wyk kresy gęstości, dla par zmien- na niemetryczna zmienna niemetryczna wykresy mozaikowe, kolumnowe, fluktuacyjne, a dla par zmienna metryczna zmie enna niemetryczna wykresy pudełkowe i paskowe 11. Wizualizacje można tworzyć symetrycznie lub korzy- staćć z innych metod nad i pod głów wną przekątną. Na rys. 5 zaprezentowano przykładowy uogólniony wykres rozrzutu dla wszystkich rozpatrywanych wyk konany z użyciem pakietu GGally. W celu zaprezentowania różnorakich możliwości ilustracji zastosowano różn ne techniki wizualizacji pod (wykres rozrzutu, wykresy pudełkowe, wykresy fluktuacyjne) i nad główną przekątnąą (wykresy paskowe, wykresy kolumnowe, wykres gęstości). 5. Wizualizacja zależ żności pom między pięcioma zmiennymi kupno, płeć ć, wykształcenie, czas) o różnym charakterze (wiek, 2. Ob razowanie podobieństwa obiektów Jednym z celów analiz wielowymiarowych może być bad danie stopnia po- dobieństwa obi ektów opisanych za pomocą wielu cech. Pomiar podobieństwa nie stanowi wyzwania, gdy wszystkie zmienne są mierzone na tej samej skali, 11 J. W. Emerson et al. : The generalized pair s plot. Journal of Computational and Graphical Sta- tistics 2013, Vol. 22(1) ), s. 79-91.

50 Alicja Grześkowiak lecz znacznie komplikuje się w sytuacji posiadania zbioru zawierającego zmien- ne mie erzone na różnych skalach w literaturze możn na odnaleźć kilka pro pozycji mierzenia odległości w tego rodzaju okolicznościach 12. Dysponując macierzą odległości, moż żna dokonać jejj transformacji w macierz podobieństw. Obydwa typyy macierzy można wizualizować za pomocą zróżnicowanej kolo orystyki i symboli 13, a dodatkowoo wyko onać grupowanie obie ektów podobnych. Ze zbioru danych dotyczących zakupów przez Internet wylosowano dwadzieścia obiektów, oceniono ich niepodobieństwo za pomocą miary Gowera, wyzn naczono macierz podobieństwa, wykonano grup powanie jednostek, korzystając z hierarchicznej procedury aglomeracyjnej, a całościowy efekt zilustrowano grafi icznie, wykorzy- stując pakiet corrplot 14 prog gamu R (rys. 6) ). 6. Ilustracja macierzy podobieństwa obiektów Wizualizacja prz zedstawiona na rys. 6 ułatwia percepcjęę prawidłowości za- chodzących w macierzy podobieństwa za pomocą natężenia kolo oru oraz wielko- ści symboli, a także pozwalaa wskazaćć grupy obiektów podobnych. 12 M 13 M 14 T M. Walesiak: Uogólniona miara odległości GDM w statystycznej analizie wielowymiarowej z wykorzystaniem programu R. UE we Wrocławiu, Wrocław 2011, s. 22-34. M. Friendly: Corrgrams: Exploratory displ lays for correlation matrices. Th he American Statisti- project.org/web/ /packages/corrplot/index.html. cian 2002, Vol. 56 (4), s. 316-324.. Wei: corrplot: Visualization of a correlation matrix, R package ver. 0.73, 2013, http://cran.r-

Wspomaganie anal liz prow wadzonych w opar rciu o zmienne 51 3. Wiz zualizacja wyników wybranych metod wielowymiarowych grupowaniaa dwustopniowego oraz ana alizy kanonicznej Do metod wie elowymiarowych umożliwiających jednoczesną analizę różn nie skalowanych nale eżą grupowanie dwustopniowe oraz analiza kanoniczna dla niemetrycznych. W grupowaniu dwustopniowym pozwalającymm na określenie klas obiektów podobnych, oprogramowanym w SPS SS, pierwszy etap polega na tworzeniu drzewa klasyfikacyjnego, natomiast w drug gim tworzone sąą skupienia za pomocą hierarchicznej procedury aglomera- cyjnej, a zestaw możliwych rozwiązań podlega ocenie za pomocąą bayesowskiego kryterium informacyjnego 15. Otrzymane grupy moż żnaa porównać na podstawie reprezentacji graficznej ujmującej zmienne profilujące (rys. 7). 7. Przedstawienie wyników grup owania dwustopniowego podział na cztery grupy Dla niemetrycznych przedstawianaa jest dominanta, natomiast metryczne sąą prezentowane za pomocąą wykresów pudełkowych. Przykładowo, w grup pie oznaczonej nr 1 (prz zewagaa niedokonujących zakupów przezz Internet) występuje dominacja kobiet, osób z wykształceniem średnim, o najwyższej me- dianie wieku i spędzających przeciętnie najmniej czasu korzystając z Internetu. 15 M M. Rószkiewicz: Analiza klienta. SPSSS Polska, Kraków 2011 1, s. 82.

52 Alicja Grześkowiak Techniką umożliwiającąą badanie relacji pomiędzy kilkoma zbiorami zmien- nych zmierzonych na różnych skalach jest analiza kanoniczna dla nie- metrycznych (OVERALS), a prezentacja agraficzna rezultatów za pomocą środków ciężkości pozwala okre eślićć wspó ółwystępowanie kategorii 16. Na rys. 8 przedstawiono wynikii analizy przeprowadzonej dla dwóch zbiorów. Jeden z nich two- rzyły zachowania kon nsumpcyjne (kupowanie przez Internet w Polsce, kup powanie przez Internet z zagranicy, uczestniczenie w aukcjach przez Internet), a drugi zestaw czynniki socjodemograficzne (płeć, wiek, wykształcenie). 8. Wyniki analizy kanonicznej dla dwóch zbiorów Układ kate gorii na rys. 8 wskazuje, że kupowanie przez Inte ernet z zagranicy i na aukcjach to dom mena mło dszych mężczyzn. Kobiety i osoby powyżej 45. roku życia sąą mniej skłonne do tego typu zachowań konsumpcyjnych. Natomiast zmienna wykształcenie w znacznej mierze warunkuje dokonywanie zakupów przez Internet w Polsce. Podsumowanie Badaniaa społeczne często zasadzająą się na zmi iennych różnie skalowanych, przy czym znaczącą rolę pełnią dane o charakterze niemetrycznym. W eksplora- cji zbio orów dan nych oraz w przedstawianiu wyników badań coraz większe zna- czenie zyskują techniki wizualizacji. O ile ukazywanie w sposób graficzny rela a- cji dla metrycznych jest powszechnie stosowane, np. za pomocą 16 Z ob. J.J. Meulman, W.J. Heiser: SPSS Categories 11.0. SPSS, Chicago 2001 1.

Wspomaganie analiz prowadzonych w oparciu o zmienne 53 wykresów korelacyjnych, to ukazywanie powiązań dla niemetrycznych lub różnie skalowanych wydaje się niedoceniane na gruncie polskich badań społecznych. Może to wynikać z faktu, że przedstawione w artykule rozwiązania są stosunkowo nowe i niezbyt rozpowszechnione. Jednocześnie warto podkreślić, że opisany zestaw narzędzi stanowi subiektywną selekcję zorientowaną na zaprezentowanie różnych metod w odniesieniu do trzech różnych celów analitycznych. W opinii autorki ułatwiają one i wzbogacają analizę danych i z tego powodu zasługują na rozpropagowanie i szerokie zastosowanie. Literatura Analiza danych jakościowych i symbolicznych z wykorzystaniem programu R. Red. M. Walesiak, E. Gatnar. Wydawnictwo C.H. Beck, Warszawa 2011. Emerson J.W., Green W.A., Schloerke B., Crowley J., Cook D., Hofmann H., Wickham H.: The generalized pairs plot. Journal of Computational and Graphical Statistics 2013, Vol. 22(1). Emerson W., Green W.A.: gpairs: The Generalized Pairs Plot, R package ver 1.2, 2013, http://cran.r-project.org/web/packages/gpairs/index.html. Everitt B.S., Hothorn T.: A handbook of statistical analyses using R. CRC Press, Boca Raton 2009. Friendly M.: Corrgrams: Exploratory displays for correlation matrices. The American Statistician 2002, Vol. 56 (4). Kosara R., Bendix F., Hauser H.: Parallel sets: Interactive exploration and visual analysis of categorical data. Transactions on Visualization and Computer Graphics 2006, Vol. 12, No. 4. Meulman J.J., Heiser W.J.: SPSS Categories 11.0. SPSS, Chicago 2001. Meyer D., Zeileis A., Hornik K.: vcd: Visualizing Categorical Data. R package ver. 1.3-1, 2013, http://cran.r-project.org/web/packages/vcd/index.html. Rószkiewicz M.: Analiza klienta. SPSS Polska, Kraków 2011. Schloerke B., Crowley J., Cook D., Hofmann H., Wickham H., Briatte F., Marbach M.: GGally: Extension to ggplot2, R package, ver. 0.4.6, 2014, http://cran.r-project.org/ web/packages/ggally/index.html. Statystyczna analiza danych z wykorzystaniem programu R. Red. M. Walesiak, E. Gatnar. Wydawnictwo Naukowe PWN, Warszawa 2012. Walesiak M.: Uogólniona miara odległości GDM w statystycznej analizie wielowymiarowej z wykorzystaniem programu R. UE we Wrocławiu, Wrocław 2011.

54 Alicja Grześkowiak Walesiak M., Dudek A.: clustersim: Searching for optimal clustering procedure for a data set, R package ver. 0.43-4, 2014, http://cran.r-project.org/web/packages/cluster Sim/index.html. Warnes G.R., Bolker B., Bonebakker L., Gentleman R., Huber W., Liaw A., Lumley T., Maechler M., Magnusson A., Moeller S., Schwartz M., Venables B.: gplots: Various R programming tools for plotting data, R package ver. 2.13.0, 2014, http://cran.r-project.org/web/packages/gplots/index.html. Wei T.: corrplot: Visualization of a correlation matrix, R package ver. 0.73, 2013, http://cran.r-roject.org/web/packages/corrplot/index.html. Wickham H.: ggplot2: elegant graphics for data analysis. Springer, New York 2009. SUPPORTING ANALYSES BASED ON VARIABLES MEASURED ON VARIOUS SCALES BY VISUALIZATION TECHNIQUES Summary The article has a methodological and applicative objective associated with the graphical presentation of datasets, similarities of objects and results of multivariate analyses. The paper gives an outline of procedures useful in situations in which variables are measured on various measurement scales. The research approach is based on literature studies and analyses of secondary data relating to purchases on the Internet. The given examples show that data visualization methods can provide a valuable support in conducting social research in case of possessing a dataset containing variables measured on various scales.