Analiza składowych głównych idea



Podobne dokumenty
Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Analiza składowych głównych. Wprowadzenie

Skalowanie wielowymiarowe idea

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

ANALIZA CZYNNIKOWA Przykład 1

Zmienne zależne i niezależne

Analiza składowych głównych

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Analiza korespondencji

Wykład 10 Skalowanie wielowymiarowe

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Prawdopodobieństwo i statystyka

CELE ANALIZY CZYNNIKOWEJ

Statystyka i eksploracja danych

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Wielowymiarowa Analiza Korespondencji. Wielowymiarowa Analiza Danych z wykorzystaniem pakietu SPSS. Joanna Ciecieląg, Marek Pęczkowski WNE UW

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

MODELE LINIOWE. Dr Wioleta Drobik

Elementy statystyki wielowymiarowej

Metoda Karnaugh. B A BC A

PDF created with FinePrint pdffactory Pro trial version

Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Szukanie struktury skali mierzącej problematyczne zachowania finansowe.

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki

Hierarchiczna analiza skupień

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Analiza skupień. Idea

Graficzna prezentacja danych statystycznych

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.

Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Ruch jednostajnie zmienny prostoliniowy

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Aproksymacja funkcji a regresja symboliczna

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

10. Redukcja wymiaru - metoda PCA

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Regresja logistyczna (LOGISTIC)

Agnieszka Nowak Brzezińska

Analiza współzależności zjawisk

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH:

Inteligentna analiza danych

Stosowana Analiza Regresji

13. Równania różniczkowe - portrety fazowe

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Agnieszka Nowak Brzezińska Wykład III

Wstęp do Techniki Cyfrowej... Teoria automatów

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Notacja Denavita-Hartenberga

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

ANALIZA KORESPONDENCJI

Programowanie celowe #1

Dopasowywanie modelu do danych

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

SPIS TREŚCI WSTĘP LICZBY RZECZYWISTE 2. WYRAŻENIA ALGEBRAICZNE 3. RÓWNANIA I NIERÓWNOŚCI

Badanie zależności skala nominalna

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

KORELACJE I REGRESJA LINIOWA

FUNKCJA LINIOWA - WYKRES

ZASTOSOWANIE PROGRAMOWANIA LINIOWEGO W ZAGADNIENIACH WSPOMAGANIA PROCESU PODEJMOWANIA DECYZJI

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Agnieszka Nowak Brzezińska Wykład III

Analiza współzależności dwóch cech I

LABORATORIUM Z FIZYKI

Proces badawczy schemat i zasady realizacji

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska

Regresja i Korelacja

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Wykład 5: Analiza dynamiki szeregów czasowych

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Wielokryteriowa optymalizacja liniowa cz.2

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

2) R stosuje w obliczeniach wzór na logarytm potęgi oraz wzór na zamianę podstawy logarytmu.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Sieci Kohonena Grupowanie

Transkrypt:

Analiza składowych głównych idea Analiza składowych głównych jest najczęściej używanym narzędziem eksploracyjnej analizy danych. Na metodę tę można spojrzeć jak na pewną technikę redukcji wymiarowości danych. Jest to metoda nieparametryczna, a co za tym idzie nie wymaga żadnych założeń, co do rozkładów badanych danych. Idea tej metody jest bardzo prosta. Chcemy mianowicie zastąpić wejściowy zbiór skorelowanych cech(jeśli oryginalne zmienne nie są skorelowane, zastosowanie metody składowych głównych nie zapewnia możliwości redukcji danych przy ograniczonej stracie informacji) przez małą liczbę nieskorelowanych tzw. składowych głównych, które razem mogą wyjaśnić prawie całą zmienność danych. Pierwsza składowa wyjaśnia najwięcej zmienności (składowe są kombinacjami liniowymi wejściowych zmiennych). Druga składowa wybierana jest w taki sposób, aby nie była skorelowana z pierwszą i wyjaśniała jak najwięcej pozostałej zmienności.

Analiza składowych głównych ładunki i wyniki W rezultacie otrzymujemy tyle składowych ile było zmiennych wejściowych, ale najczęściej jedynie kilka z nich wyjaśnia prawie całą zmienność oryginalnych danych. Jako wynik otrzymujemy najczęściej dwa typy parametrów: ładunki oraz wyniki. Ładunki to współczynniki pokazujące wkład poszczególnych zmiennych bazowych w tworzeniu składowych głównych. Im wartość bezwzględna z ładunku większa tym zmienna ma większy wkład w budowę składowej głównej. Wyniki nie są niczym innym jak współrzędnymi obserwacji w nowym układzie współrzędnych utworzonym przez składowe główne, to one najczęściej podlegają wizualizacji. Niestety przy większej liczbie pierwotnych zmiennych występują problemy z interpretacją ładunków.

Analiza składowych głównych liczba składowych Jeśli chcemy zredukować wymiar danych musimy się zastanowić ile składowych wybrać do dalszej analizy. Najczęściej decyzję tę podejmuje się bazując na wykresie osypiska, zwanym też wykresem piargowym. Jako optymalną liczbę czynników wybieramy tę, gdzie wykres się znacząco spłaszcza. Drugim popularnym kryterium jest ustalenie pewnego poziomu wariancji jaki muszą wyjaśnić składowe główne(najczęściej 90%). Kryterium osypiska prowadzi niekiedy do odrzucenia zbyt wielu czynników, ale w typowych sytuacjach (niezbyt dużo czynników i sporo obserwacji) radzi sobie całkiem dobrze.

Analiza składowych głównych wizualizacja Na koniec możemy zwizualizować nowe dane na jednym wykresie, na którym jako punkty będą przedstawione poszczególne obserwacje w nowym układzie dwóch pierwszych składowych głównych, natomiast wektory oznaczać będą cechy. Kierunek wektorów pokazuje wpływ tych cech odpowiednio na pierwszą i drugą składową. Kąt przecięcia strzałek jest proporcjonalny do zależności pomiędzy cechami(dokładnie iloczyn skalarny odpowiednich wektorów wyznacza korelację), a ich długość odzwierciedla odchylenie standardowe. Tego typu wykres nazywa się biplotem.

Analiza składowych głównych niezmienniczość Składowe główne nie są niezmiennicze względem zmiany skali zmiennych pierwotnych. Oznacza to, że przeskalowanie danych zmienia wyniki analizy metodą składowych głównych. Z tego względu składowe główne uzyskane z macierzy kowariancji oraz korelacji różnią się. Zaleca się wykorzystywać te uzyskane z macierzy kowariancji. W przypadku jednak dużych różnic w wariancjach lub cech mierzonych na różnych skalach należy wpierw przeskalować dane.

Analiza składowych głównych R Odpowiednia funkcja nazywa się prcomp. Jej argumentem jest zbiór danych. W przypadku istnienia znacznych różnic w wariancjach powinniśmy ustalić również parametr scale. Biplot rysujemy poleceniem biplot.

idea W wielu dziedzinach nauki(zwłaszcza psychologii, naukach społecznych oraz marketingu) nie jest możliwe zmierzenie wszystkich zmiennych bezpośrednio. W takim przypadku zbieramy informacje o pewnych zmiennych stowarzyszonych, które w pewien sposób wpływają na interesujące nas zjawisko. Przykładowo badając poziom inteligencji badamy ją za pomocą licznych testów. Zmienne nieobserwowalne nazywane są zmiennymi utajonymi. W takiej sytuacji używa się analizy czynnikowej do zidentyfikowania tych ukrytych zmiennych(zwanych teraz czynnikami) lub do redukcji wymiarowości danych. Celem analizy czynnikowej jest pogrupowanie zmiennych silnie skorelowanych i stworzenie na ich podstawie mniejszej liczby czynników, przy jak najmniejszej utracie informacji. Jak widać pokrywa się to z celem analizy składowych głównych.

i analiza składowych głównych różnice W przypadku analizy czynnikowej zakłada się, że wariancja każdej zmiennej może być podzielona na wariancję wspólną (dzieloną z innymi zmiennymi) i wariancję swoistą (charakterystyczną dla danej zmiennej). Dążymy do eliminacji wpływu czynników swoistych na rzecz czynników wspólnych, co jest równoważne z minimalizacją wpływu na kształtowanie się wartości zmiennych wejściowych wszystkich innych zmiennych poza czynnikami wspólnymi. bada jedynie wariancję wspólną, podczas gdy analiza składowych głównych całkowitą wariancję. Co za tym idzie celem PCA nie jest wyjaśnienie korelacji pomiędzy zmiennymi lecz objaśnienie wariancji danych, natomiast FA dąży do wyjaśnienia kowariancji(korelacji).

i analiza składowych głównych różnice Składowe wyznaczone z macierzy korelacji i kowariancji istotnie różnią się w przypadku analizy składowych głównych, w przypadku analizy czynnikowej są takie same(jest niezmiennicza ze względu na skalowanie).

i analiza składowych głównych różnice W przypadku PCA wraz z dodaniem kolejnej składowej do rozwiązania, poprzednie składowe nie zmieniają się. Nie ma to miejsca w przypadku analizy czynnikowej(dodanie kolejnego czynnika zmienia pozostałe).

i analiza składowych głównych różnice Wyznaczenie składowych głównych jest znacznie prostsze od wyznaczenia czynników.

i analiza składowych głównych zastosowanie Analiza składowych głównych jest często preferowana jako metoda redukcji danych, podczas gdy analiza czynnikowa jest chętniej stosowana gdy celem jest wykrycie struktury zjawiska. Podobnie jak w przypadku PCA oryginalne zmienne przedstawiane są jako kombinacje liniowe pewnej liczby czynników wspólnych oraz pojedynczego czynnika swoistego dla tej zmiennej(czynniki wspólne i czynnik swoisty nie są ze sobą skorelowane). Współczynniki tych kombinacji nazywane są jak poprzednio ładunkami i ich interpretacja jest analogiczna. Pomimo różnic pomiędzy metodami uzyskiwane wyniki są często bardzo zbliżone, zwłaszcza jeśli wariancje są małe. Należy również pamiętać, że w jeszcze jednym aspekcie obie metody zachowują się podobnie. Jeśli zmienne są nieskorelowane są mianowicie bezużyteczne.

liczba czynników wykres osypiska, kryterium Kaisera-Guttmana liczba czynników równa liczbie wartości własnych większych od 1, analiza równoległa, współrzędne optymalne, czynnik przyspieszenia.

struktura czynników Struktura ładunków w analizie czynnikowej nie jest jednoznaczna, znaczy to, że istnieje nieskończenie wiele rozwiązań dających identyczne powiązania pomiędzy oryginalnymi zmiennymi i czynnikami. Biorąc to pod uwagę przeprowadza się rotację czynników, w taki sposób, aby jedna zmienna nie wchodziła z dużym ładunkiem do więcej niż jednego czynnika. Można wyróżnić dwa typy rotacji: ortogonalną i skośną. W przypadku zastosowania tej pierwszej otrzymujemy nieskorelowane czynniki, ta druga dopuszcza czynniki skorelowane. Zastosowanie rotacji ortogonalnej prowadzi do łatwiejszej interpretacji wyników(ładunki są w tym przypadku korelacjami pomiędzy czynnikami, a oryginalnymi zmiennymi), natomiast rotacje skośne prowadzą najczęściej do modelu o nieco lepszym dopasowaniu. Na rotacje można patrzeć jak na obroty osi w celu jak najprostszego w interpretacji ułożenia punktów, jeśli dopuścimy osie nieprostopadłe, to mamy rotację skośną.

rotacje ortogonalne varimax otrzymujemy czynniki z kilkoma dużymi ładunkami (reszta ładunków bliska 0). W efekcie otrzymujemy czynniki, które są mocno skorelowane z małą liczbą zmiennych i praktycznie nieskorelowane z pozostałymi. quartimax każda zmienna skorelowana jest mocno jedynie z jednym czynnikiem i wcale(lub prawie wcale) z innymi. biquartimax i equamax łączą kryteria optymalności z metod varimax i quartimax. Różnią się wagami jakie są nadawane tym kryteriom.

rotacje skośne oblimin wykorzystywane jest kryterium z metody varimax, przy czym czynniki mogą być skośne(kontroluje to specjalny parametr). promax wykorzystywana jest rotacja ortogonalna (najczęściej varimax), ładunki podnoszone są do pewnych potęg. Celem jest uzyskanie rozwiązania jak najbardziej dopasowanego przy wykorzystaniu najmniejszej możliwej potęgi i o minimalnie skorelowanych czynnikach. Metoda ta jako znacznie szybsza od metody oblimin znajduje zastosowanie w przypadku dużych zbiorów danych. W praktyce najczęściej wykorzystywana jest rotacja typu varimax.

R Do wykonania analizy czynnikowej wykorzystywana jest funkcja factanal. W jej wyniku otrzymujemy ładunki, odchylenie standardowe dla każdego czynnika(większe od 1 oznacza, że dany czynnik wyjaśnia więcej niż pojedyncza zmienna), procent wyjaśnianej wariancji oraz skumulowany procent wyjaśnianej wariancji. Dodatkowo przeprowadzany jest test, czy wybrana liczba składników jest wystarczająca. Dla każdej zmiennej z wejściowej wyznaczana jest tzw. niepowtarzalność, czyli proporcja wariancji, która nie jest dzielona z innymi zmiennymi. Im większa tym zmienna mniej związana z pozostałymi zmiennymi. Do wyznaczenia liczby czynników można wykorzystać funkcje: nscree, plotnscree(graficzna prezentacja kryteriów doboru liczby czynników) oraz plotuscree(wykres osypiska) z pakietu nfactors.

idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy wyłącznie informacje o podobieństwie obiektów). pozbawione jest tych wad. Jest to metoda redukcji wymiarowości bazująca na macierzy niepodobieństwa pomiędzy obiektami. Celem tej metody jest wyznaczenie współrzędnych obserwacji w nowym układzie, w taki sposób aby odległości pomiędzy obiektami w tym nowym układzie współrzędnych były maksymalnie podobne do oryginalnych odległości pomiędzy obserwacjami.

stres Funkcję oceniającą rozbieżność pomiędzy danymi niepodobieństwami, a obliczonymi w nowej przestrzeni danych nazywamy funkcją stresu. Naszym celem jest oczywiście jej minimalizacja. Uzyskana wartość funkcji stresu może służyć za miarę jakości uzyskanego odwzorowania. Stres Jakość dopasowania 0,20 Słabe 0,10-0,20 Przeciętne 0,05-0,10 Dobre 0,025-0,05 Doskonałe 0,0-0,025 Idealne

rodzaje Metryczne minimalizujemy sumę modułów(kwadratów) różnic pomiędzy oryginalnymi odległościami oraz odległościami w nowo powstałym układzie współrzędnych. Zakładamy, że dysponujemy jedynie cechami ilościowymi. Jeśli dysponujemy oryginalnym zbiorem danych, a nie macierzą niepodobieństw, skalowanie wielowymiarowe jest tożsame z analizą składowych głównych(na macierzy kowariancji) i nazywa się klasycznym skalowaniem wielowymiarowym. Skalowanie metryczne używamy gdy mamy przekonanie, że konkretna odległość w sposób właściwy reprezentuje odległości pomiędzy obiektami.

rodzaje Niemetryczne poszukujemy się optymalnego porządku pomiędzy odległościami, przy czym nie ma znaczenia sama wartość odległości, jedynie ich porządek. Zakładamy, że dane są mieszaniną danych jakościowych i ilościowych. W przypadku danych ilościowych musi istnieć pomiędzy nimi pewien porządek. W przeciwieństwie do klasycznego skalowania nie istnieje analityczne rozwiązanie tego zagadnienia. Co gorsza procedura poszukiwania rozwiązania jest iteracyjna i wymaga początkowej konfiguracji punktów (najczęściej przyjmuje się za nie rozwiązanie uzyskane ze skalowania metrycznego). Ta metoda jest częściej używana w praktyce.

R Do przeprowadzania skalowania metrycznego wykorzystywana jest funkcja cmdscale. Jeśli nie dysponujemy odległościami między obiektami, możemy je z łatwością wyliczyć korzystając z funkcji dist, która może wyliczyć wiele typów odległości(domyślnie liczy odległość euklidesową). Jeżeli jednak w danych znajdują się nie tylkozmienneilościowetodistniedasobieznimirady.wtakiej sytuacji należy wykorzystać funkcję daisy z pakietu cluster, która w przypadku danych ilościowych liczy odległość euklidesową, natomiast w przypadku wykrycia danych jakościowych wyznacza współczynnik podobieństwa Gowera. Niemetryczne skalowanie wielowymiarowe zostało zaimplementowane w pakiecie MASS. Znajdują się tam dwie funkcje sammon oraz isomds, które realizują dwa różne algorytmy skalowania niemetrycznego.

Analiza korespondencji idea Analiza korespondencji(ca) to technika, która pozwala graficznie przedstawić w niskowymiarowej przestrzeni dane zawarte w tablicy wielodzielczej. Analiza korespondencji używana jest najczęściej do analizy tablic kontyngencji, czyli rozkładów łącznych dwu zmiennych mierzonych zazwyczaj na skalach nominalnych. Stosowana jest szczególnie często w naukach biologicznych oraz socjologicznych, z uwagi na często występujące macierze kontyngencji. Jeśli stwierdzimy zależność badanych cech możemy przejść do właściwej analizy korespondencji. Chcemy dokonać rzutowania oryginalnych danych na przestrzeń o jak najmniejszym wymiarze, przy czym w tej nowej przestrzeni powinna być zachowanamożliwienajlepiejodległość χ 2.Otymileoryginalnej odległości zostało zachowane mówi tzw. inercja. Klasyczna analiza korespondencji jest właściwie metodą metrycznego skalowania wielowymiarowegozodległością χ 2 jakomiarąniepodobieństwa.

Analiza korespondencji w R Metoda analizy korespondencji została zaimplementowana w pakiecie MASS w funkcji corresp oraz w pakiecie ca.

Wykresy obrazkowe idea Czasami do wizualizacji danych wystarczają bardzo proste metody, które pomagają raczej jedynie we wstępnej analizie danych. Tego typu wykresy to wielowymiarowe wykresy obrazkowe. Podstawową ich ideą jest przedstawienie pojedynczych obserwacji za pomocą obiektów graficznych, których własności przypisano do zmiennych. Tak skonstruowane obiekty są unikalne dla każdej konfiguracji i jako takie mogą zostać rozpoznane przez badacza w sposób wizualny. Do najpopularniejszych należą:

Wykresy obrazkowe idea Twarze Chernoffa. Dla każdej obserwacji rysowany jest oddzielny obrazek twarzy. Do kształtów i wielkości pojedynczych rysów twarzy(np. szerokość nosa, kąt brwi, wysokość uszu) przypisywane są względne wartości wybranych zmiennych. W taki sposób możemy zwizualizować do 15 cech, dodatkowe 15 uzyskamy, jeśli osobno potraktujemy lewą i prawą połowę twarzy.

Wykresy obrazkowe idea Wykres gwiazdowy oraz jego szczególny przypadek wykres radarowy. W przypadku wykresu gwiazdowego dla każdej obserwacji rysowany jest oddzielny obrazek w kształcie gwiazdy. Względne wartości wybranych zmiennych dla każdego przypadku reprezentowane są przez długości ramion gwiazdy(zgodnie z ruchem wskazówek zegara, począwszy od godziny 12:00). Końce ramion są połączone linią. W przypadku wykresu radarowego wszystkie gwiazdy nanosimy na siebie.

Wykresy obrazkowe w R Funkcja tworząca twarze Chernoffa znajduje się w pakiecie aplpack i nosi nazwę faces(obsługuje do 15 zmiennych). Wykres gwiazdowy tworzymy poleceniem stars.