Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2017/2018

Podobne dokumenty
Grupowanie zmiennych w procesach eksploracji danych (Data Mining) Variable clustering in exploration data processes

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Przykład Rezygnacja z usług operatora

Analiza składowych głównych. Wprowadzenie

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

ROZDZIAŁ 1. ASORTYMENT TOWAROWY 11

Zmienne zależne i niezależne

Wizualizacja spożycia produktów żywnościowych w Europie przy użyciu programu GradeStat

SPIS TREŚCI ROZDZIAŁ 1. PODSTAWY TOWAROZNAWSTWA 11 WSTĘP 9

ZRÓŻNICOWANIE WYDATKÓW NA ŻYWNOŚĆ I NAPOJE BEZALKOHOLOWE GOSPODARSTW DOMOWYCH W POLSCE

Analiza głównych składowych- redukcja wymiaru, wykł. 12

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Wyższa Szkoła Hotelarstwa i Gastronomii w Poznaniu SYLABUS

Analiza składowych głównych

Elementy statystyki wielowymiarowej

Wywiad żywieniowy (część 1) Część ogólna

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Hierarchiczna analiza skupień

Testy nieparametryczne

ANALIZA CZYNNIKOWA Przykład 1

cen towarów i usług konsumpcyjnych

Rozdział 1 PROGRAMOWANIE LINIOWE

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

5. Surowce, dodatki do żywności i materiały pomocnicze

Analiza Statystyczna

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

ZAGADNIENIE TRANSPORTOWE

Wprowadzenie do analizy korelacji i regresji

Stosowana Analiza Regresji

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

% sumy wiersza nadrzędnego. % sumy kolumny nadrzędnej. % sumy elementu nadrzędnego. Porządkuj od najmniejszych do największych.

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Normy wyżywienia Racje pokarmowe. Roman Cichon Katedra Żywienia i Dietetyki CM UMK Bydgoszcz 2015

Poradnia Dietetyczna Dbam O Siebie. Wzdęcia, zaparcia, biegunki, brak. Jak często? Po jakich produktach?

Kurs Chemometrii Poznań 28 listopad 2006

Wzdęcia, zaparcia, biegunki, brak. Jak często? Po jakich produktach?

Regulamin Konkursu na jednodniowy jadłospis dla dzieci pn. Zdrowe dzieci jedzą radomszczańską zalewajkę

Przygotowanie danych

Zasady zdrowego żywienia

24-26 MAJA PRZEGLĄD OFERTY ARTYKUŁÓW SPOŻYWCZYCH DLA: SIECI HANDLOWYCH SKLEPÓW SPOŻYWCZYCH HORECA

24-26 MAJA PRZEGLĄD OFERTY ARTYKUŁÓW SPOŻYWCZYCH DLA: SIECI HANDLOWYCH SKLEPÓW SPOŻYWCZYCH HORECA

Wskaźniki cen towarów i usług konsumpcyjnych

Analiza korespondencji

... data* DANE OSOBOWE. ... Telefon: * ... Imię i nazwisko: * ... Płeć: * ... Preferowane godziny kontaktu telefonicznego:

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Import danych w formacie txt

Agnieszka Nowak Brzezińska

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

SKLEPY I STOISKA Z CERTYFIKOWANĄ ŻYWNOŚCIĄ EKOLOGICZNĄ Październik 2014

1. Grupowanie Algorytmy grupowania:

Co to jest algorytm? przepis prowadzący do rozwiązania zadania, problemu,

TABL. 1. PRZECIĘTNY MIESIĘCZNY DOCHÓD ROZPORZĄDZALNY NA 1 OSOBĘ W GOSPODARSTWACH DOMOWYCH WEDŁUG GRUP SPOŁECZNO-EKONOMICZNYCH W 2018 R.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Algorytmy i struktury danych. Co dziś? Tytułem przypomnienia metoda dziel i zwyciężaj. Wykład VIII Elementarne techniki algorytmiczne

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Urząd Statystyczny w Olsztynie CENY W WOJEWÓDZTWIE WARMIŃSKO-MAZURSKIM W 2014 R.

CELE ANALIZY CZYNNIKOWEJ

W lipcu ceny żywności w sklepach spadły o 1 proc. - raport GUS

KWESTIONARIUSZ OCENY SPOSOBU ŻYWIENIA

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Metoda simpleks. Gliwice

Drożyzna przed świętami. Rekordowy wzrost cen żywności w sklepach

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego

Wprowadzenie do analizy dyskryminacyjnej

PDF created with FinePrint pdffactory Pro trial version

CBOS CENTRUM BADANIA OPINII SPOŁECZNEJ PERCEPCJA ZMIAN CEN A ZACHOWANIA KONSUMENCKIE BS/140/2004 KOMUNIKAT Z BADAŃ WARSZAWA, SIERPIEŃ 2004

Analiza zależności liniowych

TOWAR JAKO PRZEDMIOT HANDLU

Prawdopodobieństwo i statystyka

URZĄD STATYSTYCZNY W WARSZAWIE ul. 1 Sierpnia 21, Warszawa BUDŻETY GOSPODARSTW DOMOWYCH W WOJEWÓDZTWIE MAZOWIECKIM W 2014 R.

Lista kategorii produktów przyjętych na Targi SIAL

Analiza skupień. Idea

REGULAMIN KORZYSTANIA Z POSIŁKÓW W PRZEDSZKOLU NR 35 Z ODDZIAŁAMI INTEGRACYJNYMI TĘCZOWY DOMEK WE WROCŁAWIU

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

WNIOSEK O WPIS NA LISTĘ PRODUKTÓW TRADYCYJNYCH

Materiał pomocniczy dla nauczycieli kształcących w zawodzie:

I. Wiadomości podstawowe

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Rozdział 2 PROGRAMOWANIE LINIOWE CAŁKOWITOLICZBOWE

Wywiad dietetyczny. Dane osobowe: Data: Imię i nazwisko pacjenta: Wiek/ data urodzenia: Wzrost: Telefon kontaktowy: Część zdrowotna: - cel wizyty:

Statystyka i eksploracja danych

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Obliczenia iteracyjne

WinSkład / WinUcz 15.00

Skalowanie wielowymiarowe idea

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Dla kas Nano E w wersjach od 3.02 oraz Sento Lan E we wszystkich wersjach.

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Szczegółowy opis przedmiotu zamówienia

URZĄD STATYSTYCZNY W WARSZAWIE ul. 1 Sierpnia 21, Warszawa BUDŻETY GOSPODARSTW DOMOWYCH W WOJEWÓDZTWIE MAZOWIECKIM W 2013 R.

Stanisław Cichocki. Natalia Nehrebecka

ZAKRES AKREDYTACJI JEDNOSTKI CERTYFIKUJĄCEJ WYROBY Nr AC 119

Sieci Kohonena Grupowanie

Wskaźniki cen towarów i usług konsumpcyjnych w lutym 2012 r.

Zadanie niezbilansowane. Gliwice 1

Transkrypt:

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2017/2018

Grupowanie zmiennych 2

Grupowanie zmiennych W eksploracji danych zajmujemy się zazwyczaj obiektami, charakteryzowanymi za pomocą bardzo dużej liczby zmiennych. Liczba ta dochodzi nierzadko do kilkuset. Część z nich wprowadza redundancję informacji, opisując te same lub zbliżone właściwości obiektów. Utrudnia to prowadzenie analizy danych, np. wykrycie współzależności, która może zachodzić między zmiennymi objaśniającymi a zmienną objaśnianą w budowanym modelu. 3

Grupowanie zmiennych Pogrupowanie zmiennych w skupienia może ułatwić analizę dzięki: zastąpieniu grupy zmiennych jednym komponentem (cluster component) będącym kombinacją liniową tych zmiennych albo przez wybór jednej zmiennej jako reprezentanta grupy zmiennych 4

Grupowanie zmiennych Skupianie zmiennych: pozwala zredukować złożoność modeli poprzez zmniejszenie liczby zmiennych biorących udział w analizie pozwala usunąć lub znacznie zredukować współliniowość zmiennych wprowadza większą przejrzystość w wykorzystywanym zbiorze obiektów ukazując w sposób bardziej czytelny związek między zmiennymi objaśniającymi a zmienną objaśnianą skraca czas potrzebny na zbudowanie modelu ułatwia interpretację uzyskiwanych wyników przy niewielkiej utracie informacji Dodatkową zaletą grupowania zmiennych jest możliwość budowania oddzielnych modeli, z których każdy uwzględnia inne charakterystyki obiektów, reprezentowane przez odrębne zmienne pochodzące z różnych skupień. 5

Grupowanie zmiennych Algorytm grupowania zmiennych został opracowany przez SAS Institute Inc. i jest realizowany przez program SAS Enterprise Miner Algorytm umożliwia uzyskiwanie skupień, zarówno rozłącznych jak i hierarchicznych. Skupienia zmiennych otrzymane w wyniku zastosowania algorytmu mogą być traktowane jako kombinacje liniowe zmiennych występujących w skupieniu. Każda taka liniowa kombinacja zmiennych jest pierwszą główną składową skupienia. 6

Porównanie z PCA Podobnie jak w analizie głównych składowych (PCA), pierwsza główna składowa jest średnią ważoną zmiennych z tak dobranymi wagami, aby wyjaśnić możliwie najwięcej wariancji. Jednak w odróżnieniu od metody PCA tutaj rozważane składowe mogą być ze sobą skorelowane. W zwykłej metodzie głównych składowych kolejne komponenty (pierwsza, druga itd. składowa) są budowane na podstawie tego samego zbioru zmiennych. W procedurze Variable Cluster bierzemy pod uwagę tylko pierwsze składowe główne, ale każda z nich jest budowana na podstawie innych zmiennych. 7

Porównanie z PCA Dla zbudowania skupień, podobnie jak w analizie głównych składowych, jest wykorzystywana macierz korelacji lub kowariancji zmiennych. jeżeli jest wykorzystywana macierz korelacji, wszystkie zmienne są traktowane jako jednakowo ważne, jeżeli jest wykorzystywana macierz kowariancji, zmienne o większej wariancji są traktowane jako istotniejsze w przeprowadzanej analizie. 8

Algorytm grupowania zmiennych Algorytm skupiania zmiennych szuka takiego podziału zmiennych, aby maksymalizować wariancję, która jest wyjaśniona przez komponenty skupień, zsumowaną po wszystkich skupieniach. Na ogół wszystkie komponenty skupień wyjaśniają mniej wariancji wszystkich rozważanych zmiennych niż taka sama liczba głównych składowych wyodrębnionych przez PCA na podstawie wszystkich zmiennych. Jednak komponenty skupień mają łatwiejszą interpretację. 9

Algorytm grupowania zmiennych Algorytm skupiania zmiennych jest podziałowy, tzn punktem wyjścia jest zbiór wszystkich zmiennych traktowany jako jedno skupienie, w kolejnych krokach następuje podział danego skupienia na podzbiory. Podział może być hierarchiczny lub niehierarchiczny. 10

Algorytm grupowania zmiennych W algorytmie podziału powtarzane są następujące 3 kroki: 1.Wybierane jest skupienie, które będzie dzielone na dwa podzbiory. Kryterium wyboru jest albo najmniejszy udział wyjaśnionej zmienności przez komponenty skupienia (opcja Variation Proportion) albo największa wartość własna odpowiadająca drugiej składowej głównej skupienia (opcja Maximum Eigenvalue). 2.Po wybraniu skupienia w kroku 1. są znajdywane dwie pierwsze składowe główne stosując rotację orthoblique. Przypisuje się zmienną do tej z dwóch składowych, z którą ma większą wartość kwadratu współczynnika korelacji R 2. Nowe składowe wyznaczają podział skupienia zmiennych na dwie części. 11

Algorytm grupowania zmiennych 3.Zmienne są na nowo przyporządkowywane do skupień w ten sposób, żeby maksymalizować wariancję określoną przez składowe skupień. Użytkownik programu może wybrać opcję Keep Hierarchies zapewniającą zachowanie struktury hierarchicznej skupień. Krok 3 zawiera dwa etapy: najpierw są obliczane składowe skupień i każda zmienna zostaje przypisana do składowej, z którą ma największą wartość kwadratu współczynnika korelacji (R 2 ), następnie dla każdej zmiennej sprawdza się, czy przypisanie jej do innego skupienia zwiększy wartość wyjaśnionej wariancji. Jeżeli przesunięcie zmiennej do innego skupienia zwiększy wartość wyjaśnionej wariancji, to na nowo obliczane są składowe obu tych skupień, zanim następna zmienna będzie sprawdzana. 12

Algorytm grupowania zmiennych Wybór opcji Keeps Hierarchies ogranicza zmianę przyporządkowania zmiennych do skupień w ten sposób, że podział zbioru może być tylko hierarchiczny. Oznacza to, że jeżeli w danym kroku podzielimy skupienie A na skupienia A1 i A2, to zmienna może przejść tylko z A1 do A2 albo z A2 do A1, ale nie do innych skupień. Użycie podziału hierarchicznego redukuje czas obliczeń i ułatwia interpretację skupień. 13

Kryterium zakończenia algorytmu Algorytm kończy się, gdy spełnione zostaną kryteria stopu podane w polu Stopping Criteria. Są to: osiągnięto maksymalną liczbę skupień podaną w opcji Maximum Clusters (domyślnie: liczba wszystkich zmiennych występujących w analizie), wartość własna odpowiadająca drugiej składowej głównej przekracza wartość podaną w opcji Maximum Eigenvalue (domyślnie: 1), osiągnięto zadany udział wariancji wyjaśnionej wybrany w opcji Variation Proportion (domyślnie: 0). 14

Przykład problemu Przykład dotyczy grupowania zmiennych, opisujących wydatki na żywność, alkohol i tytoń w gospodarstwach domowych. Dane pochodzą z badania Budżetów Gospodarstw Domowych prowadzonego przez GUS w 2011 roku. Pozycje wydatków występujące w źródłowym zbiorze danych zostały zagregowane, aby uniknąć wydatków mających znikomy udział w sumie wydatków na żywność, alkohol i tytoń. W ten sposób uwzględniono 31 pozycji wydatków Są to (w kolejności alfabetycznej): ciastka, cukier, drób, dżem-miód, herbata, jaja, kasza, kawa, makaron, masło, mąka, mięso, mleko, napoje, owoce, pieczywo, piwo, płatki, przyprawy, ryby, ryż, sery, słodycze, śmietana, tłuszcze, tytoń, warzywa, wędliny, wino, wódki, ziemniaki. 15

Przykład problemu Dane zostały zapisane w zbiorze F2011ZYWN, który liczy 37099 obserwacji w bibliotece dmlib. Dla tego problemu należy utworzyć projekt (VarCluster), a w nim diagram (Vardiagram). Diagram składa się z dwóch węzłów: Input Data (F2011ZYWN), z grupy Sample Variable Clustering, z grupy Explore 16

Przykład problemu Zmiennym biorącym udział w analizie nadajemy status Use = Yes (wystarczy zostawić Default), pozostałym zmiennym (lf, mo, nr) nadajemy status Use = No 17

Przykład problemu parametry węzła Zostawimy domyślne ustawienia węzła: wykorzystamy macierz korelacji, a nie macierz kowariancji zachowamy strukturę hierarchiczną tworzonych skupień Maksymalna liczba tworzonych skupień (tu: 31) Maksymalna wartość wlasna (tu:1) domyślnie 0 Reprezentantami zmiennych będą składowe (Cluster Component), a nie najlepsze zmienne w skupieniu (Best Variables) 18

Przykład problemu najlepsze reprezentanty Jako najlepsze zmienne (best variables) przyjmuje się takie zmienne w skupieniach, które mają najmniejszą wartość parametru (1 R 2 ) Ratio 1 1 R R 2 G 2 I gdzie 2 R G 2 R I R 2 zmiennej ze składową główną jej skupienia R 2 zmiennej ze składową główną najbliższego skupienia 19

Przykład problemu najlepsze reprezentanty W przypadku dobrego skupiania kwadrat współczynnika korelacji 2 zmiennej ze swoją główną składową R G powinien być duży. O dobrym wyodrębnieniu grup zmiennych świadczy też małe 2 skorelowanie zmiennych z komponentami innych grup, zatem R I wartość powinna być mała. Z tego wynika, że małe wartości ilorazu 1 1 R R świadczą o dobrym grupowaniu. Zmienna o najmniejszej wartości ilorazu jest wysoko skorelowana z komponentem swojej grupy i mało skorelowana z komponentami innych grup. Dlatego zostaje wybrana jako najlepszy reprezentant swojej grupy. 2 G 2 I 20

Variable Clusters - wyniki Wyniki analizy są przedstawiane w 6 oknach: Dendrogram Variable Frequency Table Cluster Plot Selected Variables Variable Selection Table Output 21

Variable Clusters - wyniki Uzyskaliśmy 5 skupień o nazwach: CLUS1,, CLUS5 W oknie Variable Frequency Table są podane liczebności skupień (razem 31) oraz udziały procentowe skupień (Percent of Total Frequency) 22

Variable Clusters - wyniki Skupienie 1 (CLUS1) zawiera: pieczywo, wędliny, tłuszcze, jaja, cukier, mięso, ziemniaki, drób, śmietanę, przyprawy, tytoń. Skupienie 2 (CLUS2) zawiera: napoje, słodycze, ciastka, płatki, mleko. Skupienie 3 (CLUS3) zawiera: wódki, wino, piwo. Skupienie 4 (CLUS4) zawiera: ryż, makaron, kaszę, mąkę. Skupienie 5 (CLUS5) zawiera: sery, owoce, warzywa, ryby, masło, herbatę, kawę, dżem-miód. 23

Variable Clusters - wyniki Zmienne w skupieniach i hierarchię skupień można zobaczyć na mapie skupień (Cluster Plot) Widoczne są dwa ugrupowania skupień. Pierwsze ugrupowanie, to blisko położone względem siebie skupienia 1, 4 oraz 5 Drugie ugrupowanie tworzą położone blisko siebie skupienia 2 oraz 3. 24

Variable Clusters - wyniki Dendrogram pokazuje kolejność skupiania i udział wyjaśnionej wariancji. Odcinając dendrogram pionową linią na poziomie nieco poniżej 0,4 otrzymujemy 5 skupień 25

Charakterystyka skupień Skupienie 1 (CLUS1) grupuje pozycje wydatków na żywność, charakterystyczne dla gospodarstw domowych o najbardziej tradycyjnej strukturze wydatków żywnościowych. Wydatki na pieczywo, wędliny, tłuszcze są powiązane z wydatkami na jaja, mięso, drób, a także takie pozycje jak ziemniaki, mąka i cukier. W yym skupieniu jest też tytoń. W skupieniu 2 (CLUS2) znalazły się napoje bezalkoholowe, słodycze, ciastka, płatki, mleko. Jest to połączenie pozycji w kierunku diety lekkiej, ale słodkiej. Pozycje skupienia 3 (CLUS3) wskazują na łączenie przez pewne gospodarstwa wydatków na różne, rozmaite napoje alkoholowe. Jako pozycje wydatków zgrupowane zostały wydatki na wódki, wina i piwa. Skupienie 4 (CLUS4) grupuje wydatki na ryż, makarony, kaszę, mąkę wskazując na gospodarstwa opierające dietę na produktach zbożowych. W skupieniu 5 (CLUS5) znalazły się pozycje, które łączy się z przestrzeganiem lekkostrawnej, wegetariańskiej diety. Powiązane są tu wydatki na sery, owoce, warzywa, ryby, masło z wydatkami na przyprawy, herbatę, kawę, dżem-miód (te ostatnie dżem i miód) 26

Variable Clusters - wyniki Tablica Variable Selection Table zawiera statystyki dotyczące skupień 27

Variable Clusters - wyniki W kolejnych kolumnach tablicy wyświetlane są: nazwa skupienia (Cluster) nazwa zmiennej (Variable) wartość zmiennej ze składową główną jej skupienia (R-Square With Own Cluster Component) nazwa najbliższego skupienia do podanego w tym samym wierszu pierwszej kolumny tablicy (Next Closest Cluster) wartość zmiennej ze składową główną tego (najbliższego) skupienia (R- Square With Next Cluster komponent) typ zmiennej (Type) - komponent skupienia lub pojedyncza zmienna etykieta zmiennej (Label) wartość (1-R2)Ratio ( Ratio) zaznaczenie wybranego (najlepszego) reprezentanta skupienia - YES lub NO (Variable Selected). Zmienne w skupieniach są uporządkowane rosnąco według wartości (1-R2) Ratio 28

Variable Clusters - wyniki Skupienia są dobrze wyodrębnione, o czym świadczą małe wartości 2 R I O poprawnym skupianiu świadczą też małe wartości (1-R2) Ratio. Z tablicy możemy odczytać, że najlepsze zmienne w poszczególnych skupieniach to: CLUS1 - pieczywo, CLUS2 - napoje, CLUS3 - wódki, CLUS4 - ryż, CLUS5 - owoce. Mogą być one wybrane jako reprezentanty grup. 29

Variable Clusters - wyniki Tablica Selected Variable zawiera statystyki dotyczące wybranych skupień. Tutaj są to komponenty. 30