Eksploracja Danych. Projekt zaliczeniowy. Marek Lewandowski inf59817

Transkrypt

1 Eksploracja Danych Projekt zaliczeniowy Marek Lewandowski inf59817

2 Spis treści: 1 Zadanie Zadanie Zadanie Zadanie Zadanie Zadanie Zadanie k- Means O Cluster: Zadanie Zadanie Zadanie

3 1 Zadanie 1. Wybierając atrybuty, w których poszukiwałem osobliwości, koncentrowałem się na atrybutach numerycznych, których zakres zmienności określony był jako ciągły. Sądzę, iż tylko w przypadku tych atrybutów jest sens analizy histogramów pod kątem wartości średnich i zakresu atrybutu. Do usuwania osobliwości wybrałem następujące atrybuty: AHRSPAY, DIVVAL, CAPGAIN, CAPLOSS. Są to atrybuty numeryczne, ciągłe. Wartości średnie dla tych atrybutów mogą być mylące, ponieważ zdecydowana większość wartości wymienionych atrybutów to 0 (dla AHRSPAY: , DIVVAL: , CAPGAIN: , CAPLOSS: ). Czy zatem jako osobliwości należy traktować wartości, które są niezerowe? Wniosek taki nasuwa się po analizie histogramów:

4

5 Do oznaczania osobliwości użyłem następujących metod: - dla atrybutu AHRSPAY użyłem opcji value jako min określając 0, a max Odchylenie standardowe było w przypadku tego atrybutu względnie niskie (258,42), a liczba wartości z zakresu duża (ponad czterokrotnie większa niż liczba wszystkich wartości większych niż 1300). Dlatego wartości AHRSPAY większe niż 1300 uznałem za właściwe osobliwości. - dla atrybutów DIVVAL, CAPGAIN i CAPLOSS zastosowałem metodę odchyleń standardowych, która jako osobliwości potraktowała wartości różniące się od średniej o więcej niż trzykrotność odchylenia standardowego. Z histogramów widać, że jako osobliwości zostaną potraktowane tylko wartości wyraźnie różniące się od średniej (bardzo zaburzające wartość średnią a co za tym idzie i odchylenie standardowe). Każdorazowo jako wartości zastępujące (Replace with) wskazywałem wartości graniczne (edge values). Sądzę, iż użycie wartości pustych (NULL) spowodowałoby utratę informacji o wielu wartościach, co mogłoby stanowić zafałszowanie porównywalne z występowaniem osobliwości w danych. Histogramy po operacji wyznaczenia osobliwości wyglądają następująco:

6

7

8 2 Zadanie 2. Obsługa brakujących wartości Atrybuty zawierające brakujące wartości to: GRINST, MIGMTR1, MIGMTR3, MIGMTR4, MIGSUN, PEMNTVTY, PENATVTY Atrybut Wartość dominująca Zamiana GRINST Not in universe Tak MIGMTR1? Tak MIGMTR3? Tak MIGMTR4? Tak MIGSUN? Tak PENATVTY United States Tak PEMTVTY United States Tak PEFNTVTY United States Tak Wszystkie wartości? dla wszystkich atrybutów udało się zamienić na Not in universe. Zamiany dokonałem za pomocą opcji Recode funkcji Transform menu kontekstowego perspektywy powstałej w wyniku wykonania polecenia do zadania 1.

9 3 Zadanie 3 Do normalizacji wybrałem następujące atrybuty numeryczne: WKSWORK, NOEMP, MARSUWPT, CAPLOSS, CAPGAIN, AHRSPAY, DIVVAL. Jako metodę normalizacji wybrałem skalowanie liniowe, gdzie jako nową wartość maksymalną podałem 1, a nową wartość minimalną 0. Wybierając tę metodę normalizacji sugerowałem się wielkościami średnich i odchyleń standardowych danych. Poza tym większość wartości normalizowanych atrybutów miała wartość 0 (podczas normalizacji metodą skalowania odchyleń standardowych wartości, które oryginalnie wynosiły 0, zmieniały się na wartości ujemne, co powodowało, że uzyskane w wyniku takiej normalizacji rezultaty były mało intuicyjne). W census-income.names atrybut MARSUWPT oznaczony jest jako ignore. Skoro jednak określa on względną wagę instancji reprezentowanej przez każdy wiersz, zatem normalizacja tego atrybutu nie spowoduje żadnej szkody w danych. 4 Zadanie 4 Do dyskretyzacji atrybutów numerycznych wybrałem atrybuty AAGE. Sądzę, że wiek jest idealnym kandydatem do dyskretyzacji (proponuję przedziały o równej szerokości). Dyskretyzacja atrybutów ADTIND, ADTOCC mimo iż pozornie łatwa do przeprowadzenia, nie miałaby większego sensu, chyba że format kodów ADTIND i ADTOCC posiada ukryte informacje (np. w prefiksie datailed industry code zawarta jest informacja o rodzaju przemysłu), założyłem jednak, że tak nie jest. Wybrałem dyskretyzację equal width dla automatycznie obliczonych szerokości przedziałów (co 9 lat). Uważam, że taki podział umożliwi łatwiejszą analizę danych pod kątem poszczególnych grup wiekowych.

10 Histogram przed dyskretyzacją: Histogram po dyskretyzacji:

11 5 Zadanie 5. Poniżej znajduje się kod tworzący perspektywę zawierającą dane po dyskretyzacji, zarówno dla polecenia z zadania 4 jak i 5: SELECT ( CASE WHEN "AAGE" < 9 THEN 1 WHEN "AAGE" >= 9 AND "AAGE" < 18 THEN 2 WHEN "AAGE" >= 18 AND "AAGE" < 27 THEN 3 WHEN "AAGE" >= 27 AND "AAGE" < 36 THEN 4 WHEN "AAGE" >= 36 AND "AAGE" < 45 THEN 5 WHEN "AAGE" >= 45 AND "AAGE" < 54 THEN 6 WHEN "AAGE" >= 54 AND "AAGE" < 63 THEN 7 WHEN "AAGE" >= 63 AND "AAGE" < 72 THEN 8 WHEN "AAGE" >= 72 AND "AAGE" < 81 THEN 9 WHEN "AAGE" >= 81 THEN 10 else null end) "AAGE", "ACLSWKR", "ADTIND", "ADTOCC", "AHGA", "AHRSPAY", "AHSCOL", DECODE ("AMARITL",'Married-A F spouse present','1','married-civilian spouse present','1','married-spouse absent','1',null,null,'2') "AMARITL", "AMJIND", "AMJOCC", "ARACE", "AREORGN", "ASEX", "AUNMEM", "AUNTYPE", "AWKSTAT", "CAPGAIN", "CAPLOSS", "DIVVAL", "FEDTAX", "GRINREG", "GRINST", "HHDFMX", "HHDREL", "INCOME", "MARSUPWT", "MIGMTR1", "MIGMTR3", "MIGMTR4", "MIGSAME", "MIGSUN", "NOEMP", "PARENT", "PEFNTVTY", "PEMNTVTY", "PENATVTY", "PRCITSHP", "SEOTR", "VETQVA", "VETYN", "WKSWORK", "YEAR" FROM "INF59817"."CENSUS_NORMALIZE"

12 Histogram przed dyskretyzacją: Histogram po dyskretyzacji:

13 6 Zadanie 6 Procedurę określania ważności atrybutów przeprowadziłem z i bez dyskretyzacji atrybutów. Wyniki procedury określania ważności atrybutów dla dyskretyzacji atrybutów numerycznych metodą Quantile Binning i Equal Width Binning nie różniły się znacząco. Krok dyskretyzacja wyłączony: Atrybut Ważność ADTOCC AHGA AMJOCC YEAR GRINST AHRSPAY

14 Krok dyskretyzacja włączony: Atrybut Ważność AHGA AMJOCC AMJIND AHRSPAY 0 WKSWORK 0 GRINST Ujawniły się znaczące różnice w ważności atrybutów w przypadku przeprowadzania procedury określania ważności z dyskretyzacją atrybutów i bez niej. Jednak w obu rankingach wysoko (pierwsza trójka rankingu) zajmuje atrybut AHGA oraz AMJOCC, a nisko AHRSPAY i GRINST (ostatnia trójka). Widać zatem, że atrybut AHGA dosyć czysto klasyfikuje poszczególne krotki: select count(*), income, amjocc from census group by income, amjocc order by amjocc;

15 Można zatem przyjąć, że niezależnie od szczegółów przeprowadzania klasyfikacji ważności atrybutów, najważniejszymi są: AHGA i AMJOCC, a najmniej ważnymi: GRINST i AHRSPAY. Wpływ na ranking może jednak mieć też liczba różnych wartości poszczególnych atrybutów, która w przypadku AHGA i AMJOCC jest względnie niska. Uzyskany wynik jest zgodny z intuicją. Najważniejsze atrybuty określają poziom wykształcenia i zajmowane stanowisko. Znikoma ważność atrybutów określających liczbę godzin pracy i zarobek uzyskiwany w przeliczeniu na jedną godzinę, może być tłumaczona jako brak danych (trudno uważać zarobek równy 0 jako rzeczywiste dane). 7 Zadanie k- Means Mimo wielu prób nie udało mi się idealnie zbilansować rozkładu instancji pomiędzy skupienia. W każdym eksperymencie jedno ze skupień gromadziło 50% instancji (cluster 3 na rysunku poniżej). Dla 3 skupień i 5 iteracji uzyskałem podział: 50% - 25% - 25%. W miarę zwiększania liczby skupień, malała liczebność klastrów o wyższych id, przy niezmienionej liczebności klastrów o niskich id (zauważalna była tendencja do dążenia do rozkładu: 50% - 25% - 13% - ).

16 Do bliższej analizy postanowiłem wybrać klaster o id = 4 spośród klastrów wyłonionych podczas podziału na 5 skupień w 6 iteracjach. Cecha skupienia Wartość Liczebność Confidence (%) Support Do omawianego skupienia należą dane spełniające poniższy warunek: AAGE <= 9.1 and AAGE >= 1.0 and ACLSWKR in (Not in universe) and ADTIND <= and ADTIND >= 0.0 and ADTOCC <= and ADTOCC >= 0.0 and AHGA in (10th grade, 11th grade, 7th and 8th grade, 9th grade, Children, High school graduate, Some college but no degree) and AHRSPAY <= and AHRSPAY >= 0.0 and AHSCOL in (Not in universe) and AMARITL in (2.0) and AMJIND in (Not in universe or children) and AMJOCC in (Not in universe) and ARACE in (Black, White) and AREORGN in (All other, Mexican-American) and ASEX in (Female, Male) and AUNMEM in (Not in universe) and AUNTYPE in (Not in universe) and AWKSTAT in (Children or Armed Forces) and CAPGAIN <= and CAPGAIN >= 0.0 and CAPLOSS <= and CAPLOSS >= 0.0 and DIVVAL <= and DIVVAL >= 0.0 and FEDTAX in (Nonfiler) and GRINREG in (Not in universe) and GRINST in (California, Not in universe, Utah) and HHDFMX in (Child 18+ never marr Not in a subfamily, Child <18 never marr not in subfamily, Grandchild <18 never marr child of subfamily RP, Householder, Nonfamily householder, Other Rel 18+ ever marr not in subfamily, Secondary individual) and

17 HHDREL in (Child under 18 never married, Householder, Other relative of householder) and INCOME in ( ) and MIGMTR1 in (MSA to MSA, Nonmover) and MIGMTR3 in (Nonmover, Same county) and MIGMTR4 in (Nonmover, Same county) and MIGSAME in (Yes) and MIGSUN in (Not in universe) and NOEMP <= 0.1 and NOEMP >= 0.0 and PARENT in (Both parents present, Mother only present, Not in universe) and PEFNTVTY in (Mexico, 'Not in universe', Puerto-Rico, United-States) and PEMNTVTY in (Mexico, 'Not in universe', Puerto-Rico, United-States) and PENATVTY in (Mexico, United-States) and PRCITSHP in (Native- Born in the United States) and SEOTR in (0.0) and VETQVA in (Not in universe) and VETYN in (0.0,2.0) and WKSWORK <= 0.1 and WKSWORK >= 0.0 and YEAR in (94.0) Poniżej znajduje się tabela wartości środkowych (centroid value) dla każdego atrybutu wybranego przeze mnie skupienia: AAGE ACLSWKR Not in universe ADTIND ADTOCC AHGA Children AHRSPAY E-5 AHSCOL Not in universe AMARITL 2 AMJIND Not in universe or children AMJOCC Not in universe ARACE White AREORGN All other ASEX Female AUNMEM Not in universe AUNTYPE Not in universe AWKSTAT Children or Armed Forces CAPGAIN E-4 CAPLOSS E-5 DIVVAL E-4 FEDTAX Nonfiler GRINREG Not in universe GRINST Not in universe HHDFMX Child <18 never marr not in subfamily HHDREL Child under 18 never married INCOME MIGMTR1 Nonmover MIGMTR3 Nonmover MIGMTR4 Nonmover MIGSAME Yes MIGSUN Not in universe NOEMP PARENT Both parents present PEFNTVTY United-States PEMNTVTY United-States PENATVTY United-States PRCITSHP Native- Born in the United States SEOTR 0 VETQVA Not in universe VETYN 0 WKSWORK YEAR 94

18 Na podstawie przeanalizowanych histogramów zakładam, że do wybranego przeze mnie skupienia należą osoby spełniające poniższe warunki: - wiek: do 27 lat (73% instancji w skupieniu ma mniej niż 27 lat) - wykształcenie: children lub high school graduate (łącznie 72% instancji) - płaca na godzinę: bardzo niska płaca, lub jej brak (99% instancji) - stan cywilny: brak współmałżonka (99% instancji przypisanych do kategorii 2 z zadania 5) - major industry code (branża zatrudnienia?): Not in universe or children (99% instancji) - rasa: biała (80% instancji) - typ pracy: children or armed forces (co za opcja...) (99% instancji) - dywidendy oraz zyski i straty na giełdzie: bardzo niskie, lub zerowe. - grupa podatkowa: nonfiler (91% instancji) - status rodzinny: dziecko poniżej 18 roku życia, stan wolny, nie w podrodzinie (66% instancji) - zmiana miejsca zamieszkania: nie (81% instancji) - ten sam dom od zeszłego roku: tak (81% instancji) - miejsce urodzenia rodziców: USA (matki: 80%, ojcowie: 79%) - miejsce urodzenia: USA (92%) Można zatem przyjąć, że sklasyfikowana przez to skupienie grupa ludzi to dzieci (lub młodzież), urodzonych w USA, których oboje rodzice pochodzą z USA. Są to osoby należące do rasy białej, nigdzie niepracujące, niegrające na giełdzie, niebędące w związku małżeńskim. Osobnicy ci maja niskie wykształcenie (najprawdopodobniej są w trakcie edukacji) i w ciągu ostatniego roku nie zmienili miejsca zamieszkania. 7.2 O Cluster: W zaawansowanych ustawieniach podczas definicji zadania podałem liczbę skupień równą 5 (aby uzyskać zgodność z wynikami z poprzedniej części zadania). Algorytm podzielił wejściowy zbiór danych na 5 skupień (przy zastosowaniu domyślnej liczby skupień <10> uzyskałem 10 klastórw). Łatwo zauważyć, że algorytm O Cluster podzielił dane na zbiory o bardzo zbliżonej liczności.

19 Skupienie, które odpowiada klastrowi o id 4 z pierwszej części zadania to skupienie o id = 6. Poniżej znajduje się tabela wartości środkowych (centroid value) dla każdego z atrybutów z klastra o id = 6: AAGE 2.5 ACLSWKR Not in universe ADTIND ADTOCC AHGA Children AHRSPAY AHSCOL Not in universe AMARITL 2 AMJIND Not in universe or children AMJOCC Not in universe ARACE White AREORGN All other ASEX Male AUNMEM Not in universe AUNTYPE Not in universe AWKSTAT Children or Armed Forces CAPGAIN DIVVAL FEDTAX Nonfiler GRINREG Not in universe GRINST Not in universe HHDFMX Child <18 never marr not in subfamily HHDREL Child under 18 never married INCOME MIGMTR1 'Not in universe' MIGMTR3 'Not in universe' MIGMTR4 'Not in universe' MIGSAME Not in universe under 1 year old MIGSUN 'Not in universe' NOEMP PARENT Both parents present PEFNTVTY United-States PEMNTVTY United-States PENATVTY United-States PRCITSHP Native- Born in the United States SEOTR 0 VETQVA Not in universe VETYN 0 WKSWORK YEAR 94 Do tego skupienia należą instancje spełniające poniższy warunek: AAGE <= 3.0 and AAGE >= 1.0 and ACLSWKR equal (Not in universe) and ADTIND = E-45 and ADTOCC = E-45 and AHGA in (10th grade, 9th grade, Children, High school graduate, Some college but no degree) and AHRSPAY = E-45 and AHSCOL equal (Not in universe) and AMARITL = 2.0 and AMJIND equal (Not in universe or children) and AMJOCC equal (Not in universe) and ARACE in (Black, White) and AREORGN in (All other, Mexican-American) and ASEX in (Female, Male) and AUNMEM equal (Not in universe) and AUNTYPE equal (Not in universe) and AWKSTAT in (Children or Armed Forces, Not in labor force) and CAPGAIN = E-45 and

20 DIVVAL = E-45 and FEDTAX equal (Nonfiler) and GRINREG equal (Not in universe) and GRINST equal (Not in universe) and HHDFMX in (Child 18+ never marr Not in a subfamily, Child <18 never marr not in subfamily) and HHDREL in (Child 18 or older, Child under 18 never married) and INCOME equal ( ) and MIGMTR1 in (MSA to MSA, Nonmover, 'Not in universe') and MIGMTR3 in (Nonmover, 'Not in universe') and MIGMTR4 in (Nonmover, 'Not in universe', Same county) and MIGSAME in (Not in universe under 1 year old, Yes) and MIGSUN in ('Not in universe', Not in universe) and NOEMP = E-45 and PARENT in (Both parents present, Mother only present) and PEFNTVTY in (Mexico, 'Not in universe', Puerto-Rico, United-States) and PEMNTVTY in (Mexico, 'Not in universe', Puerto-Rico, United-States) and PENATVTY in (Mexico, United-States) and PRCITSHP equal (Native- Born in the United States) and SEOTR = 0.0 and VETQVA equal (Not in universe) and VETYN in (0.0,2.0) and WKSWORK = E-45 and YEAR in (94.0,95.0) Nie ma znaczących różnic pomiędzy powyższym skupieniem, a tym analizowanym w pierwszej części zadania. Skupienie odnalezione przez algorytm O Cluster różni się od skupienia znalezionego przez k Means dla kilku wartości środkowych (m.in. tych dotyczących historii przeprowadzek w ostatnim roku oraz płci), jednak z histogramów widać, iż różnice, między aktualnymi wartościami środkowymi a wartościami, które są na drugim miejscu pod względem procentowego udziału (a dla danych wynikowych algorytmu k-means są wartościami środkowymi), są nieznaczne. Wiersze puste w tabeli wartości środkowych dla poszczególnych atrybutów, powinny być wypełnione wartościami 0 lub bardzo do nich zbliżonymi. Prawdopodobnie precyzja wyniku, bądź jego długość przekraczały przewidziane dla nich miejsce w tabeli:

21 8 Zadanie 8 Algorytm NNMF znalazł 41 cech. Do porównania z cechami znalezionymi przez k Means / O Cluster wybrałem cechę 26: Wyniki posortowałem malejąco według tabeli współczynników Coefficient. Sądzę, iż wybrana przeze mnie cecha odpowiada skupieniom odnalezionym i analizowanym w zadaniu 7: cecha posiada najwyższe współczynniki dla atrybutów i przyjmowanych przez nich będących niejako wyznacznikami skupień znalezionych zarówno przez k Means jak i O Cluster (przede wszystkim atrybuty określające miejsce urodzenia, pochodzenie, historię zmian miejsc zamieszkania, rasę, grupę podatkową, wykształcenie, pozycję w rodzinie, stan cywilny, itd.).

22 9 Zadanie 9 W skład modelu włączyłem następujące atrybuty: AMJOCC, PENATVTY, AHGA, HHDREL, SEOTR, PRCITSHP, AMARITL, ARACE, ASEX, AWKSTAT, FEDTAX, HHDFMX, AAGE, NOEMP, CAPGAIN. Wybrałem atrybuty, które nie przyjmowały, lub przyjmowały mało wartości Not in universe. Jako parametry singleton threshold i pairwise threshold przyjąłem 0. Macierz pomyłek:

23 Macierz kosztów: 10 Zadanie 10 W skład budowy modelu włączyłem takie same atrybuty jak w zadaniu 9 (AMJOCC, PENATVTY, AHGA, HHDREL, SEOTR, PRCITSHP, AMARITL, ARACE, ASEX, AWKSTAT, FEDTAX, HHDFMX, AAGE, NOEMP, CAPGAIN). Parametry budowy drzewa decyzyjnego wyglądały następująco: - metryka: Gini - maksymalna głębokość: 9 - minimalna liczba rekordów w wierzchołku: 5 - minimalny procent rekordów w wierzchołku: 0,01 - minimalna liczba rekordów dla podziału: 10 - minimalny procent rekordów dla podziału: 0,1 Zauważyłem, że poprawność klasyfikatora jest w znacznym stopniu uzależniona od maksymalnej głębokości drzewa (wzrost poprawności o 400% <29 punktów procentowych> dla głębokości 9 w stosunku do głębokości 8). Niestety system nie pozwolił na przeprowadzenie eksperymentu dla maksymalnej głębokości większej niż 9 (błąd związany z brakiem zasobów pamięciowych).

24 Po zbudowaniu modelu uzyskałem następujące wyniki: Macierz pomyłek:

25 Po zastosowaniu modelu do danych z tabeli CENSUS_TEST: a) wynik klasyfikacji wg rosnącego prawdopodobieństwa: b) wynik klasyfikacji wg malejącego prawdopodobieństwa:

26 Macierz kosztów: