Eksploracja Danych. Projekt zaliczeniowy. Marek Lewandowski lewandowski.marek@gmail.com inf59817



Podobne dokumenty
projekt zaliczeniowy Eksploracja Danych

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.

Laboratorium 4. Naiwny klasyfikator Bayesa.

Laboratorium 6. Indukcja drzew decyzyjnych.

Laboratorium 11. Regresja SVM.

SQL (ang. Structured Query Language)

Laboratorium 12. Odkrywanie osobliwości.

Kontekstowe wskaźniki efektywności nauczania - warsztaty

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Określanie ważności atrybutów. RapidMiner

Bazy danych 6. Klucze obce. P. F. Góra

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Autor: Joanna Karwowska

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Autor: Joanna Karwowska

Niestandardowa tabela częstości

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Podstawy statystyki - ćwiczenia r.

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Data Mining podstawy analizy danych Część druga

S t a t y s t y k a, część 3. Michał Żmihorski

Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 zajęcia: środa, 9.

Laboratorium 5. Adaptatywna sieć Bayesa.

Wykład XII. optymalizacja w relacyjnych bazach danych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Projekt Sieci neuronowe

dodatkowe operacje dla kopca binarnego: typu min oraz typu max:

Inteligentna analiza danych

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

PL/SQL. Funkcje wbudowane

Raport z badań preferencji licealistów

Podstawowe definicje statystyczne

Część 2: Data Mining

Wykład 4: Statystyki opisowe (część 1)

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Analiza danych. TEMATYKA PRZEDMIOTU

QUERY język zapytań do tworzenia raportów w AS/400

TRANSFORMACJE I JAKOŚĆ DANYCH

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Uzupełnij pola tabeli zgodnie z przykładem poniżej,

Podstawowe zapytania SELECT (na jednej tabeli)

Statystyki opisowe i szeregi rozdzielcze

Wykład 5. SQL praca z tabelami 2

Analiza progu rentowności

1: 2: 3: 4: 5: 6: 7: 8: 9: 10:

Wyzwalacz - procedura wyzwalana, składowana fizycznie w bazie, uruchamiana automatycznie po nastąpieniu określonego w definicji zdarzenia

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1

Advanced Tax File Edit

Procedury wyzwalane. (c) Instytut Informatyki Politechniki Poznańskiej 1

Baza numerów Wersja 1.1

Metody klasyfikacji danych - część 1 p.1/24

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Optymalizacja poleceń SQL Metody dostępu do danych

RAPORT ZBIORCZY z diagnozy Matematyka PP

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

1. Tworzenie tabeli. 2. Umieszczanie danych w tabeli

Elementy statystyki wielowymiarowej

AiSD zadanie trzecie

Język SQL. Rozdział 2. Proste zapytania

Zadania ze statystyki, cz.6

ALGORYTM RANDOM FOREST

Bazy danych. Plan wykładu. Diagramy ER. Podstawy modeli relacyjnych. Podstawy modeli relacyjnych. Podstawy modeli relacyjnych

2. Ocena dokładności modelu klasyfikacji:

Sposoby prezentacji problemów w statystyce

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Systemy uczące się Lab 4

SQL, LIKE, IN, CASE, EXISTS. Marcin Orchel

Za pierwszy niebanalny algorytm uważa się algorytm Euklidesa wyszukiwanie NWD dwóch liczb (400 a 300 rok przed narodzeniem Chrystusa).

2. Empiryczna wersja klasyfikatora bayesowskiego

Przykładowa baza danych BIBLIOTEKA

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Agnieszka Nowak Brzezińska Wykład III

Laboratorium Bazy danych SQL 3 1

5 Błąd średniokwadratowy i obciążenie

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

4.3 Grupowanie według podobieństwa

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Język SQL. Rozdział 4. Funkcje grupowe Funkcje grupowe, podział relacji na grupy, klauzule GROUP BY i HAVING.

STATYKA Z UWZGLĘDNIENIEM DUŻYCH SIŁ OSIOWYCH

Systemy uczące się wykład 2

Podzapytania. Rozdział 5. Podzapytania. Podzapytania wyznaczające wiele krotek (1) Podzapytania wyznaczające jedną krotkę

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Struktura bazy danych

SQL do zaawansowanych analiz danych część 1.

Wnioskowanie statystyczne. Statystyka w 5

Dopasowywanie modelu do danych

5. Bazy danych Base Okno bazy danych

Informatyzacja Przedsiębiorstw

RAPORT z diagnozy umiejętności matematycznych

Transkrypt:

Eksploracja Danych Projekt zaliczeniowy Marek Lewandowski lewandowski.marek@gmail.com inf59817

Spis treści: 1 Zadanie 1... 3 2 Zadanie 2... 8 3 Zadanie 3... 9 4 Zadanie 4... 9 5 Zadanie 5... 11 6 Zadanie 6... 13 7 Zadanie 7... 15 7.1 k- Means... 15 7.2 O Cluster:... 18 8 Zadanie 8... 21 9 Zadanie 9... 22 10 Zadanie 10... 23

1 Zadanie 1. Wybierając atrybuty, w których poszukiwałem osobliwości, koncentrowałem się na atrybutach numerycznych, których zakres zmienności określony był jako ciągły. Sądzę, iż tylko w przypadku tych atrybutów jest sens analizy histogramów pod kątem wartości średnich i zakresu atrybutu. Do usuwania osobliwości wybrałem następujące atrybuty: AHRSPAY, DIVVAL, CAPGAIN, CAPLOSS. Są to atrybuty numeryczne, ciągłe. Wartości średnie dla tych atrybutów mogą być mylące, ponieważ zdecydowana większość wartości wymienionych atrybutów to 0 (dla AHRSPAY: 188219, DIVVAL: 178382, CAPGAIN: 192144, CAPLOSS: 195617). Czy zatem jako osobliwości należy traktować wartości, które są niezerowe? Wniosek taki nasuwa się po analizie histogramów:

Do oznaczania osobliwości użyłem następujących metod: - dla atrybutu AHRSPAY użyłem opcji value jako min określając 0, a max 1300. Odchylenie standardowe było w przypadku tego atrybutu względnie niskie (258,42), a liczba wartości z zakresu 220 1300 duża (ponad czterokrotnie większa niż liczba wszystkich wartości większych niż 1300). Dlatego wartości AHRSPAY większe niż 1300 uznałem za właściwe osobliwości. - dla atrybutów DIVVAL, CAPGAIN i CAPLOSS zastosowałem metodę odchyleń standardowych, która jako osobliwości potraktowała wartości różniące się od średniej o więcej niż trzykrotność odchylenia standardowego. Z histogramów widać, że jako osobliwości zostaną potraktowane tylko wartości wyraźnie różniące się od średniej (bardzo zaburzające wartość średnią a co za tym idzie i odchylenie standardowe). Każdorazowo jako wartości zastępujące (Replace with) wskazywałem wartości graniczne (edge values). Sądzę, iż użycie wartości pustych (NULL) spowodowałoby utratę informacji o wielu wartościach, co mogłoby stanowić zafałszowanie porównywalne z występowaniem osobliwości w danych. Histogramy po operacji wyznaczenia osobliwości wyglądają następująco:

2 Zadanie 2. Obsługa brakujących wartości Atrybuty zawierające brakujące wartości to: GRINST, MIGMTR1, MIGMTR3, MIGMTR4, MIGSUN, PEMNTVTY, PENATVTY Atrybut Wartość dominująca Zamiana GRINST Not in universe Tak MIGMTR1? Tak MIGMTR3? Tak MIGMTR4? Tak MIGSUN? Tak PENATVTY United States Tak PEMTVTY United States Tak PEFNTVTY United States Tak Wszystkie wartości? dla wszystkich atrybutów udało się zamienić na Not in universe. Zamiany dokonałem za pomocą opcji Recode funkcji Transform menu kontekstowego perspektywy powstałej w wyniku wykonania polecenia do zadania 1.

3 Zadanie 3 Do normalizacji wybrałem następujące atrybuty numeryczne: WKSWORK, NOEMP, MARSUWPT, CAPLOSS, CAPGAIN, AHRSPAY, DIVVAL. Jako metodę normalizacji wybrałem skalowanie liniowe, gdzie jako nową wartość maksymalną podałem 1, a nową wartość minimalną 0. Wybierając tę metodę normalizacji sugerowałem się wielkościami średnich i odchyleń standardowych danych. Poza tym większość wartości normalizowanych atrybutów miała wartość 0 (podczas normalizacji metodą skalowania odchyleń standardowych wartości, które oryginalnie wynosiły 0, zmieniały się na wartości ujemne, co powodowało, że uzyskane w wyniku takiej normalizacji rezultaty były mało intuicyjne). W census-income.names atrybut MARSUWPT oznaczony jest jako ignore. Skoro jednak określa on względną wagę instancji reprezentowanej przez każdy wiersz, zatem normalizacja tego atrybutu nie spowoduje żadnej szkody w danych. 4 Zadanie 4 Do dyskretyzacji atrybutów numerycznych wybrałem atrybuty AAGE. Sądzę, że wiek jest idealnym kandydatem do dyskretyzacji (proponuję przedziały o równej szerokości). Dyskretyzacja atrybutów ADTIND, ADTOCC mimo iż pozornie łatwa do przeprowadzenia, nie miałaby większego sensu, chyba że format kodów ADTIND i ADTOCC posiada ukryte informacje (np. w prefiksie datailed industry code zawarta jest informacja o rodzaju przemysłu), założyłem jednak, że tak nie jest. Wybrałem dyskretyzację equal width dla automatycznie obliczonych szerokości przedziałów (co 9 lat). Uważam, że taki podział umożliwi łatwiejszą analizę danych pod kątem poszczególnych grup wiekowych.

Histogram przed dyskretyzacją: Histogram po dyskretyzacji:

5 Zadanie 5. Poniżej znajduje się kod tworzący perspektywę zawierającą dane po dyskretyzacji, zarówno dla polecenia z zadania 4 jak i 5: SELECT ( CASE WHEN "AAGE" < 9 THEN 1 WHEN "AAGE" >= 9 AND "AAGE" < 18 THEN 2 WHEN "AAGE" >= 18 AND "AAGE" < 27 THEN 3 WHEN "AAGE" >= 27 AND "AAGE" < 36 THEN 4 WHEN "AAGE" >= 36 AND "AAGE" < 45 THEN 5 WHEN "AAGE" >= 45 AND "AAGE" < 54 THEN 6 WHEN "AAGE" >= 54 AND "AAGE" < 63 THEN 7 WHEN "AAGE" >= 63 AND "AAGE" < 72 THEN 8 WHEN "AAGE" >= 72 AND "AAGE" < 81 THEN 9 WHEN "AAGE" >= 81 THEN 10 else null end) "AAGE", "ACLSWKR", "ADTIND", "ADTOCC", "AHGA", "AHRSPAY", "AHSCOL", DECODE ("AMARITL",'Married-A F spouse present','1','married-civilian spouse present','1','married-spouse absent','1',null,null,'2') "AMARITL", "AMJIND", "AMJOCC", "ARACE", "AREORGN", "ASEX", "AUNMEM", "AUNTYPE", "AWKSTAT", "CAPGAIN", "CAPLOSS", "DIVVAL", "FEDTAX", "GRINREG", "GRINST", "HHDFMX", "HHDREL", "INCOME", "MARSUPWT", "MIGMTR1", "MIGMTR3", "MIGMTR4", "MIGSAME", "MIGSUN", "NOEMP", "PARENT", "PEFNTVTY", "PEMNTVTY", "PENATVTY", "PRCITSHP", "SEOTR", "VETQVA", "VETYN", "WKSWORK", "YEAR" FROM "INF59817"."CENSUS_NORMALIZE"

Histogram przed dyskretyzacją: Histogram po dyskretyzacji:

6 Zadanie 6 Procedurę określania ważności atrybutów przeprowadziłem z i bez dyskretyzacji atrybutów. Wyniki procedury określania ważności atrybutów dla dyskretyzacji atrybutów numerycznych metodą Quantile Binning i Equal Width Binning nie różniły się znacząco. Krok dyskretyzacja wyłączony: Atrybut Ważność ADTOCC 0.090134213 AHGA 0.079948503 AMJOCC 0.076178741 YEAR 0.0000797180 GRINST -0.001011887 AHRSPAY -0.004155536

Krok dyskretyzacja włączony: Atrybut Ważność AHGA 0.079948503 AMJOCC 0.076178741 AMJIND 0.052258709 AHRSPAY 0 WKSWORK 0 GRINST -0.001011887 Ujawniły się znaczące różnice w ważności atrybutów w przypadku przeprowadzania procedury określania ważności z dyskretyzacją atrybutów i bez niej. Jednak w obu rankingach wysoko (pierwsza trójka rankingu) zajmuje atrybut AHGA oraz AMJOCC, a nisko AHRSPAY i GRINST (ostatnia trójka). Widać zatem, że atrybut AHGA dosyć czysto klasyfikuje poszczególne krotki: select count(*), income, amjocc from census group by income, amjocc order by amjocc;

Można zatem przyjąć, że niezależnie od szczegółów przeprowadzania klasyfikacji ważności atrybutów, najważniejszymi są: AHGA i AMJOCC, a najmniej ważnymi: GRINST i AHRSPAY. Wpływ na ranking może jednak mieć też liczba różnych wartości poszczególnych atrybutów, która w przypadku AHGA i AMJOCC jest względnie niska. Uzyskany wynik jest zgodny z intuicją. Najważniejsze atrybuty określają poziom wykształcenia i zajmowane stanowisko. Znikoma ważność atrybutów określających liczbę godzin pracy i zarobek uzyskiwany w przeliczeniu na jedną godzinę, może być tłumaczona jako brak danych (trudno uważać zarobek równy 0 jako rzeczywiste dane). 7 Zadanie 7 7.1 k- Means Mimo wielu prób nie udało mi się idealnie zbilansować rozkładu instancji pomiędzy skupienia. W każdym eksperymencie jedno ze skupień gromadziło 50% instancji (cluster 3 na rysunku poniżej). Dla 3 skupień i 5 iteracji uzyskałem podział: 50% - 25% - 25%. W miarę zwiększania liczby skupień, malała liczebność klastrów o wyższych id, przy niezmienionej liczebności klastrów o niskich id (zauważalna była tendencja do dążenia do rozkładu: 50% - 25% - 13% - ).

Do bliższej analizy postanowiłem wybrać klaster o id = 4 spośród klastrów wyłonionych podczas podziału na 5 skupień w 6 iteracjach. Cecha skupienia Wartość Liczebność 36687 Confidence (%) 0.815329680813367 Support 29912 Do omawianego skupienia należą dane spełniające poniższy warunek: AAGE <= 9.1 and AAGE >= 1.0 and ACLSWKR in (Not in universe) and ADTIND <= 5.1000000000000005 and ADTIND >= 0.0 and ADTOCC <= 4.6000000000000005 and ADTOCC >= 0.0 and AHGA in (10th grade, 11th grade, 7th and 8th grade, 9th grade, Children, High school graduate, Some college but no degree) and AHRSPAY <= 0.05500000000000001 and AHRSPAY >= 0.0 and AHSCOL in (Not in universe) and AMARITL in (2.0) and AMJIND in (Not in universe or children) and AMJOCC in (Not in universe) and ARACE in (Black, White) and AREORGN in (All other, Mexican-American) and ASEX in (Female, Male) and AUNMEM in (Not in universe) and AUNTYPE in (Not in universe) and AWKSTAT in (Children or Armed Forces) and CAPGAIN <= 0.029326775493282303 and CAPGAIN >= 0.0 and CAPLOSS <= 0.0409090909090909 and CAPLOSS >= 0.0 and DIVVAL <= 0.021973688995737303 and DIVVAL >= 0.0 and FEDTAX in (Nonfiler) and GRINREG in (Not in universe) and GRINST in (California, Not in universe, Utah) and HHDFMX in (Child 18+ never marr Not in a subfamily, Child <18 never marr not in subfamily, Grandchild <18 never marr child of subfamily RP, Householder, Nonfamily householder, Other Rel 18+ ever marr not in subfamily, Secondary individual) and

HHDREL in (Child under 18 never married, Householder, Other relative of householder) and INCOME in (- 50000) and MIGMTR1 in (MSA to MSA, Nonmover) and MIGMTR3 in (Nonmover, Same county) and MIGMTR4 in (Nonmover, Same county) and MIGSAME in (Yes) and MIGSUN in (Not in universe) and NOEMP <= 0.1 and NOEMP >= 0.0 and PARENT in (Both parents present, Mother only present, Not in universe) and PEFNTVTY in (Mexico, 'Not in universe', Puerto-Rico, United-States) and PEMNTVTY in (Mexico, 'Not in universe', Puerto-Rico, United-States) and PENATVTY in (Mexico, United-States) and PRCITSHP in (Native- Born in the United States) and SEOTR in (0.0) and VETQVA in (Not in universe) and VETYN in (0.0,2.0) and WKSWORK <= 0.1 and WKSWORK >= 0.0 and YEAR in (94.0) Poniżej znajduje się tabela wartości środkowych (centroid value) dla każdego atrybutu wybranego przeze mnie skupienia: AAGE 2.891378417423428 ACLSWKR Not in universe ADTIND 0.1295281707416794 ADTOCC 0.1306457328208906 AHGA Children AHRSPAY 1.6040056108745297E-5 AHSCOL Not in universe AMARITL 2 AMJIND Not in universe or children AMJOCC Not in universe ARACE White AREORGN All other ASEX Female AUNMEM Not in universe AUNTYPE Not in universe AWKSTAT Children or Armed Forces CAPGAIN 6.157401701247989E-4 CAPLOSS 3.038260050280656E-5 DIVVAL 9.455249323272783E-4 FEDTAX Nonfiler GRINREG Not in universe GRINST Not in universe HHDFMX Child <18 never marr not in subfamily HHDREL Child under 18 never married INCOME - 50000. MIGMTR1 Nonmover MIGMTR3 Nonmover MIGMTR4 Nonmover MIGSAME Yes MIGSUN Not in universe NOEMP 0.0157412707498569 PARENT Both parents present PEFNTVTY United-States PEMNTVTY United-States PENATVTY United-States PRCITSHP Native- Born in the United States SEOTR 0 VETQVA Not in universe VETYN 0 WKSWORK 0.00804361637217963 YEAR 94

Na podstawie przeanalizowanych histogramów zakładam, że do wybranego przeze mnie skupienia należą osoby spełniające poniższe warunki: - wiek: do 27 lat (73% instancji w skupieniu ma mniej niż 27 lat) - wykształcenie: children lub high school graduate (łącznie 72% instancji) - płaca na godzinę: bardzo niska płaca, lub jej brak (99% instancji) - stan cywilny: brak współmałżonka (99% instancji przypisanych do kategorii 2 z zadania 5) - major industry code (branża zatrudnienia?): Not in universe or children (99% instancji) - rasa: biała (80% instancji) - typ pracy: children or armed forces (co za opcja...) (99% instancji) - dywidendy oraz zyski i straty na giełdzie: bardzo niskie, lub zerowe. - grupa podatkowa: nonfiler (91% instancji) - status rodzinny: dziecko poniżej 18 roku życia, stan wolny, nie w podrodzinie (66% instancji) - zmiana miejsca zamieszkania: nie (81% instancji) - ten sam dom od zeszłego roku: tak (81% instancji) - miejsce urodzenia rodziców: USA (matki: 80%, ojcowie: 79%) - miejsce urodzenia: USA (92%) Można zatem przyjąć, że sklasyfikowana przez to skupienie grupa ludzi to dzieci (lub młodzież), urodzonych w USA, których oboje rodzice pochodzą z USA. Są to osoby należące do rasy białej, nigdzie niepracujące, niegrające na giełdzie, niebędące w związku małżeńskim. Osobnicy ci maja niskie wykształcenie (najprawdopodobniej są w trakcie edukacji) i w ciągu ostatniego roku nie zmienili miejsca zamieszkania. 7.2 O Cluster: W zaawansowanych ustawieniach podczas definicji zadania podałem liczbę skupień równą 5 (aby uzyskać zgodność z wynikami z poprzedniej części zadania). Algorytm podzielił wejściowy zbiór danych na 5 skupień (przy zastosowaniu domyślnej liczby skupień <10> uzyskałem 10 klastórw). Łatwo zauważyć, że algorytm O Cluster podzielił dane na zbiory o bardzo zbliżonej liczności.

Skupienie, które odpowiada klastrowi o id 4 z pierwszej części zadania to skupienie o id = 6. Poniżej znajduje się tabela wartości środkowych (centroid value) dla każdego z atrybutów z klastra o id = 6: AAGE 2.5 ACLSWKR Not in universe ADTIND ADTOCC AHGA Children AHRSPAY AHSCOL Not in universe AMARITL 2 AMJIND Not in universe or children AMJOCC Not in universe ARACE White AREORGN All other ASEX Male AUNMEM Not in universe AUNTYPE Not in universe AWKSTAT Children or Armed Forces CAPGAIN DIVVAL FEDTAX Nonfiler GRINREG Not in universe GRINST Not in universe HHDFMX Child <18 never marr not in subfamily HHDREL Child under 18 never married INCOME - 50000. MIGMTR1 'Not in universe' MIGMTR3 'Not in universe' MIGMTR4 'Not in universe' MIGSAME Not in universe under 1 year old MIGSUN 'Not in universe' NOEMP PARENT Both parents present PEFNTVTY United-States PEMNTVTY United-States PENATVTY United-States PRCITSHP Native- Born in the United States SEOTR 0 VETQVA Not in universe VETYN 0 WKSWORK YEAR 94 Do tego skupienia należą instancje spełniające poniższy warunek: AAGE <= 3.0 and AAGE >= 1.0 and ACLSWKR equal (Not in universe) and ADTIND = 1.401298464324817E-45 and ADTOCC = 1.401298464324817E-45 and AHGA in (10th grade, 9th grade, Children, High school graduate, Some college but no degree) and AHRSPAY = 1.401298464324817E-45 and AHSCOL equal (Not in universe) and AMARITL = 2.0 and AMJIND equal (Not in universe or children) and AMJOCC equal (Not in universe) and ARACE in (Black, White) and AREORGN in (All other, Mexican-American) and ASEX in (Female, Male) and AUNMEM equal (Not in universe) and AUNTYPE equal (Not in universe) and AWKSTAT in (Children or Armed Forces, Not in labor force) and CAPGAIN = 1.401298464324817E-45 and

DIVVAL = 1.401298464324817E-45 and FEDTAX equal (Nonfiler) and GRINREG equal (Not in universe) and GRINST equal (Not in universe) and HHDFMX in (Child 18+ never marr Not in a subfamily, Child <18 never marr not in subfamily) and HHDREL in (Child 18 or older, Child under 18 never married) and INCOME equal (- 50000.) and MIGMTR1 in (MSA to MSA, Nonmover, 'Not in universe') and MIGMTR3 in (Nonmover, 'Not in universe') and MIGMTR4 in (Nonmover, 'Not in universe', Same county) and MIGSAME in (Not in universe under 1 year old, Yes) and MIGSUN in ('Not in universe', Not in universe) and NOEMP = 1.401298464324817E-45 and PARENT in (Both parents present, Mother only present) and PEFNTVTY in (Mexico, 'Not in universe', Puerto-Rico, United-States) and PEMNTVTY in (Mexico, 'Not in universe', Puerto-Rico, United-States) and PENATVTY in (Mexico, United-States) and PRCITSHP equal (Native- Born in the United States) and SEOTR = 0.0 and VETQVA equal (Not in universe) and VETYN in (0.0,2.0) and WKSWORK = 1.401298464324817E-45 and YEAR in (94.0,95.0) Nie ma znaczących różnic pomiędzy powyższym skupieniem, a tym analizowanym w pierwszej części zadania. Skupienie odnalezione przez algorytm O Cluster różni się od skupienia znalezionego przez k Means dla kilku wartości środkowych (m.in. tych dotyczących historii przeprowadzek w ostatnim roku oraz płci), jednak z histogramów widać, iż różnice, między aktualnymi wartościami środkowymi a wartościami, które są na drugim miejscu pod względem procentowego udziału (a dla danych wynikowych algorytmu k-means są wartościami środkowymi), są nieznaczne. Wiersze puste w tabeli wartości środkowych dla poszczególnych atrybutów, powinny być wypełnione wartościami 0 lub bardzo do nich zbliżonymi. Prawdopodobnie precyzja wyniku, bądź jego długość przekraczały przewidziane dla nich miejsce w tabeli:

8 Zadanie 8 Algorytm NNMF znalazł 41 cech. Do porównania z cechami znalezionymi przez k Means / O Cluster wybrałem cechę 26: Wyniki posortowałem malejąco według tabeli współczynników Coefficient. Sądzę, iż wybrana przeze mnie cecha odpowiada skupieniom odnalezionym i analizowanym w zadaniu 7: cecha posiada najwyższe współczynniki dla atrybutów i przyjmowanych przez nich będących niejako wyznacznikami skupień znalezionych zarówno przez k Means jak i O Cluster (przede wszystkim atrybuty określające miejsce urodzenia, pochodzenie, historię zmian miejsc zamieszkania, rasę, grupę podatkową, wykształcenie, pozycję w rodzinie, stan cywilny, itd.).

9 Zadanie 9 W skład modelu włączyłem następujące atrybuty: AMJOCC, PENATVTY, AHGA, HHDREL, SEOTR, PRCITSHP, AMARITL, ARACE, ASEX, AWKSTAT, FEDTAX, HHDFMX, AAGE, NOEMP, CAPGAIN. Wybrałem atrybuty, które nie przyjmowały, lub przyjmowały mało wartości Not in universe. Jako parametry singleton threshold i pairwise threshold przyjąłem 0. Macierz pomyłek:

Macierz kosztów: 10 Zadanie 10 W skład budowy modelu włączyłem takie same atrybuty jak w zadaniu 9 (AMJOCC, PENATVTY, AHGA, HHDREL, SEOTR, PRCITSHP, AMARITL, ARACE, ASEX, AWKSTAT, FEDTAX, HHDFMX, AAGE, NOEMP, CAPGAIN). Parametry budowy drzewa decyzyjnego wyglądały następująco: - metryka: Gini - maksymalna głębokość: 9 - minimalna liczba rekordów w wierzchołku: 5 - minimalny procent rekordów w wierzchołku: 0,01 - minimalna liczba rekordów dla podziału: 10 - minimalny procent rekordów dla podziału: 0,1 Zauważyłem, że poprawność klasyfikatora jest w znacznym stopniu uzależniona od maksymalnej głębokości drzewa (wzrost poprawności o 400% <29 punktów procentowych> dla głębokości 9 w stosunku do głębokości 8). Niestety system nie pozwolił na przeprowadzenie eksperymentu dla maksymalnej głębokości większej niż 9 (błąd związany z brakiem zasobów pamięciowych).

Po zbudowaniu modelu uzyskałem następujące wyniki: Macierz pomyłek:

Po zastosowaniu modelu do danych z tabeli CENSUS_TEST: a) wynik klasyfikacji wg rosnącego prawdopodobieństwa: b) wynik klasyfikacji wg malejącego prawdopodobieństwa:

Macierz kosztów: