Metody wypełniania braków w danych ang. Missing values in data

Podobne dokumenty
Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

Zajęcia nr VII poznajemy Rattle i pakiet R.

Statystyka BioStatystyka

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Metody radzenia sobie z brakującymi obserwacjami

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Prawdopodobieństwo czerwonych = = 0.33

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Agnieszka Nowak Brzezińska Wykład III

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

PROGRAM SZKOLENIA. Excel w Analizach danych.

Pracownia Informatyczna Instytut Technologii Mechanicznej Wydział Inżynierii Mechanicznej i Mechatroniki. Podstawy Informatyki i algorytmizacji

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej. Paweł Cibis

Agnieszka Nowak Brzezińska Wykład III

PROGRAM SZKOLENIA. Excel Średniozaawansowany z wprowadzeniem do tabel przestawnych i makr.

MS Excel. Podstawowe wiadomości

Informatyczne Systemy Sterowania

Formuły formułom funkcji adresowania odwoływania nazwy Funkcja SUMA argumentami SUMA

Trik 1 Wartości prognozowane bardziej czytelne na wykresie

Otrzymaliśmy w ten sposób ograniczenie na wartości parametru m.

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI

INFORMATYKA POZIOM ROZSZERZONY

INFORMATYKA POZIOM ROZSZERZONY

Wykład 4: Statystyki opisowe (część 1)

TEMAT: SPOSOBY ADRESOWANIA W

Praktyczny Excel. Wykresy i grafika. w Excelu krok po kroku

EXCEL. Diagramy i wykresy w arkuszu lekcja numer 6. Instrukcja. dla Gimnazjum 36 - Ryszard Rogacz Strona 20

ANALIZA DANYCH PIERWOTNYCH mgr Małgorzata Kromka

Agnieszka Nowak Brzezińska

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Kolumna Zeszyt Komórka Wiersz Tabela arkusza Zakładki arkuszy

Opracował: mgr inż. Marcin Olech

Funkcja jest to złożona gotowa do użytku formuła np. zamiast żmudnie sumować komórki od B1 do B32, można zastosować funkcję =SUMA(B1:32).

Excel - podstawa teoretyczna do ćwiczeń. 26 lutego 2013

WARUNEK ZOSTAŁ SPAENIONY WARUNEK NIE ZOSTAŁ SPEŁNIONY

Wymagania na poszczególne oceny szkolne dla klasy VI. (na podstawie Grażyny Koba, Teraz bajty. Informatyka dla szkoły podstawowej.

Jak korzystać z Excela?

Krótki przewodnik po Open Calc

Informatyka Arkusz kalkulacyjny Excel 2010 dla WINDOWS cz.3

Ćwiczenia Skopiować do swojego folderu plik cwiczenia-kl.ii.xls, a następnie zmienić jego nazwę na imię i nazwisko ucznia

PROGRAM SZKOLENIA. Excel w logistyce.

Pracownia Astronomiczna. Zapisywanie wyników pomiarów i niepewności Cyfry znaczące i zaokrąglanie Przenoszenie błędu

Excel formuły i funkcje

WyŜsza Szkoła Zarządzania Ochroną Pracy MS EXCEL CZ.2

Analiza Statystyczna

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

dr Tomasz Łukaszewski Budżetowanie projektów 1

INFORMATYKA W SELEKCJI

Technologie informacyjne: Arkusz kalkulacyjny

Wymagania edukacyjne z informatyki dla uczniów klas VI SP nr 53 w Krakowie w roku szkolnym 2019/2020

Zadanie 0 gdy nie mamy logiki rozmytej. Zadanie 1- gdy już mamy logikę rozmytą

Tworzenie i modyfikowanie wykresów

SPOSÓB WYKONANIA OBLICZEŃ I FORMATOWANIA KOMÓREK

Analiza korespondencji

Program szkolenia EXCEL W ANALIZACH DANYCH.

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Excel wykresy niestandardowe

Matlab, zajęcia 3. Jeszcze jeden przykład metoda eliminacji Gaussa dla macierzy 3 na 3

Program szkolenia EXCEL DLA FINANSISTÓW.

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI

Trik 1 Formatowanie przenoszone z wykresu na wykres

Excel w zadaniach. Adresacja bezwzględna

Praktyczny Excel. Wykresy i grafika. w Excelu krok po kroku

Komentarz Sesja letnia zawód: zawód: technik elektronik 311 [07] 1. Treść zadania egzaminacyjnego wraz z załącznikami.

Mail: Pokój 214, II piętro

Tytuł: Jak stworzyd krzywe do symulacji NIBP ( O Curve ) dla Rigel BP-SIM i UNI-SIM.

Rozwiązanie zadania Ekspert płace. Opracowała Paulina Drozda

opracował: Patryk Besler

Program szkolenia EXCEL ŚREDNIOZAAWANSOWANY.

Rys. 1. Wartości sum częściowych nie są wyróŝnione

Krok 1.Chcemy napisać dowolny tekst na ekranie, np. Witaj świecie

FUNKCJA LINIOWA, RÓWNANIA I UKŁADY RÓWNAŃ LINIOWYCH

Jak korzystać z arkusza kalkulacyjnego?

Praktyczny Excel. 50 praktycznych formuł na każdą okazję

Wprowadzenie do MS Excel

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

Organizacja edytora danych

Interpolacja. Marcin Orchel. Drugi przypadek szczególny to interpolacja trygonometryczna

Mathcad c.d. - Macierze, wykresy 3D, rozwiązywanie równań, pochodne i całki, animacje

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Rachunkowość zarządcza laboratoria komputerowe MS Excel PROWADZĄCY: ALEKSANDRA MARTYNOWICZ OPRACOWAŁ: ZDZISŁAW KES

W narzędziu typu Excel, Calc czy Gnumeric napisz formułę logiczną która wyznaczy wartośd przynależności dla podanej temperatury do zbioru gorąco.

Mail: Pokój 214, II piętro

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA.

Publikacje nauczycieli Ewa Goszczycka Gimnazjum w Polesiu

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Dopasowywanie modelu do danych

Edytor tekstu Word 2007

Wykład 5: Statystyki opisowe (część 2)

Uniwersytet Śląski w Katowicach str. 1 Wydział Matematyki Fizyki i Chemii, Instytut Matematyki

ARKUSZ KALKULACYJNY komórka

Transkrypt:

Analiza danych wydobywanie wiedzy z danych III Metody wypełniania braków w danych ang. Missing values in data W rzeczywistych zbiorach danych dane są często nieczyste: - niekompletne (brakujące ważne atrybuty, bądź brakujące wartości atrybutów, dane są pogrupowane) - niespójne (różnice w kodowaniu nazw atrybutów, obiektów, wartości atrybutów) - zaszumione (zawierają błędne dane, bądź dane odległe - outliery) Powody niekompletności danych: - atrybuty najbardziej pożądane do analizy mogą byd niedostępne - dane nie były możliwe do zdobycia w określonym czasie, co spowodowało nie zidentyfikowanie pewnych ważnych zależności - czasami winą jest błąd pomiaru - dane mogły byd zapisane ale potem usunięte - po prostu może brakowad pewnych wartości dla atrybutów. Istnieje szereg metod wypełniania braków w danych tak by możliwa była analiza danego zbioru danych. Do najpopularniejszych należą: 1. Metoda ignorowania braków w danych. Jest najprostsza. 2. Metoda zastępowania braków wartością najbardziej dominującą w danym zbiorze: najczęściej występującą, średnią, medianą. 3. Metoda zastępowania brakujących danych wartościami najbardziej prawdopodobnymi ale w ramach danej klasy wartości. 4. Można użyd metody regresji do przewidywania wartości brakującej danej. 5. Można także użyd metody k-najbliższych sąsiadów do ustalenia wartości najbardziej prawdopodobnej dla brakującej danej. Brakujące dane mają ogromny wpływ na naszą wiedzę o danej dziedzinie. Wpływają na wartości statystyk opisowych typu: średnia, mediana, moda, ale także na graficzną reprezentację danych. Np. na wykresie dane brakujące zaburzają interpretację wiedzy o analizowanym zbiorze:

Przykładowo powyższy wykres przedstawia: w 1 przypadku dane z uwzględnieniem danych brakujących w 2 przypadku dane z uwzględnieniem metod interpolacji w 3 przypadku gdy dane brakujące są ignorowane, a więc nie są brane pod uwagę przy wykreślaniu wykresu. W pakiecie R i nakładce Rattle bardzo łatwo można poradzid sobie z brakami w danych. Przypuśdmy, że mamy do czynienia ze zbiorem danych, w którym brak niektórych informacji. Konkretnie brakuje nam stawki godzinowej w wierszu 2 oraz informacji o czasie pracy w wierszu 11. W Rattle w zakładce Transform możemy użyd jednej z kilku metod radzenia sobie z brakami w danych: 1. Zero/Missing zastępowanie braków w danych wartością 0 2. Mean zastępowanie braków w danych wartością średnią w danym zbiorze (tutaj można rozważyd także uśrednianie w ramach danej podgrupy!!!) 3. Median zastępowanie braków w danych medianą w danym zbiorze 4. Mode zastępowanie braków w danych modą w danym zbiorze 5. Constant stała wartośd, którą będą zastępowane wszelkie braki w danych. Może to byd np. wartośd 0, "unknown", "N/A" lub - Gdybyśmy dla naszego zbioru przykładowego użyli metody zastąpowania braków wartością średnią okno Rattle do ustalenia które zmienne mają byd interpolowane którą metodą wyglądałoby następująco:

Wówczas wynik Rattle byłby następujący: A w efekcie zbiór danych mógłby mied taką postad:

Gdzie widzimy, że zarówno wiersz 2 jak i 11 mają teraz nowe wartości: będące wartościami średnimi w zbiorze. Gdybyśmy dla tego samego zbioru chcieli użyd metody Zero/missing okno Rattle wyglądałoby następująco: A w wyniku dane w analizowanym zbiorze przybrałyby następującą zawartośd:

Metoda zastępowania braków w danych w dużej mierze zależy od typu danych. Gdy brakuje danych w kolumnach z danymi numerycznymi często stosuje się uzupełnianie braków w danych wartością średnią czy medianą np. Jednak jeśli brakuje danych w kolumnach z danymi typu nominalnego wówczas powinno się wypełniad braki wartością najczęściej występującą w zbiorze! W literaturze anglojęzycznej metody te noszą odpowiednio nazwy: Global Most Common Attribute Value for Symbolic Attributes oraz Global Average Value for Numerical Attributes(MC). Jeśli rozważamy wypełnianie braków w danych wartościami średnimi bądź najczęściej występującymi ale w danej grupie danych wówczas metody noszą odpowiednio nazwy: Concept Most Common Attribute Value for Symbolic Attributes oraz Concept Average Value for Numerical Attributes (CMC) Zastosowanie metody k-nn do uzupełniania braków w danych. Metoda ta polega na tym, by znaleźd K takich przykładów, które są najbardziej podobne do obiektu, dla którego mamy pewne wartości puste. Wówczas brakująca wartośd jest wyznaczana jako średnia wartośd tej danej (zmiennej, kolumny) wśród tych K wybranych wartości. Wówczas wartośd brakująca jest wypełniana jako:, gdzie I Kih jest zbiorem przykładów wziętych pod uwagę jako najbardziej podobne obserwacje, y jh jest wartością brakującą. Wadą tej metody jest fakt, że nie wiadomo jaka wartośd liczby K jest najwłaściwsza i dobiera się ją czysto doświadczalnie.

Przykład na zajęcia z PED: Załóżmy, że mamy do dyspozycji bardzo prosty zbiór danych: Widzimy, że w komórce K1 brakuje wartości. Excel rozpoznaje komórki z błędnymi wartościami w tym przypadku będzie to zawartośd tej komórki równa? i nie wlicza takich wartości przy podstawowych statystykach tupu średnia czy mediana. średnia 3.875 mediana 4 średnia w grupie 1.666667

Zadanie 1 Proszę spróbowad dla zbioru podanego na początku dokumentu zapisad w Excelu formuły do obliczania wartości brakujących danych za pomocą: 1. Metody zastępowania danych zerem 2. Metody uśredniania 3. Zakładając, że zbiór został rozszerzony o 4 kolumnę typu płed (tak jak na rysunku poniżej), uśredniaj brakujące wartości w ramach grupy płci. Zadanie dodatkowe. Zakładając, że także w kolumnie z danymi nominalnymi mamy braki w danych, a wiec w kolumnie pled jak na rysunku poniżej: Wstaw odpowiednią wartośd w brakującą komórkę.

Krok 1. Metoda wstawienia zamiast znaku? tekstu brak Metoda znajdowania wartości najczęściej występującej i wypełniania nią brakujących danych. Krok 2a. Zliczanie wystąpieo danej wartości tekstowej K i M.

Krok 2b. wybór tej wartości, która występuje najczęściej. Krok.2c. Formula logiczna do wypelniania braków wartością najczęściej występującą.