Mail: Pokój 214, II piętro

Podobne dokumenty
Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4

Statystyka BioStatystyka

Metody wypełniania braków w danych ang. Missing values in data

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Eksploracja danych - wykład II

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

4.2. Statystyczne opracowanie zebranego materiału

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Podstawowe pojęcia statystyczne

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Próba własności i parametry

1 Podstawy rachunku prawdopodobieństwa

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Wykład 4: Statystyki opisowe (część 1)

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Graficzna prezentacja danych statystycznych

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela

Statystyki opisowe i szeregi rozdzielcze

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Parametry statystyczne

Analiza danych i data mining.

Pozyskiwanie wiedzy z danych

W1. Wprowadzenie. Statystyka opisowa

You created this PDF from an application that is not licensed to print to novapdf printer (

Analiza korespondencji

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Wykład 5: Statystyki opisowe (część 2)

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyczne metody analizy danych

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Podstawy eksploracji danych wykład I. Agnieszka Nowak - Brzezioska

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Zajęcia nr VII poznajemy Rattle i pakiet R.

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Biostatystyka, # 3 /Weterynaria I/

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Analiza współzależności zjawisk

Analiza współzależności dwóch cech I

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Analiza Współzależności

CZEŚĆ PIERWSZA. Wymagania na poszczególne oceny,,matematyka wokół nas Klasa III I. POTĘGI

Statystyka opisowa- cd.

Wprowadzenie do technologii informacyjnej.

Analiza zależności liniowych

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Statystyka matematyczna i ekonometria

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

TRANSFORMACJE I JAKOŚĆ DANYCH

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Badanie zależności skala nominalna

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

STATYSTYKA OPISOWA. Znaczenie podstawowych miar

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Regresja i Korelacja

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Inteligentna analiza danych

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

Statystyka. Opisowa analiza zjawisk masowych

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Analiza struktury i przeciętnego poziomu cechy

Analiza zróżnicowania, asymetrii i koncentracji

Analiza danych. TEMATYKA PRZEDMIOTU

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Sposoby prezentacji problemów w statystyce

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Transkrypt:

Wykład 1

Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak

jest analizą (często ogromnych) zbiorów danych(...) w celu znalezienia nieoczekiwanych związków i podsumowania danych w oryginalny sposób tak, aby były zarówno zrozumiałe, jak i przydatne dla ich właściciela.

Coraz więcej dziedzin korzysta ze scentralizowanych lub rozproszonych systemów bazodanowych, mogących pomieścić niewyobrażalnie duże ilości danych. Jako przykłady można wymienić chociażby: Biblioteki elektroniczne: zorganizowane kolekcje informacji cyfrowej zebrane w dużych bazach danych, występujące najczęściej w formacie tekstowym (zakodowanym bądź nie); Archiwa obrazów: składają się z wielkich baz obrazów cyfrowych, najczęściej zapisanych w formie skompresowanej; zazwyczaj dane te wzbogacone są o atrybuty tekstowe lub numeryczne, ułatwiające ich indeksowanie, przetwarzanie i zarządzanie przestrzenią magazynową; bioinżynieria: każdy ludzki organizm zbudowany jest z 50000 do 100000 różnego rodzaju genów i molekuł białkowych, liczbę ludności na świecie szacuje się obecnie na 6,5miliarda; bioinżynieria zmaga się m.in. Z analizowaniem i interpretowaniem tej ogromnej ilości danych zapisanych w obszernej genowej bazie danych, jaką stanowią ludzkie organizmy; Obrazowanie w medycynie: każdego dnia generowane są nowe zbiory danych w formie obrazów cyfrowych tj.radiografy, EKG, MRI itp.; trafiają one zazwyczaj do scentralizowanych lub rozproszonych systemów medycznych, które zajmują się zautomatyzowanym ich przetwarzaniem;

System opieki zdrowotnej: poza wspomnianymi powyżej danymi graficznymi systemy medyczne zajmują się także gromadzeniem danych innego rodzaju np.informacji dotyczącej ubezpieczenia zdrowotnego pacjentów, karty zdrowia pacjentów, historię hospitalizacji, informacje specjalistyczne itp. finanse i inwestycje: są rozległą dziedziną danych stanowiących obiekt zainteresowania różnych metod eksploracji; dziedzina ta obejmuje m.in. Wskaźniki giełdowe, ceny akcji, informacje dotyczące pożyczek, kart kredytowych, debetowych, historię kredytową klientów i wiele innych pojęć; Biznes i marketing: dane potrzebne do prognozowania popytu, podaży, planowania biznesowego, przewidywania trendów rynkowych; Sieci telekomunikacyjne: jest wiele różnych typów danych, informacji generowanych przez tę branżę; dane te są wykorzystywane np. do zarządzania siecią połączeń, kontroli obciążenia sieci, kontroli błędów czy usterek; nauka: to wszelkiego rodzaju obserwacje astronomiczne, dane genetyczne, biologiczne itp.; w ciągu ostatnich lat obserwowany jest radykalny wzrost ilości pobieranych i przechowywanych danych biologicznych; przyrost ten dokonuje się w tempie wykładniczym; WWW: ogromne ilości różnego typu danych multimedialnych rozprzestrzenione są w Internecie; WWW może być w tym kontekście traktowana jako największa rozproszona baza danych, jaka kiedykolwiek powstała.

Etapy eksploracji danych

Jakie dane są gromadzone? 13 mln klientów banku Bank Of America w ciągu 1 miesiąca dzwoni do centrum obsługi klienta. By każdy klient słyszał to samo ogłoszenie marketingowe, niezależnie od tego czy było ono zgodne z jego zainteresowaniem? Czy też by możliwe było najlepsze dopasowanie oferty do potrzeb każdego klienta z osobna?

Przedstawiciele banku mają dostęp do indywidualnych profili klienta, tak aby każdy klient mógł zostać poinformowany o nowych produktach i usługach banku, które mogą być dla niego najciekawsze. Czy z tymi profilami bank może coś zrobić?

Pomaga zidentyfikować typ podejścia marketingowego dla danego klienta na podstawie jego indywidualnego profilu.

6 listopada 2002 roku Bil Clinton w swoim przemówieniu do kierownictwa partii demokratycznej wspomniał, że niedługo po 11 września 2001 roku agenci FBI przeanalizowali olbrzymie ilości danych o konsumentach i odkryli, że dane o 5 sprawcach zamachu były przechowywane w bazie. Jeden z terrorystów miał 30 kart kredytowych z łącznym saldem 250 000 $ a był w USA krócej niż 2 lata! Prowodyr terrorystów Mohamed Atta miał 12 różnych adresów, 2 prawdziwe domy i 10 kryjówek. Clinton podsumował to tak: powinniśmy wiedzieć, że jeśli ktoś jest w USA krócej niż kilka lat i ma 12 domów to albo jest tak piekielnie bogaty albo coś kombinuje!

Eksploracja danych to proces odkrywania znaczących nowych powiązań, wzorców i trendów przez przeszukiwanie dużych ilości danych zgromadzonych w skarbnicach danych, przy wykorzystaniu metod rozpoznawania wzorców, jak również metod statystycznych i matematycznych.

ED jest analizą (często ogromnych) zbiorów danych obserwacyjnych, w celu znalezienia nieoczekiwanych związków i podsumowania danych w oryginalny sposób, tak, aby były zarówno zrozumiałe, jak i przydatne dla ich właściciela.

Problem? Toniemy w informacjach, ale cierpimy na brak wiedzy!!! - Brak jest analityków specjalizujących się w przetwarzaniu całych tych danych w wiedzę.

Fakty liczby Rozmiar baz danych współczesnych systemów informatycznych osiąga wielkości rzędu terabajtów. Średniej wielkości hipermarket rejestruje dziennie sprzedaż przynajmniej kilkunastu tysięcy produktów. Puchną bazy danych systemów e-commerce, dostępnych na bieżąco, 24 godziny na dobę wzrasta liczba ich klientów oraz liczba zawieranych transakcji.

Fakty liczby (cd.) Jednocześnie. Konkurencja pomiędzy firmami zaostrza się. Coraz trudniej znaleźć nowe obszary ekspansji, nisze rynkowe. Coraz trudniej utrzymać dotychczasowych klientów. Bazy danych zawierają ogromne ilości użytecznych informacji, pozwalających firmom utrzymać lub wzmocnić ich pozycje rynkową.

Faktów nigdy za wiele Korporacyjne bazy danych kopalnią użytecznych informacji: Użyteczne informacje są wyrażone niejawnie, są ukryte w danych, należy je odkryć, wydobyć. Proces ten nazywa się potocznie eksploracją danych (ang. Data Mining). Świadomość istnienia ukrytego potencjału informacyjnego baz danych jest znana od lat. Jednak dopiero w ciągu ostatnich kilkunastu lat intensywnie prowadzi się badania nad odkrywaniem metod eksploracji danych oraz wykorzystuje się te metody w praktyce. Co więc można się wywiedzieć z danych?

Mniej poważna definicja DM Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać

Data mining eksploracja danych jest dziedziną informatyki zajmującą się odkrywaniem wiedzy zapisanej niejawnie w dużych zbiorach danych oraz przedstawieniem jej w zrozumiały dla użytkownika sposób. Pod pojęciem wiedzy rozumieć będziemy relacje, powiązania, związki i wzorce odkrywane przez algorytmy eksploracji danych w sposób autonomiczny. Eksploracja danych (DM Data Mining) określana jest również pojęciem odkrywania wiedzy w bazach danych (KDD Knowledge Discovery in Databases)

Różne metody cel ten sam!!!

Opis danych Szacowanie (estymacja) Przewidywanie (predykcja) Klasyfikacja Grupowanie Odkrywanie reguł.

Jaką wiedzę odkrywamy dzięki DM 1.odkrywanie asocjacji (associations) znajdowanie reguł typu:piwo -> orzeszki 2.wzorce sekwencji (sequential patterns) znajdowanie sekwencji dot. np. zakupów klienta: (TV, video, kamera) 3. klasyfikacja (classifications) klasyfikacja danych do grup ze względu na atrybut decyzyjny, np.: klasyfikacja klientów przez bank do grup: dać kredyt / nie dać kredytu 4. analiza skupień (clustering) grupowanie danych na wcześniej nieznane klasy, znajdowanie wspólnych cech, np.: wyodrębnienie różnych rodzajów klientów różnych taryf przez sieć telefonii komórkowej 5. podobieństwo szeregów czasowych (time-series similarities) badanie podobieństwa przebiegów czasowych, np. wykresów giełdowych 6. wykrywanie odchyleń (deviation detection) znajdowanie anomalii, wyjątków, np.: rozpoznawanie kradzieży karty kredytowej (nietypowe operacje na koncie)

Dokumenty tekstowe Bazy danych ilościowych (numerycznych) i nienumerycznych Obrazy, multimedia Sekwencje DNA Inne.

płeć Data_ur Zawód wzrost Id_23 K 1978-03-09 Informatyk 169 Id_24 M 1977-05-20 Informatyk 190 Id_25 M 1965-05-04 Prawnik 173 Id_26 K 1982-02-02 dziennikarz 167

Id_23 Id_24 Id_25 Id_26 płeć K M M K Płeć, grupa zawodowa to atrybuty tzw. jakościowe (nominalne) Nie pozwolą nam policzyć wartości średniej, minimalnej, maksymalnej. Nie można więc uporządkować wartości w takim zbiorze.

wzrost Id_23 169 Id_24 190 Id_25 173 Id_26 167 Wzrost, waga, dochód, liczba godzin. to atrybuty tzw. ilościowe (numeryczne) Pozwolą nam policzyć wartości średniej, minimalnej, maksymalnej. Można więc uporządkować takie wartości od najmniejszej do największej. Czy jest jakaś wada?

W polskiej systematyce podręcznikowej dzielimy typy danych (zmienne) na: ilościowe (mierzalne) - np. wzrost, masa, wiek ciągłe - np. wzrost, masa, wiek (w rozumieniu ilości dni między datą urodzin a datą badania) porządkowe (quasi-ilościowe) - np. klasyfikacja wzrostu: (niski,średni,wysoki) skokowe (dyskretne) - np. ilość posiadanych dzieci, ilość gospodarstw domowych, wiek (w rozumieniu ilości skończonych lat) jakościowe (niemierzalne) - np. kolor oczu, płeć, grupa krwi

Skala porządkowa - dane jest uporządkowanie (kolejność), jednak nie da się w sensowny sposób określić różnicy ani ilorazu miedzy dwiema wartościami. Przykłady zmiennych porządkowych: wykształcenie, kolejność zawodników na podium. Przykłady zmiennych nie będących porządkowymi: płeć, wiek, temperatura Cechy porządkowe tak jak cechy nominalne jednoznacznie identyfikują wartość cechy, a ponadto są uporządkowane w rosnącej kolejności. Możemy z sensem mówić o relacjach, czyli porównywać między sobą dwie wartości (jest to cecha sortowalna).

Skala nominalna - dane są na skali nominalnej, gdy przyjmują wartości (etykiety), dla których nie istnieje wynikające z natury danego zjawiska uporządkowanie. Nawet jeśli wartości zmiennej nominalnej są wyrażane liczbowo, to liczby te są tylko umownymi identyfikatorami, nie można więc wykonywać na nich działań arytmetycznych, ani ich porównywać. Przykłady zmiennych nominalnych: powiat zamieszkania, płeć. Przykłady zmiennych nie będących nominalnymi: prędkość samochodu, wiek Szczególnym przypadkiem skali nominalnej jest skala dychotomiczna, w przypadku której istnieją tylko dwie możliwe wartości zmiennej (np. płeć, odpowiedzi na pytania typu tak/nie)

Cechy statystyczne porządkowe jakościowe ilościowe skokowe ciągłe

Cechy jakościowe (niemierzalne) to takie, których nie można jednoznacznie scharakteryzować za pomocą liczb (czyli nie można zmierzyć). Efekt to podział zbioru na podzbiory rozłączne, np. płeć, grupę krwi, kolor włosów, zgon lub przeżycie, stan uodpornienia przeciwko ospie (zaszczepiony lub nie) itp. W przypadku grupy krwi rezultat pomiaru będzie następujący: n1 pacjentów ma grupę krwi A, n2 pacjentów - grupę krwi B, n3 pacjentów - grupę AB i n4 - grupę O. Cechy porządkowe umożliwiają porządkowanie wszystkich elementów zbioru wyników. Cechy takie najlepiej określa się przymiotnikami i ich stopniowaniem, np. dla wzrostu: "niski", "średni" lub "wysoki. Cechy ilościowe (mierzalne) to takie, które dadzą się wyrazić za pomocą jednostek miary w pewnej skali. Cechami mierzalnymi są na przykład: wzrost (w cm), waga (w kg), stężenie hemoglobiny we krwi (w g/dl), wiek (w latach) itp. Cecha ciągła to zmienna, która może przyjmować każdą wartość z określonego skończonego przedziału liczbowego, np. wzrost, masa ciała czy temperatura. Cechy skokowe mogą przyjmować wartości ze zbioru skończonego lub przeliczalnego (zwykle całkowite), na przykład: liczba łóżek w szpitalu, liczba krwinek białych w 1 ml krwi.

Cecha objaśniana to ta, której wartość próbujemy określić na podstawie wartości cech objaśniających. Cecha objaśniająca to cecha opisująca obserwację w zbiorze. y f (x) Cecha objaśniana Cecha objaśniająca

Różne statystyczne metody: 1. Opisowe statystyki jak średnia, mediana, minimum, maksimum, moda, odchylenie standardowe, wariancja. 2. Graficzne metody (wykresy): histogram, wykres pudełkowy, wykresy rozrzutu.

Ile zarabiają dyrektorzy w działach sprzedaży? Średnia zarobków dyrektorów sprzedaży wynosi 12161 PLN. Czy dyrektorzy to generalnie bogaci ludzie? Czy można określić ile zarabia konkretny dyrektor? Czy można obliczyć średnią płeć dyrektorów?

W jakim przedziale mieszczą się zarobki większości dyrektorów? (mediana) Ile zarabia przeciętny dyrektor? (mediana nie BO z bycia w środku nie wynika bycie przeciętnym ), (moda tak, bo przeciętny to najczęściej występujący) Czy prawie wszyscy dyrektorzy to bogaci ludzie? (nie BO nie wiemy NIC o całości badanej grupy) Czy większość dyrektorów to bogaci ludzie? (mediana) Czy zarobki dyrektorów różnią się mocno od siebie? (nie BO nie wiemy NIC o całości badanej grupy) Jakie zarobki są najczęstsze wśród dyrektorów? (nie BO to co jest w środku nie musi być najbardziej popularne), moda tak.

W jakim przedziale mieszczą się zarobki większości dyrektorów? Czy większość dyrektorów to bogaci ludzie? (BO najczęstsza wartość wcale nie musi dotyczyć większości) Czy prawie wszyscy dyrektorzy to bogaci ludzie? (BO jeśli nie wiemy nic o większości, to tym bardziej o prawie wszystkich) Czy zarobki dyrektorów różnią się mocno (Od siebie? BO nie wiemy nic o całości grupy)

histogramy i wykresy częstości wykresy rozrzutu (scatterplots) wykresy pudełkowe (boxplot)

Histogram to jeden z graficznych sposobów przedstawienia rozkładu empirycznego cechy. Składa się z szeregu prostokątów umieszczonych na osi współrzędnych. Na osi X mamy przedziały klasowe wartości cechy np. dla atrybutu płeć: K, M, na osi Y liczebność tych przedziałów. Dla danych jakościowych Porządkują wiedze o danych analizowanych Pokazują odchylenia w danych Pokazują dane dominujące w zbiorze

Idealnie odzwierciedlają zależność bądź jej brak w analizowanych danych Jeśli występują punkty odległe (outliery) to na wykresie je widać wyraźnie Tylko dla danych ilościowych (numerycznych)

Wykres skrzynkowy uniwersalne narzędzie pozwalające ująć na jednym wykresie wiadomości dotyczące położenia, rozproszenia i kształtu rozkładu badanej cechy.

wartość minimalna wynosi 9, wartość maksymalna 47. 50 % obserwacji zaczyna się przed pierwszym kwartylem (około 17) i kończy przed trzecim kwartylem (około 29). Mediana i wartość średnia są zbliżone : wartość średnia wynosi ok. 23.5zaś mediana - 23.

Dane są przeważnie: Nieobrobione Niekompletne Zaszumione To sprawia konieczność czyszczenia i przekształcania danych.

Np. baza danych zawiera pola przestarzałe lub zbędne, rekordy z brakującymi wartościami, punkty oddalone, dane z niewłaściwym formatem.

GIGO garbage in garbage out

To być może miał być kod 02687 lecz niektóre programy jeśli pole jest typem numerycznym to zero na początku nie będzie ujmowane.

Maska wprowadzania to zestaw znaków literałowych i znaków masek umożliwiający sterowanie zakresem danych, które można wprowadzać w polu. Maska wprowadzania może na przykład wymagać od użytkowników wprowadzania dat czy numerów telefonów zgodnie z konwencją przyjętą w danym kraju/regionie tak jak w poniższych przykładach: RRRR-MM-DD ( ) - wew.

ułatwiają zapobieganie wprowadzaniu przez użytkowników nieprawidłowych danych (na przykład wpisaniu numeru telefonu w polu daty). Dodatkowo zapewniają one spójny sposób wprowadzania danych przez użytkowników, co z kolei ułatwia wyszukiwanie danych i obsługę bazy danych.

do pola tabeli typu Data/godzina lub formantu pola tekstowego w formularzu powiązanego z polem typu Data/godzina. Masek wprowadzania nie można jednak używać bezkrytycznie. Maski wprowadzania można domyślnie stosować do pól tabeli z typem danych ustawionym na Tekst, Liczba (oprócz identyfikatora replikacji), Waluta i Data/godzina. Maski wprowadzania można także stosować dla formantów formularza, takich jak pola tekstowe, powiązanych z polami tabeli, dla których ustawiono te typy danych. http://office.microsoft.com/pl-pl/access-help/tworzenie-maskiwprowadzania-do-wprowadzania-wartosci-pol-lub-formantow-wokreslonym-formacie-ha010096452.aspx#bm1

Błędne dane typu dochód z minusem na początku: to błąd we wprowadzaniu danych, czy faktyczny ujemny dochód?

Np. wartość 99999 może być prawidłową daną, a może być także błędem w danych. W starszych BD pewne określone wartości oznaczały kod dla niewłaściwie wprowadzonych danych i właśnie wartość 99999 może być w tym względzie wartością oznaczającą błąd.

Np. kolumna wiek czy rok_urodzenia? Czy jest jakas różnica między nimi? Wiek - źle, rok_urodzenia - dobrze

Nie wiadomo jaka jest przyczyna braku danych i jak z tymi brakami w danych postępować. Powody niekompletności danych: atrybuty najbardziej pożądane do analizy mogą być niedostępne dane nie były możliwe do zdobycia w określonym czasie, co spowodowało nie zidentyfikowanie pewnych ważnych zależności czasami winą jest błąd pomiaru dane mogły być zapisane ale potem usunięte o prostu może brakować pewnych wartości dla atrybutów.

Są 2 możliwości: 1. Pomijanie danych niebezpieczny krok 2. Zastępowanie danych (różne metody): 1. Zastąpienie pewną stałą podaną przez analityka 2. Zastąpienie wartością średnią lub modalną 3. Zastąpienie wartością losową.

Braki w danych numerycznych zastępuje się wartością 0 Braki w danych tekstowych zastępuje się wartością missing

Dane numeryczne zastępuje się wartością średnią w zbiorze danych Dane nienumeryczne (tekstowe) zastępuje się wartością modalną a więc wartością najczęściej występującą w zbiorze.

w 1 przypadku dane z uwzględnieniem danych brakujących w 2 przypadku dane z uwzględnieniem metod interpolacji w 3 przypadku gdy dane brakujące są ignorowane, a więc nie są brane pod uwagę przy wykreślaniu wykresu.

Przypuśćmy, że mamy do czynienia ze zbiorem danych, w którym brak niektórych informacji. Konkretnie brakuje nam stawki godzinowej w wierszu 2 oraz informacji o czasie pracy w wierszu 11. W Rattle w zakładce Transform możemy użyć jednej z kilku metod radzenia sobie z brakami w danych: Zero/Missing zastępowanie braków w danych wartością 0 Mean zastępowanie braków w danych wartością średnią w danym zbiorze (tutaj można rozważyć także uśrednianie w ramach danej podgrupy!!!) Median zastępowanie braków w danych medianą w danym zbiorze Mode zastępowanie braków w danych modą w danym zbiorze Constant stała wartość, którą będą zastępowane wszelkie braki w danych. Może to być np. wartość 0, "unknown", "N/A" lub -

Gdzie widzimy, że zarówno wiersz 2 jak i 11 mają teraz nowe wartości: będące wartościami średnimi w zbiorze.

Metoda zastępowania braków w danych w dużej mierze zależy od typu danych. Gdy brakuje danych w kolumnach z danymi numerycznymi często stosuje się uzupełnianie braków w danych wartością średnią czy medianą np. Jednak jeśli brakuje danych w kolumnach z danymi typu nominalnego wówczas powinno się wypełniać braki wartością najczęściej występującą w zbiorze!

Metoda ta polega na tym, by znaleźć K takich przykładów, które są najbardziej podobne do obiektu, dla którego mamy pewne wartości puste. Wówczas brakująca wartość jest wyznaczana jako średnia wartość tej danej (zmiennej, kolumny) wśród tych K wybranych wartości. Wówczas wartość brakująca jest wypełniana jako:, gdzie I Kih jest zbiorem przykładów wziętych pod uwagę jako najbardziej podobne obserwacje, y jh jest wartością brakującą. Wadą tej metody jest fakt, że nie wiadomo jaka wartość liczby K jest najwłaściwsza i dobiera się ją czysto doświadczalnie.

Widzimy, że w komórce K1 brakuje wartości. Excel rozpoznaje komórki z błędnymi wartościami w tym przypadku będzie to zawartość tej komórki równa? i nie wlicza takich wartości przy podstawowych statystykach tupu średnia czy mediana. średnia 3.875 mediana 4 średnia w grupie 1.666667

Punkty oddalone to skrajne wartości, znajdujące się blisko granic zakresu danych bądź są sprzeczne z ogólnym trendem pozostałych danych. Metody: 1. Histogram lub dwuwymiarowe wykresy rozrzutu, które potrafią wskazać obserwacje oddalone dla więcej niż 1 zmiennej.

Dane należy normalizować, by ujednolicić wpływ każdej zmiennej na wyniki. Jest kilka technik normalizacji: 1. Min- Max 2. Standaryzacja Z-score

Sprawdza jak bardzo wartość pola jest większa od wartości minimalnej (min(x)) i skaluje tę różnicę przez zakres: x * x min( x) zakres( x) x min( x) max( x) min( x)

New_min to nowa wartość minimalna, którą chcemy uzyskać New_max nowa wartość maksymalna. Min to dotychczasowa wartość minimalna Max dotychczasowa wartość maksymalna

Min = 50 Max = 130 New_min = 0 New_max = 1

Oblicza różnicę między daną wartością pola i średnią wartością pola oraz przeskalowanie tej różnicy przez odchylenie standardowe (x) wartości pól: x * x średnia( x) ( x) Wartości większe od średniej po standaryzacji będą na pewno dodatnie!

Liczba obserwacji: 77 Wartości brakujące są opisane jako -1 http://lib.stat.cmu.edu/dasl/datafiles/cereals.html

1. Standaryzacja 2. Rozstęp międzykwartylowy

Punkt oddalony to przecież taki punkt który jest oddalony od średniej o dużo więcej niż odchylenie standardowe, np. 2 razy odchylenie standardowe. Niestety średnia i odchylenie standardowe biorą udział we wzorze na standaryzację, i dlatego są raczej wrażliwe na obecność punktów oddalonych.

Często do wykrywania odchyleń w danych używa się wartości średniej i odchylenia standardowego. Mówi się wówczas, że jeśli jakaś wartość jest większa bądź mniejsza o wartość równą dwukrotnej wartości odchylenia standardowego od wartości średniej to należy ją uznać za odchylenie.

To bardziej odporna metoda. Kwartyle dzielą zbiór danych na 4 części z których każda zawiera 25 % danych. Rozstęp międzykwartylowy to miara zmienności, która jest dużo bardziej odporna niż odchylenie standardowe IRQ = Q3 Q1

Jest położona przynajmniej o 1.5 x IQR poniżej Q1 (a więc: Q1-1.5 * IQR ) Jest położona przynajmniej o 1.5 x IQR powyżej Q3 (a więc Q3+1.5 * IQR )

Uporządkuj dane rosnąco. Np. dla zbioru: {4, 5, 2, 3, 15, 3, 3, 5}, będzie to zbiór {2, 3, 3, 3, 4, 5, 5, 15}. Znajdź medianę a więc taką wartość w zbiorze danych dla której połowa danych w zbiorze jest od niej większa i polowa jest mniejsza. Mogą to być także dwie takie wartości np. 3 i 4, wtedy mediana będzie wynosiła (3 + 4) / 2 = 3.5. Znajdź górny kwartyl Q3 (75 % zbioru danych jest mniejsze od tej wartości); Znajdź dolny kwartyl Q1 (25 % zbioru danych jest mniejsze od tej wartości); Oblicz różnicę między Q3 a Q1. To będzie tzw. Rozstęp międzykwartylny. Przemnóż tę wartość przez 1.5. Dodaj ją do Q3 i odejmij od Q1. Wszystkie wartości, które będą poza tymi wartościami będą uznane za outlier. Np. jeśli Q3 = 5, Q1 = 3, to Q3 Q1 = 2, i teraz 1.5 * 2 = 3. Teraz 3 3 = 0, a 3 + 5 = 8. Zatem każda wartość mniejsza niż 0 i większa niż 8 będzie uznana za (łagodny) outlier. W tym przykładowym zbiorze będzie to wartość 15. Przemnóż rozstęp międzykwartylny przez 3. Dodaj do Q3 i odejmij tę wartość tez od Q1. Każda wartość poza tymi wartościami będzie uznana za tzw. Skrajny outlier. W tym przypadku 2 x 3 = 6, a 3 6 = -3, zaś 5 + 6 = 11. Zatem każda wartość mniejsza niż -3 bądź większa niż 11 będzie uznana za skrajny outlier. Tak więc wartość 15 z pewnością jest outlierem w tym zbiorze danych.

Zbiór danych zawiera N = 90 elementów: 30, 171, 184, 201, 212, 250, 265, 270, 272, 289, 305, 306, 322, 322, 336, 346, 351, 370, 390, 404, 409, 411, 436, 437, 439, 441, 444, 448, 451, 453, 470, 480, 482, 487, 494, 495, 499, 503, 514, 521, 522, 527, 548, 550, 559, 560, 570, 572, 574, 578, 585, 592, 592, 607, 616, 618, 621, 629, 637, 638, 640, 656, 668, 707, 709, 719, 737, 739, 752, 758, 766, 792, 792, 794, 802, 818, 830, 832, 843, 858, 860, 869, 918, 925, 953, 991, 1000, 1005, 1068, 1441 Wyznacz wartości odstające jeśli takie istnieją.

Obliczenia: Median = 559.5 Q1 = 429.75 Q3 = 742.25 Rozstęp międzykwartylny = 742.25-429.75 = 312.5 Lower inner fence = 429.75-1.5 (312.5) = -39.0 Upper inner fence = 742.25 + 1.5 (312.5) = 1211.0 Lower outer fence = 429.75-3.0 (312.5) = -507.75 Upper outer fence = 742.25 + 3.0 (312.5) = 1679.75 Zatem wygląda na to, że jedynie jedna wartość będzie mogła być uznana za outlier. Jest to wartość 1441, która znacznie przekracza upper inner fence i jako taka zostaje uznana za łagodny outlier. Zaś w tym zbiorze nie ma wartość skrajnie odstających.

Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi. Charakteryzując korelację dwóch cech podajemy dwa czynniki: kierunek oraz siłę. Wyrazem liczbowym korelacji jest współczynnik korelacji (rlub R), zawierający się w przedziale [-1; 1].

korelacja dodatnia (wartość współczynnika korelacja dodatnia (wartość współczynnika korelacji od 0 do 1) informuje, że wzrostowi wartości jednej cechy towarzyszy wzrost średnich wartości drugiej cechy, korelacja ujemna (wartość współczynnika korelacji od -1 do 0) -informuje, że wzrostowi wartości jednej cechy towarzyszy spadek średnich wartości drugiej cechy.

poniżej 0,2 - korelacja słaba (praktycznie brak związku) 0,2 0,4 - korelacja niska (zależność wyraźna) 0,4 0,6 - korelacja umiarkowana 0,4 0,6 - korelacja umiarkowana (zależność istotna) 0,6 0,8 - korelacja wysoka (zależność znaczna) 0,8 0,9 - korelacja bardzo wysoka (zależność bardzo duża) 0,9 1,0 - zależność praktycznie pełna

W lutym 1996 roku w 12 bankach działających na terenie Częstochowy zanotowano następujące oprocentowanie kredytów (w stosunku rocznym), oraz następujące oprocentowanie lokat złotówkowych 12 miesięcznych: Tab. Oprocentowanie kredytów i lokat złotówkowych 12 miesięcznych w bankach częstochowskich na dzień 15.II.1996. Pytanie: czy istnieje zależność między oprocentowaniem kredytów a oprocentowaniem lokat w wymienionych bankach?

gdzie: di -oznaczają różnice między rangami odpowiadających sobie wartości cechy xi i cechy yi (i = 1,2,...,n) n - liczba obserwacji. 1. Porządkujemy wyjściowe informacje według rosnących (lub malejących) wariantów jednej z cech. 2. Nadajemy numery (kolejne liczby naturalne) - rangowanie

Podstawiając do wzoru otrzymujemy: Współczynnik korelacji rang dla badanych cech wynosi -0,37.

Korelacja jest miarą pozwalającą badać stopień zależności między analizowanymi danymi. Jedną z podstawowych miar korelacji jest współczynnik korelacji Pearsona wyrażany wzorem: gdzie xi i yi to poszczególne wartości rzeczywiste zmiennych x i y, x i y określają wartości średnie tych zmiennych zaś sx i sy to odpowiednio odchylenia standardowe tych zmiennych w zbiorze n elementów. Przyjmuje on wartości z przedziału [ 1, 1]. Dodatnia wartość tego współczynnika oznacza, że wzrost wartości jednej zmiennej generalnie pociąga za sobą wzrost wartości drugiej zmiennej (wartość ujemna oznacza odpowiednio spadek wartości dla drugiej zmiennej). Specyficzny przypadek gdy r =0 oznacza brak związku między zmiennymi x i y.

Co to jest korelacja? Jak wykrywać wartości oddalone w zbiorze danych? Jak zastępować braki w danych? Jak normalizować dane do jakiegoś przedziału? Czy typ danych ma wpływ na wybór graficznej reprezentacji? W czym może pomóc eksploracja danych?