Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów



Podobne dokumenty
Analiza danych. TEMATYKA PRZEDMIOTU

PRZEWODNIK PO PRZEDMIOCIE

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

PRZEWODNIK PO PRZEDMIOCIE

SYLABUS. Nazwa jednostki prowadzącej przedmiot Wydział Socjologiczno-Historyczny Katedra Politologii

PRZEWODNIK PO PRZEDMIOCIE

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Analiza danych i data mining.

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

PRZEWODNIK PO PRZEDMIOCIE

PROJEKTOWANIE MATERIAŁOWE I KOMPUTEROWA NAUKA O MATERIAŁACH. forma studiów: studia stacjonarne. Liczba godzin/tydzień: 2W e, 2Ćw.

Egzamin / zaliczenie na ocenę* 0,5 0,5

PRZEWODNIK PO PRZEDMIOCIE

Grupa kursów: Wykład Ćwiczenia Laboratorium Projekt Seminarium 15 30

Gra w Statystykę. Internetowa gra edukacyjna Testament Babci. dr Maria Wieczorek Instytut Statystyki i Demografii SGH

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

Przedmiotowe Zasady Oceniania z GEOGRAFII obowiązujące w ZSPS i VIII LO w roku szkolnym 2017/2018

STUDIA PODYPLOMOWE. Analiza i Eksploracja Danych Rynkowych i Marketingowych. Podstawa prawna

PRZEWODNIK PO PRZEDMIOCIE

OPIS MODUŁU ZAJĘĆ/PRZEDMIOTU (SYLABUS) dla przedmiotu Seminarium magisterskie na kierunku Prawo

Weryfikacja i ocenianie efektów kształcenia

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

Ewelina Dziura Krzysztof Maryański

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA realizacja w roku akademickim 2016/17

Prognozowanie gospodarcze - opis przedmiotu

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

PRZEWODNIK PO PRZEDMIOCIE

PRZEDMIOTOWY SYSTEM OCENIANIA OBSŁUGA INFORMATYCZNA W HOTELARSTWIE. kl. IIT i IIIT rok szkolny 2015/2016

STUDIA PODYPLOMOWE. Analiza i Eksploracja Danych Rynkowych i Marketingowych. Podstawa prawna

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

OPISU MODUŁU KSZTAŁCENIA (SYLABUS) dla przedmiotu Prawo żywnościowe na kierunku ADMINISTRACJA

STATYSTYKA MATEMATYCZNA

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

PRZEWODNIK PO PRZEDMIOCIE

Szczegółowy opis przedmiotu zamówienia

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

KARTA PRZEDMIOTU / SYLABUS

Przedmiotowe Zasady Oceniania z GEOGRAFII obowia zuja ce w ZSPS i VIII LO w roku szkolnym 2019/2020

PRZEWODNIK PO PRZEDMIOCIE

studiów Podstawy Statystyki TR/2/PP/STAT 7 3

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

Hurtownie danych - opis przedmiotu

Kierunek studiów: EKONOMIA Moduł analiz rynkowych

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

Wymagania edukacyjne z fizyki II klasa Akademickie Gimnazjum Mistrzostwa Sportowego.

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE

Liczba godzin stacjonarne: Wykłady: 30 Ćwiczenia: 15. niestacjonarne: Wykłady: 18 Ćwiczenia: 9


Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

PRZEWODNIK PO PRZEDMIOCIE

Wykład 4: Statystyki opisowe (część 1)

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

PRZEDMIOTOWY SYSTEM OCENIANIA I WYMAGANIA EDUKACYJNE Z GEOGRAFII W ZESPOLE SZKÓŁ OGÓLNOKSZTAŁCĄCYCH IM. ARMII KRAJOWEJ W BIELSKU BIAŁEJ

KARTA PRZEDMIOTU / SYLABUS

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

BIOSTATYSTYKA. Liczba godzin. Zakład Statystyki i Informatyki Medycznej

Przedmiotowy system oceniania w Zespole Szkół Ogólnokształcących nr 3 we Wrocławiu

Wymagania edukacyjne na poszczególne stopnie z fizyki dla klasy I:

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

PRZEWODNIK PO PRZEDMIOCIE

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

PRZEWODNIK PO PRZEDMIOCIE

KARTA PRZEDMIOTU / SYLABUS

PRZEWODNIK PO PRZEDMIOCIE

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Statystyka matematyczna (STA230) 2. KIERUNEK: MATEMATYKA. 3. POZIOM STUDIÓW: I stopnia

Zarządzanie i inżynieria produkcji Management and Production Engineering Poziom studiów: studia II stopnia PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE

OPIS MODUŁU ZAJĘD/PRZEDMIOTU (SYLABUS) I.

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną. ćwiczenia 30 zaliczenie z oceną

OPIS MODUŁU KSZTAŁCENIA (SYLABUS) dla seminarium magisterskiego. z przedmiotu POSTĘPOWANIE ADMINISTRACYJNE na kierunku ADMINISTRACJA

Zespół Szkół Nr 1 im. Stanisława Staszica w Olkuszu. WYMAGANIA EDUKACYJNE z przedmiotu: TECHNOLOGIE I KONSTRUKCJE MECHANICZNE

KARTA MODUŁU KSZTAŁCENIA

Forma studiów/liczba godzin/semestr: Niestacjonarne: 4 h W; 2 h Ćw. PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE

Jerzy Berdychowski. Informatyka. w turystyce i rekreacji. Materiały do zajęć z wykorzystaniem programu. Microsoft Excel

Podsumowanie wyników ankiety

PRZEWODNIK PO PRZEDMIOCIE

SYLABUS/KARTA PRZEDMIOTU

Egzamin / zaliczenie na ocenę*

II Liceum Ogólnokształcące im. Ks. Prof. Józefa Tischnera W Wodzisławiu Śl. WYMAGANIA EDUKACYJNE FIZYKA

KARTA PRZEDMIOTU. (pieczęć wydziału)

Ogólne kryteria oceniania z biologii

OPIS MODUŁU KSZTAŁCENIA (SYLABUS) dla seminarium magisterskiego. z przedmiotu PUBLICZNE PRAWO GOSPODARCZE i OCHRONY KONKURENCJI na kierunku PRAWO

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

KARTA PRZEDMIOTU. dr n biol Henryk Różański dr inż. Małgorzata Źródło-Loda. moduł kształcenia specjalnościowego ograniczonego wyboru

koordynator modułu dr hab. Michał Baczyński rok akademicki 2012/2013

PRZEDMIOTOWE ZASADY OCENIANIA Z BIOLOGII

ANKIETA SAMOOCENY OSIĄGNIĘCIA KIERUNKOWYCH EFEKTÓW KSZTAŁCENIA

OPIS MODUŁU ZAJĘĆ/PRZEDMIOTU (SYLABUS) Prawo i polityka kulturalna UE

KIERUNKOWE EFEKTY KSZTAŁCENIA

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

PRZEWODNIK PO PRZEDMIOCIE

Rok akademicki: 2013/2014 Kod: STC s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

PRZEWODNIK PO PRZEDMIOCIE

OPIS MODUŁU ZAJĘĆ/PRZEDMIOTU (SYLABUS) I.

Transkrypt:

Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie książka, notatki czy skrypt to raczej streszczenie omawianego materiału, pokazanie wybranych algorytmów, przedstawienie wybranych przykładów dlatego przejrzenie samych prezentacji czasami może nie wystarczyć do zrozumienia treści całego wykładu listy zadań propozycje minireferatów i minikonkursów materiały dodatkowe rozszerzające treść wykładu ogłoszenia bieżące Piotr Lipiński, Wykład z eksploracji danych 2 1

Zasady zaliczenia Ćwiczenia/pracownie: Będzie można zdobywać punkty za: listy zadań (za 80 punktów łącznie) każda lista zadań będzie dotyczyć pewnego działu eksploracji danych część zadań będzie polegać na zaimplementowaniu pewnych algorytmów i wykorzystaniu ich do analizy przykładowych danych, a część na omówieniu przy tablicy pewnych mechanizmów eksploracji danych na realizację każdej listy zadań będzie określony czas, zwykle 1 lub 2 tygodnie projekt (za 30 punktów) sprawdzian (za 10 punktów) punkty bonusowe za dodatkową aktywność (minireferaty, minikonkursy, itp.) Łącznie będzie do zdobycia minimum 120 punktów (oprócz punktów bonusowych) Na zaliczenie wymagane jest 60 punktów. Progi na 3.0 60 punktów poszczególne oceny to: 3.5 72 punktów 108 punktów Na ocenę bardzo dobrą wymagane jest dodatkowo przygotowanie i wygłoszenie minireferatu. Wykład: egzamin 4.0 4.5 5.0 84 punktów 96 punktów Piotr Lipiński, Wykład z eksploracji danych 3 Zasady zaliczenia Kilka przykładów: Student, który zdobędzie 40 punktów za listy zadań, 0 punktów ze sprawdzianu i 20 punktów za projekt, zaliczy zajęcia z oceną 3.0. Student, który zdobędzie 60 punktów za listy zadań, 0 punktów ze sprawdzianu i 0 punktów za projekt, zaliczy zajęcia z oceną 3.0. Student, który zdobędzie 55 punktów za listy zadań, 0 punktów ze sprawdzianu, 0 punktów za projekt i 5 punktów za minireferat, zaliczy zajęcia z oceną 3.0. Student, który zdobędzie 75 punktów za listy zadań, 10 punktów ze sprawdzianu, 20 punktów za projekt i 5 punktów za minireferat, zaliczy zajęcia z oceną 5.0. Student, który zdobędzie 75 punktów za listy zadań, 10 punktów ze sprawdzianu i 25 punktów za projekt, zaliczy zajęcia z oceną 4.5 (na ocenę 5.0 wymagany jest minireferat). UWAGA: Projekt może wymagać sporo pracy. Musi zawierać przemyślenie wybranego problemu, opracowanie algorytmu jego rozwiązywania, implementację tego algorytmu, przeprowadzenie eksperymentów obliczeniowych i wykonanie raportu z testowania opracowanego podejścia. Piotr Lipiński, Wykład z eksploracji danych 4 2

Program wykładu Niepewność danych Grupowanie danych Redukcja wymiarowości danych Klasyfikacja danych Reguły asocjacyjne Prognozowanie szeregów czasowych Systemy rekomendujące Systemy wspomagania decyzji Przetwarzanie dużych danych i danych multimedialnych Statystyka obliczeniowa Piotr Lipiński, Wykład z eksploracji danych 5 Eksploracja danych Eksploracja danych zajmuje się analizą dużych zbiorów danych w celu pozyskania z nich nietrywialnej i pożytecznej wiedzy. Różnica między informacją a wiedzą: informacja = dane zgromadzone w bazie lub hurtowni danych często bardzo dużych rozmiarów zazwyczaj opisują zarejestrowane obserwacje pewnego zjawiska zazwyczaj obarczone błędem pomiarowym lub innym zaburzeniem często trudne do zrozumienia przez człowieka (człowiek nie potrafi zauważyć pewnych zależności w tych danych) wiedza model obserwowanego zjawiska lub jego części często zawiera opis zależności między danymi często wyjaśnia i pozwala zrozumieć zjawisko Piotr Lipiński, Wykład z eksploracji danych 6 3

Eksploracja danych Z informacji można w prosty sposób utrzymać wiedzę bezużyteczną: zawsze można policzyćśrednią (z atrybutów numerycznych) lub medianę (z atrybutów numerycznych lub kategorycznych) zawsze można zrobić parę wykresów zawsze można opracować przeuczony system klasyfikujący można też pokusić się o nieuprawnione wnioski pseudomatematyczne Piotr Lipiński, Wykład z eksploracji danych 7 Eksploracja danych Przykład: informacja = zebrane informacje o użytkownikach kart kredytowych (klientach pewnego banku) zawierające dane osobowe i miesięczne wyciągi z kart kredytowych dane są dużych rozmiarów dane są nie tylko numeryczne dane mogą być od siebie zależne (wydatki osób mieszkających wspólnie) wiedza całkowicie bezużyteczna najczęściej powtarzające się nazwisko średni numer domu klientów średni wiek klientów średnia roczna suma wydatków klientów Piotr Lipiński, Wykład z eksploracji danych 8 4

Eksploracja danych Przykład: wiedza bardziej użyteczna (m.in. uzyskana podstawowymi metodami Business Intelligence) średnie roczne sumy wydatków klientów w poszczególnych przedziałach wiekowych średnie roczne sumy wydatków klientów w poszczególnych rejonach geograficznych średni wiek klientów w poszczególnych przedziałach rocznej sumy wydatków prognozowana suma wydatków klientów w poszczególnych rejonach geograficznych w przyszłym roku wiedza jeszcze bardziej użyteczna (m.in. uzyskana podstawowymi metodami eksploracji danych) wyodrębnienie grup klientów zachowujących się podobnie na przykład: klienci przeznaczający podobną część swoich wydatków na paliwo, odzież i podróże znalezienie powiązań między wydatkami klientów na przykład: duże wydatki na paliwo pociągają duże wydatki na hotele Piotr Lipiński, Wykład z eksploracji danych 9 Eksploracja danych Przykład: wiedza jeszcze bardziej użyteczna (m.in. uzyskana podstawowymi metodami eksploracji danych) Piotr Lipiński, Wykład z eksploracji danych 10 5

Eksploracja danych Typowy schemat analizy danych Popularne narzędzia eksploracji danych: Oracle Data-Mining, IBM SPSS Matlab, Octave, R, Statistica WEKA własne algorytmy i ich implementacje Piotr Lipiński, Wykład z eksploracji danych 11 Grupowanie danych Celem grupowania danych jest podział rekordów danych na grupy, tak aby elementy z tej samej grupy były do siebie podobne, a z różnych grup od siebie różne. Zazwyczaj nie wiadomo czemu odpowiadają utworzone grupy (jak je interpretować merytorycznie). Wiadomo jednak, jak je precyzyjnie zdefiniować. Wiadomo też, że są statystycznie nieprzypadkowe. Piotr Lipiński, Wykład z eksploracji danych 12 6

Klasyfikacja danych Klasyfikator to funkcja, która przypisuje każdy rekord danych do jednej z określonych klas. Klasyfikacja polega na konstruowaniu klasyfikatora poprawnie klasyfikującego dane. Potrzebne są dane uczące (poprawnie poklasyfikowane). Wiadomo czemu odpowiadają utworzone klasy. Piotr Lipiński, Wykład z eksploracji danych 13 Eksploracja danych redukcja wymiarowości Czasami dane wyglądają na bardziej skomplikowane niż są w rzeczywistości. Piotr Lipiński, Wykład z eksploracji danych 14 7

Eksploracja danych systemy rekomendujące Systemy rekomendujące służą do rekomendowania użytkownikom produktów (najczęściej w celach komercyjnych). Dla każdego użytkownika tworzony jest jego profil (charakterystyka). Użytkownicy o podobnym profilu są łączeni w grupy. Każdemu użytkownikowi są rekomendowane produkty wysoko oceniane przez innych użytkowników z jego grupy. Problemy: co powinien uwzględniać profil użytkownika? selekcja atrybutów, redukcja wymiarowości, analiza korelacji przetwarzania danych rzadkich (ang. sparse data) jak pogrupować użytkowników? które z wielu wybranych produktów wyświetlić i w jakiej kolejności? Piotr Lipiński, Wykład z eksploracji danych 15 8