Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU



Podobne dokumenty
Elementy modelowania matematycznego

Elementy modelowania matematycznego

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Przedmiot statystyki. Graficzne przedstawienie danych.

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

PRZEWODNIK PO PRZEDMIOCIE

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Opis efektów kształcenia dla modułu zajęć

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

STATYSTYKA MATEMATYCZNA

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Testowanie hipotez statystycznych.

2. Empiryczna wersja klasyfikatora bayesowskiego

Statystyka matematyczna i ekonometria

W4 Eksperyment niezawodnościowy

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Spis treści 3 SPIS TREŚCI

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

studia stacjonarne w/ćw zajęcia zorganizowane: 30/15 3,0 praca własna studenta: 55 Godziny kontaktowe z nauczycielem akademickim: udział w wykładach

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Opis przedmiotu: Probabilistyka I

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Testowanie hipotez statystycznych.

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Estymacja parametrów w modelu normalnym

MATEMATYKA3 Mathematics3. Elektrotechnika. I stopień ogólnoakademicki. studia stacjonarne. Katedra Matematyki dr Zdzisław Piasta

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

Wykład Ćwiczenia Laboratorium Projekt Seminarium 30

1.1 Wstęp Literatura... 1

Mail: Pokój 214, II piętro

Z-LOGN1-006 Statystyka Statistics

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Z-ZIPN1-004 Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki Niestacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

KARTA KURSU. Elementy statystyki matematycznej. Mathematical statistics

Statystyka Matematyczna Anna Janicka

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej

Z-LOG-033I Statystyka Statistics

Inżynierskie zastosowania statystyki Czyli co i jak andrzej.rusiecki.staff.iiar.pwr.wroc.pl s.

Informatyka I stopień (I stopień / II stopień) ogólno akademicki (ogólno akademicki / praktyczny) podstawowy (podstawowy / kierunkowy / inny HES)

Wykład: 20 godz., ćwiczenia: 20 godz. Zasady zaliczenia: zaliczenie ćwiczeń na ocenę, zaliczenie wykładu - egzamin (pisemne).

STATYSTYKA MATEMATYCZNA

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

zbieranie porządkowanie i prezentacja (tabele, wykresy) analiza interpretacja (wnioskowanie statystyczne)

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Sylabus do programu kształcenia obowiązującego od roku akademickiego 2014/15

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Z-0033z Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki. Stacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

Kolokwium ze statystyki matematycznej

Weryfikacja hipotez statystycznych

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

METODY STATYSTYCZNE W BIOLOGII

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład 10: Elementy statystyki

STATYSTYKA

166 Wstęp do statystyki matematycznej

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

Statystyka matematyczna dla leśników

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Sposoby prezentacji problemów w statystyce

ZALICZENIA. W celu uzyskania zaliczenia należy wybrać jeden z trzech poniższych wariantów I, II lub III

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Prawdopodobieństwo i statystyka r.

Transport II stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) Studia stacjonarne (stacjonarne / niestacjonarne)

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Wprowadzenie do analizy korelacji i regresji

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Wykład 10 Testy jednorodności rozkładów

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Na podstawie dokonanych obserwacji:

przedmiot podstawowy obowiązkowy polski drugi

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Własności statystyczne regresji liniowej. Wykład 4

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

Teoria Estymacji. Do Powyżej

Metody Statystyczne. Metody Statystyczne.

Eksploracja danych - wykład IV

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Metody statystyczne w socjologii SYLABUS A. Informacje ogólne Opis

PRZEWODNIK PO PRZEDMIOCIE

6. Zmienne losowe typu ciagłego ( ) Pole trapezu krzywoliniowego

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

STATYSTYKA MATEMATYCZNA

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Transkrypt:

Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów modelu Testowanie hipotez statystycznych Analiza dyskryminacyjna - przypadek liniowy Problemy decyzyjne i klasyfikatory, proces KDD Metody eksploracji danych i reprezentacji wiedzy: drzewa decyzyjne, reguły, sieci neuronowe Grupowanie pojęciowe 1

LITERATURA Pozycje podstawowe: Koronacki, J. Mielniczuk. Statystyka dla studentów kierunków technicznych i przyrodniczych. WNT, Warszawa 2001. P. Cichosz. Systemy uczące się. WNT, Warszawa 2000. Pozycje dodatkowe: A. Webb. Statistical Pattern Recognition. Wiley, 2002. S. Osowski. Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 1997. J. Jakubowski, R. Sztencel. Wstęp do teorii prawdopodobieństwa. SCRIPT, Warszawa 2001. ANALIZA DANYCH - RÓŻNE ASPEKTY Dane opisują pewne aspekty (numeryczne lub jakościowe) pewnego badanego przez nas zjawiska. Analiza danych prowadzona jest w celu znalezienia / zweryfikowania / dostrojenia modelu tego zjawiska. Znajomość modelu pozwala na: opis zjawiska w sposób zrozumiały dla człowieka, określenie pewnych cech zjawiska, przewidywanie wartości nieznanych (np. przyszłych) związanych z danym zjawiskiem. 2

PRZYKŁADY Mamy dane w postaci rekordów w bazie danych CRM (opisujących naszą wiedzę o klientach hurtowni butów i ich zakupach). Analiza danych może mieć na celu m.in.: zaprezentowanie raportu o liczbie klientów w różnych przedziałach obrotów, sprawdzenie hipotezy, że miejsce zamieszkania klienta nie wpływa na tygodniową liczbę wizyt w hurtowni, odnalezienie towarów, które są często kupowane jednocześnie, przewidywanie, który klient zamierza zrezygnować z naszych usług. NARZĘDZIA ANALIZY DANYCH Statystyka matematyczna metody estymacji testowanie hipotez Odkrywanie wiedzy w bazach danych techniki wstępnej obróbki danych tworzenie nowych cech i ich selekcja Eksploracja danych techniki wykorzystywane w KDD metody reprezentacji wiedzy (modelu danych) 3

RÓŻNE PODEJŚCIA intuicja i doświadczenie Rachunek prawdopodobieństwa probabilistyczny wnioski W rachunku prawdopodobieństwa wychodzimy od gotowego modelu probabilistycznego. RÓŻNE PODEJŚCIA Statystyka estymacja parametru x Rodzina modeli (x) dane obserwacja, pomiar probabilistyczny wnioski W statystyce zakładamy, że model probabilistyczny należy do pewnej rodziny (np. sparametryzowanej). Analizujemy dane, by wybrać najlepszą wartość parametru (najwłaściwszy model). 4

RÓŻNE PODEJŚCIA Statystyka testowanie hipotez 1 2 3 dane obserwacja, pomiar probabilistyczny wnioski Można też badać, czy nasza hipoteza odnośnie danych (np. tego, że dane pochodzą z pewnego rozkładu) jest słuszna. RÓŻNE PODEJŚCIA Eksploracja danych (klasyfikacja) budowa modelu dane obserwacja, pomiar danych wnioski (klasyfikator) W metodach eksploracji danych stosujemy znacznie łagodniejsze założenia. Kształt modelu jest w większym stopniu dopasowany do danych, przez co jest bardziej skomplikowany. 5

ZAŁOŻENIA Analiza danych przyjmuje pewne, jawne lub ukryte, założenia dotyczące danych. Znana próbka jest reprezentatywnym podzbiorem całości. To zakładamy prawie zawsze. Istnieje pewien rozkład prawdopodobieństwa (stały w czasie), z którego pochodzą próbki danych. To umożliwia stosowanie aparatu statystycznego i probabilistycznego; niektóre sytuacje zmienne w czasie (np. notowania giełdowe) też możemy modelować. Dane mają pewien konkretny rozkład prawdopodobieństwa (np. normalny). To silne założenie, często stosowane w statystyce. Możemy szacować, na ile konkretne dane pasują do tego założenia, a także estymować parametry tego rozkładu. ZAŁOŻENIA Metody eksploracji danych działają bardziej lokalnie, konstruując model bez zakładania globalnego rozkładu prawdopodobieństwa (por. sieci neuronowe). Zamiast tego posługują się zwykle zasadą: Jeżeli dane mogą być opisane (zamodelowane) na kilka różnych sposobów, to za najbliższy rzeczywistości (najbardziej pożądany) uznajemy model najprostszy. (Zasada minimalnego opisu.) Czy można całkowicie uniknąć założeń? 6

NO FREE LUNCH Mamy zbiór obiektów opisanych wektorami danych A (np.wektorami liczb) i zaklasyfikowanych do dwóch grup. Chcemy na podstawie tych danych zgadnąć, jaka zasada kryje się za klasyfikacją. Formalnie: chcemy znaleźć algorytm, który na podstawie opisu A przeprowadzi prawidłową klasyfikację nieoglądanych wcześniej obiektów. Twierdzenie: Jeżeli w opisanej sytuacji nie przyjmiemy żadnych założeń odnośnie zasad klasyfikacji, to dowolnie zaawansowany algorytm klasyfikujący będzie działał równie (nie)sprawnie, co klasyfikator czysto losowy. RACHUNEK PRAWDOP. A STATYSTYKA Probabilistyka Statystyka - prawdopodobieństwo - wartość oczekiwana - rozkład - dystrybuanta - wariancja, mediana... - częstość - średnia z próbki - histogram, szereg rozdzielczy - histogram skumulowany - estymatory wariancji,... (Warto znać te pojęcia) 7