Elementy modelowania matematycznego



Podobne dokumenty
Analiza danych. TEMATYKA PRZEDMIOTU

Estymacja przedziałowa

Charakterystyki liczbowe zmiennych losowych: wartość oczekiwana i wariancja

3. Tworzenie próby, błąd przypadkowy (próbkowania) 5. Błąd standardowy średniej arytmetycznej

Miary położenia (tendencji centralnej) to tzw. miary przeciętne charakteryzujące średni lub typowy poziom wartości cechy.

Elementy modelowania matematycznego

Wykład 11 ( ). Przedziały ufności dla średniej

Elementy statystyki opisowej Izolda Gorgol wyciąg z prezentacji (wykład I)

STATYSTYKA OPISOWA WYKŁAD 1 i 2

Plan wykładu. Analiza danych Wykład 1: Statystyka opisowa. Literatura. Podstawowe pojęcia

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

1. Wnioskowanie statystyczne. Ponadto mianem statystyki określa się także funkcje zmiennych losowych o

Moda (Mo, D) wartość cechy występującej najczęściej (najliczniej).

Statystyczny opis danych - parametry

ANALIZA DANYCH DYSKRETNYCH

Metrologia: miary dokładności. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

STATYSTYKA MATEMATYCZNA

X i. X = 1 n. i=1. wartość tej statystyki nazywana jest wartością średnią empiryczną i oznaczamy ją symbolem x, przy czym x = 1. (X i X) 2.

Estymacja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 7

16 Przedziały ufności

Rachunek prawdopodobieństwa i statystyka W12: Statystyczna analiza danych jakościowych. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.

Ćwiczenia nr 5. TEMATYKA: Regresja liniowa dla prostej i płaszczyzny

Miary rozproszenia. Miary położenia. Wariancja. Średnia. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Statystyka opisowa. (n m n m 1 ) h (n m n m 1 ) + (n m n m+1 ) 2 +1), gdy n jest parzyste

Miary położenia. Miary rozproszenia. Średnia. Wariancja. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Statystyka i Opracowanie Danych. W7. Estymacja i estymatory. Dr Anna ADRIAN Paw B5, pok407

Wykład 5 Przedziały ufności. Przedział ufności, gdy znane jest σ. Opis słowny / 2

d wymiarowy wektor losowy Niech (Ω, S, P) przestrzeń probabilistyczna Definicja Odwzorowanie X: Ω R nazywamy 1-wymiarowym wektorem

Statystyka Matematyczna Anna Janicka

zbieranie porządkowanie i prezentacja (tabele, wykresy) analiza interpretacja (wnioskowanie statystyczne)

Metoda analizy hierarchii Saaty ego Ważnym problemem podejmowania decyzji optymalizowanej jest często występująca hierarchiczność zagadnień.

Statystyka matematyczna i ekonometria

STATYSTYKA OPISOWA PODSTAWOWE WZORY

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Ćwiczenie nr 14. Porównanie doświadczalnego rozkładu liczby zliczeń w zadanym przedziale czasu z rozkładem Poissona

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Statystyka opisowa. () Statystyka opisowa 24 maja / 8

Analiza wyników symulacji i rzeczywistego pomiaru zmian napięcia ładowanego kondensatora

STATYSTYKA I ANALIZA DANYCH

Korelacja i regresja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 12

Zadanie 2 Niech,,, będą niezależnymi zmiennymi losowymi o identycznym rozkładzie,.

STATYSTYKA OPISOWA PODSTAWOWE WZORY

ZAGADNIENIE ESTYMACJI. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA

1.1 Wstęp Literatura... 1

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

KURS STATYSTYKA. Lekcja 3 Parametryczne testy istotności ZADANIE DOMOWE. Strona 1

Modele tendencji rozwojowej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

PRZEDZIAŁY UFNOŚCI. Niech θ - nieznany parametr rozkładu cechy X. Niech α będzie liczbą z przedziału (0, 1).

Jak obliczać podstawowe wskaźniki statystyczne?

STATYSTKA I ANALIZA DANYCH LAB II

TESTY LOSOWOŚCI. Badanie losowości próby - test serii.

Podstawowe pojęcia. Próba losowa. Badanie próby losowej

3. Regresja liniowa Założenia dotyczące modelu regresji liniowej

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych (w zakresie materiału przedstawionego na wykładzie organizacyjnym)

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Podstawowe oznaczenia i wzory stosowane na wykładzie i laboratorium Część I: estymacja

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

L.Kowalski zadania ze statystyki matematycznej-zestaw 3 ZADANIA - ZESTAW 3

Próba własności i parametry

Zeszyty naukowe nr 9

STATYSTYKA OPISOWA I PROJEKTOWANIE EKSPERYMENTU dr inż Krzysztof Bryś

Ćwiczenie 2 ESTYMACJA STATYSTYCZNA

You created this PDF from an application that is not licensed to print to novapdf printer (

PODSTAWY BIOSTATYSTYKI ĆWICZENIA

W1. Wprowadzenie. Statystyka opisowa

Projekt ze statystyki

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

2. INNE ROZKŁADY DYSKRETNE

Statystyka Matematyczna Anna Janicka

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Trzeba pokazać, że dla każdego c 0 c Mc 0. ) = oraz det( ) det( ) det( ) jest macierzą idempotentną? Proszę odpowiedzieć w

Testowanie hipotez statystycznych.

BADANIA DOCHODU I RYZYKA INWESTYCJI

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

0.1 ROZKŁADY WYBRANYCH STATYSTYK

Przedmiot statystyki. Graficzne przedstawienie danych.

Stwierdzenie 1. Jeżeli ciąg ma granicę, to jest ona określona jednoznacznie (żaden ciąg nie może mieć dwóch różnych granic).

166 Wstęp do statystyki matematycznej

POLITECHNIKA OPOLSKA

Testowanie hipotez statystycznych.

Przedmiot statystyki. Graficzne przedstawienie danych.

COLLEGIUM MAZOVIA INNOWACYJNA SZKOŁA WYŻSZA WYDZIAŁ NAUK STOSOWANYCH. Kierunek: Finanse i rachunkowość. Robert Bąkowski Nr albumu: 9871

Wykład 11. a, b G a b = b a,

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Z-ZIPN1-004 Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki Niestacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

Z-LOGN1-006 Statystyka Statistics

Wprowadzenie do analizy korelacji i regresji

8. Optymalizacja decyzji inwestycyjnych

Testowanie hipotez. H 1 : µ 15 lub H 1 : µ < 15 lub H 1 : µ > 15

Agata Boratyńska. WYKŁAD 1. Wstępna analiza danych, charakterystyki opisowe. Indeksy statystyczne.

Statystyka powtórzenie (I semestr) Rafał M. Frąk

Prawdopodobieństwo i statystyka r.

Transkrypt:

Elemety modelowaia matematyczego Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Modelowaie daych (ilościowe): Metody statystycze: estymacja parametrów modelu, testowaie hipotez statystyczych Aaliza dyskrymiacyja Problemy decyzyje i klasyfikatory, eksploracja daych Programowaie liiowe i ieliiowe Modele kolejkowe Modele Markowa Modelowaie metodami teorii gier

LITERATURA Statystyka i eksploracja daych: Koroacki, J. Mieliczuk. Statystyka dla studetów kieruków techiczych i przyrodiczych. WNT, Warszawa. P. Cichosz. Systemy uczące się. WNT, Warszawa. A. Webb. Statistical Patter Recogitio. Wiley,. J. Jakubowski, R. Sztecel. Wstęp do teorii prawdopodobieństwa. SCRIPT, Warszawa. MODELOWANIE DANYCH - RÓŻNE ASPEKTY Dae opisują pewe aspekty (umerycze lub jakościowe) pewego badaego przez as zjawiska. Aaliza daych prowadzoa jest w celu zalezieia / zweryfikowaia / dostrojeia modelu tego zjawiska. Zajomość modelu pozwala a: opis zjawiska w sposób zrozumiały dla człowieka, określeie pewych cech zjawiska, przewidywaie wartości iezaych (p. przyszłych) związaych z daym zjawiskiem.

PRZYKŁADY Mamy dae w postaci rekordów w bazie daych CRM (opisujących aszą wiedzę o klietach hurtowi butów i ich zakupach). Budowa modelu daych może mieć a celu m.i.: zaprezetowaie raportu o liczbie klietów w różych przedziałach obrotów, sprawdzeie hipotezy, że miejsce zamieszkaia klieta ie wpływa a tygodiową liczbę wizyt w hurtowi, odalezieie towarów, które są często kupowae jedocześie, przewidywaie, który kliet zamierza zrezygować z aszych usług. NARZĘDZIA ANALIZY DANYCH Statystyka matematycza metody estymacji testowaie hipotez Odkrywaie wiedzy w bazach daych techiki wstępej obróbki daych tworzeie owych cech i ich selekcja Eksploracja daych techiki wykorzystywae w KDD metody reprezetacji wiedzy (modelu daych) 3

RÓŻNE PODEJŚCIA estymacja parametru x, testowaie hipotez Statystyka Rodzia modeli (x) obiekt rzeczywisty dae obserwacja, pomiar Model probabilistyczy wioski W statystyce zakładamy, że model probabilistyczy ależy do pewej rodziy (p. sparametryzowaej). Aalizujemy dae, by wybrać ajlepszą wartość parametru (ajwłaściwszy model). RÓŻNE PODEJŚCIA Eksploracja daych (klasyfikacja) budowa modelu obiekt rzeczywisty dae obserwacja, pomiar Model daych wioski (klasyfikator) W metodach eksploracji daych stosujemy zaczie łagodiejsze założeia. Kształt modelu jest w większym stopiu dopasoway do daych, przez co jest bardziej złożoy (p. drzewo decyzyje). 4

ZAŁOŻENIA Aaliza daych przyjmuje pewe, jawe lub ukryte, założeia dotyczące daych. Zaa próbka jest reprezetatywym podzbiorem całości. To zakładamy prawie zawsze. Istieje pewie rozkład prawdopodobieństwa (stały w czasie), z którego pochodzą próbki daych. To umożliwia stosowaie aparatu statystyczego i probabilistyczego; iektóre sytuacje zmiee w czasie (p. otowaia giełdowe) też możemy modelować. Dae mają pewie kokrety rozkład prawdopodobieństwa (p. ormaly). To sile założeie, często stosowae w statystyce. Możemy szacować, a ile kokrete dae pasują do tego założeia, a także estymować parametry tego rozkładu. ZAŁOŻENIA Metody eksploracji daych kostruują model bez zakładaia globalego rozkładu prawdopodobieństwa (por. sieci euroowe). Zamiast tego posługują się zwykle zasadą: Jeżeli dae mogą być opisae (zamodelowae) a kilka różych sposobów, to za ajbliższy rzeczywistości (ajbardziej pożąday) uzajemy model ajprostszy. (Zasada miimalego opisu.) Czy moża całkowicie uikąć założeń? Twierdzeie No free luch : Chcemy a podstawie daych przykładów zgadąć, według jakiej zasady są oe klasyfikowae do dwóch klas decyzyjych, a astepie zastosować tę zasadę do owych daych. Wówczas jeżeli ie przyjmiemy żadych założeń odośie zasad klasyfikacji, to dowolie zaawasoway algorytm klasyfikujący będzie działał rówie (ie)sprawie, jak klasyfikator czysto losowy. 5

PODSTAWOWE POJĘCIA Dae do aalizy zwykle będziemy przechowywali w tablicach daych, w których koleje wiersze odpowiadają obiektom (obserwacjom). Obiekty składają się a próbę (populację, zbiór treigowy). Obiekty opisae są określoymi z góry cechami (atrybutami), mogą też dzielić się a pewe kategorie (klasy decyzyje). Wartości atrybutów (cechy obiektów) Obiekty o o o3.3 AAC -5 6.87 AAA -. BBB Decyzje (kategorie obiektów) PODSTAWOWE POJĘCIA Cechy (atrybuty) mogą być: ilościowe (umerycze, ciągłe) p. waga, wiek klieta, dochód, wyik pomiaru apięcia, jakościowe (symbolicze, dyskrete) p. kolor samochodu, płeć, położeie geograficze (miasto) Cechy ilościowe moża zamieić a jakościowe (i odwrotie). 6

PRZYKŁAD - PROBLEM DECYZYJNY Aalizujemy bazę daych klietów salou samochodowego. Mamy day opis osób, którzy wystąpili o przyzaie karty stałego klieta. Chcielibyśmy przewidzieć, którzy klieci mogliby być w przyszłości rówież zaiteresowai. Zasada działaia: badamy, jakie cechy wyróżiają przypadki pozytywe (klieci z kartami) od egatywych (pozostali). Budujemy model daych. Wartości atrybutów (cechy klietów) Obiekty (klieci) o o o3.3 AAC -5 6.87 AAA -. BBB Decyzje (kliet pozytywy/egatywy) PRZYKŁAD - WYKORZYSTANIE MODELU Tworzymy model daych (p. statystyczy) i wykorzystujemy go do przewidywaia cechy decyzyjej dla owych obiektów. Dae treigowe (zaa decyzja) o o o3.3 AAC -5 6.87 AAA -. BBB budowa modelu Model daych - dyskrymiacja liiowa - drzewo decyzyje - sieć euroowa - Dae testowe (iezaa decyzja) o o o3 5. BBA - 5.8 BBB - 7.6 BAB -4??? przewidywaa decyzja dla daych testowych 7

PROSTY MODEL DANYCH: przybliżamy rozkład histogramem Modelem daych będzie pewie rozkład prawdopodobieństwa. Przybliżamy jego wykres histogramem. Oś pozioma: wartość atrybutu podzieloa a przedziały. Oś pioowa: częstość (liczba obiektów w daym przedziale). Kształt histogramu zależy od szerokości przedziałów i położeia ich graic. 4 4,5 5 5,5 6 6,5 7 7,5 8 35 3 5 5 5 4 35 3 5 5 5 8 6 4 8 6 4 4,5 5 5,5 6 6,5 7 7,5 8 4,8 5,3 5,8 6,3 6,8 7,3 7,8 8,3 Średia INNE STATYSTYKI PRÓBY wskaźiki położeia x= x i i= 3 4 5 6 7 8 Mediaa i kwatyle Kwatyl rzędu p (,) to taka wartość q p, że (p) elemetów próby ma wartość miejszą od q p. Kwatyl rzędu,5 to mediaa. Kwatyle rzędu /4, /4 i 3/4 azywae są kwartylami Q, Q, Q 3. Kwartyle mogą posłużyć do wykoaia wykresu ramkowego. 8

INNE STATYSTYKI PRÓBY Wariacja wskaźiki rozproszeia = Odchyleie stadardowe (pierwiastek z wariacji) Odchyleie przecięte s ( x i x) i= Rozstęp międzykwartylowy IQR = Q 3 - Q d = i= x i x 3 4 5 6 7 8 9