Elemety modelowaia matematyczego Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Modelowaie daych (ilościowe): Metody statystycze: estymacja parametrów modelu, testowaie hipotez statystyczych Aaliza dyskrymiacyja Problemy decyzyje i klasyfikatory, eksploracja daych Programowaie liiowe i ieliiowe Modele kolejkowe Modele Markowa Modelowaie metodami teorii gier
LITERATURA Statystyka i eksploracja daych: Koroacki, J. Mieliczuk. Statystyka dla studetów kieruków techiczych i przyrodiczych. WNT, Warszawa. P. Cichosz. Systemy uczące się. WNT, Warszawa. A. Webb. Statistical Patter Recogitio. Wiley,. J. Jakubowski, R. Sztecel. Wstęp do teorii prawdopodobieństwa. SCRIPT, Warszawa. MODELOWANIE DANYCH - RÓŻNE ASPEKTY Dae opisują pewe aspekty (umerycze lub jakościowe) pewego badaego przez as zjawiska. Aaliza daych prowadzoa jest w celu zalezieia / zweryfikowaia / dostrojeia modelu tego zjawiska. Zajomość modelu pozwala a: opis zjawiska w sposób zrozumiały dla człowieka, określeie pewych cech zjawiska, przewidywaie wartości iezaych (p. przyszłych) związaych z daym zjawiskiem.
PRZYKŁADY Mamy dae w postaci rekordów w bazie daych CRM (opisujących aszą wiedzę o klietach hurtowi butów i ich zakupach). Budowa modelu daych może mieć a celu m.i.: zaprezetowaie raportu o liczbie klietów w różych przedziałach obrotów, sprawdzeie hipotezy, że miejsce zamieszkaia klieta ie wpływa a tygodiową liczbę wizyt w hurtowi, odalezieie towarów, które są często kupowae jedocześie, przewidywaie, który kliet zamierza zrezygować z aszych usług. NARZĘDZIA ANALIZY DANYCH Statystyka matematycza metody estymacji testowaie hipotez Odkrywaie wiedzy w bazach daych techiki wstępej obróbki daych tworzeie owych cech i ich selekcja Eksploracja daych techiki wykorzystywae w KDD metody reprezetacji wiedzy (modelu daych) 3
RÓŻNE PODEJŚCIA estymacja parametru x, testowaie hipotez Statystyka Rodzia modeli (x) obiekt rzeczywisty dae obserwacja, pomiar Model probabilistyczy wioski W statystyce zakładamy, że model probabilistyczy ależy do pewej rodziy (p. sparametryzowaej). Aalizujemy dae, by wybrać ajlepszą wartość parametru (ajwłaściwszy model). RÓŻNE PODEJŚCIA Eksploracja daych (klasyfikacja) budowa modelu obiekt rzeczywisty dae obserwacja, pomiar Model daych wioski (klasyfikator) W metodach eksploracji daych stosujemy zaczie łagodiejsze założeia. Kształt modelu jest w większym stopiu dopasoway do daych, przez co jest bardziej złożoy (p. drzewo decyzyje). 4
ZAŁOŻENIA Aaliza daych przyjmuje pewe, jawe lub ukryte, założeia dotyczące daych. Zaa próbka jest reprezetatywym podzbiorem całości. To zakładamy prawie zawsze. Istieje pewie rozkład prawdopodobieństwa (stały w czasie), z którego pochodzą próbki daych. To umożliwia stosowaie aparatu statystyczego i probabilistyczego; iektóre sytuacje zmiee w czasie (p. otowaia giełdowe) też możemy modelować. Dae mają pewie kokrety rozkład prawdopodobieństwa (p. ormaly). To sile założeie, często stosowae w statystyce. Możemy szacować, a ile kokrete dae pasują do tego założeia, a także estymować parametry tego rozkładu. ZAŁOŻENIA Metody eksploracji daych kostruują model bez zakładaia globalego rozkładu prawdopodobieństwa (por. sieci euroowe). Zamiast tego posługują się zwykle zasadą: Jeżeli dae mogą być opisae (zamodelowae) a kilka różych sposobów, to za ajbliższy rzeczywistości (ajbardziej pożąday) uzajemy model ajprostszy. (Zasada miimalego opisu.) Czy moża całkowicie uikąć założeń? Twierdzeie No free luch : Chcemy a podstawie daych przykładów zgadąć, według jakiej zasady są oe klasyfikowae do dwóch klas decyzyjych, a astepie zastosować tę zasadę do owych daych. Wówczas jeżeli ie przyjmiemy żadych założeń odośie zasad klasyfikacji, to dowolie zaawasoway algorytm klasyfikujący będzie działał rówie (ie)sprawie, jak klasyfikator czysto losowy. 5
PODSTAWOWE POJĘCIA Dae do aalizy zwykle będziemy przechowywali w tablicach daych, w których koleje wiersze odpowiadają obiektom (obserwacjom). Obiekty składają się a próbę (populację, zbiór treigowy). Obiekty opisae są określoymi z góry cechami (atrybutami), mogą też dzielić się a pewe kategorie (klasy decyzyje). Wartości atrybutów (cechy obiektów) Obiekty o o o3.3 AAC -5 6.87 AAA -. BBB Decyzje (kategorie obiektów) PODSTAWOWE POJĘCIA Cechy (atrybuty) mogą być: ilościowe (umerycze, ciągłe) p. waga, wiek klieta, dochód, wyik pomiaru apięcia, jakościowe (symbolicze, dyskrete) p. kolor samochodu, płeć, położeie geograficze (miasto) Cechy ilościowe moża zamieić a jakościowe (i odwrotie). 6
PRZYKŁAD - PROBLEM DECYZYJNY Aalizujemy bazę daych klietów salou samochodowego. Mamy day opis osób, którzy wystąpili o przyzaie karty stałego klieta. Chcielibyśmy przewidzieć, którzy klieci mogliby być w przyszłości rówież zaiteresowai. Zasada działaia: badamy, jakie cechy wyróżiają przypadki pozytywe (klieci z kartami) od egatywych (pozostali). Budujemy model daych. Wartości atrybutów (cechy klietów) Obiekty (klieci) o o o3.3 AAC -5 6.87 AAA -. BBB Decyzje (kliet pozytywy/egatywy) PRZYKŁAD - WYKORZYSTANIE MODELU Tworzymy model daych (p. statystyczy) i wykorzystujemy go do przewidywaia cechy decyzyjej dla owych obiektów. Dae treigowe (zaa decyzja) o o o3.3 AAC -5 6.87 AAA -. BBB budowa modelu Model daych - dyskrymiacja liiowa - drzewo decyzyje - sieć euroowa - Dae testowe (iezaa decyzja) o o o3 5. BBA - 5.8 BBB - 7.6 BAB -4??? przewidywaa decyzja dla daych testowych 7
PROSTY MODEL DANYCH: przybliżamy rozkład histogramem Modelem daych będzie pewie rozkład prawdopodobieństwa. Przybliżamy jego wykres histogramem. Oś pozioma: wartość atrybutu podzieloa a przedziały. Oś pioowa: częstość (liczba obiektów w daym przedziale). Kształt histogramu zależy od szerokości przedziałów i położeia ich graic. 4 4,5 5 5,5 6 6,5 7 7,5 8 35 3 5 5 5 4 35 3 5 5 5 8 6 4 8 6 4 4,5 5 5,5 6 6,5 7 7,5 8 4,8 5,3 5,8 6,3 6,8 7,3 7,8 8,3 Średia INNE STATYSTYKI PRÓBY wskaźiki położeia x= x i i= 3 4 5 6 7 8 Mediaa i kwatyle Kwatyl rzędu p (,) to taka wartość q p, że (p) elemetów próby ma wartość miejszą od q p. Kwatyl rzędu,5 to mediaa. Kwatyle rzędu /4, /4 i 3/4 azywae są kwartylami Q, Q, Q 3. Kwartyle mogą posłużyć do wykoaia wykresu ramkowego. 8
INNE STATYSTYKI PRÓBY Wariacja wskaźiki rozproszeia = Odchyleie stadardowe (pierwiastek z wariacji) Odchyleie przecięte s ( x i x) i= Rozstęp międzykwartylowy IQR = Q 3 - Q d = i= x i x 3 4 5 6 7 8 9