Data mining w wielkich złożonych systemach

Wielkość: px
Rozpocząć pokaz od strony:

Download "Data mining w wielkich złożonych systemach"

Transkrypt

1 Zakład Zaawansowanych Technik Informacyjnych (Z-6) Data mining w wielkich złożonych systemach Praca statutowa nr Warszawa, grudzień 2008

2 Data mining w wielkich złożonych systemach Praca statutowa nr Słowa kluczowe: data-mining, system złożony Kierownik pracy: dr inż. Szymon Jaroszewicz Wykonawcy pracy: dr inż. Szymon Jaroszewicz dr inż. Janusz Granat mgr. inż. Piotr Rzepakowski Kierownik zakładu: dr inż. Janusz Granat c Copyright by Instytut Łączności, Warszawa 2008

3 Spis treści 1 Publikacje powstałe w ramach pracy 4 2 Wstęp 4 3 Wprowadzenie Graficzne Modele Probabilistyczne Logika pierwszego rzędu Relacyjne modele graficzne Logiczne sieci Markowa Przykładowa logiczna sieć Markowa Problem implikacji Relacyjne sieci bayesowskie Wnioskowanie i uczenie w logicznych sieciach Markowa Wnioskowanie Metody oparte o sumowanie i przesyłanie wiadomości Próbkowanie Gibbsa Lifted inference Uczenie wag Zastosowania logicznych sieci Markowa do analizy sieci społecznych Generowanie danych testowych Analiza sieci społecznych pod kątem marketingu wirusowego Generowanie zależności wirusowych Ocena jakości przewidywań Analiza oparta wyłącznie o listę kontaktów Analiza uwzględniająca łączną długość rozmowy Analiza na podstawie pełnej listy rozmów Wydajność Znajdowanie interesujących zależności w danych relacyjnych 23 8 Analiza preferencji klientów oparta o Conjoint Analysis 26 9 Inne badania wykonane w ramach pracy 27 3

4 1 Publikacje powstałe w ramach pracy 1. S. Jaroszewicz, T. Scheffer, and D.A. Simovici. Scalable pattern mining with bayesian networks as background knowledge. Data Mining and Knowledge Discovery, 18(1), str , punkty MNiSW (opracowano ostateczną wersję artykułu) 2. S. Jaroszewicz. Interactive HMM construction based on interesting sequences. In Proc. of Local Patterns to Global Models (LeGo 08) Workshop at the 12th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 08), pages 82 91, Antwerp, Belgium, J. Granat and A. P. Wierzbicki. Objective classification of empirical probability distributions and the issue of event detection. Journal of Telecommunications and Information Technology (JTIT), (3):24 27, punktów MNiSW 4. P. Rzepakowski. Supporting telecommunication product sales by conjoint analysis. Journal of Telecommunications and Information Technology (JTIT), (3):28 34, punktów MNiSW 5. P. Rzepakowski. Incorporating customer preference information into the forecasting of service sales. paraca przyjęta do Journal of Telecommunications and Information Technology (JTIT), punktów MNiSW 6. S. Jaroszewicz. Discovering interesting patterns in numerical data with background knowledge. In Y.-S. Koh and N. Rountree, editors, Rare Association Rule Mining and Knowledge Discovery: Technologies for Infrequent and Critical Event Detection. IGI Global, praca w druku. 7 punktów MNiSW 7. M. Korzeń, P. Klęsk, S. Jaroszewicz, A. Ciechanowicz, M. Kaczmarczyk, and K. Widecka. Mining interesting rules and patterns for salt sensitivity of blood pressure. In 15th International Multiconference on Advanced Computer Systems (ACS 08), Międzyzdroje, October praca w druku. 2 Wstęp W ostatnich latach daje się zauważyć ogromny wzrost powszechności i znaczenia wielkich, bardzo złożonych sieci. Jako przykłady mogą tu posłużyć sieci telekomunikacyjne; sieci społeczne takie jak komunikujący się ze sobą abonenci operatora telefonii komórkowej czy serwisy takie jak Facebook; sieć powiązań między stronami WWW czy cytowania między artykułami naukowymi. Z uwagi na ogromną wielkość i złożoność takich sieci ich analiza jest zadaniem wysoce nietrywialnym. Większość klasycznych metod analizy probabilistycznej nie jest stanie poradzić sobie z taką ilością i złożonością danych. Szczególnym problemem jest złożona struktura powiązań między elementami systemu. Dodatkowym utrudnieniem jest tzw. bezskalowa struktura sieci. W uproszczeniu oznacza to, że wiele związanych z systemem wielkości opisanych jest przez rozkłady prawdopodobieństwa o bardzo dużej, nawet nieskończonej wariancji, co utrudnia stosowanie klasycznych metod statystycznych. 4

5 Z drugiej strony, z uwagi na coraz większą powszechność i znaczenie tego typu złożonych systemów ich analiza staje się coraz bardziej istotna dla funkcjonowania przedsiębiorstw działających w branży telekomunikacyjnej i informatycznej. W niniejszej pracy podjęta została próba analizy i opracowania metod badania i modelowania wielkich, złożonych systemów. Skoncentrowano się przede wszystkim na niedawno opracowanych relacyjnych modelach graficznych [10, 25]. Metoda ta umożliwia zadanie modelu probabilistycznego w formie zbioru formuł logiki pierwszego rzędu lub algebry relacyjnej, wraz z odpowiadającymi im prawdopodobieństwami. Na ich podstawie tworzony jest model probabilistyczny dla konkretnego systemu. Występowanie zmiennych w formułach logicznych opisujących model umożliwia automatyczne uwzględnienie wszystkich występujących w systemie obiektów. W pracy opisane zostały typy relacyjnych modeli graficznych, metody wnioskowania w nich, a także metody automatycznego znajdowania wag. Przeanalizowano aspekty teoretyczne logicznych sieci Markowa związane ze stosowaniem implikacji w formułach modelu. Stworzona została również własna implementacja logicznych sieci Markowa pozwalającą na analizę ich właściwości. Implementacja ta umożliwia np. znajdowanie prawdopodobieństw dowolnych formuł logicznych (nie tylko predykatów), obliczanie dokładnych, a nie tylko przybliżonych wartości prawdopodobieństw, a także stosowanie prawdopodobieństw o wartościach 0 i 1. Publicznie dostępne implementacje nie posiadają tych cech, co znacznie utrudnia zastosowanie ich analizy właściwości logicznych sieci Markowa. Przedstawiono zastosowanie logicznych sieci Markowa do analizy sieci społecznych na przykładzie marketingu wirusowego w sieci telefonii komórkowej. Metoda okazała się skuteczna w prognozowaniu, tego, którzy klienci skorzystają z danej usługi pod wpływem klientów, z którymi się kontaktują. Opracowana została metoda znajdowania interesujących zależności w logicznych sieciach Markowa. Metoda ta jest oprarta o znajdowanie interesujących formuł logicznych. Formuła jest interesująca, jeżeli prawdopodobieństwo tego, że ta formuła jest prawdziwa, obliczone na podstawie modelu, odbiega znacząco od analogicznego prawdopodobieństwa znalezionego w danych opisujących rzeczywisty system. Na podstawie interesujących formuł użytkownik uaktualnia model. W uaktualnionym modelu interesujące stają się kolejne formuły i proces się powtarza. Opracowany został również system wykrywania zdarzeń w wielkich, złożonych systemach, oparty o porównywanie histogramów mierzonych cech systemu. Porównywanie odbywa się na podstawie częściowego porządku zdefiniowanego na histogramach. Testy na danych pochodzących z urządzeń sieciowych potwierdziły skuteczność metody. W pracy przedstawiono także zastosowania metody conjoint analysis do analiz marketingowych rynku telefonii komórkowej. Przedstawiona została metoda prognozowania zakupów dokonywanych przez klientów na podstawie ich preferencji. W ramach pracy powstał też szereg innych publikacji z dziedziny data mining. 3 Wprowadzenie Aby umożliwić opis relacyjnych modeli graficznych konieczne jest krótkie wprowadzenie na temat modeli graficznych, a także wprowadzenie podstawowych pojęć logiki pierwszego 5

6 rzędu, czemu służyć będą następujące dwa podrozdziały. 3.1 Graficzne Modele Probabilistyczne Graficzne modele probabilistyczne umożliwiają opis łącznego rozkładu prawdopodobieństwa dużej liczby zmiennych losowych w oparciu o grafową reprezentację zależności statystycznych między nimi. Graficzny model probabilistyczny ma dwa podstawowe składniki: 1. graf (ew. hipergraf), którego wierzchołkami są zmienne losowe, a krawędzie odpowiadają bezpośrednim zależnościom statystycznym między zmiennymi, 2. lokalne rozkłady prawdopodobieństwa związane z krawędziami i lub wierzchołkami grafu. Na ich podstawie zdefiniowany jest łączny rozkład zmiennych losowych będących wierzchołkami grafu. Rozkład ten jest zazwyczaj iloczynem rozkładów lokalnych. Wnioskowanie z modeli graficznych polega na wyznaczaniu rozkładów brzegowych i warunkowych z rozkładu łącznego modelu. Problem ten jest w większości przypadków NP-zupełny, istnieją jednak wydajne algorytmy dokładne i przybliżone działające nawet dla bardzo dużych sieci. Dwa najpowszechniej stosowane typy modeli graficznych to sieci bayesowskie oparte o grafy skierowane, i sieci Markowa oprarte o grafy nieskierowane (lub hipergrafy). Sieci bayesowskie są modelami graficznymi opartymi o skierowane grafy acykliczne. Wierzchołki grafu odpowiadają modelowanym zmiennym losowym, a krawędzie grafu bezpośrednim zależnościom przyczynowym między nimi [23, 18]. Dodatkowo każdy wierzchołek oznaczony jest rozkładem prawdopodobieństwa zmiennej losowej znajdującej się w wierzchołku warunkowanym na rodzicach tej zmiennej w grafie. Łączny rozkład prawdopodobieństwa sieci bayesowskiej jest iloczynem rozkładów warunkowych każdej zmiennej. Przykładowa sieć bayesowska przedstawiona jest na rys 1. Łączny rozkład prawdopodobieństwa tej sieci wyraża się wzorem P(W,T,A,S) = P(W)P(T)P(A W,T)P(S A). Zaletą sieci bayesowskich jest możliwość reprezentowania zależności przyczynowych, a także łatwość szacowania poszczególnych rozkładów warunkowych. Istotny jest również brak konieczności obliczania wartości stałej normalizującej (patrz opis sieci Markowa poniżej). Wadą sieci bayesowskich jest trudność w modelowaniu zależności, których kierunek przyczynowy nie jest znany lub jest trudny do określenia, jak np. gdy dwie zmienne losowe wzajemnie na siebie wpływają. Sieci Markowa. Modele te są oparte o grafy nieskierowane [23, 19]. Wierzchołki grafu odpowiadają jak poprzednio zmiennym losowym, natomiast z klikami grafu związane są tzw. potencjały, które określają siłę lokalnych zależności między należącymi do danej 6

7 Rysunek 1: Przykładowa sieć bayesowska kliki zmiennymi. Nieco bardziej ogólna wersja opiera się na hipergrafach, a potencjały przypisane są hiperkrawędziom. Łączny rozkład sieci Markowa wyraża się wzorem P(X = x) = 1 Z n φ i (x[k i ]), i=1 gdzie K i oznacza i-tą klikę grafu, φ i potencjał związany z i-tą kliką, a x[k i ] oznacza projekcję (w sensie bazodanowym) wektora x na zbiór K i. Czynnik normalizujący Z (ang. partition function) zapewnia sumowanie się prawdopodobieństw do jedności i wyraża się wzorem Z = n φ i (x[k i ]). x i=1 Rozkład łączny sieci Markowa reprezentuje się też często jako model logarytmicznoliniowy ) P(X = x) = 1 Z exp ( n i=1 w ij 1[x[K i ] = j], (1) gdzie w ij są wagami, a 1[x[K i ] = j] przyjmuje wartość 1 jeżeli x[k i ] = j i zero w przeciwnym wypadku. Wadą sieci Markowa jest trudność w interpretacji potencjałów i wag, które nie odpowiadają już bezpośrednio prawdopodobieństwom brzegowym i warunkowym. Konieczne jest również obliczenie stałej normalizującej Z, co jest trudne dla większych sieci. Nie nadają się one też do reprezentacji zależności przyczynowych. Zaletami sieci Markowa jest natomiast możliwość modelowania zależności bez uwzględniania ich kierunku. Przykładem mogą tu być np. ich zastosowania w analizie obrazu, gdzie krawędzie grafu łączą sąsiadujące ze sobą piksele. Problem ten trudno byłoby modelować siecią Bayesowską z uwagi na brak określonego kierunku zależności. 7

8 3.2 Logika pierwszego rzędu W tym podrozdziale przedstawione zostaną podstawowe informacje na temat składni logiki pierwszego rzędu w stopniu koniecznym do zrozumienia logicznych sieci Markowa. Definicję formuł logicznych zaczniemy od definicji zmiennych i stałych. Zmienne oznaczane będą wielkimi literami X,Y,Z,..., a stałe ciągami małych liter, np. a,b,ala,kot itp. Term zdefiniowany jest jako zmienna lub stała. Zauważmy, że jest to uproszczenie względem klasycznej logiki pierwszego rzędu, gdzie termy mogą również być funkcjami innych termów. Tak uproszczona wersja logiki pierwszego rzędu jest wystarczająca dla przedstawianych zastosowań, a jednocześnie pozwala na uproszczenie opisu. Logiczne sieci Markowa można z powodzeniem zdefiniować również w przypadku użycia symboli funkcyjnych. Term nazywamy ustalonym, jeżeli nie występują w nim zmienne. Predykaty oznaczamy słowami rozpoczynającymi się wielką literą np. Chory, Znajomy itp. Formuły logiki pierwszego rzędu są zdefiniowane rekurencyjnie: Jeżeli t 1,...,t n są termami, a P n-argumentowym predykatem, to P(t 1,...,t n ) jest formułą. Jest to tzw. formuła atomowa Jeżeli F i G są formułami, to formułami są również F, F G, F G, F G, F G Jeżeli F jest formułą, to formułami są również XF, XF. Jeżeli w formule nie występują zmienne nazywamy ją formułą ustaloną. Niekiedy przydatne będzie też pojęcie literału, czyli zanegowanej lub niezanegowanej formuły atomowej. 4 Relacyjne modele graficzne W niniejszej części opisane zostaną relacyjne modele graficzne, które w kolejnych rozdziałach zostaną zastosowane do analizy systemów złożonych. Mówiąc ogólnie, relacyjne modele graficzne są próbą uogólnienia modeli graficznych tak, aby mogły w nich występować zmienne, za które można podstawić konkretne obiekty opisywanego świata. Umożliwia to dynamiczne tworzenie modeli graficznych opisujących dany system na podstawie występujących w tym systemie obiektów. Można je też uznać za próbę uogólnienia logiki pierwszego rzędu na przypadek probabilistyczny. W pracy skupimy się przede wszystkim na logicznych sieciach Markowa opracowanych przez Pedro Domingosa i innych [25, 8, 7]. Krótko opisane zostaną również inne podejścia, takie jak relacyjne sieci Bayesa. 4.1 Logiczne sieci Markowa Logiczne sieci Markowa są próbą uogólnienia logiki pierwszego rzędu na przypadek probabilistyczny. 8

9 Definicja 1 Logiczną siecią markowa [25] nazywamy zbiór n par (F i,w i ) gdzie F i jest formułą logiki pierwszego rzędu, a w i przypisaną jej wagą. Wagi w i determinują prawdopodobieństwa, że odpowiadające im formuły są prawdziwe i odpowiadają wagom zwykłych sieci Markowa (patrz równanie 1). Ogólnie, zerowa waga odpowiada brakowi zależności, a np. waga dodatnia oznacza, że formuła jest prawdziwa częściej niż w przypadku niezależności statystycznej. Konkretne wartości wag nie mają niestety łatwej, intuicyjnej interpretacji. Istnieje też analogiczne sformułowanie, gdzie formułom przypisane są nie wagi, lecz prawdopodobieństwa tego, że dana formuła jest prawdziwa. Definicja logicznych sieci Markowa jest więc dość prosta. Kluczowym zagadnieniem jest oczywiście zdefiniowanie jej semantyki dla konkretnego przypadku, tzn. określenie związanego z nią łącznego rozkładu prawdopodobieństwa. Niech C = {c 1,c 2,...,c m } będzie zbiorem stałych w danej interpretacji logiki pierwszego rzędu. Łączny rozkład logicznej sieci Markowa M definiuje się przez stworzenie klasycznej sieci Markowa M C na podstawie M i zdefiniowanie rozkładu łącznego sieci logicznej M jako łącznego rozkładu sieci M C. Wprowadźmy następujące oznaczenia: niech F będzie zbiorem formuł logicznych, a C = {c 1,c 2,...,c m } zbiorem stałych. Przez F C oznaczmy rodzinę wszytkich zbiorów formuł ustalonych, które można otrzymać przez jednoczesne podstawienie stałych c 1,c 2,...,c m za zmienne w formułach F. Niech P i oznacza zbiór wszystkich predykatów występujących w formule F i, a P = n i=1 P i. Definicja 2 Siecią Markowa indukowaną przez logiczną sieć markowa M i zbiór stałych C = {c 1,c 2,...,c m } nazywamy sieć Markowa M C której: 1. Zbiorem wierzchołków jest zbiór {{P } C : P P}, to znaczy zbiór wszystkich możliwych ustaleń predykatów przy pomocy stałych z C. 2. Zbiorem hiperkrawędzi jest rodzina zbiorów n i=1 (P i) C czyli wszystkie możliwe jednoczesne ustalenia predykatów występujących w formułach F i 3. Hiperkrawędzi K powstałej z formuły F i odpowiada potencjał φ K taki, że φ K (x[k]) = e w i jeżeli F i jest prawdziwa gdy wartości ustalonych predykatów odpowiadają x[k], i 1 w przeciwnym wypadku. Łączny rozkład prawdopodobieństwa logicznej sieci Markowa M dla zbioru stałych C jest zdefiniowany jako łączny rozkład sieci M C. Niech # i (x) oznacza liczbę ustaleń formuły F i powstałych przez zastąpienie predykatów występujących w tej formule przez odpowiadające im wartości z wektora x, takich że F i jest prawdziwa. Łączny rozkład prawdopodobieństwa logicznej sieci Markowa M można wyrazić jako gdzie Z jest stałą normalizującą. P M (x) = 1 Z exp(w i# i (x)), 9

10 Formuła waga Znajomy(X,Y ) -1 Chory(X) -1 Znajomy(X, Y ) Znajomy(Y, X) Znajomy(X,Y ) Chory(X) Chory(Y ) 0.5 Tablica 1: Przykładowa logiczna sieć Markowa 4.2 Przykładowa logiczna sieć Markowa W celu lepszego zilustrowania przedstawionych pojęć w niniejszym podrozdziale przedstawiony zostanie bardzo prosty przykład logicznej sieci Markowa. Sieć opisuje prosty model rozchodzenia się choroby zakaźnej. Istnieje pewien zbiór osób, które przyjaźnią (spotykają) się ze sobą. Jeżeli któraś z nich jest chora, może zakazić swoich przyjaciół. Formuły i ich wagi są przedstawione w Tabeli 1. Przykład jest zabawny, ale relacyjne modele graficzne były już stosowane do rzeczywistych problemów epidemiologicznych [10]. Formuły Znajomy i Chory umożliwiają określenie prawdopodobieństw tego, że dowolna para osób się przyjaźni i tego, że dowolnie wybrana osoba jest chora. Przypisane im ujemne wagi oznaczają, że oba te zdarzenia dla losowo wybranych osób uznajemy za mało prawdopodobne. Formuła Znajomy(X, Y ) Znajomy(Y, X) określa symetryczność relacji Znajomy. Formuła ta ma charakter logiczny, przypisana jej nieskończona waga powoduje, że jest ona prawdziwa z prawdopodobieństwem 1. W praktyce realizuje się to przez zastąpnienie nieskończonej wagi dużą wartością lub przez bezpośrednie określanie potencjałów φ, a nie wag. To drugie podejście zostało użyte w implementacji autora, co pozwoliło na łatwe operowanie prawdopodobieństwami o wartościach 0 i 1. Niestety wiele metod wnioskowania, np. próbkowanie Gibbsa, nie działa w obecności prawdopodobieństw równych zeru lub jedności. Ostatnia formuła Znajomy(X, Y ) Chory(X) Chory(Y ) dotyczy faktu, że chora osoba może zarazić swoich znajomych. Pewne uwagi dotyczące użycia implikacji logicznej przedstawione zostaną w kolejnych podpunktach. Załóżmy teraz, że zbiór stałych obejmuje dwie osoby a i b. Sieć Markowa indukowana przez logiczną sieć Markowa jest przedstawiona na Rys. 2. Linia ciągła oznacza hiperkrawędź odpowiadającą formule Znajomy(X, Y ) Znajomy(Y, X), a przerywana hiperkrawędzie odpowiadające formule Znajomy(X, Y ) Chory(X) Chory(Y ). Łatwo zauważyć, że dla większej liczby osób sieć indukowana staje się bardzo złożona, podczas gdy logiczna sieć Markowa pozostaje prosta i zrozumiała. Przedstawione zostaną teraz przykłady wnioskowania z przedstawionej powyżej przykładowej logicznej sieci Markowa. Zastosowano w tym przypadku zbiór 10 stałych (osób). Ponieważ sieć jest symetryczna względem permutacji stałych, w przykładach poniżej prawdopodobieństwa będą zawierać zmienne, za które można podstawić dowolne stałe (osoby), a prawdopodobieństwa nie zmienią się. Prawdopodobieństwa najprostszych zdarzeń wynoszą: P(Chory(X)) = P(Znajomy(X, Y )) =

11 Rysunek 2: Sieć Markowa indukowana przez przykładową logiczną sieć Markowa Zauważmy, że pomimo iż odpowiadające im formuły mają jednakowe wagi, prawdopodobieństwa te różnią się. Jest tak dlatego, że predykat znajomy występuje w sieci znacznie częściej: dwa razy dla każdej pary stałych. W praktyce wagi uczone są na podstawie danych więc problem interpretacji nie występuje. Istnieje też możliwość określania nie wag poszczególnych formuł, lecz ich prawdopodobieństw. Przeanalizujmy teraz jak sieć modeluje związki między osobami. Prawdopodobieństwo tego, że dana osoba jest chora, pod warunkiem, że przyjaźni się z chorą osobą wynosi P(Chory(Y ) Znajomy(X, Y ) Chory(X)) = , jest więc znacznie wyższe niż aprioryczne prawdopodobieństwo choroby. Taką samą wartość ma prawdopodobieństwo P(Chory(Y ) Znajomy(Y, X) Chory(X)) = Zauważmy, że dla obliczenia tego prawdopodobieństwa konieczne jest wzięcie pod uwagę więcej niż jednej formuły, gdyż kolejność argumentów w predykacie Znajomy jest odwrócona i trzeba dodatkowo wziąć pod uwagę regułę definiującą jej symetrię. Fakt, że oba prawdopodobieństwa są identyczne, świadczy o tym, że ścisły, logiczny charakter reguły deklarującej symetrię został poprawnie uwzględniony. Jeżeli natomiast dana osoba ma znajomego, który nie jest chory, prawdopodobieństwo tego, że ta osoba jest chora spada: P(Chory(Y ) Znajomy(X, Y ) Chory(X)) = Jest to logiczne, gdyż jeżeli Y byłby chory, mógł również zakazić X. Ponieważ jednak X jest zdrowy, prawdopodobieństwo tego, że również Y jest zdrowy, rośnie. Spójrzmy jeszcze na następujące prawdopodobieństwa obliczone z sieci P(Chory(Z) Znajomy(Z, X) Chory(X) Znajomy(Z, Y ) Chory(Y )) = , P(Chory(Z) Znajomy(Z, X) Chory(X) Znajomy(Z, Y ) Chory(Y )) = , P(Chory(Z) Znajomy(Z, X) Chory(X) Znajomy(Z, Y ) Chory(Y ) Znajomy(Z, V ) Chory(V )) =

12 Widać wyraźnie, iż prawdpodobieństwo tego, że dana osoba jest chora, zależy w intuicyjny sposób od stanu zdrowia jej znajomych. Osoba mająca dwóch chorych przyjaciół jest chora z prawdopodobieństwem prawie dwa razy wyższym niż w przypadku osoby losowo wybranej i wyższym niż w przypadku osoby, której tylko jeden znajomy jest na pewno chory. Osoba mająca znajomego chorego i zdrowego jest chora praktycznie z takim samym prawdopodobieństwem co osoba, o której znajomych nie ma żadnych dodatkowych informacji wiedza o chorym i zdrowym znajomym znosi się. Podobnie prawdopodobieństwo choroby w przypadku osoby mającej dwóch zdrowych i jednego chorego znajomego jest niższe niż w poprzednim wypadku. Prawidłowo zachowują się również prawdopodobieństwa łączne. Na przykład prawdopodobieństwo tego, że dwie losowo wybrane osoby są chore wynosi P(Chory(X) Chory(Y )) = , Jeżeli jednak wiemy, że osoby te się przyjaźnią prawdopodobieństwo to staje się ponad dwa razy wyższe: P(Chory(X) Chory(Y ) Znajomy(X, Y )) = Przedstawione powyżej przykłady pokazują, że logiczne sieci Markowa poprawnie modelują prawdopodobieństwa w systemach zawierających interakcje między elementami. Zauważmy, że tradycyjne metody klasyfikacji wymagają stałej listy atrybutów wejściowych, nie można ich więc zastosować w powyższym wypadku Problem implikacji W powyższym przykładzie jedna z formuł zawierała logiczną implikację. Niestety jej interpretacja w przypadku probabilistycznym jest często odmienna od oczekiwań użytkownika [1]. Mianowicie, oczekiwalibyśmy, że duża waga formuły A B jest równoważna wysokiemu prawdopodobieństwu warunkowemu P(B A). Formuła A B jest jednak interpretowana tak samo jak formuła A B, która może mieć wysokie prawdopodobieństwo niezależnie od P(B A). Aby się o tym przekonać, weźmy następujący rozkład łączny zdarzeń A i B: zdarzenie prawdop. A B 0.9 A B 0 A B 0.09 A B 0.01 Mamy P( A B) = 0.91, ale P(B A) = = 0.1. Z powyższego przykładu widać, że problem ten nie zawsze jest istotny, jednak aby uniknąć go w praktycznych sytuacjach, w pracy niniejszej zastosowano odmienne podejście. Zamiast formuły A B stosuje się dwie formuły A B i A. Ponieważ wagi uczone są na podstawie danych, prawdopodobieństwa zdarzeń A B i A będą poprawne, określając jednocześnie wartość prawdopodobieństwa warunkowego P(B A). Według wiedzy autora problem ten nie był do tej pory poruszany w literaturze dotyczącej relacyjnych modeli graficznych. 12

13 4.3 Relacyjne sieci bayesowskie Relacyjne sieci Bayesowskie [10, 13] są skierowanym odpowiednikiem logicznych sieci Markowa. Zamiast formuł logicznych opierają się one o zapytania bazodanowe. Zadany jest graf skierowany, którego wierzchołki oznaczone są zmiennymi, a krawędzie zapytaniami bazodanowymi. Na podstawie relacyjnej sieci bayesowskiej oraz bazy danych tworzona jest standardowa sieć bayesowska. Za każdą zmienną występującą w wierzchołku podstawiana jest każda stała z bazy danych, tworząc zbiór wierzchołków sieci. Krawędzie są tworzone dla wszystkich par wierzchołków spełniających zapytanie bazodanowe związane z daną krawędzią. Łączny rozkład relacyjnej sieci bayesowskiej zdefiniowany jest jako łączny rozkład tak zbudowanej sieci. Sposób definiowania semantyki jest więc podobny jak w przypadku logicznych sieci Markowa. Można udowodnić [13], że jeżeli relacyjna sieć bayesowska nie ma cykli, to indukowana przez nią i dowolną bazę danych sieć bayesowska również nie ma cykli, a więc rozkład łączny jest zawsze dobrze zdefiniowany. 5 Wnioskowanie i uczenie w logicznych sieciach Markowa Z uwagi na bardzo dużą liczbę obiektów sieci Markowa indukowane przez logiczne sieci Markowa mogą mieć tysiące atrybutów. Stanowi to bardzo poważne wyzwanie, ponieważ wnioskowanie w modelach graficznych jest problemem NP-zupełnym. Poniżej opisane zostaną metody wnioskowania w logicznych sieciach Markowa, a także metody uczenia wag sieci na postawie danych treningowych. 5.1 Wnioskowanie Większość metod wnioskowania opiera się na konstrukcji indukowanej sieci Markowa i dokonaniu wnioskowania w sieci indukowanej. Metody te są więc identyczne z metodami wnioskowania dla zwykłych sieci Markowa. Typowe podejścia zostaną krótko scharakteryzowane poniżej Metody oparte o sumowanie i przesyłanie wiadomości Ponieważ rozkład łączny sieci Markowa jest iloczynem potencjałów, wnioskowania można dokonać przez sumowanie po wszystkich zmiennych, za wyjątkiem tych, których rozkład chcemy uzyskać. Niestety, koszt obliczenia takiej sumy rośnie wykładniczo. W celu przyspieszenia obliczeń stosuje się prawo rozdzielności mnożenia względem dodawania w celu maksymalnego uproszczenia sumy [6]. Na podobnej zasadzie działają metody oparte o przesyłanie wiadomości. Każdy potencjał i każda zmienna w sieci przesyła do swoich sąsiadów wiadomość. Wiadomości są następnie mnożone przez lokalne potencjały i przesyłane dalej. Można udowodnić, że jeżeli sieć ma strukturę drzewa, to procedura ta prowadzi do obliczenia poprawnych prawdopodobieństw brzegowych wszystkich zmiennych [23]. 13

14 Jeżeli sieć nie ma struktury drzewa, metoda przysyłania wiadomości nie gwarantuje osiągnięcia poprawnego wyniku, ani nawet zbieżności, jednak w praktyce zazwyczaj działa skutecznie. W związku z tym jest często stosowana pomimo braku gwarancji teoretycznych Próbkowanie Gibbsa Ważną klasą metod wnioskowania w sieciach Markowa są metody przybliżone, oparte o próbkowanie. Niestety generowanie próbek z rozkładu określonego przez sieć Markowa nie jest łatwe. Stosuje się zazwyczaj tzw. próbkowanie Gibbsa. W każdym kroku losuje się nową wartość pojedynczej zmiennej przy założeniu, że wszystkie pozostałe mają stałą wartość. Tak generowane próbki nie są oczywiście niezależne. W związku z tym bierze się tylko np. co setną próbkę, a pozostałe odrzuca. Wadą próbkowania Gibbsa jest to, że trudno jest ustalić, jak szybko próbki stają się niezależne. Metoda może też grzęznąć w lokalnych obszarach poszukiwań, zwłaszcza jeżeli niektóre z prawdopodobieństw są równe zeru. Więcej informacji można znaleźć np. w [5] Lifted inference Lifted inference [24, 28] różni się od poprzednich podejść tym, że wnioskowanie odbywa się bezpośrednio w logicznej sieci Markowa, bez tworzenia sieci indukowanej. Dzięki temu możliwe jest osiągnięcie znacznego przyspieszenia obliczeń. Podejście to dotyczy metod opartych o sumowanie i przesyłanie wiadomości. Główna idea polega tu na przesyłaniu wiadomości zawierających zmienne. W ten sposób pojedyncze wiadomości (lub odpowiednio składniki sumy) opisują całe zbiory identycznych potencjałów. W najlepszym wypadku daje to redukcję rozmiaru sieci indukowanej do rozmiaru oryginalnej logicznej sieci Markowa, w najgorszym nie daje jednak korzyści. W praktyce korzyści ze stosowania metody są znaczące. 5.2 Uczenie wag W niniejszym podrozdziale zostanie omówione uczenie wag formuł w logicznej sieci Markowa na podstawie danych D. Uczenie to odbywa się na podstawie reguły maksymalnej wiarygodności (ang. maximum likelihood); w uproszczeniu oznacza to dobór wag maksymalizujących prawdopodobieństwo usyzkania danych D na podstawie modelu, czyli tzw. wiarygodność. Przypomnijmy, że # i (x) oznacza liczbę ustaleń i-tej formuły w rekordzie x, dla których formuła ta jest prawdziwa. Prawdopodobieństwo danego wektora x D ) P(x) = 1 Z exp ( n i=1 w i # i (x), gdzie, Z = x ( n ) exp w i # i (x ). i=1 14

15 Niech dany będzie rekord x D. Logarytm wiarygodności dla rekordu x jest dany przez: log(p(x)) = n w i # i (x) log(z). i=1 Poniżej przedstawimy wyprowadzenia wzorów na gradient i hesjan logarytmu wiarygodności dla pojedynczego rekordu. Gradient i hesjan logarytmu wiarygodności dla całej bazy danych D są po prostu sumą tych wartości dla pojedynczych rekordów. Zanim przejdziemy do obliczenia gradientu, obliczmy następującą pochodną ( Z = n ) exp w k # k (x ) = ( n ) exp w k # k (x ) w i w i w x k=1 x i k=1 = ( n ) exp w k # k (x n ) w k # k (x ) w x i k=1 k=1 = ( n ) exp w k # k (x ) # i (x ) = Z P(x )# i (x ) x x k=1 Obliczmy teraz pochodną log(p) względem wagi i-tej formuły w i : w i log P(x) = w i n w k # k (x) log(z) w i k=1 = # i (x) 1 Z = # i (x) E(# i (x)) Z w i = # i (x) x P(x )# i (x ) To znaczy, że pochodna po wadze w i jest prawdziwych ustaleń formuły F i w x minus wartość oczekiwana tej liczby. Obliczmy teraz drugą pochodną: log(p(x)) = # i (x) P(x )# i (x ) w j w i w j w j x = P(x )# i (x ) = # i (x ) P(x ). w j w j x Występuje w niej wielkość w j P(x), którą obliczymy poniżej ( P(x) = e log P(x) = e log P(x) log P(x) = P(x) # j (x) ) P(x )# j (x ). w j w j w j x A więc x w j w i log(p(x)) = x # i (x ) w j P(x ) 15

16 = x # i (x )P(x ) ( # j (x ) x P(x )# j (x ) = x P(x )# i (x )# j (x ) + x P(x )# i (x ) x P(x )# j (x ) ( ) ( ) = P(x )# i (x ) P(x )# j (x ) P(x )# i (x )# j (x ) x x x = E(# i )E(# j ) E(# i # j ) = COV (# i, # j ), gdzie COV (# i, # j ) jest macierzą kowariancji # i i # j. Interesujące jest, że wielkość ta nie zależy od x. Ponieważ macierz korelacji jest dodatnio określona, więc maksimum wiarygodności zawsze istnieje. Ponieważ możliwe jest obliczenie gradientu i hesjanu, do znajdowania maksimum można użyć dowolnego algorytmu optymalizacji. W praktyce jeżeli liczba wag jest mała, można użyć metody Newtona, w przeciwnym wypadku korzysta się z podejść takich jak metoda gradientów sprzężonych czy algorytm BFGS. ) 6 Zastosowania logicznych sieci Markowa do analizy sieci społecznych W niniejszej części przedstawione zostanie zastosowanie opisanych metod do analizy sieci społecznych. Przykładem, który zostanie tu przedstawiony, jest sieć użytkowników telefonii komórkowej kontaktujących się ze sobą. Dodatkowo, użytkownicy korzystają z określonych usług i mogą mieć wpływ na to, czy użytkownicy, z którymi się kontaktują, też zakupią daną usługę. Jest to więc przykład tzw. marketingu wirusowego. Możliwość modelowania tego typu sieci społecznych może mieć bardzo duże znaczenie w kampaniach reklamowych operatorów telekomunikacyjnych. Niestety, z uwagi na ochronę danych niemożliwe było wykonanie eksperymentów na danych rzeczywistych. Opracowano więc realistyczny generator sieci społecznych umożliwiający generowanie sztucznych danych o zadanych parametrach. Generator danych zostanie opisany poniżej, następnie przedstawione zostaną wyniki modelowania przy użyciu generowanych danych. 6.1 Generowanie danych testowych W niniejszym podrozdziale opisany zostanie generator danych testowych. Użytkownik zadaje liczbę klientów sieci, a program utworzy dla każdego klienta listę jego kontaktów, a także rozmów wykonanych z każdym z kontaktów. Stosowane są przy tym rozkłady prawdopodobieństwa występujące w rzeczywistych sieciach tego typu. Ważnym aspektem rzeczywistych sieci społecznych jest tzw. bezskalowość [4, 3]. W sieciach takich większość parametrów podlega rozkładom prawdopodobieństwa spełniającym tzw. prawo potęgowe, czyli na podwójnie logarytmicznej skali odpowiada im linia prosta. Powoduje to możliwość występowania skrajnie dużych wartości ze znaczącym prawdopodobieństwem. Zazwyczaj wszystkie momenty takich rozkładów, a więc także wartość oczekiwana i wariancja są nieskończone. 16

17 W praktyce oznacza to na przykład, że podczas gdy większość klientów operatora komórkowego kontaktuje się regularnie tylko z kilkunastoma osobami, istnieje niewielka liczba klientów, którzy kontaktują się regularnie z setkami, a nawet tysiącami osób. Charakterystyką rozkładów bezskalowych jest to, że wpływu takich niewielkich grup nie można pominąć w analizie. Podobnie zachowują się też inne parametry, takie jak czas i ilość rozmów, czy liczba wysyłanych SMSów. Opracowany generator działa następująco: 1. zadana jest liczba klientów sieci N; 2. dla każdego klienta losowana jest liczba jego kontaktów z rozkładu bezskalowego oraz same kontakty; 3. dla każdego klienta losowany jest całkowity czas rozmów; 4. całkowity czas rozmów danego klienta dzielony jest między jego kontakty; 5. dla każdego kontaktu generowana jest lista rozmów. Szczegóły poszczególnych kroków opisane są poniżej. Liczba kontaktów danego klienta losowana jest z rozkładu Zipfa z parametrem s = 2.5: P(k) = k s N i=0 i s, gdzie k jest liczbą kontaktów. Same kontakty są generowane na podstawie rozkładu równomiernego, tzn. każdy klient może zostać wybrany z takim samym prawdopodobieństwem. Całkowity czas rozmów generowany jest na podstawie rozkładu Pareto z parametrami t m = 10 i k = 1.5, P(t) = k tk m t k+1, który jest rozkładem bezskalowym zmiennej rzeczywistej o wartościach większych niż t m. Odpowiada to sytuacji, gdy większość klientów rozmawia względnie krótko, jednak pewna grupa osób prowadzi bardzo długie rozmowy. Całkowity czas rozmów dzielony jest między kontakty wg. rozkładu Zipfa z parametrem skali losowanym dla każdego klienta z przedziału od 0 do 2.5. Odpowiada to sytuacji, gdy z kilkoma osobami rozmawiamy znacznie dłużej niż z pozostałymi. Parametr dobierany jest losowo, aby oddać zmienność tych różnic u poszczególnych osób. W podobny sposób generowany jest czas i liczba poszczególnych rozmów. Przykład generowanej sieci bezskalowej dla 100 użytkowników jest przedstawiony na rys. 3. Widać wyraźnie, że większość użytkowników kontaktuje się tylko z kilkoma innymi osobami, ale kilku użytkowników ma bardzo dużą liczbę kontaktów. Tych kilku użytkowników może mieć bardzo duży wpływ na strukturę sieci. 17

18 Rysunek 3: Przykładowa bezskalowa sieć kontaktów między użytkownikami stworzona przy pomocy opracowanego generatora. 18

19 6.2 Analiza sieci społecznych pod kątem marketingu wirusowego W tej części przedstawione zostanie zastosowanie logicznych sieci Markowa do marketingu wirusowego. Chcemy obliczyć prawdopodobieństwo, że dany klient kupi usługę dzięki kontaktom z innymi klientami, bez konieczności jawnej akcji marketingowej. Na początek omówiony zostanie sposób generowania danych o zakupach produktu, a następnie przedstawiona analiza przy pomocy logicznych sieci Markowa. 6.3 Generowanie zależności wirusowych Aby określić wagi sieci, konieczne są odpowiednie dane treningowe. W rozpatrywanym przypadku są to przypisania produktów do konkretnych klientów na podstawie ich kontaktów z innymi klientami. Na początek każdej osobie przypisywany jest współczynnik podatności określający prawdopodobieństwo skorzystania z produktu, o którym usłyszała od znajomego. Prawdopodobieństwo to jest losowane z przedziału [0, 0.4]. Każdej parze (uporządkowanej, kierunek może mieć znaczenie) kontaktujących się ze sobą klientów przypisywane jest prawdopodobieństwo przekazania tą drogą informacji o produkcie. Prawdopodobieństwo przekazania informacji od klienta k 1 do klienta k 2 jest ustalane według wzoru P(k 1,k 2 ) = exp ( (10 3 t i 2 5)), gdzie t i oznacza czas trwania i-tej rozmowy między k 1 i k 2. Funkcja sigmoidalna 1 1+exp( ) zapewnia, że wartość prawdopodobieństwa mieści się w przedziale (0, 1). Czasy rozmów podnoszone są do kwadratu, aby zapewnić większy wpływ dłuższych rozmów. Mnożenie przez 10 3 i odjęcie 5 zapewnia, że wartości prawdopodobieństw nie są zbyt wysokie. Po ustaleniu powyższych parametrów wykonywana jest symulacja rozprzestrzeniania się produktów przez sieć: 1. Wybierana jest losowo mała grupa początkowa korzystającą z produktu. 2. Do osiągnięcia zbieżności: dla każdej pary klientów k 1, k 2, takich, że k 1 korzysta z produktu a k 2 nie, k 2 zaczyna korzystać z produktu z prawdopodobieństwem równym P(k 1,k 2 ) pomnożonym przez prawdopodobieństwo akceptacji produktu przez k 2. W ten sposób tworzony jest zbiór treningowy, na podstawie którego uczone są wagi logicznej sieci Markowa. 6.4 Ocena jakości przewidywań Do oceny jakości przewidywań konieczny jest także zbiór testowy. W związku z tym, dla tej samej sieci powtarzano proces przydzielania produktów. Oczywiście, ponieważ proces ten jest losowy, kolejny produkt był przydzielany w inny sposób. Tworzone były dwa zbiory danych. Pierwszy zawiera tylko początkową grupę klientów korzystających z usługi, przed fazą propagowania jej przez sieć. Na podstawie tego zbioru 19

20 logiczna sieć Markowa obliczy prawdopodobieństwo skorzystania z produktu w skutek kontaktów z innymi klientami dla każdego klienta, który do tej pory z produktu nie korzystał. Następnie wykonana zostanie symulacja propagowania drugiego produktu przez sieć; w ten sposób powstanie zbiór testowy (pełniący rolę prawdziwej sieci), którego zgodność z przewidywaniami modelu będzie badana. Im lepsza zgodność, tym lepiej logiczna sieć Markowa nauczyła się modelować zależności między użytkownikami. Badania wykonano na wygenerowanej sieci składającej się z 1000 użytkowników. Należy obecnie zdefiniować miary służące ocenie jakości przewidywań. Dla każdego klienta dysponujemy informacją o tym, czy faktycznie zakupił on produkt, oraz prawdopodobieństwem zajścia tego zdarzenia obliczonym na podstawie logicznej sieci Markowa. Niech p i oznacza prawdopodobieństwo, że i-ty klient zakupił produkt obliczone z logicznej sieci Markowa, a t i {0, 1}, oznacza, czy klient faktycznie ten produkt nabył; n jest liczbą klientów, dla których przewidujemy, czy skorzystają z usługi. Pomiar jakości przewidywania może być dokonywany na kilka sposobów: Błąd średniokwadratowy. Brana jest pod uwagę różnica między prawdziwymi a przewidywanymi wartościami prawdopodobieństw MSE = 1 n (p i t i ) 2. n Pierwiastek błędu średniokwadratowego. RMSE = 1 n i=1 n (p i t i ) 2. Średni błąd bezwzględny. Ma bardziej intuicyjną interpretację: jest to średni błąd przewidywanych prawdopodobieństw. MAE = 1 n p i t i. n Błąd klasyfikacji. Jeżeli zaklasyfikujemy klientów, dla których prawdopodobieństwo przewidywane przez model jest większe niż 0.5 jako tych, którzy skorzystają z usługi, błąd klasyfikacji jest określony jakoliczba niepoprawnie zaklasyfikowanych klientów. Pole pod krzywą ROC [9]. Miara ta określa, czy klienci zostali poprawnie uporządkowani pod względem rosnących prawdopodobieństw i:t AUC = i =0 j:t j =0 1[p i < p j ], n 0 n 1 gdzie n 0 i n 1 oznaczają odpowiednio liczbę klientów, którzy naprawdę nie korzystają z usługi, i tych, którzy z niej korzystają. Zdaniem autora, najlepszą z powyższych miar jest pole pod krzywą ROC. Umożliwia ono poprawną ocenę jakości klasyfikacji, niezależnie od progu, powyżej którego uznajemy, że klient skorzysta z usługi. Bierze też pod uwagę poprawne uporządkowanie klientów, a nie tylko poprawny wynik klasyfikacji. Więcej szczegółów można znaleźć w [9]. Wyniki podane zostaną jednak dla wszystkich przedstawionych wyżej miar. 20 i=1 i=1

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

8. Neuron z ciągłą funkcją aktywacji.

8. Neuron z ciągłą funkcją aktywacji. 8. Neuron z ciągłą funkcją aktywacji. W tym ćwiczeniu zapoznamy się z modelem sztucznego neuronu oraz przykładem jego wykorzystania do rozwiązywanie prostego zadania klasyfikacji. Neuron biologiczny i

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Elementy logiki. Wojciech Buszkowski Wydział Matematyki i Informatyki UAM Zakład Teorii Obliczeń

Elementy logiki. Wojciech Buszkowski Wydział Matematyki i Informatyki UAM Zakład Teorii Obliczeń Elementy logiki Wojciech Buszkowski Wydział Matematyki i Informatyki UAM Zakład Teorii Obliczeń 1 Klasyczny Rachunek Zdań 1.1 Spójniki logiczne Zdaniem w sensie logicznym nazywamy wyrażenie, które jest

Bardziej szczegółowo

Systemy ekspertowe - wiedza niepewna

Systemy ekspertowe - wiedza niepewna Instytut Informatyki Uniwersytetu Śląskiego lab 8 Rozpatrzmy następujący przykład: Miażdżyca powoduje często zwężenie tętnic wieńcowych. Prowadzi to zazwyczaj do zmniejszenia przepływu krwi w tych naczyniach,

Bardziej szczegółowo

Zadania o numerze 4 z zestawów licencjat 2014.

Zadania o numerze 4 z zestawów licencjat 2014. Zadania o numerze 4 z zestawów licencjat 2014. W nawiasie przy zadaniu jego występowanie w numerze zestawu Spis treści (Z1, Z22, Z43) Definicja granicy ciągu. Obliczyć granicę:... 3 Definicja granicy ciągu...

Bardziej szczegółowo

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych Pochodna i różniczka unkcji oraz jej zastosowanie do obliczania niepewności pomiarowych Krzyszto Rębilas DEFINICJA POCHODNEJ Pochodna unkcji () w punkcie określona jest jako granica: lim 0 Oznaczamy ją

Bardziej szczegółowo

AiSD zadanie trzecie

AiSD zadanie trzecie AiSD zadanie trzecie Gliwiński Jarosław Marek Kruczyński Konrad Marek Grupa dziekańska I5 5 czerwca 2008 1 Wstęp Celem postawionym przez zadanie trzecie było tzw. sortowanie topologiczne. Jest to typ sortowania

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

LOGIKA I TEORIA ZBIORÓW

LOGIKA I TEORIA ZBIORÓW LOGIKA I TEORIA ZBIORÓW Logika Logika jest nauką zajmującą się zdaniami Z punktu widzenia logiki istotne jest, czy dane zdanie jest prawdziwe, czy nie Nie jest natomiast istotne o czym to zdanie mówi Definicja

Bardziej szczegółowo

1 Automaty niedeterministyczne

1 Automaty niedeterministyczne Szymon Toruńczyk 1 Automaty niedeterministyczne Automat niedeterministyczny A jest wyznaczony przez następujące składniki: Alfabet skończony A Zbiór stanów Q Zbiór stanów początkowych Q I Zbiór stanów

Bardziej szczegółowo

Zakładamy, że są niezależnymi zmiennymi podlegającymi (dowolnemu) rozkładowi o skończonej wartości oczekiwanej i wariancji.

Zakładamy, że są niezależnymi zmiennymi podlegającymi (dowolnemu) rozkładowi o skończonej wartości oczekiwanej i wariancji. Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Centralne Twierdzenie Graniczne 1.1 Twierdzenie Lindeberga Levy'ego 1.2 Dowód 1.2.1 funkcja tworząca sumy zmiennych niezależnych 1.2.2 pochodna funkcji

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa M. Czoków, J. Piersa 2012-01-10 1 Łańcucha Markowa 2 Istnienie Szukanie stanu stacjonarnego 3 1 Łańcucha Markowa 2 Istnienie Szukanie stanu stacjonarnego

Bardziej szczegółowo

1 Podstawowe oznaczenia

1 Podstawowe oznaczenia Poniżej mogą Państwo znaleźć skondensowane wiadomości z wykładu. Należy je traktować jako przegląd pojęć, które pojawiły się na wykładzie. Materiały te nie są w pełni tożsame z tym co pojawia się na wykładzie.

Bardziej szczegółowo

Jakość uczenia i generalizacja

Jakość uczenia i generalizacja Jakość uczenia i generalizacja Dokładność uczenia Jest koncepcją miary w jakim stopniu nasza sieć nauczyła się rozwiązywać określone zadanie Dokładność mówi na ile nauczyliśmy się rozwiązywać zadania które

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Wstęp do programowania

Wstęp do programowania Wstęp do programowania Złożoność obliczeniowa, poprawność programów Paweł Daniluk Wydział Fizyki Jesień 2013 P. Daniluk(Wydział Fizyki) WP w. XII Jesień 2013 1 / 20 Złożoność obliczeniowa Problem Ile czasu

Bardziej szczegółowo

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000

Bardziej szczegółowo

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora. 1. Podstawy matematyki 1.1. Geometria analityczna W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora. Skalarem w fizyce nazywamy

Bardziej szczegółowo

Wykład 11a. Składnia języka Klasycznego Rachunku Predykatów. Języki pierwszego rzędu.

Wykład 11a. Składnia języka Klasycznego Rachunku Predykatów. Języki pierwszego rzędu. Andrzej Wiśniewski Logika I Materiały do wykładu dla studentów kognitywistyki Wykład 11a. Składnia języka Klasycznego Rachunku Predykatów. Języki pierwszego rzędu. 1 Logika Klasyczna obejmuje dwie teorie:

Bardziej szczegółowo

Zbiory, relacje i funkcje

Zbiory, relacje i funkcje Zbiory, relacje i funkcje Zbiory będziemy zazwyczaj oznaczać dużymi literami A, B, C, X, Y, Z, natomiast elementy zbiorów zazwyczaj małymi. Podstawą zależność między elementem zbioru a zbiorem, czyli relację

Bardziej szczegółowo

Metody Sztucznej Inteligencji II

Metody Sztucznej Inteligencji II 17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału

Bardziej szczegółowo

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą 1. Statystyka odczytać informacje z tabeli odczytać informacje z diagramu 2. Mnożenie i dzielenie potęg o tych samych podstawach 3. Mnożenie i dzielenie potęg o tych samych wykładnikach 4. Potęga o wykładniku

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 1 Kwantyzacja skalarna Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 10.05.005 Kwantyzacja polega na reprezentowaniu dużego zbioru wartości (być może nieskończonego) za pomocą wartości

Bardziej szczegółowo

0 + 0 = 0, = 1, = 1, = 0.

0 + 0 = 0, = 1, = 1, = 0. 5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,

Bardziej szczegółowo

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład Rozdział 1 Wektory losowe 1.1 Wektor losowy i jego rozkład Definicja 1 Wektor X = (X 1,..., X n ), którego każda współrzędna jest zmienną losową, nazywamy n-wymiarowym wektorem losowym (krótko wektorem

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej KATEDRA MATEMATYKI TEMAT PRACY: ROZKŁAD NORMALNY ROZKŁAD GAUSSA AUTOR: BARBARA MARDOSZ Kraków, styczeń 2008 Spis treści 1 Wprowadzenie 2 2 Definicja

Bardziej szczegółowo

5. Rozwiązywanie układów równań liniowych

5. Rozwiązywanie układów równań liniowych 5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a

Bardziej szczegółowo

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k. Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy

Bardziej szczegółowo

METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH

METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH Jednym z zastosowań metod numerycznych jest wyznaczenie pierwiastka lub pierwiastków równania nieliniowego. W tym celu stosuje się szereg metod obliczeniowych np:

Bardziej szczegółowo

Np. Olsztyn leży nad Łyną - zdanie prawdziwe, wartość logiczna 1 4 jest większe od 5 - zdanie fałszywe, wartość logiczna 0

Np. Olsztyn leży nad Łyną - zdanie prawdziwe, wartość logiczna 1 4 jest większe od 5 - zdanie fałszywe, wartość logiczna 0 ĆWICZENIE 1 Klasyczny Rachunek Zdań (KRZ): zdania w sensie logicznym, wartości logiczne, spójniki logiczne, zmienne zdaniowe, tabele prawdziwościowe dla spójników logicznych, formuły, wartościowanie zbioru

Bardziej szczegółowo

ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH

ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH Transport, studia I stopnia Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać ogólna równania nieliniowego Często występującym, ważnym problemem obliczeniowym

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu 1 Metody rozwiązywania równań nieliniowych. Postawienie problemu Dla danej funkcji ciągłej f znaleźć wartości x, dla których f(x) = 0. (1) 2 Przedział izolacji pierwiastka Będziemy zakładać, że równanie

Bardziej szczegółowo

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcja homograficzna. Definicja. Funkcja homograficzna jest to funkcja określona wzorem f() = a + b c + d, () gdzie współczynniki

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania

Bardziej szczegółowo

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w

Bardziej szczegółowo

Definicja i własności wartości bezwzględnej.

Definicja i własności wartości bezwzględnej. Równania i nierówności z wartością bezwzględną. Rozwiązywanie układów dwóch (trzech) równań z dwiema (trzema) niewiadomymi. Układy równań liniowych z parametrem, analiza rozwiązań. Definicja i własności

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Ważne rozkłady i twierdzenia c.d.

Ważne rozkłady i twierdzenia c.d. Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby

Bardziej szczegółowo

System bonus-malus z mechanizmem korekty składki

System bonus-malus z mechanizmem korekty składki System bonus-malus z mechanizmem korekty składki mgr Kamil Gala Ubezpieczeniowy Fundusz Gwarancyjny dr hab. Wojciech Bijak, prof. SGH Ubezpieczeniowy Fundusz Gwarancyjny, Szkoła Główna Handlowa Zagadnienia

Bardziej szczegółowo

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ Maciej Patan Uniwersytet Zielonogórski WSTEP Zadanie minimalizacji bez ograniczeń f(ˆx) = min x R nf(x) f : R n R funkcja ograniczona z dołu Algorytm rozwiazywania Rekurencyjny

Bardziej szczegółowo

Metody Prognozowania

Metody Prognozowania Wprowadzenie Ewa Bielińska 3 października 2007 Plan 1 Wprowadzenie Czym jest prognozowanie Historia 2 Ciągi czasowe Postępowanie prognostyczne i prognozowanie Predykcja długo- i krótko-terminowa Rodzaje

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra

Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa P. F. Góra http://th-www.if.uj.edu.pl/zfs/gora/ 2012 Uwarunkowanie zadania numerycznego Niech ϕ : R n R m będzie pewna funkcja odpowiednio wiele

Bardziej szczegółowo

Wymagania kl. 3. Zakres podstawowy i rozszerzony

Wymagania kl. 3. Zakres podstawowy i rozszerzony Wymagania kl. 3 Zakres podstawowy i rozszerzony Temat lekcji Zakres treści Osiągnięcia ucznia 1. RACHUNEK PRAWDOPODOBIEŃSTWA 1. Reguła mnożenia reguła mnożenia ilustracja zbioru wyników doświadczenia za

Bardziej szczegółowo

Wykład 9: Markov Chain Monte Carlo

Wykład 9: Markov Chain Monte Carlo RAP 412 17.12.2008 Wykład 9: Markov Chain Monte Carlo Wykładowca: Andrzej Ruciński Pisarz: Ewelina Rychlińska i Wojciech Wawrzyniak Wstęp W tej części wykładu zajmiemy się zastosowaniami łańcuchów Markowa

Bardziej szczegółowo

Adam Meissner.

Adam Meissner. Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej Adam Meissner Adam.Meissner@put.poznan.pl http://www.man.poznan.pl/~ameis SZTUCZNA INTELIGENCJA Podstawy logiki pierwszego rzędu

Bardziej szczegółowo

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia Doświadczenie: Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia Cele doświadczenia Celem doświadczenia jest zbadanie zależności drogi przebytej w ruchu przyspieszonym od czasu dla kuli bilardowej

Bardziej szczegółowo

========================= Zapisujemy naszą funkcję kwadratową w postaci kanonicznej: 2

========================= Zapisujemy naszą funkcję kwadratową w postaci kanonicznej: 2 Leszek Sochański Arkusz przykładowy, poziom podstawowy (A1) Zadanie 1. Wykresem funkcji kwadratowej f jest parabola o wierzchołku 5,7 Wówczas prawdziwa jest równość W. A. f 1 f 9 B. f 1 f 11 C. f 1 f 1

Bardziej szczegółowo

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

III. ZMIENNE LOSOWE JEDNOWYMIAROWE III. ZMIENNE LOSOWE JEDNOWYMIAROWE.. Zmienna losowa i pojęcie rozkładu prawdopodobieństwa W dotychczas rozpatrywanych przykładach każdemu zdarzeniu była przyporządkowana odpowiednia wartość liczbowa. Ta

Bardziej szczegółowo

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Funkcja uwikłana (równanie nieliniowe) jest to funkcja, która nie jest przedstawiona jawnym przepisem, wzorem wyrażającym zależność wartości

Bardziej szczegółowo

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1)

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1) ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL 1. Problem Rozważmy układ dwóch równań z dwiema niewiadomymi (x 1, x 2 ): 1 x1 sin x2 x2 cos x1 (1) Nie jest

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa

Bardziej szczegółowo

Wykład z Technologii Informacyjnych. Piotr Mika

Wykład z Technologii Informacyjnych. Piotr Mika Wykład z Technologii Informacyjnych Piotr Mika Uniwersalna forma graficznego zapisu algorytmów Schemat blokowy zbiór bloków, powiązanych ze sobą liniami zorientowanymi. Jest to rodzaj grafu, którego węzły

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH Transport, studia I stopnia rok akademicki 2012/2013 Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Adam Wosatko Ewa Pabisek Pojęcie

Bardziej szczegółowo

Zdarzenia losowe i prawdopodobieństwo

Zdarzenia losowe i prawdopodobieństwo Rozdział 1 Zdarzenia losowe i prawdopodobieństwo 1.1 Klasyfikacja zdarzeń Zdarzenie elementarne pojęcie aprioryczne, które nie może być zdefiniowane. Odpowiednik pojęcia punkt w geometrii. Zdarzenie elementarne

Bardziej szczegółowo

Jeśli X jest przestrzenią o nieskończonej liczbie elementów:

Jeśli X jest przestrzenią o nieskończonej liczbie elementów: Logika rozmyta 2 Zbiór rozmyty może być formalnie zapisany na dwa sposoby w zależności od tego z jakim typem przestrzeni elementów mamy do czynienia: Jeśli X jest przestrzenią o skończonej liczbie elementów

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

WYMAGANIA EDUKACYJNE Z MATEMATYKI W KLASIE II W PUBLICZNYM GIMNAZJUM NR 2 W ZESPOLE SZKÓŁ W RUDKACH

WYMAGANIA EDUKACYJNE Z MATEMATYKI W KLASIE II W PUBLICZNYM GIMNAZJUM NR 2 W ZESPOLE SZKÓŁ W RUDKACH WYMAGANIA EDUKACYJNE Z MATEMATYKI W KLASIE II W PUBLICZNYM GIMNAZJUM NR 2 W ZESPOLE SZKÓŁ W RUDKACH Marzena Zbrożyna DOPUSZCZAJĄCY: Uczeń potrafi: odczytać informacje z tabeli odczytać informacje z diagramu

Bardziej szczegółowo

Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału.

Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału. Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału Wiktor Miszuris 2 czerwca 2004 Przepustowość kanału Zacznijmy od wprowadzenia równości IA, B HB HB A HA HA B Można ją intuicyjnie

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Badania eksperymentalne

Badania eksperymentalne Badania eksperymentalne Analiza CONJOINT mgr Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Najpopularniejsze sposoby oceny wyników eksperymentu w schematach

Bardziej szczegółowo

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną

Bardziej szczegółowo

Sieci Mobilne i Bezprzewodowe laboratorium 2 Modelowanie zdarzeń dyskretnych

Sieci Mobilne i Bezprzewodowe laboratorium 2 Modelowanie zdarzeń dyskretnych Sieci Mobilne i Bezprzewodowe laboratorium 2 Modelowanie zdarzeń dyskretnych Plan laboratorium Generatory liczb pseudolosowych dla rozkładów dyskretnych: Generator liczb o rozkładzie równomiernym Generator

Bardziej szczegółowo

Analiza Statystyczna

Analiza Statystyczna Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza

Bardziej szczegółowo

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 3 Generacja realizacji zmiennych losowych Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia: Generowanie

Bardziej szczegółowo

Komputerowa Analiza Danych Doświadczalnych

Komputerowa Analiza Danych Doświadczalnych Komputerowa Analiza Danych Doświadczalnych dr inż. Adam Kisiel kisiel@if.pw.edu.pl pokój 117b (12b) 1 Materiały do wykładu Transparencje do wykładów: http://www.if.pw.edu.pl/~kisiel/kadd/kadd.html Literatura

Bardziej szczegółowo

Ciała i wielomiany 1. przez 1, i nazywamy jedynką, zaś element odwrotny do a 0 względem działania oznaczamy przez a 1, i nazywamy odwrotnością a);

Ciała i wielomiany 1. przez 1, i nazywamy jedynką, zaś element odwrotny do a 0 względem działania oznaczamy przez a 1, i nazywamy odwrotnością a); Ciała i wielomiany 1 Ciała i wielomiany 1 Definicja ciała Niech F będzie zbiorem, i niech + ( dodawanie ) oraz ( mnożenie ) będą działaniami na zbiorze F. Definicja. Zbiór F wraz z działaniami + i nazywamy

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).

Bardziej szczegółowo

W. Guzicki Zadanie IV z Informatora Maturalnego poziom rozszerzony 1

W. Guzicki Zadanie IV z Informatora Maturalnego poziom rozszerzony 1 W. Guzicki Zadanie IV z Informatora Maturalnego poziom rozszerzony 1 Zadanie IV. Dany jest prostokątny arkusz kartony o długości 80 cm i szerokości 50 cm. W czterech rogach tego arkusza wycięto kwadratowe

Bardziej szczegółowo

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe Nierówność Czebyszewa Niech X będzie zmienną losową o skończonej wariancji V ar(x). Wtedy wartość oczekiwana E(X) też jest skończona i

Bardziej szczegółowo

Osiągnięcia ponadprzedmiotowe

Osiągnięcia ponadprzedmiotowe W rezultacie kształcenia matematycznego uczeń potrafi: Osiągnięcia ponadprzedmiotowe Umiejętności konieczne i podstawowe czytać teksty w stylu matematycznym wykorzystywać słownictwo wprowadzane przy okazji

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Parametry systemów klucza publicznego

Parametry systemów klucza publicznego Parametry systemów klucza publicznego Andrzej Chmielowiec Instytut Podstawowych Problemów Techniki Polskiej Akademii Nauk 24 marca 2010 Algorytmy klucza publicznego Zastosowania algorytmów klucza publicznego

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie

Bardziej szczegółowo

Znaleźć wzór ogólny i zbadać istnienie granicy ciągu określonego rekurencyjnie:

Znaleźć wzór ogólny i zbadać istnienie granicy ciągu określonego rekurencyjnie: Ciągi rekurencyjne Zadanie 1 Znaleźć wzór ogólny i zbadać istnienie granicy ciągu określonego rekurencyjnie: w dwóch przypadkach: dla i, oraz dla i. Wskazówka Należy poszukiwać rozwiązania w postaci, gdzie

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

Dystrybucje, wiadomości wstępne (I)

Dystrybucje, wiadomości wstępne (I) Temat 8 Dystrybucje, wiadomości wstępne (I) Wielkości fizyczne opisujemy najczęściej przyporządkowując im funkcje (np. zależne od czasu). Inną drogą opisu tych wielkości jest przyporządkowanie im funkcjonałów

Bardziej szczegółowo

Plan wynikowy. Klasa III Technik pojazdów samochodowych/ Technik urządzeń i systemów energetyki odnawialnej. Kształcenie ogólne w zakresie podstawowym

Plan wynikowy. Klasa III Technik pojazdów samochodowych/ Technik urządzeń i systemów energetyki odnawialnej. Kształcenie ogólne w zakresie podstawowym Oznaczenia: wymagania konieczne, P wymagania podstawowe, R wymagania rozszerzające, D wymagania dopełniające, W wymagania wykraczające. Plan wynikowy lasa III Technik pojazdów samochodowych/ Technik urządzeń

Bardziej szczegółowo

Uczenie sieci neuronowych i bayesowskich

Uczenie sieci neuronowych i bayesowskich Wstęp do metod sztucznej inteligencji www.mat.uni.torun.pl/~piersaj 2009-01-22 Co to jest neuron? Komputer, a mózg komputer mózg Jednostki obliczeniowe 1-4 CPU 10 11 neuronów Pojemność 10 9 b RAM, 10 10

Bardziej szczegółowo