Data mining w wielkich złożonych systemach

Wielkość: px
Rozpocząć pokaz od strony:

Download "Data mining w wielkich złożonych systemach"

Transkrypt

1 Zakład Zaawansowanych Technik Informacyjnych (Z-6) Data mining w wielkich złożonych systemach Praca statutowa nr Warszawa, grudzień 2008

2 Data mining w wielkich złożonych systemach Praca statutowa nr Słowa kluczowe: data-mining, system złożony Kierownik pracy: dr inż. Szymon Jaroszewicz Wykonawcy pracy: dr inż. Szymon Jaroszewicz dr inż. Janusz Granat mgr. inż. Piotr Rzepakowski Kierownik zakładu: dr inż. Janusz Granat c Copyright by Instytut Łączności, Warszawa 2008

3 Spis treści 1 Publikacje powstałe w ramach pracy 4 2 Wstęp 4 3 Wprowadzenie Graficzne Modele Probabilistyczne Logika pierwszego rzędu Relacyjne modele graficzne Logiczne sieci Markowa Przykładowa logiczna sieć Markowa Problem implikacji Relacyjne sieci bayesowskie Wnioskowanie i uczenie w logicznych sieciach Markowa Wnioskowanie Metody oparte o sumowanie i przesyłanie wiadomości Próbkowanie Gibbsa Lifted inference Uczenie wag Zastosowania logicznych sieci Markowa do analizy sieci społecznych Generowanie danych testowych Analiza sieci społecznych pod kątem marketingu wirusowego Generowanie zależności wirusowych Ocena jakości przewidywań Analiza oparta wyłącznie o listę kontaktów Analiza uwzględniająca łączną długość rozmowy Analiza na podstawie pełnej listy rozmów Wydajność Znajdowanie interesujących zależności w danych relacyjnych 23 8 Analiza preferencji klientów oparta o Conjoint Analysis 26 9 Inne badania wykonane w ramach pracy 27 3

4 1 Publikacje powstałe w ramach pracy 1. S. Jaroszewicz, T. Scheffer, and D.A. Simovici. Scalable pattern mining with bayesian networks as background knowledge. Data Mining and Knowledge Discovery, 18(1), str , punkty MNiSW (opracowano ostateczną wersję artykułu) 2. S. Jaroszewicz. Interactive HMM construction based on interesting sequences. In Proc. of Local Patterns to Global Models (LeGo 08) Workshop at the 12th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 08), pages 82 91, Antwerp, Belgium, J. Granat and A. P. Wierzbicki. Objective classification of empirical probability distributions and the issue of event detection. Journal of Telecommunications and Information Technology (JTIT), (3):24 27, punktów MNiSW 4. P. Rzepakowski. Supporting telecommunication product sales by conjoint analysis. Journal of Telecommunications and Information Technology (JTIT), (3):28 34, punktów MNiSW 5. P. Rzepakowski. Incorporating customer preference information into the forecasting of service sales. paraca przyjęta do Journal of Telecommunications and Information Technology (JTIT), punktów MNiSW 6. S. Jaroszewicz. Discovering interesting patterns in numerical data with background knowledge. In Y.-S. Koh and N. Rountree, editors, Rare Association Rule Mining and Knowledge Discovery: Technologies for Infrequent and Critical Event Detection. IGI Global, praca w druku. 7 punktów MNiSW 7. M. Korzeń, P. Klęsk, S. Jaroszewicz, A. Ciechanowicz, M. Kaczmarczyk, and K. Widecka. Mining interesting rules and patterns for salt sensitivity of blood pressure. In 15th International Multiconference on Advanced Computer Systems (ACS 08), Międzyzdroje, October praca w druku. 2 Wstęp W ostatnich latach daje się zauważyć ogromny wzrost powszechności i znaczenia wielkich, bardzo złożonych sieci. Jako przykłady mogą tu posłużyć sieci telekomunikacyjne; sieci społeczne takie jak komunikujący się ze sobą abonenci operatora telefonii komórkowej czy serwisy takie jak Facebook; sieć powiązań między stronami WWW czy cytowania między artykułami naukowymi. Z uwagi na ogromną wielkość i złożoność takich sieci ich analiza jest zadaniem wysoce nietrywialnym. Większość klasycznych metod analizy probabilistycznej nie jest stanie poradzić sobie z taką ilością i złożonością danych. Szczególnym problemem jest złożona struktura powiązań między elementami systemu. Dodatkowym utrudnieniem jest tzw. bezskalowa struktura sieci. W uproszczeniu oznacza to, że wiele związanych z systemem wielkości opisanych jest przez rozkłady prawdopodobieństwa o bardzo dużej, nawet nieskończonej wariancji, co utrudnia stosowanie klasycznych metod statystycznych. 4

5 Z drugiej strony, z uwagi na coraz większą powszechność i znaczenie tego typu złożonych systemów ich analiza staje się coraz bardziej istotna dla funkcjonowania przedsiębiorstw działających w branży telekomunikacyjnej i informatycznej. W niniejszej pracy podjęta została próba analizy i opracowania metod badania i modelowania wielkich, złożonych systemów. Skoncentrowano się przede wszystkim na niedawno opracowanych relacyjnych modelach graficznych [10, 25]. Metoda ta umożliwia zadanie modelu probabilistycznego w formie zbioru formuł logiki pierwszego rzędu lub algebry relacyjnej, wraz z odpowiadającymi im prawdopodobieństwami. Na ich podstawie tworzony jest model probabilistyczny dla konkretnego systemu. Występowanie zmiennych w formułach logicznych opisujących model umożliwia automatyczne uwzględnienie wszystkich występujących w systemie obiektów. W pracy opisane zostały typy relacyjnych modeli graficznych, metody wnioskowania w nich, a także metody automatycznego znajdowania wag. Przeanalizowano aspekty teoretyczne logicznych sieci Markowa związane ze stosowaniem implikacji w formułach modelu. Stworzona została również własna implementacja logicznych sieci Markowa pozwalającą na analizę ich właściwości. Implementacja ta umożliwia np. znajdowanie prawdopodobieństw dowolnych formuł logicznych (nie tylko predykatów), obliczanie dokładnych, a nie tylko przybliżonych wartości prawdopodobieństw, a także stosowanie prawdopodobieństw o wartościach 0 i 1. Publicznie dostępne implementacje nie posiadają tych cech, co znacznie utrudnia zastosowanie ich analizy właściwości logicznych sieci Markowa. Przedstawiono zastosowanie logicznych sieci Markowa do analizy sieci społecznych na przykładzie marketingu wirusowego w sieci telefonii komórkowej. Metoda okazała się skuteczna w prognozowaniu, tego, którzy klienci skorzystają z danej usługi pod wpływem klientów, z którymi się kontaktują. Opracowana została metoda znajdowania interesujących zależności w logicznych sieciach Markowa. Metoda ta jest oprarta o znajdowanie interesujących formuł logicznych. Formuła jest interesująca, jeżeli prawdopodobieństwo tego, że ta formuła jest prawdziwa, obliczone na podstawie modelu, odbiega znacząco od analogicznego prawdopodobieństwa znalezionego w danych opisujących rzeczywisty system. Na podstawie interesujących formuł użytkownik uaktualnia model. W uaktualnionym modelu interesujące stają się kolejne formuły i proces się powtarza. Opracowany został również system wykrywania zdarzeń w wielkich, złożonych systemach, oparty o porównywanie histogramów mierzonych cech systemu. Porównywanie odbywa się na podstawie częściowego porządku zdefiniowanego na histogramach. Testy na danych pochodzących z urządzeń sieciowych potwierdziły skuteczność metody. W pracy przedstawiono także zastosowania metody conjoint analysis do analiz marketingowych rynku telefonii komórkowej. Przedstawiona została metoda prognozowania zakupów dokonywanych przez klientów na podstawie ich preferencji. W ramach pracy powstał też szereg innych publikacji z dziedziny data mining. 3 Wprowadzenie Aby umożliwić opis relacyjnych modeli graficznych konieczne jest krótkie wprowadzenie na temat modeli graficznych, a także wprowadzenie podstawowych pojęć logiki pierwszego 5

6 rzędu, czemu służyć będą następujące dwa podrozdziały. 3.1 Graficzne Modele Probabilistyczne Graficzne modele probabilistyczne umożliwiają opis łącznego rozkładu prawdopodobieństwa dużej liczby zmiennych losowych w oparciu o grafową reprezentację zależności statystycznych między nimi. Graficzny model probabilistyczny ma dwa podstawowe składniki: 1. graf (ew. hipergraf), którego wierzchołkami są zmienne losowe, a krawędzie odpowiadają bezpośrednim zależnościom statystycznym między zmiennymi, 2. lokalne rozkłady prawdopodobieństwa związane z krawędziami i lub wierzchołkami grafu. Na ich podstawie zdefiniowany jest łączny rozkład zmiennych losowych będących wierzchołkami grafu. Rozkład ten jest zazwyczaj iloczynem rozkładów lokalnych. Wnioskowanie z modeli graficznych polega na wyznaczaniu rozkładów brzegowych i warunkowych z rozkładu łącznego modelu. Problem ten jest w większości przypadków NP-zupełny, istnieją jednak wydajne algorytmy dokładne i przybliżone działające nawet dla bardzo dużych sieci. Dwa najpowszechniej stosowane typy modeli graficznych to sieci bayesowskie oparte o grafy skierowane, i sieci Markowa oprarte o grafy nieskierowane (lub hipergrafy). Sieci bayesowskie są modelami graficznymi opartymi o skierowane grafy acykliczne. Wierzchołki grafu odpowiadają modelowanym zmiennym losowym, a krawędzie grafu bezpośrednim zależnościom przyczynowym między nimi [23, 18]. Dodatkowo każdy wierzchołek oznaczony jest rozkładem prawdopodobieństwa zmiennej losowej znajdującej się w wierzchołku warunkowanym na rodzicach tej zmiennej w grafie. Łączny rozkład prawdopodobieństwa sieci bayesowskiej jest iloczynem rozkładów warunkowych każdej zmiennej. Przykładowa sieć bayesowska przedstawiona jest na rys 1. Łączny rozkład prawdopodobieństwa tej sieci wyraża się wzorem P(W,T,A,S) = P(W)P(T)P(A W,T)P(S A). Zaletą sieci bayesowskich jest możliwość reprezentowania zależności przyczynowych, a także łatwość szacowania poszczególnych rozkładów warunkowych. Istotny jest również brak konieczności obliczania wartości stałej normalizującej (patrz opis sieci Markowa poniżej). Wadą sieci bayesowskich jest trudność w modelowaniu zależności, których kierunek przyczynowy nie jest znany lub jest trudny do określenia, jak np. gdy dwie zmienne losowe wzajemnie na siebie wpływają. Sieci Markowa. Modele te są oparte o grafy nieskierowane [23, 19]. Wierzchołki grafu odpowiadają jak poprzednio zmiennym losowym, natomiast z klikami grafu związane są tzw. potencjały, które określają siłę lokalnych zależności między należącymi do danej 6

7 Rysunek 1: Przykładowa sieć bayesowska kliki zmiennymi. Nieco bardziej ogólna wersja opiera się na hipergrafach, a potencjały przypisane są hiperkrawędziom. Łączny rozkład sieci Markowa wyraża się wzorem P(X = x) = 1 Z n φ i (x[k i ]), i=1 gdzie K i oznacza i-tą klikę grafu, φ i potencjał związany z i-tą kliką, a x[k i ] oznacza projekcję (w sensie bazodanowym) wektora x na zbiór K i. Czynnik normalizujący Z (ang. partition function) zapewnia sumowanie się prawdopodobieństw do jedności i wyraża się wzorem Z = n φ i (x[k i ]). x i=1 Rozkład łączny sieci Markowa reprezentuje się też często jako model logarytmicznoliniowy ) P(X = x) = 1 Z exp ( n i=1 w ij 1[x[K i ] = j], (1) gdzie w ij są wagami, a 1[x[K i ] = j] przyjmuje wartość 1 jeżeli x[k i ] = j i zero w przeciwnym wypadku. Wadą sieci Markowa jest trudność w interpretacji potencjałów i wag, które nie odpowiadają już bezpośrednio prawdopodobieństwom brzegowym i warunkowym. Konieczne jest również obliczenie stałej normalizującej Z, co jest trudne dla większych sieci. Nie nadają się one też do reprezentacji zależności przyczynowych. Zaletami sieci Markowa jest natomiast możliwość modelowania zależności bez uwzględniania ich kierunku. Przykładem mogą tu być np. ich zastosowania w analizie obrazu, gdzie krawędzie grafu łączą sąsiadujące ze sobą piksele. Problem ten trudno byłoby modelować siecią Bayesowską z uwagi na brak określonego kierunku zależności. 7

8 3.2 Logika pierwszego rzędu W tym podrozdziale przedstawione zostaną podstawowe informacje na temat składni logiki pierwszego rzędu w stopniu koniecznym do zrozumienia logicznych sieci Markowa. Definicję formuł logicznych zaczniemy od definicji zmiennych i stałych. Zmienne oznaczane będą wielkimi literami X,Y,Z,..., a stałe ciągami małych liter, np. a,b,ala,kot itp. Term zdefiniowany jest jako zmienna lub stała. Zauważmy, że jest to uproszczenie względem klasycznej logiki pierwszego rzędu, gdzie termy mogą również być funkcjami innych termów. Tak uproszczona wersja logiki pierwszego rzędu jest wystarczająca dla przedstawianych zastosowań, a jednocześnie pozwala na uproszczenie opisu. Logiczne sieci Markowa można z powodzeniem zdefiniować również w przypadku użycia symboli funkcyjnych. Term nazywamy ustalonym, jeżeli nie występują w nim zmienne. Predykaty oznaczamy słowami rozpoczynającymi się wielką literą np. Chory, Znajomy itp. Formuły logiki pierwszego rzędu są zdefiniowane rekurencyjnie: Jeżeli t 1,...,t n są termami, a P n-argumentowym predykatem, to P(t 1,...,t n ) jest formułą. Jest to tzw. formuła atomowa Jeżeli F i G są formułami, to formułami są również F, F G, F G, F G, F G Jeżeli F jest formułą, to formułami są również XF, XF. Jeżeli w formule nie występują zmienne nazywamy ją formułą ustaloną. Niekiedy przydatne będzie też pojęcie literału, czyli zanegowanej lub niezanegowanej formuły atomowej. 4 Relacyjne modele graficzne W niniejszej części opisane zostaną relacyjne modele graficzne, które w kolejnych rozdziałach zostaną zastosowane do analizy systemów złożonych. Mówiąc ogólnie, relacyjne modele graficzne są próbą uogólnienia modeli graficznych tak, aby mogły w nich występować zmienne, za które można podstawić konkretne obiekty opisywanego świata. Umożliwia to dynamiczne tworzenie modeli graficznych opisujących dany system na podstawie występujących w tym systemie obiektów. Można je też uznać za próbę uogólnienia logiki pierwszego rzędu na przypadek probabilistyczny. W pracy skupimy się przede wszystkim na logicznych sieciach Markowa opracowanych przez Pedro Domingosa i innych [25, 8, 7]. Krótko opisane zostaną również inne podejścia, takie jak relacyjne sieci Bayesa. 4.1 Logiczne sieci Markowa Logiczne sieci Markowa są próbą uogólnienia logiki pierwszego rzędu na przypadek probabilistyczny. 8

9 Definicja 1 Logiczną siecią markowa [25] nazywamy zbiór n par (F i,w i ) gdzie F i jest formułą logiki pierwszego rzędu, a w i przypisaną jej wagą. Wagi w i determinują prawdopodobieństwa, że odpowiadające im formuły są prawdziwe i odpowiadają wagom zwykłych sieci Markowa (patrz równanie 1). Ogólnie, zerowa waga odpowiada brakowi zależności, a np. waga dodatnia oznacza, że formuła jest prawdziwa częściej niż w przypadku niezależności statystycznej. Konkretne wartości wag nie mają niestety łatwej, intuicyjnej interpretacji. Istnieje też analogiczne sformułowanie, gdzie formułom przypisane są nie wagi, lecz prawdopodobieństwa tego, że dana formuła jest prawdziwa. Definicja logicznych sieci Markowa jest więc dość prosta. Kluczowym zagadnieniem jest oczywiście zdefiniowanie jej semantyki dla konkretnego przypadku, tzn. określenie związanego z nią łącznego rozkładu prawdopodobieństwa. Niech C = {c 1,c 2,...,c m } będzie zbiorem stałych w danej interpretacji logiki pierwszego rzędu. Łączny rozkład logicznej sieci Markowa M definiuje się przez stworzenie klasycznej sieci Markowa M C na podstawie M i zdefiniowanie rozkładu łącznego sieci logicznej M jako łącznego rozkładu sieci M C. Wprowadźmy następujące oznaczenia: niech F będzie zbiorem formuł logicznych, a C = {c 1,c 2,...,c m } zbiorem stałych. Przez F C oznaczmy rodzinę wszytkich zbiorów formuł ustalonych, które można otrzymać przez jednoczesne podstawienie stałych c 1,c 2,...,c m za zmienne w formułach F. Niech P i oznacza zbiór wszystkich predykatów występujących w formule F i, a P = n i=1 P i. Definicja 2 Siecią Markowa indukowaną przez logiczną sieć markowa M i zbiór stałych C = {c 1,c 2,...,c m } nazywamy sieć Markowa M C której: 1. Zbiorem wierzchołków jest zbiór {{P } C : P P}, to znaczy zbiór wszystkich możliwych ustaleń predykatów przy pomocy stałych z C. 2. Zbiorem hiperkrawędzi jest rodzina zbiorów n i=1 (P i) C czyli wszystkie możliwe jednoczesne ustalenia predykatów występujących w formułach F i 3. Hiperkrawędzi K powstałej z formuły F i odpowiada potencjał φ K taki, że φ K (x[k]) = e w i jeżeli F i jest prawdziwa gdy wartości ustalonych predykatów odpowiadają x[k], i 1 w przeciwnym wypadku. Łączny rozkład prawdopodobieństwa logicznej sieci Markowa M dla zbioru stałych C jest zdefiniowany jako łączny rozkład sieci M C. Niech # i (x) oznacza liczbę ustaleń formuły F i powstałych przez zastąpienie predykatów występujących w tej formule przez odpowiadające im wartości z wektora x, takich że F i jest prawdziwa. Łączny rozkład prawdopodobieństwa logicznej sieci Markowa M można wyrazić jako gdzie Z jest stałą normalizującą. P M (x) = 1 Z exp(w i# i (x)), 9

10 Formuła waga Znajomy(X,Y ) -1 Chory(X) -1 Znajomy(X, Y ) Znajomy(Y, X) Znajomy(X,Y ) Chory(X) Chory(Y ) 0.5 Tablica 1: Przykładowa logiczna sieć Markowa 4.2 Przykładowa logiczna sieć Markowa W celu lepszego zilustrowania przedstawionych pojęć w niniejszym podrozdziale przedstawiony zostanie bardzo prosty przykład logicznej sieci Markowa. Sieć opisuje prosty model rozchodzenia się choroby zakaźnej. Istnieje pewien zbiór osób, które przyjaźnią (spotykają) się ze sobą. Jeżeli któraś z nich jest chora, może zakazić swoich przyjaciół. Formuły i ich wagi są przedstawione w Tabeli 1. Przykład jest zabawny, ale relacyjne modele graficzne były już stosowane do rzeczywistych problemów epidemiologicznych [10]. Formuły Znajomy i Chory umożliwiają określenie prawdopodobieństw tego, że dowolna para osób się przyjaźni i tego, że dowolnie wybrana osoba jest chora. Przypisane im ujemne wagi oznaczają, że oba te zdarzenia dla losowo wybranych osób uznajemy za mało prawdopodobne. Formuła Znajomy(X, Y ) Znajomy(Y, X) określa symetryczność relacji Znajomy. Formuła ta ma charakter logiczny, przypisana jej nieskończona waga powoduje, że jest ona prawdziwa z prawdopodobieństwem 1. W praktyce realizuje się to przez zastąpnienie nieskończonej wagi dużą wartością lub przez bezpośrednie określanie potencjałów φ, a nie wag. To drugie podejście zostało użyte w implementacji autora, co pozwoliło na łatwe operowanie prawdopodobieństwami o wartościach 0 i 1. Niestety wiele metod wnioskowania, np. próbkowanie Gibbsa, nie działa w obecności prawdopodobieństw równych zeru lub jedności. Ostatnia formuła Znajomy(X, Y ) Chory(X) Chory(Y ) dotyczy faktu, że chora osoba może zarazić swoich znajomych. Pewne uwagi dotyczące użycia implikacji logicznej przedstawione zostaną w kolejnych podpunktach. Załóżmy teraz, że zbiór stałych obejmuje dwie osoby a i b. Sieć Markowa indukowana przez logiczną sieć Markowa jest przedstawiona na Rys. 2. Linia ciągła oznacza hiperkrawędź odpowiadającą formule Znajomy(X, Y ) Znajomy(Y, X), a przerywana hiperkrawędzie odpowiadające formule Znajomy(X, Y ) Chory(X) Chory(Y ). Łatwo zauważyć, że dla większej liczby osób sieć indukowana staje się bardzo złożona, podczas gdy logiczna sieć Markowa pozostaje prosta i zrozumiała. Przedstawione zostaną teraz przykłady wnioskowania z przedstawionej powyżej przykładowej logicznej sieci Markowa. Zastosowano w tym przypadku zbiór 10 stałych (osób). Ponieważ sieć jest symetryczna względem permutacji stałych, w przykładach poniżej prawdopodobieństwa będą zawierać zmienne, za które można podstawić dowolne stałe (osoby), a prawdopodobieństwa nie zmienią się. Prawdopodobieństwa najprostszych zdarzeń wynoszą: P(Chory(X)) = P(Znajomy(X, Y )) =

11 Rysunek 2: Sieć Markowa indukowana przez przykładową logiczną sieć Markowa Zauważmy, że pomimo iż odpowiadające im formuły mają jednakowe wagi, prawdopodobieństwa te różnią się. Jest tak dlatego, że predykat znajomy występuje w sieci znacznie częściej: dwa razy dla każdej pary stałych. W praktyce wagi uczone są na podstawie danych więc problem interpretacji nie występuje. Istnieje też możliwość określania nie wag poszczególnych formuł, lecz ich prawdopodobieństw. Przeanalizujmy teraz jak sieć modeluje związki między osobami. Prawdopodobieństwo tego, że dana osoba jest chora, pod warunkiem, że przyjaźni się z chorą osobą wynosi P(Chory(Y ) Znajomy(X, Y ) Chory(X)) = , jest więc znacznie wyższe niż aprioryczne prawdopodobieństwo choroby. Taką samą wartość ma prawdopodobieństwo P(Chory(Y ) Znajomy(Y, X) Chory(X)) = Zauważmy, że dla obliczenia tego prawdopodobieństwa konieczne jest wzięcie pod uwagę więcej niż jednej formuły, gdyż kolejność argumentów w predykacie Znajomy jest odwrócona i trzeba dodatkowo wziąć pod uwagę regułę definiującą jej symetrię. Fakt, że oba prawdopodobieństwa są identyczne, świadczy o tym, że ścisły, logiczny charakter reguły deklarującej symetrię został poprawnie uwzględniony. Jeżeli natomiast dana osoba ma znajomego, który nie jest chory, prawdopodobieństwo tego, że ta osoba jest chora spada: P(Chory(Y ) Znajomy(X, Y ) Chory(X)) = Jest to logiczne, gdyż jeżeli Y byłby chory, mógł również zakazić X. Ponieważ jednak X jest zdrowy, prawdopodobieństwo tego, że również Y jest zdrowy, rośnie. Spójrzmy jeszcze na następujące prawdopodobieństwa obliczone z sieci P(Chory(Z) Znajomy(Z, X) Chory(X) Znajomy(Z, Y ) Chory(Y )) = , P(Chory(Z) Znajomy(Z, X) Chory(X) Znajomy(Z, Y ) Chory(Y )) = , P(Chory(Z) Znajomy(Z, X) Chory(X) Znajomy(Z, Y ) Chory(Y ) Znajomy(Z, V ) Chory(V )) =

12 Widać wyraźnie, iż prawdpodobieństwo tego, że dana osoba jest chora, zależy w intuicyjny sposób od stanu zdrowia jej znajomych. Osoba mająca dwóch chorych przyjaciół jest chora z prawdopodobieństwem prawie dwa razy wyższym niż w przypadku osoby losowo wybranej i wyższym niż w przypadku osoby, której tylko jeden znajomy jest na pewno chory. Osoba mająca znajomego chorego i zdrowego jest chora praktycznie z takim samym prawdopodobieństwem co osoba, o której znajomych nie ma żadnych dodatkowych informacji wiedza o chorym i zdrowym znajomym znosi się. Podobnie prawdopodobieństwo choroby w przypadku osoby mającej dwóch zdrowych i jednego chorego znajomego jest niższe niż w poprzednim wypadku. Prawidłowo zachowują się również prawdopodobieństwa łączne. Na przykład prawdopodobieństwo tego, że dwie losowo wybrane osoby są chore wynosi P(Chory(X) Chory(Y )) = , Jeżeli jednak wiemy, że osoby te się przyjaźnią prawdopodobieństwo to staje się ponad dwa razy wyższe: P(Chory(X) Chory(Y ) Znajomy(X, Y )) = Przedstawione powyżej przykłady pokazują, że logiczne sieci Markowa poprawnie modelują prawdopodobieństwa w systemach zawierających interakcje między elementami. Zauważmy, że tradycyjne metody klasyfikacji wymagają stałej listy atrybutów wejściowych, nie można ich więc zastosować w powyższym wypadku Problem implikacji W powyższym przykładzie jedna z formuł zawierała logiczną implikację. Niestety jej interpretacja w przypadku probabilistycznym jest często odmienna od oczekiwań użytkownika [1]. Mianowicie, oczekiwalibyśmy, że duża waga formuły A B jest równoważna wysokiemu prawdopodobieństwu warunkowemu P(B A). Formuła A B jest jednak interpretowana tak samo jak formuła A B, która może mieć wysokie prawdopodobieństwo niezależnie od P(B A). Aby się o tym przekonać, weźmy następujący rozkład łączny zdarzeń A i B: zdarzenie prawdop. A B 0.9 A B 0 A B 0.09 A B 0.01 Mamy P( A B) = 0.91, ale P(B A) = = 0.1. Z powyższego przykładu widać, że problem ten nie zawsze jest istotny, jednak aby uniknąć go w praktycznych sytuacjach, w pracy niniejszej zastosowano odmienne podejście. Zamiast formuły A B stosuje się dwie formuły A B i A. Ponieważ wagi uczone są na podstawie danych, prawdopodobieństwa zdarzeń A B i A będą poprawne, określając jednocześnie wartość prawdopodobieństwa warunkowego P(B A). Według wiedzy autora problem ten nie był do tej pory poruszany w literaturze dotyczącej relacyjnych modeli graficznych. 12

13 4.3 Relacyjne sieci bayesowskie Relacyjne sieci Bayesowskie [10, 13] są skierowanym odpowiednikiem logicznych sieci Markowa. Zamiast formuł logicznych opierają się one o zapytania bazodanowe. Zadany jest graf skierowany, którego wierzchołki oznaczone są zmiennymi, a krawędzie zapytaniami bazodanowymi. Na podstawie relacyjnej sieci bayesowskiej oraz bazy danych tworzona jest standardowa sieć bayesowska. Za każdą zmienną występującą w wierzchołku podstawiana jest każda stała z bazy danych, tworząc zbiór wierzchołków sieci. Krawędzie są tworzone dla wszystkich par wierzchołków spełniających zapytanie bazodanowe związane z daną krawędzią. Łączny rozkład relacyjnej sieci bayesowskiej zdefiniowany jest jako łączny rozkład tak zbudowanej sieci. Sposób definiowania semantyki jest więc podobny jak w przypadku logicznych sieci Markowa. Można udowodnić [13], że jeżeli relacyjna sieć bayesowska nie ma cykli, to indukowana przez nią i dowolną bazę danych sieć bayesowska również nie ma cykli, a więc rozkład łączny jest zawsze dobrze zdefiniowany. 5 Wnioskowanie i uczenie w logicznych sieciach Markowa Z uwagi na bardzo dużą liczbę obiektów sieci Markowa indukowane przez logiczne sieci Markowa mogą mieć tysiące atrybutów. Stanowi to bardzo poważne wyzwanie, ponieważ wnioskowanie w modelach graficznych jest problemem NP-zupełnym. Poniżej opisane zostaną metody wnioskowania w logicznych sieciach Markowa, a także metody uczenia wag sieci na postawie danych treningowych. 5.1 Wnioskowanie Większość metod wnioskowania opiera się na konstrukcji indukowanej sieci Markowa i dokonaniu wnioskowania w sieci indukowanej. Metody te są więc identyczne z metodami wnioskowania dla zwykłych sieci Markowa. Typowe podejścia zostaną krótko scharakteryzowane poniżej Metody oparte o sumowanie i przesyłanie wiadomości Ponieważ rozkład łączny sieci Markowa jest iloczynem potencjałów, wnioskowania można dokonać przez sumowanie po wszystkich zmiennych, za wyjątkiem tych, których rozkład chcemy uzyskać. Niestety, koszt obliczenia takiej sumy rośnie wykładniczo. W celu przyspieszenia obliczeń stosuje się prawo rozdzielności mnożenia względem dodawania w celu maksymalnego uproszczenia sumy [6]. Na podobnej zasadzie działają metody oparte o przesyłanie wiadomości. Każdy potencjał i każda zmienna w sieci przesyła do swoich sąsiadów wiadomość. Wiadomości są następnie mnożone przez lokalne potencjały i przesyłane dalej. Można udowodnić, że jeżeli sieć ma strukturę drzewa, to procedura ta prowadzi do obliczenia poprawnych prawdopodobieństw brzegowych wszystkich zmiennych [23]. 13

14 Jeżeli sieć nie ma struktury drzewa, metoda przysyłania wiadomości nie gwarantuje osiągnięcia poprawnego wyniku, ani nawet zbieżności, jednak w praktyce zazwyczaj działa skutecznie. W związku z tym jest często stosowana pomimo braku gwarancji teoretycznych Próbkowanie Gibbsa Ważną klasą metod wnioskowania w sieciach Markowa są metody przybliżone, oparte o próbkowanie. Niestety generowanie próbek z rozkładu określonego przez sieć Markowa nie jest łatwe. Stosuje się zazwyczaj tzw. próbkowanie Gibbsa. W każdym kroku losuje się nową wartość pojedynczej zmiennej przy założeniu, że wszystkie pozostałe mają stałą wartość. Tak generowane próbki nie są oczywiście niezależne. W związku z tym bierze się tylko np. co setną próbkę, a pozostałe odrzuca. Wadą próbkowania Gibbsa jest to, że trudno jest ustalić, jak szybko próbki stają się niezależne. Metoda może też grzęznąć w lokalnych obszarach poszukiwań, zwłaszcza jeżeli niektóre z prawdopodobieństw są równe zeru. Więcej informacji można znaleźć np. w [5] Lifted inference Lifted inference [24, 28] różni się od poprzednich podejść tym, że wnioskowanie odbywa się bezpośrednio w logicznej sieci Markowa, bez tworzenia sieci indukowanej. Dzięki temu możliwe jest osiągnięcie znacznego przyspieszenia obliczeń. Podejście to dotyczy metod opartych o sumowanie i przesyłanie wiadomości. Główna idea polega tu na przesyłaniu wiadomości zawierających zmienne. W ten sposób pojedyncze wiadomości (lub odpowiednio składniki sumy) opisują całe zbiory identycznych potencjałów. W najlepszym wypadku daje to redukcję rozmiaru sieci indukowanej do rozmiaru oryginalnej logicznej sieci Markowa, w najgorszym nie daje jednak korzyści. W praktyce korzyści ze stosowania metody są znaczące. 5.2 Uczenie wag W niniejszym podrozdziale zostanie omówione uczenie wag formuł w logicznej sieci Markowa na podstawie danych D. Uczenie to odbywa się na podstawie reguły maksymalnej wiarygodności (ang. maximum likelihood); w uproszczeniu oznacza to dobór wag maksymalizujących prawdopodobieństwo usyzkania danych D na podstawie modelu, czyli tzw. wiarygodność. Przypomnijmy, że # i (x) oznacza liczbę ustaleń i-tej formuły w rekordzie x, dla których formuła ta jest prawdziwa. Prawdopodobieństwo danego wektora x D ) P(x) = 1 Z exp ( n i=1 w i # i (x), gdzie, Z = x ( n ) exp w i # i (x ). i=1 14

15 Niech dany będzie rekord x D. Logarytm wiarygodności dla rekordu x jest dany przez: log(p(x)) = n w i # i (x) log(z). i=1 Poniżej przedstawimy wyprowadzenia wzorów na gradient i hesjan logarytmu wiarygodności dla pojedynczego rekordu. Gradient i hesjan logarytmu wiarygodności dla całej bazy danych D są po prostu sumą tych wartości dla pojedynczych rekordów. Zanim przejdziemy do obliczenia gradientu, obliczmy następującą pochodną ( Z = n ) exp w k # k (x ) = ( n ) exp w k # k (x ) w i w i w x k=1 x i k=1 = ( n ) exp w k # k (x n ) w k # k (x ) w x i k=1 k=1 = ( n ) exp w k # k (x ) # i (x ) = Z P(x )# i (x ) x x k=1 Obliczmy teraz pochodną log(p) względem wagi i-tej formuły w i : w i log P(x) = w i n w k # k (x) log(z) w i k=1 = # i (x) 1 Z = # i (x) E(# i (x)) Z w i = # i (x) x P(x )# i (x ) To znaczy, że pochodna po wadze w i jest prawdziwych ustaleń formuły F i w x minus wartość oczekiwana tej liczby. Obliczmy teraz drugą pochodną: log(p(x)) = # i (x) P(x )# i (x ) w j w i w j w j x = P(x )# i (x ) = # i (x ) P(x ). w j w j x Występuje w niej wielkość w j P(x), którą obliczymy poniżej ( P(x) = e log P(x) = e log P(x) log P(x) = P(x) # j (x) ) P(x )# j (x ). w j w j w j x A więc x w j w i log(p(x)) = x # i (x ) w j P(x ) 15

16 = x # i (x )P(x ) ( # j (x ) x P(x )# j (x ) = x P(x )# i (x )# j (x ) + x P(x )# i (x ) x P(x )# j (x ) ( ) ( ) = P(x )# i (x ) P(x )# j (x ) P(x )# i (x )# j (x ) x x x = E(# i )E(# j ) E(# i # j ) = COV (# i, # j ), gdzie COV (# i, # j ) jest macierzą kowariancji # i i # j. Interesujące jest, że wielkość ta nie zależy od x. Ponieważ macierz korelacji jest dodatnio określona, więc maksimum wiarygodności zawsze istnieje. Ponieważ możliwe jest obliczenie gradientu i hesjanu, do znajdowania maksimum można użyć dowolnego algorytmu optymalizacji. W praktyce jeżeli liczba wag jest mała, można użyć metody Newtona, w przeciwnym wypadku korzysta się z podejść takich jak metoda gradientów sprzężonych czy algorytm BFGS. ) 6 Zastosowania logicznych sieci Markowa do analizy sieci społecznych W niniejszej części przedstawione zostanie zastosowanie opisanych metod do analizy sieci społecznych. Przykładem, który zostanie tu przedstawiony, jest sieć użytkowników telefonii komórkowej kontaktujących się ze sobą. Dodatkowo, użytkownicy korzystają z określonych usług i mogą mieć wpływ na to, czy użytkownicy, z którymi się kontaktują, też zakupią daną usługę. Jest to więc przykład tzw. marketingu wirusowego. Możliwość modelowania tego typu sieci społecznych może mieć bardzo duże znaczenie w kampaniach reklamowych operatorów telekomunikacyjnych. Niestety, z uwagi na ochronę danych niemożliwe było wykonanie eksperymentów na danych rzeczywistych. Opracowano więc realistyczny generator sieci społecznych umożliwiający generowanie sztucznych danych o zadanych parametrach. Generator danych zostanie opisany poniżej, następnie przedstawione zostaną wyniki modelowania przy użyciu generowanych danych. 6.1 Generowanie danych testowych W niniejszym podrozdziale opisany zostanie generator danych testowych. Użytkownik zadaje liczbę klientów sieci, a program utworzy dla każdego klienta listę jego kontaktów, a także rozmów wykonanych z każdym z kontaktów. Stosowane są przy tym rozkłady prawdopodobieństwa występujące w rzeczywistych sieciach tego typu. Ważnym aspektem rzeczywistych sieci społecznych jest tzw. bezskalowość [4, 3]. W sieciach takich większość parametrów podlega rozkładom prawdopodobieństwa spełniającym tzw. prawo potęgowe, czyli na podwójnie logarytmicznej skali odpowiada im linia prosta. Powoduje to możliwość występowania skrajnie dużych wartości ze znaczącym prawdopodobieństwem. Zazwyczaj wszystkie momenty takich rozkładów, a więc także wartość oczekiwana i wariancja są nieskończone. 16

17 W praktyce oznacza to na przykład, że podczas gdy większość klientów operatora komórkowego kontaktuje się regularnie tylko z kilkunastoma osobami, istnieje niewielka liczba klientów, którzy kontaktują się regularnie z setkami, a nawet tysiącami osób. Charakterystyką rozkładów bezskalowych jest to, że wpływu takich niewielkich grup nie można pominąć w analizie. Podobnie zachowują się też inne parametry, takie jak czas i ilość rozmów, czy liczba wysyłanych SMSów. Opracowany generator działa następująco: 1. zadana jest liczba klientów sieci N; 2. dla każdego klienta losowana jest liczba jego kontaktów z rozkładu bezskalowego oraz same kontakty; 3. dla każdego klienta losowany jest całkowity czas rozmów; 4. całkowity czas rozmów danego klienta dzielony jest między jego kontakty; 5. dla każdego kontaktu generowana jest lista rozmów. Szczegóły poszczególnych kroków opisane są poniżej. Liczba kontaktów danego klienta losowana jest z rozkładu Zipfa z parametrem s = 2.5: P(k) = k s N i=0 i s, gdzie k jest liczbą kontaktów. Same kontakty są generowane na podstawie rozkładu równomiernego, tzn. każdy klient może zostać wybrany z takim samym prawdopodobieństwem. Całkowity czas rozmów generowany jest na podstawie rozkładu Pareto z parametrami t m = 10 i k = 1.5, P(t) = k tk m t k+1, który jest rozkładem bezskalowym zmiennej rzeczywistej o wartościach większych niż t m. Odpowiada to sytuacji, gdy większość klientów rozmawia względnie krótko, jednak pewna grupa osób prowadzi bardzo długie rozmowy. Całkowity czas rozmów dzielony jest między kontakty wg. rozkładu Zipfa z parametrem skali losowanym dla każdego klienta z przedziału od 0 do 2.5. Odpowiada to sytuacji, gdy z kilkoma osobami rozmawiamy znacznie dłużej niż z pozostałymi. Parametr dobierany jest losowo, aby oddać zmienność tych różnic u poszczególnych osób. W podobny sposób generowany jest czas i liczba poszczególnych rozmów. Przykład generowanej sieci bezskalowej dla 100 użytkowników jest przedstawiony na rys. 3. Widać wyraźnie, że większość użytkowników kontaktuje się tylko z kilkoma innymi osobami, ale kilku użytkowników ma bardzo dużą liczbę kontaktów. Tych kilku użytkowników może mieć bardzo duży wpływ na strukturę sieci. 17

18 Rysunek 3: Przykładowa bezskalowa sieć kontaktów między użytkownikami stworzona przy pomocy opracowanego generatora. 18

19 6.2 Analiza sieci społecznych pod kątem marketingu wirusowego W tej części przedstawione zostanie zastosowanie logicznych sieci Markowa do marketingu wirusowego. Chcemy obliczyć prawdopodobieństwo, że dany klient kupi usługę dzięki kontaktom z innymi klientami, bez konieczności jawnej akcji marketingowej. Na początek omówiony zostanie sposób generowania danych o zakupach produktu, a następnie przedstawiona analiza przy pomocy logicznych sieci Markowa. 6.3 Generowanie zależności wirusowych Aby określić wagi sieci, konieczne są odpowiednie dane treningowe. W rozpatrywanym przypadku są to przypisania produktów do konkretnych klientów na podstawie ich kontaktów z innymi klientami. Na początek każdej osobie przypisywany jest współczynnik podatności określający prawdopodobieństwo skorzystania z produktu, o którym usłyszała od znajomego. Prawdopodobieństwo to jest losowane z przedziału [0, 0.4]. Każdej parze (uporządkowanej, kierunek może mieć znaczenie) kontaktujących się ze sobą klientów przypisywane jest prawdopodobieństwo przekazania tą drogą informacji o produkcie. Prawdopodobieństwo przekazania informacji od klienta k 1 do klienta k 2 jest ustalane według wzoru P(k 1,k 2 ) = exp ( (10 3 t i 2 5)), gdzie t i oznacza czas trwania i-tej rozmowy między k 1 i k 2. Funkcja sigmoidalna 1 1+exp( ) zapewnia, że wartość prawdopodobieństwa mieści się w przedziale (0, 1). Czasy rozmów podnoszone są do kwadratu, aby zapewnić większy wpływ dłuższych rozmów. Mnożenie przez 10 3 i odjęcie 5 zapewnia, że wartości prawdopodobieństw nie są zbyt wysokie. Po ustaleniu powyższych parametrów wykonywana jest symulacja rozprzestrzeniania się produktów przez sieć: 1. Wybierana jest losowo mała grupa początkowa korzystającą z produktu. 2. Do osiągnięcia zbieżności: dla każdej pary klientów k 1, k 2, takich, że k 1 korzysta z produktu a k 2 nie, k 2 zaczyna korzystać z produktu z prawdopodobieństwem równym P(k 1,k 2 ) pomnożonym przez prawdopodobieństwo akceptacji produktu przez k 2. W ten sposób tworzony jest zbiór treningowy, na podstawie którego uczone są wagi logicznej sieci Markowa. 6.4 Ocena jakości przewidywań Do oceny jakości przewidywań konieczny jest także zbiór testowy. W związku z tym, dla tej samej sieci powtarzano proces przydzielania produktów. Oczywiście, ponieważ proces ten jest losowy, kolejny produkt był przydzielany w inny sposób. Tworzone były dwa zbiory danych. Pierwszy zawiera tylko początkową grupę klientów korzystających z usługi, przed fazą propagowania jej przez sieć. Na podstawie tego zbioru 19

20 logiczna sieć Markowa obliczy prawdopodobieństwo skorzystania z produktu w skutek kontaktów z innymi klientami dla każdego klienta, który do tej pory z produktu nie korzystał. Następnie wykonana zostanie symulacja propagowania drugiego produktu przez sieć; w ten sposób powstanie zbiór testowy (pełniący rolę prawdziwej sieci), którego zgodność z przewidywaniami modelu będzie badana. Im lepsza zgodność, tym lepiej logiczna sieć Markowa nauczyła się modelować zależności między użytkownikami. Badania wykonano na wygenerowanej sieci składającej się z 1000 użytkowników. Należy obecnie zdefiniować miary służące ocenie jakości przewidywań. Dla każdego klienta dysponujemy informacją o tym, czy faktycznie zakupił on produkt, oraz prawdopodobieństwem zajścia tego zdarzenia obliczonym na podstawie logicznej sieci Markowa. Niech p i oznacza prawdopodobieństwo, że i-ty klient zakupił produkt obliczone z logicznej sieci Markowa, a t i {0, 1}, oznacza, czy klient faktycznie ten produkt nabył; n jest liczbą klientów, dla których przewidujemy, czy skorzystają z usługi. Pomiar jakości przewidywania może być dokonywany na kilka sposobów: Błąd średniokwadratowy. Brana jest pod uwagę różnica między prawdziwymi a przewidywanymi wartościami prawdopodobieństw MSE = 1 n (p i t i ) 2. n Pierwiastek błędu średniokwadratowego. RMSE = 1 n i=1 n (p i t i ) 2. Średni błąd bezwzględny. Ma bardziej intuicyjną interpretację: jest to średni błąd przewidywanych prawdopodobieństw. MAE = 1 n p i t i. n Błąd klasyfikacji. Jeżeli zaklasyfikujemy klientów, dla których prawdopodobieństwo przewidywane przez model jest większe niż 0.5 jako tych, którzy skorzystają z usługi, błąd klasyfikacji jest określony jakoliczba niepoprawnie zaklasyfikowanych klientów. Pole pod krzywą ROC [9]. Miara ta określa, czy klienci zostali poprawnie uporządkowani pod względem rosnących prawdopodobieństw i:t AUC = i =0 j:t j =0 1[p i < p j ], n 0 n 1 gdzie n 0 i n 1 oznaczają odpowiednio liczbę klientów, którzy naprawdę nie korzystają z usługi, i tych, którzy z niej korzystają. Zdaniem autora, najlepszą z powyższych miar jest pole pod krzywą ROC. Umożliwia ono poprawną ocenę jakości klasyfikacji, niezależnie od progu, powyżej którego uznajemy, że klient skorzysta z usługi. Bierze też pod uwagę poprawne uporządkowanie klientów, a nie tylko poprawny wynik klasyfikacji. Więcej szczegółów można znaleźć w [9]. Wyniki podane zostaną jednak dla wszystkich przedstawionych wyżej miar. 20 i=1 i=1

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Systemy ekspertowe - wiedza niepewna

Systemy ekspertowe - wiedza niepewna Instytut Informatyki Uniwersytetu Śląskiego lab 8 Rozpatrzmy następujący przykład: Miażdżyca powoduje często zwężenie tętnic wieńcowych. Prowadzi to zazwyczaj do zmniejszenia przepływu krwi w tych naczyniach,

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Zadania o numerze 4 z zestawów licencjat 2014.

Zadania o numerze 4 z zestawów licencjat 2014. Zadania o numerze 4 z zestawów licencjat 2014. W nawiasie przy zadaniu jego występowanie w numerze zestawu Spis treści (Z1, Z22, Z43) Definicja granicy ciągu. Obliczyć granicę:... 3 Definicja granicy ciągu...

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Jakość uczenia i generalizacja

Jakość uczenia i generalizacja Jakość uczenia i generalizacja Dokładność uczenia Jest koncepcją miary w jakim stopniu nasza sieć nauczyła się rozwiązywać określone zadanie Dokładność mówi na ile nauczyliśmy się rozwiązywać zadania które

Bardziej szczegółowo

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą 1. Statystyka odczytać informacje z tabeli odczytać informacje z diagramu 2. Mnożenie i dzielenie potęg o tych samych podstawach 3. Mnożenie i dzielenie potęg o tych samych wykładnikach 4. Potęga o wykładniku

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora. 1. Podstawy matematyki 1.1. Geometria analityczna W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora. Skalarem w fizyce nazywamy

Bardziej szczegółowo

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Wykład 9: Markov Chain Monte Carlo

Wykład 9: Markov Chain Monte Carlo RAP 412 17.12.2008 Wykład 9: Markov Chain Monte Carlo Wykładowca: Andrzej Ruciński Pisarz: Ewelina Rychlińska i Wojciech Wawrzyniak Wstęp W tej części wykładu zajmiemy się zastosowaniami łańcuchów Markowa

Bardziej szczegółowo

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną

Bardziej szczegółowo

System bonus-malus z mechanizmem korekty składki

System bonus-malus z mechanizmem korekty składki System bonus-malus z mechanizmem korekty składki mgr Kamil Gala Ubezpieczeniowy Fundusz Gwarancyjny dr hab. Wojciech Bijak, prof. SGH Ubezpieczeniowy Fundusz Gwarancyjny, Szkoła Główna Handlowa Zagadnienia

Bardziej szczegółowo

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1)

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1) ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL 1. Problem Rozważmy układ dwóch równań z dwiema niewiadomymi (x 1, x 2 ): 1 x1 sin x2 x2 cos x1 (1) Nie jest

Bardziej szczegółowo

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

III. ZMIENNE LOSOWE JEDNOWYMIAROWE III. ZMIENNE LOSOWE JEDNOWYMIAROWE.. Zmienna losowa i pojęcie rozkładu prawdopodobieństwa W dotychczas rozpatrywanych przykładach każdemu zdarzeniu była przyporządkowana odpowiednia wartość liczbowa. Ta

Bardziej szczegółowo

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH Transport, studia I stopnia rok akademicki 2012/2013 Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Adam Wosatko Ewa Pabisek Pojęcie

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

MATeMAtyka 3. Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych. Zakres podstawowy i rozszerzony

MATeMAtyka 3. Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych. Zakres podstawowy i rozszerzony Agnieszka Kamińska, Dorota Ponczek MATeMAtyka 3 Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych Zakres podstawowy i rozszerzony Wyróżnione zostały następujące wymagania

Bardziej szczegółowo

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań Raport 1/2015 Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań autor: Michał Osmoła INIME Instytut nauk informatycznych i matematycznych z zastosowaniem

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Plan wynikowy. Klasa III Technik pojazdów samochodowych/ Technik urządzeń i systemów energetyki odnawialnej. Kształcenie ogólne w zakresie podstawowym

Plan wynikowy. Klasa III Technik pojazdów samochodowych/ Technik urządzeń i systemów energetyki odnawialnej. Kształcenie ogólne w zakresie podstawowym Oznaczenia: wymagania konieczne, P wymagania podstawowe, R wymagania rozszerzające, D wymagania dopełniające, W wymagania wykraczające. Plan wynikowy lasa III Technik pojazdów samochodowych/ Technik urządzeń

Bardziej szczegółowo

Komputerowa Analiza Danych Doświadczalnych

Komputerowa Analiza Danych Doświadczalnych Komputerowa Analiza Danych Doświadczalnych dr inż. Adam Kisiel kisiel@if.pw.edu.pl pokój 117b (12b) 1 Materiały do wykładu Transparencje do wykładów: http://www.if.pw.edu.pl/~kisiel/kadd/kadd.html Literatura

Bardziej szczegółowo

Analiza Statystyczna

Analiza Statystyczna Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza

Bardziej szczegółowo

Osiągnięcia ponadprzedmiotowe

Osiągnięcia ponadprzedmiotowe W rezultacie kształcenia matematycznego uczeń potrafi: Osiągnięcia ponadprzedmiotowe Umiejętności konieczne i podstawowe czytać teksty w stylu matematycznym wykorzystywać słownictwo wprowadzane przy okazji

Bardziej szczegółowo

Kryteria oceniania z matematyki dla klasy III LO poziom podstawowy, na podstawie programu nauczania DKOS- 5002-05/08

Kryteria oceniania z matematyki dla klasy III LO poziom podstawowy, na podstawie programu nauczania DKOS- 5002-05/08 Kryteria oceniania z matematyki dla klasy III LO poziom podstawowy, na podstawie programu nauczania DKOS- 5002-05/08 1. Oprocentowanie lokat i kredytów - zna pojęcie procentu prostego i składanego; - oblicza

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ Maciej Patan Uniwersytet Zielonogórski WSTEP Zadanie minimalizacji bez ograniczeń f(ˆx) = min x R nf(x) f : R n R funkcja ograniczona z dołu Algorytm rozwiazywania Rekurencyjny

Bardziej szczegółowo

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 3 Generacja realizacji zmiennych losowych Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia: Generowanie

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

Monitoring procesów z wykorzystaniem systemu ADONIS

Monitoring procesów z wykorzystaniem systemu ADONIS Monitoring procesów z wykorzystaniem systemu ADONIS BOC Information Technologies Consulting Sp. z o.o. e-mail: boc@boc-pl.com Tel.: (+48 22) 628 00 15, 696 69 26 Fax: (+48 22) 621 66 88 BOC Management

Bardziej szczegółowo

Procesowa specyfikacja systemów IT

Procesowa specyfikacja systemów IT Procesowa specyfikacja systemów IT BOC Group BOC Information Technologies Consulting Sp. z o.o. e-mail: boc@boc-pl.com Tel.: (+48 22) 628 00 15, 696 69 26 Fax: (+48 22) 621 66 88 BOC Management Office

Bardziej szczegółowo

ZASTOSOWANIE ZASADY MAKSIMUM PONTRIAGINA DO ZAGADNIENIA

ZASTOSOWANIE ZASADY MAKSIMUM PONTRIAGINA DO ZAGADNIENIA ZASTOSOWANIE ZASADY MAKSIMUM PONTRIAGINA DO ZAGADNIENIA DYNAMICZNYCH LOKAT KAPITAŁOWYCH Krzysztof Gąsior Uniwersytet Rzeszowski Streszczenie Celem referatu jest zaprezentowanie praktycznego zastosowania

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

Etapy modelowania ekonometrycznego

Etapy modelowania ekonometrycznego Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,

Bardziej szczegółowo

1.Funkcja logarytmiczna

1.Funkcja logarytmiczna Kryteria oceniania z matematyki dla klasy IV TI poziom podstawowy, na podstawie programu nauczania DKOS- 5002-05/08 1.Funkcja logarytmiczna -potrafi obliczyć logarytm liczby dodatniej; -zna i potrafi stosować

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

PRAWO OHMA DLA PRĄDU PRZEMIENNEGO

PRAWO OHMA DLA PRĄDU PRZEMIENNEGO ĆWICZENIE 53 PRAWO OHMA DLA PRĄDU PRZEMIENNEGO Cel ćwiczenia: wyznaczenie wartości indukcyjności cewek i pojemności kondensatorów przy wykorzystaniu prawa Ohma dla prądu przemiennego; sprawdzenie prawa

Bardziej szczegółowo

Wykorzystanie nowoczesnych technik prognozowania popytu i zarządzania zapasami do optymalizacji łańcucha dostaw na przykładzie dystrybucji paliw cz.

Wykorzystanie nowoczesnych technik prognozowania popytu i zarządzania zapasami do optymalizacji łańcucha dostaw na przykładzie dystrybucji paliw cz. 14.12.2005 r. Wykorzystanie nowoczesnych technik prognozowania popytu i zarządzania zapasami do optymalizacji łańcucha dostaw na przykładzie dystrybucji paliw cz. 2 3.2. Implementacja w Excelu (VBA for

Bardziej szczegółowo

SPIS TREŚCI. Do Czytelnika... 7

SPIS TREŚCI. Do Czytelnika... 7 SPIS TREŚCI Do Czytelnika.................................................. 7 Rozdział I. Wprowadzenie do analizy statystycznej.............. 11 1.1. Informacje ogólne..........................................

Bardziej szczegółowo

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć Katalog wymagań programowych na poszczególne stopnie szkolne Matematyka. Poznać, zrozumieć Kształcenie w zakresie podstawowym. Klasa 3 Poniżej podajemy umiejętności, jakie powinien zdobyć uczeń z każdego

Bardziej szczegółowo

Algorytmy sztucznej inteligencji

Algorytmy sztucznej inteligencji Algorytmy sztucznej inteligencji Dynamiczne sieci neuronowe 1 Zapis macierzowy sieci neuronowych Poniżej omówione zostaną części składowe sieci neuronowych i metoda ich zapisu za pomocą macierzy. Obliczenia

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

Analiza wariancji. dr Janusz Górczyński

Analiza wariancji. dr Janusz Górczyński Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik

Bardziej szczegółowo

Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne

Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne Metody numeryczne materiały do wykładu dla studentów 7. Całkowanie numeryczne 7.1. Całkowanie numeryczne 7.2. Metoda trapezów 7.3. Metoda Simpsona 7.4. Metoda 3/8 Newtona 7.5. Ogólna postać wzorów kwadratur

Bardziej szczegółowo

PageRank i HITS. Mikołajczyk Grzegorz

PageRank i HITS. Mikołajczyk Grzegorz PageRank i HITS Mikołajczyk Grzegorz PageRank Metoda nadawania indeksowanym stronom internetowym określonej wartości liczbowej, oznaczającej jej jakość. Algorytm PageRank jest wykorzystywany przez popularną

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Bazy danych wykład dwunasty. dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36

Bazy danych wykład dwunasty. dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36 Bazy danych wykład dwunasty Wykonywanie i optymalizacja zapytań SQL Konrad Zdanowski Uniwersytet Kardynała Stefana Wyszyńskiego, Warszawa dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36 Model kosztów

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

SPIS TREŚCI WSTĘP... 8 1. LICZBY RZECZYWISTE 2. WYRAŻENIA ALGEBRAICZNE 3. RÓWNANIA I NIERÓWNOŚCI

SPIS TREŚCI WSTĘP... 8 1. LICZBY RZECZYWISTE 2. WYRAŻENIA ALGEBRAICZNE 3. RÓWNANIA I NIERÓWNOŚCI SPIS TREŚCI WSTĘP.................................................................. 8 1. LICZBY RZECZYWISTE Teoria............................................................ 11 Rozgrzewka 1.....................................................

Bardziej szczegółowo

BUDŻETOWANIE W EXCELU. Tom XI NPV WSP.KORELACJI ROZKŁ.EXP JEŻELI COS KOMÓRKA VBA DNI.ROBOCZE ILOCZYN LOG SUMA CZY.LICZBA

BUDŻETOWANIE W EXCELU. Tom XI NPV WSP.KORELACJI ROZKŁ.EXP JEŻELI COS KOMÓRKA VBA DNI.ROBOCZE ILOCZYN LOG SUMA CZY.LICZBA z a a w a n s o w a n y BUDŻETOWANIE W EXCELU VBA NPV WSP.KORELACJI ROZKŁ.EXP KOMÓRKA CZY.LICZBA JEŻELI COS DNI.ROBOCZE ILOCZYN LOG SUMA Tom XI Budżetowanie w Excelu Malina Cierzniewska-Skweres Jakub Kudliński

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Algebra liniowa z geometrią

Algebra liniowa z geometrią Algebra liniowa z geometrią Maciej Czarnecki 15 stycznia 2013 Spis treści 1 Geometria płaszczyzny 2 1.1 Wektory i skalary........................... 2 1.2 Macierze, wyznaczniki, układy równań liniowych.........

Bardziej szczegółowo

dr inż. Ryszard Rębowski 1 WPROWADZENIE

dr inż. Ryszard Rębowski 1 WPROWADZENIE dr inż. Ryszard Rębowski 1 WPROWADZENIE Zarządzanie i Inżynieria Produkcji studia stacjonarne Konspekt do wykładu z Matematyki 1 1 Postać trygonometryczna liczby zespolonej zastosowania i przykłady 1 Wprowadzenie

Bardziej szczegółowo

Podstawy OpenCL część 2

Podstawy OpenCL część 2 Podstawy OpenCL część 2 1. Napisz program dokonujący mnożenia dwóch macierzy w wersji sekwencyjnej oraz OpenCL. Porównaj czasy działania obu wersji dla różnych wielkości macierzy, np. 16 16, 128 128, 1024

Bardziej szczegółowo

Niezawodność diagnostyka systemów laboratorium. Ćwiczenie 2

Niezawodność diagnostyka systemów laboratorium. Ćwiczenie 2 dr inż. Jacek Jarnicki doc. PWr Niezawodność diagnostyka systemów laboratorium Ćwiczenie 2 1. Treść ćwiczenia Generowanie realizacji zmiennych losowych i prezentacja graficzna wyników losowania. Symulacja

Bardziej szczegółowo

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007 Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja

Bardziej szczegółowo

Generatory takie mają niestety okres, po którym sekwencja liczb powtarza się.

Generatory takie mają niestety okres, po którym sekwencja liczb powtarza się. 1 Wstęp Będziemyrozważaćgeneratorytypux n+1 =f(x n,x n 1,...,x n k )(modm). Zakładamy,żeargumentamifunkcjifsąliczbycałkowitezezbioru0,1,...,M 1. Dla ustalenia uwagi mogą to być generatory liniowe typu:

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Motto. Czy to nie zabawne, że ci sami ludzie, którzy śmieją się z science fiction, słuchają prognoz pogody oraz ekonomistów? (K.

Motto. Czy to nie zabawne, że ci sami ludzie, którzy śmieją się z science fiction, słuchają prognoz pogody oraz ekonomistów? (K. Motto Cz to nie zabawne, że ci sami ludzie, którz śmieją się z science fiction, słuchają prognoz pogod oraz ekonomistów? (K. Throop III) 1 Specfika szeregów czasowch Modele szeregów czasowch są alternatwą

Bardziej szczegółowo

Paradygmaty programowania

Paradygmaty programowania Paradygmaty programowania Jacek Michałowski, Piotr Latanowicz 15 kwietnia 2014 Jacek Michałowski, Piotr Latanowicz () Paradygmaty programowania 15 kwietnia 2014 1 / 12 Zadanie 1 Zadanie 1 Rachunek predykatów

Bardziej szczegółowo

Parametry systemów klucza publicznego

Parametry systemów klucza publicznego Parametry systemów klucza publicznego Andrzej Chmielowiec Instytut Podstawowych Problemów Techniki Polskiej Akademii Nauk 24 marca 2010 Algorytmy klucza publicznego Zastosowania algorytmów klucza publicznego

Bardziej szczegółowo

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

Modelowanie hierarchicznych struktur w relacyjnych bazach danych Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego

Bardziej szczegółowo

Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe.

Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Rachunek prawdopodobieństwa MAP3040 WPPT FT, rok akad. 2010/11, sem. zimowy Wykładowca: dr hab. Agnieszka Jurlewicz Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Warunkowa wartość oczekiwana.

Bardziej szczegółowo

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania Politechnika Poznańska Modele i narzędzia optymalizacji w systemach informatycznych zarządzania Joanna Józefowska POZNAŃ 2010/11 Spis treści Rozdział 1. Metoda programowania dynamicznego........... 5

Bardziej szczegółowo

Rozkłady zmiennych losowych

Rozkłady zmiennych losowych Rozkłady zmiennych losowych Wprowadzenie Badamy pewną zbiorowość czyli populację pod względem występowania jakiejś cechy. Pobieramy próbę i na podstawie tej próby wyznaczamy pewne charakterystyki. Jeśli

Bardziej szczegółowo

ĆWICZENIE NR 1 WPROWADZENIE DO INFORMATYKI

ĆWICZENIE NR 1 WPROWADZENIE DO INFORMATYKI J.NAWROCKI, M. ANTCZAK, H. ĆWIEK, W. FROHMBERG, A. HOFFA, M. KIERZYNKA, S.WĄSIK ĆWICZENIE NR 1 WPROWADZENIE DO INFORMATYKI ZAD. 1. Narysowad graf nieskierowany. Zmodyfikowad go w taki sposób, aby stał

Bardziej szczegółowo

Zajęcia: VBA TEMAT: VBA PROCEDURY NUMERYCZNE Metoda bisekcji i metoda trapezów

Zajęcia: VBA TEMAT: VBA PROCEDURY NUMERYCZNE Metoda bisekcji i metoda trapezów Zajęcia: VBA TEMAT: VBA PROCEDURY NUMERYCZNE Metoda bisekcji i metoda trapezów W ramach zajęć oprogramujemy jedną, wybraną metodę numeryczną: metodę bisekcji numerycznego rozwiązywania równania nieliniowego

Bardziej szczegółowo

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak Tytuł: Autor: ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak Wstęp Zaawansowane metody analiz statystycznych przenoszą analizy statystyczne na kolejny wyższy poziom. Określenie tego wyższego

Bardziej szczegółowo

Podstawowe operacje arytmetyczne i logiczne dla liczb binarnych

Podstawowe operacje arytmetyczne i logiczne dla liczb binarnych 1 Podstawowe operacje arytmetyczne i logiczne dla liczb binarnych 1. Podstawowe operacje logiczne dla cyfr binarnych Jeśli cyfry 0 i 1 potraktujemy tak, jak wartości logiczne fałsz i prawda, to działanie

Bardziej szczegółowo

Alicja Marszałek Różne rodzaje baz danych

Alicja Marszałek Różne rodzaje baz danych Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy

Bardziej szczegółowo

Analiza zależności liniowych

Analiza zależności liniowych Narzędzie do ustalenia, które zmienne są ważne dla Inwestora Analiza zależności liniowych Identyfikuje siłę i kierunek powiązania pomiędzy zmiennymi Umożliwia wybór zmiennych wpływających na giełdę Ustala

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

5. OKREŚLANIE WARTOŚCI LOGICZNEJ ZDAŃ ZŁOŻONYCH

5. OKREŚLANIE WARTOŚCI LOGICZNEJ ZDAŃ ZŁOŻONYCH 5. OKREŚLANIE WARTOŚCI LOGICZNEJ ZDAŃ ZŁOŻONYCH Temat, którym mamy się tu zająć, jest nudny i żmudny będziemy się uczyć techniki obliczania wartości logicznej zdań dowolnie złożonych. Po co? możecie zapytać.

Bardziej szczegółowo

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych mgr inż. C. Dendek prof. nzw. dr hab. J. Mańdziuk Politechnika Warszawska, Wydział Matematyki i Nauk Informacyjnych Outline 1 Uczenie

Bardziej szczegółowo

6. Organizacja dostępu do danych przestrzennych

6. Organizacja dostępu do danych przestrzennych 6. Organizacja dostępu do danych przestrzennych Duża liczba danych przestrzennych oraz ich specyficzny charakter sprawiają, że do sprawnego funkcjonowania systemu, przetwarzania zgromadzonych w nim danych,

Bardziej szczegółowo

ZAGADNIENIE TRANSPORTOWE

ZAGADNIENIE TRANSPORTOWE ZAGADNIENIE TRANSPORTOWE ZT jest specyficznym problemem z zakresu zastosowań programowania liniowego. ZT wykorzystuje się najczęściej do: optymalnego planowania transportu towarów, przy minimalizacji kosztów,

Bardziej szczegółowo

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych

Bardziej szczegółowo

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)

Bardziej szczegółowo

Wykład VII. Kryptografia Kierunek Informatyka - semestr V. dr inż. Janusz Słupik. Gliwice, 2014. Wydział Matematyki Stosowanej Politechniki Śląskiej

Wykład VII. Kryptografia Kierunek Informatyka - semestr V. dr inż. Janusz Słupik. Gliwice, 2014. Wydział Matematyki Stosowanej Politechniki Śląskiej Wykład VII Kierunek Informatyka - semestr V Wydział Matematyki Stosowanej Politechniki Śląskiej Gliwice, 2014 c Copyright 2014 Janusz Słupik Problem pakowania plecaka System kryptograficzny Merklego-Hellmana

Bardziej szczegółowo

Własności estymatora parametru lambda transformacji potęgowej. Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński

Własności estymatora parametru lambda transformacji potęgowej. Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński Własności estymatora parametru lambda transformacji potęgowej Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński 1. Wstęp Najczęstszym powodem transformowania zmiennej losowej jest jej normalizacja,

Bardziej szczegółowo

Metody Programowania

Metody Programowania POLITECHNIKA KRAKOWSKA - WIEiK KATEDRA AUTOMATYKI i TECHNIK INFORMACYJNYCH Metody Programowania www.pk.edu.pl/~zk/mp_hp.html Wykładowca: dr inż. Zbigniew Kokosiński zk@pk.edu.pl Wykład 8: Wyszukiwanie

Bardziej szczegółowo

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0 ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0 Przeznaczenie Sylabusa Dokument ten zawiera szczegółowy Sylabus dla modułu ECDL/ICDL Użytkowanie baz danych. Sylabus opisuje zakres wiedzy

Bardziej szczegółowo

Quick Launch Manual:

Quick Launch Manual: egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009 Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5

Bardziej szczegółowo

Grupy. Permutacje 1. (G2) istnieje element jednostkowy (lub neutralny), tzn. taki element e G, że dla dowolnego a G zachodzi.

Grupy. Permutacje 1. (G2) istnieje element jednostkowy (lub neutralny), tzn. taki element e G, że dla dowolnego a G zachodzi. Grupy. Permutacje 1 1 Definicja grupy Niech G będzie zbiorem. Działaniem na zbiorze G nazywamy odwzorowanie (oznaczane, jak mnożenie, przez ) przyporządkowujące każdej parze uporządkowanej (a, b) G G element

Bardziej szczegółowo

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki

Bardziej szczegółowo

ANALIZA SYSTEMU POMIAROWEGO (MSA)

ANALIZA SYSTEMU POMIAROWEGO (MSA) StatSoft Polska, tel. 1 484300, 601 414151, info@statsoft.pl, www.statsoft.pl ANALIZA SYSTEMU POMIAROWEGO (MSA) dr inż. Tomasz Greber, Politechnika Wrocławska, Instytut Organizacji i Zarządzania Wprowadzenie

Bardziej szczegółowo

Ewelina Dziura Krzysztof Maryański

Ewelina Dziura Krzysztof Maryański Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład

Bardziej szczegółowo

Modyfikacja algorytmów retransmisji protokołu TCP.

Modyfikacja algorytmów retransmisji protokołu TCP. Modyfikacja algorytmów retransmisji protokołu TCP. Student Adam Markowski Promotor dr hab. Michał Grabowski Cel pracy Celem pracy było przetestowanie i sprawdzenie przydatności modyfikacji klasycznego

Bardziej szczegółowo