Podejście Co-Training w maszynowym uczeniu się
|
|
- Maja Leszczyńska
- 7 lat temu
- Przeglądów:
Transkrypt
1 Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki Michał Kijowski Nr albumu: Podejście Co-Training w maszynowym uczeniu się Praca licencjacka na kierunku MATEMATYKA Praca wykonana pod kierunkiem dra Dominika Ślężaka Instytut Matematyki Zakład Logiki Matematycznej Sierpień 2010
2 Oświadczenie kierującego pracą Potwierdzam, że niniejsza praca została przygotowana pod moim kierunkiem i kwalifikuje się do przedstawienia jej w postępowaniu o nadanie tytułu zawodowego. Data Podpis kierującego pracą Oświadczenie autora pracy Świadom odpowiedzialności prawnej oświadczam, że niniejsza praca dyplomowa została napisana przeze mnie samodzielnie i nie zawiera treści uzyskanych w sposób niezgodny z obowiązującymi przepisami. Oświadczam również, że przedstawiona praca nie była wcześniej przedmiotem procedur związanych z uzyskaniem tytułu zawodowego w wyższej uczelni. Oświadczam ponadto, że niniejsza wersja pracy jest identyczna z załączoną wersją elektroniczną. Data Podpis autora pracy
3 Streszczenie W niniejszej pracy zanalizowany zostanie model Co-Training używany w dziedzinie uczenia maszynowego. Model ten został wprowadzony w 1998 roku przez Avrima Bluma i Toma Mitchella w artykule Combining Labeled and Unlabeled Data with Co-Training [4]. W pracy zostaną najpierw wprowadzone podstawowe pojęcia dotyczące uczenia maszynowego oraz uczenia prawdopodobnie aproksymacyjnie poprawnego. Oprócz tego sformułowane i udowodnione zostaną najważniejsze twierdzenia obydwu działów. Dowody przedstawione w pracy zostały przeze mnie gruntownie przeanalizowane, a dodatkowo większość z nich rozszerzyłem, gdyż w pracach źródłowych dowody te były często bardzo skrótowe. Następnie model Co-Training zostanie wprowadzony i zanalizowany zarówno od strony teoretycznej jak i praktycznej. Od strony teoretycznej wykazana zostanie poprawność modelu oraz jego potencjalna skuteczność, natomiast od strony praktycznej zostanie zbadana efektywność modelu w zastosowaniach dotyczących rzeczywistych danych. W ostatnim rozdziale przedstawiony zostanie model rozszerzający Co-Training na przypadek klasyfikacji wieloklasowej. Na końcu zostaną podsumowane informacje dotyczące modelu Co-Training. Słowa kluczowe Dane nieetykietowane, Semi-Supervised Learning, Uczenie częściowo nadzorowane, Co-Training 11.1 Matematyka Dziedzina pracy (kody wg programu Socrates-Erasmus) 68T05. Learning and adaptive systems 68Q32. Computational learning theory Klasyfikacja tematyczna Co-Training approach in machine learning Tytuł pracy w języku angielskim
4
5 Spis treści Wprowadzenie Teoria uczenia maszynowego Wprowadzenie do teorii uczenia maszynowego Algorytmy oraz wyuczalność w sensie PAC Algorytmy PAC Wyuczalność klasy pojęć Losowy szum klasyfikacyjny Uczenie częściowo nadzorowane Co-Training Formalny model Co-Training Reprezentacja grafowa Ujęcie Co-Training w ramy modelu PAC Opis klasycznego algorytmu Co-Training Analiza praktycznych zastosowań modelu Co-Training Co-Training dla przypadku klasyfikacji wieloklasowej Podsumowanie Bibliografia
6
7 Wprowadzenie Uczenie maszynowe (z angielskiego machine learning) jest młodą i szybko rozwijającą się interdyscyplinarną dziedziną łączącą wiele odmiennych zagadnień, głównie z obszarów matematyki (ze szczególnym naciskiem na statystykę i rachunek prawdopodobieństwa) oraz informatyki (głownie zagadnienia związane ze sztuczną inteligencją). Szczególny nacisk kładziony jest na aspekt praktyczny, dzięki któremu można budować systemy potrafiące zdobywać nową wiedzę i doskonalić swoje działanie poprzez analizę zgromadzonego przez nie doświadczenia reprezentowanego przez dane. Co więcej systemy te często są ostatnim ogniwem w łańcuchu komunikacji pomiędzy komputerem a człowiekiem i w związku z tym powinny produkować wyniki jak najbardziej zrozumiałe i przejrzyste dla przeciętnego użytkownika. W obecnych czasach coraz łatwiejsze stało się gromadzenie ogromnych ilości surowych danych. Jednocześnie etykietowanie tych danych jest wciąż kosztowne, przez co coraz większym zainteresowaniem cieszą się metody pozwalające uzyskiwać chociaż częściową wiedzę z danych wcześniej nieetykietowanych. W ten sposób narodziły się dwa działy uczenia maszynowego: uczenie nienadzorowane (z angielskiego unsupervised learning) oraz uczenie częściowo nadzorowane (z angielskiego semi-supervised learning). Pierwszy z nich wykorzystuje wyłącznie dane nieetykietowane, natomiast drugi korzysta zarówno z danych z etykietami jak i bez. Model Co-Training jest jednym z ważniejszych modeli wykorzystywanych w uczeniu częściowo nadzorowanym. Model ten został zaprezentowany po raz pierwszy przez Avrim a Blum a oraz Tom a Mitchell a w 1998 roku w pracy pod tytułem Combining Labeled and Unlabeled Data with Co-Training [4]. Praca ta otrzymała w 2008 roku nagrodę dla najlepszej pracy ostatniego dziesięciolecia na konferencji 25th Annual International Conference on Machine Learning. To dobrze obrazuje, jak ważna jest to metoda oraz jak bardzo wpłynęła na całą dziedzinę uczenia maszynowego. W niniejszej pracy zebrałem w jednym miejscu i przeanalizowałem informacje z najważniejszych artykułów dotyczących modelu Co-Training. Dużo pracy wymagało uwspólnianie podstawowych definicji i oznaczeń, które często były odmienne w różnych artykułach. W początkowych rozdziałach pracy omówione zostaną podstawowe pojęcia związane z uczeniem maszynowym, a w szczególności uczeniem częściowo nadzorowanym, natomiast w drugiej części pracy omówiony będzie model Co-Training zarówno od strony teoretycznej jak i praktycznej. 5
8
9 Rozdział 1 Teoria uczenia maszynowego 1.1. Wprowadzenie do teorii uczenia maszynowego Uczenie maszynowe jest interdyscyplinarną dziedziną, której podstawowym zadaniem jest budowa systemów potrafiących zdobywać nową wiedzę na podstawie zgromadzonych wcześniej doświadczeń. Niniejszy rozdział poświęcony jest sformalizowaniu opisu tej dziedziny oraz wprowadzeniu aparatu teoretycznego nazwanego modelem uczenia prawdopodobnie aproksymacyjnie poprawnego (z angielskiego probably approximately correct - w skrócie PAC ) [1] służącego do analizy algorytmów występujących w uczeniu maszynowym. Co więcej, sformułowane i udowodnione zostaną najważniejsze twierdzenia. Najważniejsze cele przyświecające uczeniu maszynowemu są nastepujące: uczenie się, jak rozpoznawać nowe pojęcia przy pomocy analogii oraz uogólnienia wykrywanie nieznanych zależności w danych formułowanie odkrytej wiedzy w sposób zrozumiały dla człowieka W uczeniu maszynowym chodzi o umiejętność efektywnego znajdowania funkcji celu zwanej hipotezą, która w jak najlepszy sposób przybliża pewne szukane przez nas pojęcie. W swojej pracy zajmę się głównie problematyką klasyfikacji binarnej, która polega na przyporządkowaniu nowym obiektom jednej z dwóch klas decyzyjnych. Przykładowo, możemy pragnąć nauczyć nasz algorytm pojęcia człowieka otyłego, mając do dyspozycji dane o wzroście oraz wadze pewnej ilości osób wraz z komentarzem dotyczącym tego, czy ta osoba jest otyła czy nie. Na podstawie tych danych próbujemy skonstruować funkcję, która będzie klasyfikowała nowe osoby reprezentowane przez ich wzrost oraz wagę do jednej z dwóch kategorii - osoby otyłe lub nie. Od algorytmu uczącego się wymagamy przede wszystkim: skuteczności (czyli dobrej aproksymacji szukanego pojęcia) oraz szybkości działania. Istnieją różne metody określania dobrej jakość aproksymacji oraz szybkiego czasu działania. Obecnie najpopularniejszy model badania algorytmów pod tym kątem nosi nazwę uczenia prawdopodobnie aproksymacyjnie poprawnego - jest on przedstawiony w sekcji 1.2. W tabeli 1.1 przedstawiony jest ogólny model procesu uczenia się. 7
10 Dane początkowe: zbiór (skończony lub nieskończony) wszystkich obiektów X pojęcie c pochodzące z przestrzeni pojęć oznaczonej C skończona próbka D obiektów x 1,..., x m X wraz z wartościami c(x 1 ),..., c(x m ) przestrzeń hipotez H Szukane: hipoteza h H będąca dobrą aproksymacją pojęcia c Wymagania: dobra jakość aproksymacji szybki czas działania Tabela 1.1: Ogólny model procesu uczenia się Algorytmy oraz wyuczalność w sensie PAC Model uczenia się prawdopodobnie aproksymacyjnie poprawnego został zdefiniowany w 1984 roku przez Leslie go Valiant a w pracy [1]. Główną motywacją stojącą za tym przedsięwzięciem była próba stworzenia modelu, który pozwalałby na skuteczną ocenę złożoności obliczeniowej algorytmów rozważanych w problematyce uczenia maszynowego. W modelu PAC algorytm uczący się zwany uczniem dostaje na wejściu zbiór treningowy i ma wybrać pewną hipotezę spośród zadanej klasy dopuszczalnych hipotez. Celem jest to, aby wybrana hipoteza z dużym prawdopodobieństwem (część probably) była dobrą aproksymacją pojęcia (część approximately correct), którego mamy się nauczyć. Co więcej uczeń musi umieć wykonać to zadanie z dowolną wcześniej ustaloną precyzją, prawdopodobieństwem sukcesu oraz rozkładem prawdopodobieństwa na zbiorze obiektów. Ważną cechą modelu PAC jest zaadaptowanie teorii złożoności obliczeniowej do uczenia maszynowego. Algorytm, który chcemy wytrenować, musi znaleźć rozwiązanie w sposób efektywny (czas i rozmiar muszą być co najwyżej wielomianowe względem wielkości próbki), a także musi w sposób efektywny zaimplementować to rozwiązanie (oznacza to w szczególności, że ilość obiektów musi być wielomianowa względem rozmiaru hipotezy) Algorytmy PAC W niniejszej sekcji sformułuję warunki, jakie musi spełniać algorytm uczący się aby można uznać go za algorytm prawdopodobnie aproksymacyjnie poprawny. Oprócz tego wprowadzę kilka pojęć, które będą wykorzystywane w dalszej części pracy. Niech X będzie zbiorem wszystkich obiektów zwanym przestrzenią przykładów, C - klasą pojęć, H - przestrzenią hipotez ucznia oraz Ω = (X, µ) - przestrzenią probabilistyczną określoną na X. Niech EX(c, Ω) będzie zmienną losową nazywaną wyrocznią(z angielskiego oracle), która losuje ze zbioru X obiekt x zgodnie z zadanym rozkładem prawdopodobieństwa Ω oraz nadaje 8
11 mu poprawną decyzję c(x). Za pomocą wyroczni zostaje wygenerowany zbiór treningowy D = {(x 1, c(x 1 )),..., (x m, c(x 1 ))} S(m, c), gdzie S(m, c) oznacza zbiór wszystkich próbek zawierających m przykładów. Celem ucznia jest znalezienie hipotezy h H minimalizującej błąd rzeczywisty Err c Ω (h) zdefiniowany w sposób następujący: Definicja Błędem rzeczywistym hipotezy h H względem pojęcia c nazywamy: Err Ω (h, c) = Err c Ω(h) = µ{x X h(x) c(x)} Teraz przechodzimy do najważniejszej definicji związanej z modelem PAC: Definicja Algorytm A nazywamy prawdopodobnie aproksymacyjnie poprawnym wtedy i tylko wtedy, gdy dla każdego 0 < ε < 1 i dla każdego 0 < δ < 1 istnieje m 0 = m 0 (ε, δ) t.że dla dowolnego pojęcia c C i dla dowolnego rozkładu Ω na X mamy: o ile m > m 0. µ m {D S(m, c) Err Ω (A(D)) < ε} > 1 δ W powyższej definicji ε nazywamy dopuszczalnym poziomem błędu, natomiast (1 δ) poziomem ufności. O algorytmie, który jest prawdopodobnie aproksymacyjnie poprawny, często mówimy w skrócie, że jest algorytmem PAC. W tabeli 1.2 jest pokazany przykładowy algorytm PAC Wyuczalność klasy pojęć Kolejnym ważnym zagadnieniem w teorii uczenia maszynowego jest pojęcie potencjalnej wyuczalności klasy pojęć. Dzięki potencjalnej wyuczalności można scharakteryzować klasy pojęć, których jesteśmy się w stanie efektywnie nauczyć. Aby zdefiniować potencjalną wyuczalność będziemy potrzebowali następujących definicji oraz oznaczeń: Definicja Algorytm A nazywamy niesprzecznym wtedy i tylko wtedy, gdy dla każdego pojęcia c C i dla każdej próbki D mamy Err c D (A(D)) = 0, czyli A(D)(x i) = c(x i ) dla dowolnego przykładu (x i, c(x i )) D Niech H c (D) = {h H h(x i ) = c(x i ) i}. Możemy wówczas powiedzieć, że algorytm A jest niesprzeczny jeśli A(D) H c (D) dla dowolnego D. Dodatkowo, przez B c ε = {h H Err Ω (h) ε} oznaczmy zbiór słabych hipotez (takich, które popełniają błąd ε) Przechodzimy teraz do definicji potencjalnej wyuczalności: Definicja Klasę pojęć C nazywamy potencjalnie wyuczalną za pomocą H wtedy i tylko wtedy, gdy dla każdego 0 < ε < 1 i dla każdego 0 < δ < 1 istnieje m 0 = m 0 (ε, δ) t.że dla dowolnego pojęcia c C i dla dowolnego rozkładu Ω na X mamy: o ile m > m 0. µ m {D S(m, c) H c (D) B c ε = } > 1 δ Mając zdefiniowaną potencjalną wyuczalność możemy teraz rozpatrywać związek potencjalnej wyuczalności z algorytmami prawdopodobnie aproksymacyjnie poprawnymi: 9
12 Twierdzenie Jeśli klasa pojęć C jest potencjalnie wyuczalną za pomocą H oraz A jest algorytmem niesprzecznym dla C to wówczas A jest algorytmem prawdopodobnie aproksymacyjnie poprawnym. Dowód: Powyższe twierdzenie jest prostym wnioskiem z definicji algorytmu PAC i potencjalnej wyuczalności. C jest potencjalnie wyuczalna, zatem: µ m {D S(m, c) H c (D) B c ε = } > 1 δ (1.1) Niech A będzie algorytmem niesprzecznym dla C. Zauważyliśmy już wcześniej, że dzięki temu dla dowolnego D mamy: A(D) H c (D) (1.2) Zatem: µ m {D S(m, c) A(D) / B c ε} > 1 δ (1.3) Oznacza to, że algorytm A z prawdopodobieństwem > 1 δ aproksymuje pojęcie c z błędem < ε, a zatem jest on algorytmem PAC. Poniższe twierdzenie pozwala na wykazanie potencjalnej wyuczalności szerokiej klasy pojęć: Twierdzenie Jeśli klasa pojęć C oraz przestrzeń hipotez H są identyczne czyli C = H oraz zachodzi C < to wówczas klasa pojęć C jest potencjalnie wyuczalna. Dowód: Niech h B c ε, czyli h popełnia błąd rzeczywisty ε. Mamy wówczas: Wynika z tego, że: µ m {D S(m, c) Err c D(h) = 0} (1 ε) m (1.4) µ m {D : H c (D) B c ε } B c ε (1 ε) m H (1 ε) m (1.5) Zatem, aby zgodnie z definicją potencjalnej wyuczalności uzyskać H (1 ε) m < δ wystarczy wybrać m > 1 H ε log δ, ponieważ zachodzi: m > log H δ log 1 1 ε = log H δ ε ε 1 ε log(1 + 1 ε ) > log 1 ( 1 ε )m > H δ 1 H m log > log 1 ε δ H H δ log δ > ε Z założenia wiemy, że H < zatem możemy dobrać takie m, aby spełniona była definicja potencjalnej wyuczalności. 10
13 Dane początkowe: X = R H = C = {f δ : R {0, 1} f δ (x) = 1 x δ} c = f δ0 Należy znaleźć δ 0 na podstawie losowo wygenerowanych przykładów należących do D = {(x 1, f δ (x 1 )),..., (x m, f δ (x 1 ))} Przyjmujemy następujący algorytm: 1. Niech δ = min i {1,...,m} {x i : f δ0 (x i ) = 1} 2. Przyjmujemy A(D) = δ Wykażemy, że A jest PAC: Mamy, iż Err c Ω (f δ ) = µ([δ 0, δ ]) Niech β 0 = sup{β µ([δ 0, δ ]) < ε}. Wówczas Err c Ω (f δ ) ε δ β 0 jeden z przykładów x i znajduje się w przedziale δ 0, δ Prawdopodobieństwo tego, że żaden z m przykładów nie należy do δ 0, β 0 jest (1 m) m. Stąd µ m {D S(m, f δ0 ) Err Ω (A(D)) ε} > 1 (1 ε) m Zatem aby to prawdopodobieństwo było > 1 δ wystarczy wybrać m m 0 = 1 ε log 1 δ Tabela 1.2: Przykład algorytmu PAC. 11
14 Losowy szum klasyfikacyjny Model PAC zakłada istnienie nieomylnej wyroczni, która zawsze zwraca obiekt z poprawną decyzją. Niestety w realnym świecie założenie o nieomylności wyroczni bardzo często jest niespełnione. Wiąże się to z powstaniem szumu klasyfikacyjnego - część przykładów zwrócona przez wyrocznię posiada błędną etykietę. Już w 1988 roku Angluin i Laird w swojej pracy [2] wprowadzili poprawki mające na celu uodpornienie modelu PAC na sytuację, gdy obecny jest szum klasyfikacyjny. W tym modelu algorytm nie ma dostępu do nieomylnej wyroczni EX(c, Ω), lecz do wyroczni EX η (c, Ω) popełniającej błąd z prawdopodobieństwem η, zdefiniowanej następująco: EX η (c, Ω) = { zwraca (x, c(x)) z EX(c, Ω) z prawdopodobieństwem 1 η zwraca (x, c(x)) z EX(c, Ω) z prawdopodobieństwem η Im bardziej wartość błędu zbliża się do 1 2, tym mniej informacji o szukanej funkcji celu można uzyskać z etykiet zwróconych przez wyrocznie. Równocześnie rośnie wielkość wymaganego zbioru treningowego oraz złożoność obliczeniowa. W przypadku gdy wartość błędu jest równa 1 2, uczenie się w sposób prawdopodobnie aproksymacyjnie poprawny staje się niemożliwe, gdyż etykiety przykładów ze zbioru treningowego są zupełnie losowe, a zatem nie niosą żadnej informacji na temat funkcji celu. Angluin i Laird wykazali, że skończone klasy pojęć są wyuczalne w sensie PAC w obecności szumu klasyfikacyjnego (nawet szerzej - wyuczalne są klasy pojęć o skończonym wymiarze Vapnika-Chervonenkisa zdefiniowanego w pracy [8]). Istnieje wiele sposobów radzenia sobie z szumem klasyfikacyjnym, jednak w praktyce najpopularniejszą i najszerzej wykorzystywaną metodą jest konstruowanie algorytmów, które opierają się na pewnych statystykach obliczonych ze zbioru testowego, a nie na pojedynczych obiektach. Model takiego podejścia nazywa się Statistical Queries i został po raz pierwszy zaproponowany przez Michael a Kearns a w roku 1998 [3]. 12
15 Rozdział 2 Uczenie częściowo nadzorowane Uczenie maszynowe dzieli się zasadniczo na trzy działy w zależności od rodzaju i ilości wykorzystywanych przez nie danych. Pierwszym z nich jest uczenie nienadzorowane (z angielskiego unsupervised learning). Mamy z nim do czynienia wówczas gdy posiadamy wyłącznie dane bez etykiet i chcemy się dowiedzieć czegoś o strukturze przestrzeni danych np. chcemy poznać największe skupiska danych lub ich rozrzut w przestrzeni. Drugim działem jest uczenie nadzorowane (z angielskiego supervised learning). Korzystamy z niego w przypadku gdy trenujemy algorytmy uczące się, które do działania potrzebują wyłącznie zbioru etykietowanych danych treningowych i na ich podstawie chcemy poznać funkcję celu. Trzecim i zarazem najważniejszym z punktu widzenia niniejszej pracy działem jest uczenie częściowo nadzorowane (z angielskiego semi-supervised learning). Jest to dział, w którym trenowane algorytmy mają dostęp do stosunkowo małej ilości danych etykietowanych oraz do ogromnej ilości danych bez etykiet. Dział ten jest obecnie bardzo dynamicznie rozwijany, gdyż w realnych zastosowaniach coraz częściej okazuje się, że uzyskanie danych etykietowanych jest bardzo kosztowne. Mowa tu zarówno o kosztach czasowych jak i finansowych. Uzyskanie etykietowanych danych bardzo często jest związane z intensywną pracą ludzką - w większości zastosowań każdy z przykładów trzeba oznaczyć ręcznie. Z drugiej strony, dzięki rozwojowi techniki, pozyskiwanie surowych danych nieetykietowanych jest coraz prostsze i tańsze. Dobrym przykładem jest tutaj zagadnienie klasyfikacji stron internetowych. Dane treningowe w tym przypadku to witryny wraz z decyzją klasyfikacyjną, którą każdorazowo musiał nadać człowiek. Zatem stworzenie zbioru treningowego złożonego nawet ze 100 elementów wymagałoby dużego nakładu pracy ludzkiej. Natomiast dane nieetykietowane to po prostu dane o stronach internetowych, które możemy w łatwy sposób pobierać w tysiącach, a nawet setkach tysięcy za pomocą robotów (crawlerów) internetowych. W związku z zaistniałą sytuacją ostatnimi laty coraz więcej osób starało się budować nowe algorytmy częściowo nadzorowane, aby pozyskać jak najwięcej informacji z tanich danych nieetykietowanych. Algorytmy te wykorzystują dane bez etykiet na szereg odmiennych sposobów. Oto niektóre z nich: budowa modeli probabilistycznych z wykorzystaniem danych nieetykietowanych [10] iteracyjna estymacja parametrów modelu - algorytm Expectation Maximization [11] maksymalizacja szerokości marginesu prostej rozdzielającej dwie klasy decyzyjne - algorytm Transductive Support Vector Machines [12] 13
16 Wyniki uzyskane zarówno przez powyższe algorytmy jak i wiele innych pokazały, że dane bez etykiet mogą w znaczący sposób poprawić jakość klasyfikacji. Jednak za najważniejszy model w uczeniu częściowo nadzorowanym większość osób uznaje model Co-Training, którego szczegółowy opis znajduje się w kolejnych rozdziałach. 14
17 Rozdział 3 Co-Training Model Co-Training został po raz pierwszy zaprezentowany w 1998 roku w artykule [4]. Artykuł ten wywołał niemałe poruszenie w kręgach naukowych związanych z uczeniem maszynowym. Praca [4] zawiera podstawy teoretyczne modelu Co-Training oraz konkretny algorytm realizujący te założenia. Należy jednak zauważyć, że nie jest to jedyny algorytm, który można ująć w ramy tego modelu. Należy unikać bezpośredniego utożsamiania modelu Co-Training z algorytmem przedstawionym w [4]. Istotą modelu Co-Training jest założenie, że zbiór atrybutów możemy podzielić na dwa rozłączne podzbiory, gdzie każdy z nich dostarcza nam wystarczająco dużo informacji aby wytrenować poprawny klasyfikator przy odpowiednio dużej ilości danych. Co więcej, oba podzbiory mają być warunkowo niezależne ustalając klasę decyzyjną. Mówiąc w skrócie, interesuje nas sytuacja, gdy na dany obiekt możemy, w pewnym sensie, patrzeć na dwa istotnie różne, niezależne od siebie i samowystarczalne sposoby. Poniżej znajduje się bardziej formalny opis tej idei Formalny model Co-Training Dana jest przestrzeń obiektów X = X 1 X 2, gdzie X 1 i X 2 odpowiadają dwóm odmiennym sposobom patrzenia na obiekt. Oznacza to, że każdy obiekt jest reprezentowany jako para (x 1, x 2 ). Ponadto wymagane jest założenie, że każdy z podzbiorów X 1 i X 2 osobno jest wystarczający do poprawnej klasyfikacji. Niech D będzie rozkładem prawdopodobieństwa nad X, zaś C 1 i C 2 będą klasami pojęć odpowiednio nad X 1 i X 2. Zakładamy, że wszystkie etykiety obiektów o niezerowym prawdopodobieństwie są zgodne z pewną funkcją f 1 należącą do C 1 oraz z funkcją f 2 należącą do C 2. Innymi słowy, jeśli f oznacza szukaną przez nas funkcję celu, to wówczas dla każdego obiektu x = (x 1, x 2 ) oznaczonego etykietą l zachodzi f(x) = f 1 (x 1 ) = f 2 (x 2 ) = l. W szczególności oznacza to, że D przypisuje zerowe prawdopodobieństwo każdemu obiektowi takiemu, że f 1 (x 1 ) f 2 (x 2 ). Pojawia się tu pytanie, dlaczego dane bez etykiet mogłyby pomóc w klasyfikacji? Szerszej odpowiedzi na to pytanie udzielimy w następnych sekcjach, ogólnie można na to spojrzeć poprzez pryzmat standardowego modelu PAC jak poniżej. Dla danego rozkładu D mówimy, że dana hipoteza f = (f 1, f 2 ) C 1 C 2 jest kompatybilna z D jeśli D przypisuje zerowe praw- 15
18 Rysunek 3.1: Różnica w rozkładzie przykładów w zależności od wybranej perspektywy dopodobieństwo każdemu obiektowi takiemu, że f 1 (x 1 ) f 2 (x 2 ). Innymi słowy, para f 1, f 2 jest kompatybilna z D jeśli f 1, f 2 oraz D są dopuszczalne w modelu Co-Training opisanym powyżej. Należy zauważyć, że nawet wówczas, gdy C 1 oraz C 2 są skomplikowanymi klasami pojęć, dla danego D zbiór hipotez kompatybilnych może być istotnie mniej skomplikowany. Dlatego można mieć nadzieję, iż dane bez etykiet umożliwią nam lepsze poznanie charakterystyki hipotez kompatybilnych, a co za tym idzie pozwolą na zmniejszenie ilości danych treningowych potrzebnych do wytrenowania skutecznego klasyfikatora. Przeanalizujemy to na przykładzie. Niech X 1 = X 2 = {0, 1} n oraz C 1 = C 2 =koniunkcje nad{0, 1} n. Jeśli wiemy, że pierwsza współrzędna jest istotna dla pojęcia f 1 to, ponieważ f 1 jest koniunkcją, możemy z tego wywnioskować, że gdy pierwsza współrzędna x 1 jest równa 0, to f 1 (x 1 ) = 0. Wówczas dowolny nieetykietowany przykład (x 1, x 2 ) taki, że pierwsza współrzędna x 1 jest równa 0 może zostać użyty do wytworzenia negatywnego przykładu x 2 dla f 2. Oczywiście przykład ten może nie dać nam wiele pożytecznych informacji o f 2 jeśli D jest mało pomocnym rozkładem, na przykład takim, który posiada niezerowe prawdopodobieństwo wyłącznie na obiektach takich, że x 1 = x 2. Jednakże, jeśli x 1 oraz x 2 nie są mocno skorelowane, możemy uzyskać nowe informacje. W skrajnie optymistycznym przypadku, gdy D jest rozkładem, w którym x 1 i x 2 są warunkowo niezależne pod warunkiem decyzji, zachodzi taka zależność, że gdy pierwsza współrzędna x 1 jest równa 0, to x 2 jest w pełni losowym negatywnym przykładem dla f 2. Na rysunku 3.1 jest to przedstawione w sposób obrazowy. Punkty, które klasyfikator patrzący na część x 1 klasyfikuje z dużą pewnością (na rysunku są one zaznaczone kółeczkami) są losowo rozmieszczone z punktu widzenia klasyfikatora patrzącego na część x Reprezentacja grafowa Innym sposobem patrzenia na model Co-Training jest rozpatrywanie rozkładu D jako grafu ważonego, dwudzielnego oznaczanego jako G D (X 1, X 2 ) lub po prostu G D, gdy X 1 oraz X 2 wynikają z kontekstu. Lewa strona grafu G D posiada po jednym wierzchołku dla każdej możliwej wartości z X 1 natomiast prawa strona zawiera analogiczne wierzchołki dla X 2. Krawędź 16
19 Rysunek 3.2: Krawędzie odpowiadają obiektom o niezerowym prawdopodobieństwie przy czym krawędzie pełne odpowiadają obiektom z pewnej skończonej próbki S. Jeśli spełnione są założenia metody Co-Training, to obiekty należące do jednej składowej spójnej powinny posiadać tę samą etykietę. (x 1, x 2 ) należy do G D wtedy i tylko wtedy, gdy przykład (x 1, x 2 ) ma niezerowe prawdopodobieństwo w D. Każdej krawędzi nadajemy wagę równą prawdopodobieństwu wystąpienia danego obiektu. Dla wygody możemy z grafu usunąć wszystkie wierzchołki izolowane, gdyż odpowiadają one obiektom nie podlegającym modelowi Co-Training. Jest to zobrazowane na rysunku 3.2. Dla modelu zdefiniowanego w powyższy sposób spośród wszystkich hipotez z C można w łatwy sposób wskazać hipotezy kompatybilne. Są to mianowicie hipotezy odpowiadające podziałowi grafu G D na dwa podgrafy rozłączne. Dodatkowo, w równie łatwy sposób można wprowadzić miarę kompatybilności danej hipotezy. Jako wspomnianą miarę wystarczy wziąć wagę cięcia, które wykonuje dana hipoteza. Innymi słowy poziom kompatybilności między hipotezą f = (f 1, f 2 ) a rozkładem D może być zdefiniowany jako liczba p [0, 1] gdzie p = 1 P D [(x 1, x 2 ) : f 1 (x 1 ) f 2 (x 2 )]. W poniższych rozważaniach, o ile nie jest zaznaczone inaczej, zakładam pełną kompatybilność tj. p = 1. Mając daną próbkę S w łatwy sposób można zdefiniować podgraf G S grafu G D jako graf dwudzielny zawierający krawędzie (x 1, x 2 ) S. W przypadku pełnej kompatybilności każde dwa wierzchołki należące do tej samej składowej spójnej w G S mają taką samą etykietę Ujęcie Co-Training w ramy modelu PAC W niniejszej sekcji wykażę dlaczego, gdy spełnione są odpowiednie założenia, możemy przy pomocy modelu Co-Training polepszyć skuteczność każdego pierwotnie słabego klasyfikatora do ustalonego z góry poziomu, korzystając tylko z danych bez etykiet. Wspomniane założenia to warunkowa niezależność dla rozkładu D oraz wyuczalność C 2 w sensie PAC w obecności losowego szumu klasyfikacyjnego. Na początku zdefiniujemy pierwsze z wymaganych założeń. Mówimy, że funkcje f 1, f 2 oraz rozkład D łącznie spełniają założenie warunkowej niezależności, gdy dla każdej ustalonej pary (x 1, x 2 ) X posiadającej 17
20 niezerowe prawdopodobieństwo mamy: oraz analogicznie: P (x1,x 2 ) D(x 1 = x 1 x 2 = x 2 ) = P (x1,x 2 ) D(x 1 = x 1 f 2 (x 2 ) = f 2 ( x 2 )) P (x1,x 2 ) D(x 2 = x 2 x 1 = x 1 ) = P (x1,x 2 ) D(x 2 = x 2 f 1 (x 1 ) = f 1 ( x 1 )) Innymi słowy x 1 oraz x 2 są niezależne pod warunkiem etykiety. Kolejną rzeczą niezbędną do zdefiniowania jest pojęcie słabo-użytecznej predykcji, definiujemy ją w sposób następujący: Definicja Funkcję h nazywamy słabo-użyteczną predykcją funkcji f wtedy i tylko wtedy, gdy zachodzą następujące warunki: oraz dla pewnego ε > 1 o(n). P D (h(x) = 1) ε P D (f(x) = 1 h(x) = 1) P D (f(x) = 1) + ε Następnie wprowadzę drobne rozszerzenie do standardowego modelu PAC z losowym szumem klasyfikacyjnym. Rozszerzenie to zostało zaprezentowane w pracy [4] i polega na zróżnicowaniu prawdopodobieństwa popełnienia błędu przez wyrocznię dla przykładów pozytywnych i negatywnych. Innymi słowy model PAC z losowym szumem klasyfikacyjnym (α, β) jest to model w którym algorytm ma dostęp do wyroczni, która źle klasyfikuje pozytywne przykłady z prawdopodobieństwem α oraz źle klasyfikuje przykłady negatywne z prawdopodobieństwem β. W tym modelu można udowodnić następujący lemat: Lemat Jeśli klasa pojęć C jest wyuczalna w modelu PAC z losowym szumem klasyfikacyjnym to jest również wyuczalna w modelu PAC z losowym szumem klasyfikacyjnym (α, β) o ile α + β < 1. Złożoność obliczeniowa jest wówczas rzędu o( 1 1 α β ). Dowód: Rozważmy dwa przypadki: 1) α oraz β są znane algorytmowi uczącemu się: Bez straty ogólności możemy założyć, że α < β. Aby wyuczyć się C z szumem (α, β) wystarczy zmienić etykietę każdego pozytywnego przykładu z prawdopodobieństwem β α β+(1 α). W rezultacie otrzymamy standardowy model z szumem klasyfikacyjnym na poziomie η β = Aby model był poprawny, musi zachodzić η < 1 β 2, zatem mamy α + β < 1. β+(1 α) < 1 2 β+(1 α). skąd wynika, że 2) α oraz β są nieznane algorytmowi uczącemu się: Załóżmy, że mamy dany zbiór S złożony z m obiektów, z których m + ma etykietę pozytywną. Wówczas możemy stworzyć m + 1 hipotez w sposób następujący: i-ta hipoteza dla i = 0, 1,..., m + jest tworzona poprzez zmienienie etykiet i losowym przykładom pozytywnym z S, natomiast hipoteza j-ta dla j = m + + 1,..., m jest tworzona poprzez zmienienie etykiet j losowym przykładom negatywny z S. Dzięki temu każdą z hipotez sprowadzamy do standardowego modelu z pojedynczym szumem klasyfikacyjnym. Wówczas możemy oczekiwać, że co najmniej jedna z hipotez jest poprawna, ponieważ procedura z punktu pierwszego (gdy znamy α oraz β) może być rozpatrywana jako rozkład 18
21 prawdopodobieństwa nad powyższymi m + 1 eksperymentami. Poniższe twierdzenie pokazuje, dlaczego model Co-Training jest przydatny w praktyce: Twierdzenie Jeśli klasa pojęć C 2 jest wyuczalna w modelu PAC z losowym szumem klasyfikacyjnym oraz jeśli spełnione jest założenie warunkowej niezależności, to wówczas (C 1, C 2 ) jest wyuczalne w modelu Co-Training korzystając tylko z danych nieetykietowanych oraz początkowej słabo-użytecznej predykcji h(x 1 ) pojęcia C 1. Dowód: Niech f(x) będzie szukaną funkcją celu oraz p = P D (f(x) = 1) będzie prawdopodobieństwem, że losowy przykład z D jest pozytywny. Niech q = P D (f(x) = 1 h(x) = 1) oraz c = P D (h(x) = 1). Wówczas mamy: P D (h(x) = 1 f(x) = 1) = P D(f(x) = 1 h(x) = 1)P D (h(x) = 1) P D (f(x) = 1) = qc p (3.1) oraz (1 q)c P D (h(x) = 1 f(x) = 0) = (3.2) 1 p Dzięki założeniu warunkowej niezależności wiemy, iż dla losowego przykładu x = (x 1, x 2 ) h(x 1 ) jest niezależne od x 2 przy danej wartości f(x). Wynika z tego, że jeśli użyjemy h(x 1 ) jako poziomu szumu klasyfikacyjnego dla x 2 będzie to równoważne szumowi klasyfikacyjnemu (α, β) gdzie α = 1 qc (1 q)c p oraz β = 1 p - wartości α i β wynikają z równań (3.1) oraz (3.2). Wynika z tego, że: α + β = 1 qc p ( ) (1 q)c q p + 1 p = 1 c p(1 p) Z założeń wiemy, że h jest słabo-użyteczną predykcją. Wynika z tego, że c ε oraz q p ε zatem: ε 2 α + β 1 p(1 p) 1 4ε2 < 1 Stosując lemat uzyskujemy tezę Opis klasycznego algorytmu Co-Training Klasyczny algorytm Co-Training został zaprezentowany przez Mitchell a i Blum a jako zobrazowanie działania modelu Co-Training w praktyce. Algorytm ten trenuje po jednym klasyfikatorze dla każdego z podzbiorów atrybutów używając początkowego zbioru danych treningowych oraz jednocześnie losuje podzbiór złożony z danych nieetykietowanych spośród których będą wybierane przykłady dodawane do początkowego zbioru treningowego. W następnym kroku algorytm dokonuje klasyfikacji danych bez etykiet z powyższego podzbioru i te, które zaklasyfikował z największym prawdopodobieństwem dodaje do początkowego zbioru treningowego. Tu objawia się założenie mówiące o tym, że każdy z podzbiorów atrybutów jest wystarczający do prawidłowej klasyfikacji - oznacza to tyle, że można ufać etykietom przypisanym przez klasyfikator patrzący tylko na jeden z podzbiorów. Następnie podzbiór złożony z danych nieetykietowanych jest uzupełniany i cały proces jest powtarzany w sposób iteracyjny. W tabelce 3.1 jest przedstawiony szczegółowy algorytm metody Co-Training. 19
22 Dane początkowe: zbiór U - obiektów bez etykiet zbiór L - obiektów z etykietami Utwórz zbiór U wybierając w sposób losowy u obiektów ze zbioru U Powtórz k razy użyj zbioru L aby wytrenować klasyfikator h 1 wykorzystując tylko część x 1 z x użyj zbioru L aby wytrenować klasyfikator h 2 wykorzystując tylko część x 2 z x pozwól h 1 oznaczyć p pozytywnych i n negatywnych przykładów z U pozwól h 1 oznaczyć p pozytywnych i n negatywnych przykładów z U dodaj oznaczone obiekty do zbioru L wybierz w sposób losowy 2p + 2n obiektów ze zbioru U i dodaj je do zbioru U Tabela 3.1: Oryginalny algorytmu Co-Training przedstawiony w pracy [4]. 20
23 Rozdział 4 Analiza praktycznych zastosowań modelu Co-Training Model Co-Training charakteryzuje się silnymi założeniami dotyczącymi kompatybilności funkcji celu oraz warunkowej niezależności podzbiorów atrybutów. Jednak w praktyce znakomita większość danych rzeczywistych w istotny sposób narusza powyższe założenia. Dlatego z praktycznego punktu widzenia bardzo ważnym zagadnieniem jest wrażliwość modelu Co- Training na poprawność założeń. Równie istotnym problemem są wymagania, jakie musi spełniać sam podział atrybutów, przede wszystkim - czy musi być naturalny. Aby zbadać te oraz wiele innych zagadnień związanych z modelem Co-Training trzeba było przeprowadzić i zanalizować wiele eksperymentów praktycznych. Najważniejsze z tych eksperymentów pokrótce opiszę poniżej. Pierwsze testy modelu Co-Training zostały przeprowadzone i opisane w oryginalnej pracy Blum a i Mitchell a. Zastosowali oni algorytm Co-Training do problemu klasyfikacji stron internetowych. Ich baza danych składała się z danych na temat 1051 witryn internetowych umieszczonych na swoich serwerach przez 4 amerykańskie uczelnie. Każdej z tych stron zostały ręcznie przypisane etykiety dotyczące treści zawartych na danej stronie. W swoim eksperymencie autorzy wybrali jako funkcję celu kategorie strony kursowe - oznacza to, że każda strona kursowa w bazie danych jest przykładem pozytywnym, natomiast reszta stron to przykłady negatywne. W powyższej bazie danych 22% stron to strony kursowe. Każda ze stron należących do bazy danych jest opisana na dwa sposoby - jednym z nich jest lista wszystkich słów, które występują na danej stronie, natomiast drugim - lista słów użytych w hiperłączach prowadzących do danej strony z innych stron z bazy. Dla każdego z tych dwóch typów opisu został wytrenowany klasyfikator korzystający algorytmu Naive Bayes. Wykorzystano algorytm Naive Bayes ponieważ znany jest on z wysokiej skuteczności w przypadku klasyfikacji danych tekstowych (zob. [5]). Następnie autorzy użyli algorytmu Co-Training opisanego w sekcji 3.3 i porównali wyniki uzyskane przez niego z wynikami uzyskanymi za pomocą klasycznego klasyfikatora opartego na Naive Bayes. Procedura testowa dotycząca algorytmu Co-Training wyglądała następująco: wylosowano podzbiór testowy składający się z 25% (263) spośród 1051 stron z pozostałych danych został wylosowany 12-elementowy zbiór treningowy złożony z 3 przykładów pozytywnych oraz 9 negatywnych strony które nie zostały wylosowane stworzyły zbiór danych nieetykietowanych 21
24 parametry p = 1 oraz n = 3 zostały dobrane, aby dobrze oddawały dystrybucję pozytywnych i negatywnych przykładów w bazie liczba iteracji wewnętrznej pętli algorytmu Co-Training został ustalona na 30, a wielkość podzbioru danych nieetykietowanych na 75 tj. k = 30 oraz u = 75 Cała procedura testowa została powtórzona 5 razy, a wyniki uśrednione. Poziom błędu, jaki uzyskano na zbiorze testowym przy pomocy algorytmu Co-Training wyniósł: 6,2% dla klasyfikatora korzystającego ze słów występujących na stronach 11,6% dla klasyfikatora korzystającego ze słów występujących w hiperłączach 5,0% dla klasyfikatora łączonego Analogicznie dla standardowej metody Naive Bayes uzyskano następujące wyniki: 12,9% dla klasyfikatora korzystającego ze słów występujących na stronach 12,4% dla klasyfikatora korzystającego ze słów występujących w hiperłączach 11,1% dla klasyfikatora łączonego Powyższe wyniki wskazują, że za pomocą Co-Training można podnieść w znaczący sposób jakość klasyfikacji. Obszerniejsze omówienie wyników eksperymentów wraz z wykresami można znaleźć w pracy [4]. Powyższy eksperyment nie wyczerpał jednak tematu, gdyż zanalizowana została tylko jedna baza danych oraz jedna funkcja celu i nie można było wyciągać z tego dalekosiężnych wniosków dotyczących ogólnego zachowania się modelu Co-Training. Z tego powodu powstał szereg prac skupiających się na analizowaniu zachowania modelu Co-Traning. Jedną z ciekawszych prac analizujących zachowanie modelu Co-Traning jest praca Analizing the Effectiveness and Aplicability of Co-Training napisana przez Kamala Nigam a oraz Rayida Ghani. Jak sama nazwa wskazuje autorzy skupili się na analizie efektywności oraz możliwości zastosowania modelu Co-Training. Interesowały ich przede wszystkim odpowiedzi na pytanie dlaczego model ten jest tak skuteczny oraz jaki musi być podział argumentów, aby można było żywić nadzieje na poprawę jakości klasyfikacji. Aby tego dokonać, przeprowadzili oni szereg eksperymentów zarówno na danych rzeczywistych jak i na specjalnie spreparowanych. Pozwoliło im to uzyskać bardzo interesujące wyniki. Okazało się, że model Co-Training jest bardziej odporny na niespełnienie założeń dotyczących rozkładu obiektów niż inne modele korzystające z danych nieetykietowanych, takie jak Expectation Maximization. Dzieje się tak, ponieważ dwa różne punkty widzenia pozwalają zrekompensować źle założony rozkład elementów, oczywiście o ile mamy wystarczająco dużo danych. Z drugiej strony okazało się, że Co-Training jest dosyć wrażliwy na niespełnienie założeń kompatybilności funkcji celu oraz warunkowej niezależności podzbiorów atrybutów. Dotyczy to w szczególności drugiego z tych założeń. Okazało się, że w przypadku istnienia naturalnego podziału atrybutów za pomocą modelu Co-Training praktycznie zawsze można uzyskać poprawę wyników, lecz gdy takiego podziału nie ma, wprowadzenie sztucznego podziału może zarówno polepszyć jak i pogorszyć wyniki. Niestety zbadanie, czy dany podział pozwoli polepszyć jakość klasyfikacji jest dosyć trudne i wymaga dalszych badań. Więcej szczegółów dotyczących eksperymentów, a w szczególności informacje na temat użytych zbiorów oraz uzyskane wyniki liczbowe, można znaleźć w oryginalnej pracy [6]. 22
25 Inną ciekawą pracą jest artykuł [9], w którym autorzy również zajęli się poprawnością założeń. Jednak, zamiast analizować, w jakim stopniu niespełnienie założeń wpływa na wyniki, wprowadzili oni modyfikacje modelu Co-Training polegającą na osłabieniu założeń dotyczących rozkładu elementów i jednocześnie wzmocnieniu założeń dotyczących algorytmów stosowanych do wyuczenia klasyfikatora. Dane często naruszają założenia standardowego modelu Co-Training, a jednocześnie istnieje wiele algorytmów o udowodnionych dobrych własnościach. Z tego powodu nowszy model może okazać się bardziej przydatny, gdyż łatwiej spełnić jego wymagania. 23
26
27 Rozdział 5 Co-Training dla przypadku klasyfikacji wieloklasowej Jak dotąd rozpatrywałem w swojej pracy wyłącznie zagadnienie klasyfikacji binarnej, jednak w rzeczywistych zastosowaniach równie często pojawiają się problemy wieloklasowe. Jednym z przykładów takiego problemu jest problem klasyfikacji tematycznej tekstów na wiele kategorii. Pojawia się ważne pytanie - jak w przypadku takich problemów sprawuje się model Co-Training? Okazuje się, że bezpośrednie podejście polegające po prostu na użyciu modelu, który posiadamy, jest wielce nieefektywne. Wyniki, które dostaniemy będą słabsze niż te uzyskane za pomocą dużo prostszych metod, takich jak Naive Bayes. Nie oznacza to jednak, że model Co-Training nie nadaje się do klasyfikacji wielowymiarowej. W pracy [7] Rayid Ghandi skonstruował model pozwalający wykorzystać Co-Training do klasyfikacji wielowymiarowej. Model ten powstał poprzez połączenie algorytmu Co-Training z metodą kodów korekcyjnych (z angielskiego Error-Correcting Output Codes). Istotą tego modelu jest rozbicie problemu klasyfikacji z m klasami na k problemów binarnych. Następnie każdej z klas jest przypisywany unikalny kod binarny długości k. Dzięki temu powstaje macierz rozmiaru m k w której każdy wiersz reprezentuje jedną klasę a każda kolumna odpowiada za jeden klasyfikator. Przykładowo jeśli mam problem z 3 klasami to możemy go rozbić na 5 problemów binarnych. Jedna z tabel, które możemy uzyskać, wygląda następująco: klasa kod c c c Tak jak zostało to wyżej wspomniane, każdy wiersz odpowiada kodowi klasy decyzyjnej, zatem dla przykładu klasie c 2 odpowiada kod Analogicznie wiemy, że każda kolumna odpowiada za jeden klasyfikator - przykładowo kolumna pierwsza odpowiada za klasyfikator binarny, który obiekty z klas c 1 oraz c 2 traktuje jako przykłady negatywne, a obiekty z klasy c 3 jako pozytywne. Tak powstałe klasyfikatory binarne umieszczamy parami w standardowym modelu Co-Training. Warto zauważyć, że klasyfikator odpowiadający ostatniej kolumnie jest trywialny, a co za tym idzie nieprzydatny. Otrzymując nowy przykład wyliczamy dla niego jego kod binarny, a następnie przypisujemy mu etykietę klasy decyzyjnej, której kod jest najbardziej zbliżony. Długość kodu korekcyjnego, jaką ustalimy, ma duże znaczenie praktyczne. Generalnie, im dłuższy kod tym 25
28 lepsze wyniki, ale jednocześnie większy koszt obliczeniowy. Dla problemu z m klasami kod nie powinien mieć więcej niż 2 m 1 1 znaków, ale w praktyce tak długie kody można dobierać tylko jeśli m 7. W przypadku, gdy m jest większe od 7 do ustalania długości kodu trzeba użyć bardziej zaawansowanych metod. Więcej informacji na ten temat można znaleźć w pracy [7]. 26
29 Podsumowanie W pracy zaprezentowany i zanalizowany został model Co-Training jeden z ważniejszych modeli używanych w uczeniu maszynowym. Pierwsza część pracy dotyczyła wprowadzenia do teorii uczenia maszynowego oraz teorii algorytmów prawdopodobnie aproksymacyjnie poprawnych. Przestawione i udowodnione zostały najważniejsze twierdzenia obu teorii przydatne do dalszej analizy modelu Co-Training. Następnie przedstawione zostały teoretyczne podstawy modelu Co-Training oraz udowodniona została potencjalna wyuczalność w tak zdefiniowanym modelu. W kolejnych rozdziałach zebrane i zanalizowane zostały wyniki uzyskane przez naukowców na drodze eksperymentów praktycznych z danymi (zarówno rzeczywistymi jak i sztucznymi). Pod koniec pracy rozpatrzony został model kodów korekcyjnych wykorzystujący Co-Training do klasyfikacji wieloklasowej. Mimo, iż podstawa modelu Co-Training, czyli dwudzielność zbioru atrybutów na dwa nie do końca zależne podzbiory, nie jest bardzo zaawansowaną konstrukcją, okazuje się, że wiążą się z nią bardzo ciekawe wnioski zarówno natury teoretycznej jak i praktycznej. Model Co- Training stworzył dobrą podstawę teoretyczną, która została wykorzystana przy tworzeniu wielu nowych modeli korzystających z danych nieetykietowanych ([7], [13]). Od strony praktycznej okazało się, że Co-Training bardzo dobrze spisuje się w szeregu zastosowań, szczególnie tych związanych z analizą danych tekstowych([14]). 27
30
31 Bibliografia [1] Leslie Valiant, A theory of the learnable, Communications of the ACM, [2] Dana Angluin, Philip Laird, Learning from noisy examples, Machine Learning, 2: , [3] Michael Kearns, Efficient noise-tolerant learning from statistical queries, Proceedings of the Twenty-Sixth Annual ACM Symposium on the theory of Computing, , [4] Avrim Blum, Tom Mitchell, Combining labeled and unlabeled data with Co-Training, COLT: Proceedings of the Workshop on Computational Learning Theory, Morgan Kaufmann, [5] Harry Zhang, The Optimality of Naive Bayes, FLAIRS2004 conference, [6] Kamal Nigam, Rayid Ghani, Analyzing the Effectiveness and Applicability of Co-training, Proceedings of the ninth international Conference on Information and Knowledge Management (NY, USA: ACM): 86 93, [7] Rayid Ghani, Using Error-Correcting Codes with Co-Training for text classification with a large number of categories, Workshop on Text Mining at the First IEEE Conference on Data Mining, [8] Vladimir Vapnik, Alexey Chervonenkis, On the uniform convergence of relative frequencies of events to their probabilities, Theory of Probability and its Applications, 16(2): , [9] Maria-Florina Balcan, Avrim Blum, Ke Yang, Co-training and expansion: Towards bringing theory and practice, Advances in neural information processing systems 17, MIT Press, [10] Tommi Jaakkola, David Haussler, Exploiting Generative Models in Discriminative Classifiers, Advances in Neural Information Processing Systems 11, MIT Press, [11] Kamal Nigam, Andrew Kachites Mccallum, Sebastian Thrun, Tom Mitchell, Text Classification from Labeled and Unlabeled Documents using EM, Machine Learning, [12] Thorsten Joachims, Transductive Inference for Text Classification using Support Vector Machines, International conference on Machine Learning (ICML), , [14] Francois Denis, Anne Laurent, Rémi Gilleron, Marc Tommasi, Text Classification and Co-training from Positive and Unlabeled Examples, Proceedings of the ICML 2003 Workshop: The Continuum from Labeled to Unlabeled Data, 80-87,
32 [13] Ion Muslea, Steven Minton, Craig A. Knoblock, Active + Semi-supervised Learning = Robust Multi-View Learning, Proceedings of the Nineteenth International Conference on Machine Learning, ,
komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW
Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,
Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa
Systemy uczace się 2009 1 / 32 Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa Hung Son Nguyen Wydział Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski email: son@mimuw.edu.pl Grudzień
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
Metody probabilistyczne klasyfikatory bayesowskie
Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Sposoby prezentacji problemów w statystyce
S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki
Testowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Wyszukiwanie binarne
Wyszukiwanie binarne Wyszukiwanie binarne to technika pozwalająca na przeszukanie jakiegoś posortowanego zbioru danych w czasie logarytmicznie zależnym od jego wielkości (co to dokładnie znaczy dowiecie
TEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Wykład 14c 2 Definicje indukcyjne Twierdzenia dowodzone przez indukcje Definicje indukcyjne Definicja drzewa
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Spacery losowe generowanie realizacji procesu losowego
Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15
VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady
LOGIKA I TEORIA ZBIORÓW
LOGIKA I TEORIA ZBIORÓW Logika Logika jest nauką zajmującą się zdaniami Z punktu widzenia logiki istotne jest, czy dane zdanie jest prawdziwe, czy nie Nie jest natomiast istotne o czym to zdanie mówi Definicja
SZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA WYKŁAD 4. UCZENIE SIĘ INDUKCYJNE Częstochowa 24 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska WSTĘP Wiedza pozyskana przez ucznia ma charakter odwzorowania
0 + 0 = 0, = 1, = 1, = 0.
5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,
Algorytmy Równoległe i Rozproszone Część X - Algorytmy samostabilizujące.
Algorytmy Równoległe i Rozproszone Część X - Algorytmy samostabilizujące. Łukasz Kuszner pokój 209, WETI http://www.sphere.pl/ kuszner/ kuszner@sphere.pl Oficjalna strona wykładu http://www.sphere.pl/
Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle
Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Kody blokowe Wykład 2, 10 III 2011
Kody blokowe Wykład 2, 10 III 2011 Literatura 1. R.M. Roth, Introduction to Coding Theory, 2006 2. W.C. Huffman, V. Pless, Fundamentals of Error-Correcting Codes, 2003 3. D.R. Hankerson et al., Coding
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt
Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład Kody liniowe - kodowanie w oparciu o macierz parzystości
Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład 13 1 Kody liniowe - kodowanie w oparciu o macierz parzystości Przykład Różne macierze parzystości dla kodu powtórzeniowego. Co wiemy z algebry
Priorytetyzacja przypadków testowych za pomocą macierzy
Priorytetyzacja przypadków testowych za pomocą macierzy W niniejszym artykule przedstawiony został problem przyporządkowania priorytetów do przypadków testowych przed rozpoczęciem testów oprogramowania.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-11 1 Modelowanie funkcji logicznych
Rozwiązania, seria 5.
Rozwiązania, seria 5. 26 listopada 2012 Zadanie 1. Zbadaj, dla jakich wartości parametru r R wektor (r, r, 1) lin{(2, r, r), (1, 2, 2)} R 3? Rozwiązanie. Załóżmy, że (r, r, 1) lin{(2, r, r), (1, 2, 2)}.
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. zajecia.jakubw.pl/nai Literatura: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 997. PODSTAWOWE ZAGADNIENIA TECHNICZNE AI
Wnioskowanie bayesowskie
Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,
PRZEDMIOTOWY SYSTEM OCENIANIA - MATEMATYKA
PRZEDMIOTOWY SYSTEM OCENIANIA - MATEMATYKA Nadrzędnym celem oceniania jest pozyskiwanie przez nauczyciela i ucznia w trakcie nauczania informacji, które pozwolą rozpoznać, jak przebiega proces uczenia
Układy równań i nierówności liniowych
Układy równań i nierówności liniowych Wiesław Krakowiak 1 grudnia 2010 1 Układy równań liniowych DEFINICJA 11 Układem równań m liniowych o n niewiadomych X 1,, X n, nazywamy układ postaci: a 11 X 1 + +
Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =
Matematyka ubezpieczeń majątkowych 0.0.006 r. Zadanie. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k 5 Pr( N = k) =, k = 0,,,... 6 6 Wartości kolejnych szkód Y, Y,, są i.i.d.,
Zajęcia nr. 3 notatki
Zajęcia nr. 3 notatki 22 kwietnia 2005 1 Funkcje liczbowe wprowadzenie Istnieje nieskończenie wiele funkcji w matematyce. W dodaktu nie wszystkie są liczbowe. Rozpatruje się funkcje które pobierają argumenty
Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.
Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy
WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska
Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,
1 Kwantyzacja skalarna Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 10.05.005 Kwantyzacja polega na reprezentowaniu dużego zbioru wartości (być może nieskończonego) za pomocą wartości
Statystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
Zadania do Rozdziału X
Zadania do Rozdziału X 1. 2. Znajdź wszystkie σ-ciała podzbiorów X, gdy X = (i) {1, 2}, (ii){1, 2, 3}. (b) Znajdź wszystkie elementy σ-ciała generowanego przez {{1, 2}, {2, 3}} dla X = {1, 2, 3, 4}. Wykaż,
TEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie
domykanie relacji, relacja równoważności, rozkłady zbiorów
1 of 8 2012-03-28 17:45 Logika i teoria mnogości/wykład 5: Para uporządkowana iloczyn kartezjański relacje domykanie relacji relacja równoważności rozkłady zbiorów From Studia Informatyczne < Logika i
Ćwiczenia z metodyki nauczania rachunku prawdopodobieństwa
Ćwiczenia z metodyki nauczania rachunku prawdopodobieństwa 25 marca 209 Zadanie. W urnie jest b kul białych i c kul czarnych. Losujemy n kul bez zwracania. Jakie jest prawdopodobieństwo, że pierwsza kula
Programowanie liniowe
Programowanie liniowe Maciej Drwal maciej.drwal@pwr.wroc.pl 1 Problem programowania liniowego min x c T x (1) Ax b, (2) x 0. (3) gdzie A R m n, c R n, b R m. Oznaczmy przez x rozwiązanie optymalne, tzn.
Dwa równania kwadratowe z częścią całkowitą
Dwa równania kwadratowe z częścią całkowitą Andrzej Nowicki Wydział Matematyki i Informatyki Uniwersytet M. Kopernika w Toruniu anow @ mat.uni.torun.pl 4 sierpnia 00 Jeśli r jest liczbą rzeczywistą, to
CLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:
ROZWIĄZANIA I ODPOWIEDZI Zadanie A1. Można założyć, że przy losowaniu trzech kul jednocześnie kolejność ich wylosowania nie jest istotna. A więc: Ω = 20 3. a) Niech: - wśród trzech wylosowanych opakowań
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy
MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze
Klasyfikacja metodą Bayesa
Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo
ALGEBRA Z GEOMETRIĄ BAZY PRZESTRZENI WEKTOROWYCH
ALGEBRA Z GEOMETRIĄ 1/10 BAZY PRZESTRZENI WEKTOROWYCH Piotr M. Hajac Uniwersytet Warszawski Wykład 11, 18.12.2013 Typeset by Jakub Szczepanik. Istnienie bazy Tak jak wśród wszystkich pierścieni wyróżniamy
Zastosowanie Excela w matematyce
Zastosowanie Excela w matematyce Komputer w dzisiejszych czasach zajmuje bardzo znamienne miejsce. Trudno sobie wyobrazić jakąkolwiek firmę czy instytucję działającą bez tego urządzenia. W szkołach pierwsze
Inteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Autostopem przez galaiktykę: Intuicyjne omówienie zagadnień. Tom I: Optymalizacja. Nie panikuj!
Autostopem przez galaiktykę: Intuicyjne omówienie zagadnień Tom I: Optymalizacja Nie panikuj! Autorzy: Iwo Błądek Konrad Miazga Oświadczamy, że w trakcie produkcji tego tutoriala nie zginęły żadne zwierzęta,
Korzystając z własności metryki łatwo wykazać, że dla dowolnych x, y, z X zachodzi
M. Beśka, Wstęp do teorii miary, Dodatek 158 10 Dodatek 10.1 Przestrzenie metryczne Niech X będzie niepustym zbiorem. Funkcję d : X X [0, ) spełniającą dla x, y, z X warunki (i) d(x, y) = 0 x = y, (ii)
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2012-10-10 Projekt pn. Wzmocnienie
RACHUNEK PRAWDOPODOBIEŃSTWA - POJĘCIA WSTĘPNE MATERIAŁY POMOCNICZE - TEORIA
Wydział: WiLiŚ, Transport, sem.2 dr Jolanta Dymkowska RACHUNEK PRAWDOPODOBIEŃSTWA - POJĘCIA WSTĘPNE MATERIAŁY POMOCNICZE - TEORIA Przestrzeń probabilistyczna Modelem matematycznym (tj. teoretycznym, wyidealizowanym,
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Uzupełnienia dotyczące zbiorów uporządkowanych (3 lutego 2011).
Uzupełnienia dotyczące zbiorów uporządkowanych (3 lutego 2011). Poprzedniczka tej notatki zawierała błędy! Ta pewnie zresztą też ; ). Ćwiczenie 3 zostało zmienione, bo żądałem, byście dowodzili czegoś,
Wprowadzenie do uczenia maszynowego
Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania
Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott
Struktury danych i złożoność obliczeniowa Wykład 7 Prof. dr hab. inż. Jan Magott Problemy NP-zupełne Transformacją wielomianową problemu π 2 do problemu π 1 (π 2 π 1 ) jest funkcja f: D π2 D π1 spełniająca
Prawa wielkich liczb, centralne twierdzenia graniczne
, centralne twierdzenia graniczne Katedra matematyki i ekonomii matematycznej 17 maja 2012, centralne twierdzenia graniczne Rodzaje zbieżności ciągów zmiennych losowych, centralne twierdzenia graniczne
Rachunek prawdopodobieństwa- wykład 2
Rachunek prawdopodobieństwa- wykład 2 Pojęcie dyskretnej przestrzeni probabilistycznej i określenie prawdopodobieństwa w tej przestrzeni dr Marcin Ziółkowski Instytut Matematyki i Informatyki Uniwersytet
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
zbiorów domkniętych i tak otrzymane zbiory domknięte ustawiamy w ciąg. Oznaczamy
5. Funkcje 1 klasy Baire a. Pod koniec XIX i początkiem XX wieku kilku matematyków zajmowało się problemami dotyczącymi klasyfikacji funkcji borelowskich: między innymi R. Baire, E. Borel, H. Lebesgue
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
JAKIEGO RODZAJU NAUKĄ JEST
JAKIEGO RODZAJU NAUKĄ JEST INFORMATYKA? Computer Science czy Informatyka? Computer Science czy Informatyka? RACZEJ COMPUTER SCIENCE bo: dziedzina ta zaistniała na dobre wraz z wynalezieniem komputerów
6.4 Podstawowe metody statystyczne
156 Wstęp do statystyki matematycznej 6.4 Podstawowe metody statystyczne Spóbujemy teraz w dopuszczalnym uproszczeniu przedstawić istotę analizy statystycznej. W szczególności udzielimy odpowiedzi na postawione
Metody numeryczne w przykładach
Metody numeryczne w przykładach Bartosz Ziemkiewicz Wydział Matematyki i Informatyki UMK, Toruń Regionalne Koło Matematyczne 8 kwietnia 2010 r. Bartosz Ziemkiewicz (WMiI UMK) Metody numeryczne w przykładach
Matematyka ubezpieczeń majątkowych r.
Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka
Systemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
POISSONOWSKA APROKSYMACJA W SYSTEMACH NIEZAWODNOŚCIOWYCH
POISSONOWSKA APROKSYMACJA W SYSTEMACH NIEZAWODNOŚCIOWYCH Barbara Popowska bpopowsk@math.put.poznan.pl Politechnika Poznańska http://www.put.poznan.pl/ PROGRAM REFERATU 1. WPROWADZENIE 2. GRAF JAKO MODEL
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl
VII. Elementy teorii stabilności. Funkcja Lapunowa. 1. Stabilność w sensie Lapunowa.
VII. Elementy teorii stabilności. Funkcja Lapunowa. 1. Stabilność w sensie Lapunowa. W rozdziale tym zajmiemy się dokładniej badaniem stabilności rozwiązań równania różniczkowego. Pojęcie stabilności w
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Paradygmaty dowodzenia
Paradygmaty dowodzenia Sprawdzenie, czy dana formuła rachunku zdań jest tautologią polega zwykle na obliczeniu jej wartości dla 2 n różnych wartościowań, gdzie n jest liczbą zmiennych zdaniowych tej formuły.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Algorytm Grovera. Kwantowe przeszukiwanie zbiorów. Robert Nowotniak
Wydział Fizyki Technicznej, Informatyki i Matematyki Stosowanej Politechnika Łódzka 13 listopada 2007 Plan wystapienia 1 Informatyka Kwantowa podstawy 2 Opis problemu (przeszukiwanie zbioru) 3 Intuicyjna
Metody Sztucznej Inteligencji II
17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału
Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2
Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Rachunek prawdopodobieństwa
Rachunek prawdopodobieństwa Sebastian Rymarczyk srymarczyk@afm.edu.pl Tematyka zajęć 1. Elementy kombinatoryki. 2. Definicje prawdopodobieństwa. 3. Własności prawdopodobieństwa. 4. Zmienne losowe, parametry
Testowanie hipotez statystycznych. Wprowadzenie
Wrocław University of Technology Testowanie hipotez statystycznych. Wprowadzenie Jakub Tomczak Politechnika Wrocławska jakub.tomczak@pwr.edu.pl 10.04.2014 Pojęcia wstępne Populacja (statystyczna) zbiór,
Wykład z równań różnicowych
Wykład z równań różnicowych 1 Wiadomości wstępne Umówmy się, że na czas tego wykładu zrezygnujemy z oznaczania n-tego wyrazu ciągu symbolem typu x n, y n itp. Zamiast tego pisać będziemy x (n), y (n) itp.
1. Synteza automatów Moore a i Mealy realizujących zadane przekształcenie 2. Transformacja automatu Moore a w automat Mealy i odwrotnie
Opracował: dr hab. inż. Jan Magott KATEDRA INFORMATYKI TECHNICZNEJ Ćwiczenia laboratoryjne z Logiki Układów Cyfrowych ćwiczenie 207 Temat: Automaty Moore'a i Mealy 1. Cel ćwiczenia Celem ćwiczenia jest
Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki
Dariusz Banasiak Katedra Informatyki Technicznej Wydział Elektroniki Machine Learning (uczenie maszynowe, uczenie się maszyn, systemy uczące się) interdyscyplinarna nauka, której celem jest stworzenie
Testowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 6 Model matematyczny elementu naprawialnego Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia:
Statystyka i eksploracja danych
Wykład II: i charakterystyki ich rozkładów 24 lutego 2014 Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa,
Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott
Struktury danych i złożoność obliczeniowa Wykład 5 Prof. dr hab. inż. Jan Magott DMT rozwiązuje problem decyzyjny π przy kodowaniu e w co najwyżej wielomianowym czasie, jeśli dla wszystkich łańcuchów wejściowych
KRZYSZTOF WÓJTOWICZ Instytut Filozofii Uniwersytetu Warszawskiego
KRZYSZTOF WÓJTOWICZ Instytut Filozofii Uniwersytetu Warszawskiego wojtow@uw.edu.pl 1 2 1. SFORMUŁOWANIE PROBLEMU Czy są empiryczne aspekty dowodów matematycznych? Jeśli tak to jakie stanowisko filozoficzne
Matematyka dyskretna. Andrzej Łachwa, UJ, /15
Matematyka dyskretna Andrzej Łachwa, UJ, 2015 andrzej.lachwa@uj.edu.pl 3/15 Indukcja matematyczna Poprawność indukcji matematycznej wynika z dobrego uporządkowania liczb naturalnych, czyli z następującej
Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)