EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM VII KLASYFIKACJA I PREDYKCJA PLUS MAHOUT

Wielkość: px
Rozpocząć pokaz od strony:

Download "EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM VII KLASYFIKACJA I PREDYKCJA PLUS MAHOUT"

Transkrypt

1 EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM VII KLASYFIKACJA I PREDYKCJA PLUS MAHOUT. Plan laboratorium VII Klasyfikacja znalezienie odwzorowania dokumentów w zbiór predefiniowanych klas; Budowa modelu opisującego predefiniowany zbiór klas; Zastosowanie opracowanego modelu do klasyfikacji nowych danych... Klasyfikacja Rocchio.2. Algorytm najbliższych sąsiadów (k-nn);.3. Naiwny klasyfikator Bayesa..4. Predykcja - User-Based i Item-Based Collaborative Filtering, Slope-One.5. Mahout Zastosowania: Strony internetowe (rekomendacja, strony-spam, SafeSearch, klasyfikacja Yahoo-like) Wiadomości w ramach Newsgroup (rekomendacja, filtrowanie spamu) Artykuły (personalizowane gazety) (routing, prioritizing, folderizing, filtrowanie spamu, sortowanie wiadomości) 2. Klasyfikacja Rocchio Wykorzystanie reprezentacji wektorowej Jak obliczyć granice między klasami? Klasyfikacja Rocchio wykorzystuje centroid każdej klasy: µ C = D C d D C v( d) Granica między parą klas jest zdefiniowana jako zbiór punktów w równej odległości od centroidów tych klas (dla dwóch wymiarów linia, dla większej hiperpłaszczyzna) Nowy obiekt jest przypisywany do klasy, w której region wpada (do klasy najbardziej podobnego centroidu): - -

2 Gdzie trafi gwiazdka? Gdzie trafi kwadrat? (algorytm ignoruje rozkład punktów w ramach klas) 3. Algorytm najbliższego sąsiada Charakterystyka: Klasyfikacja nowych dokumentów jest dokonywana na bieżąco (gdy pojawia się potrzeba klasyfikacji nowego przypadku); Uczenie z przykładów (instance-based learning); Uczenie leniwe (lazy learning) tworzenie modelu nie wymaga dodatkowych obliczeń; W algorytmie -NN klasa nowego dokumentu wynika z etykiety klasy najbliższego do niego dokumentu ze zbioru uczącego; Metoda czuła na punkty osobliwe i szum w danych treningowych; Rozwiązanie: zastosowanie strategii k-najbliższych sąsiadów (k-nn); Nowy przypadek klasyfikujemy jako należący do klasy, która dominuje w zbiorze k-najbliższych sąsiadów; Zwykle k=3 lub k=5; Ważony algorytm k-nn ważenie głosów za pomocą podobieństwa (lub odległości) dokumentów ze zbioru uczącego do dokumentu, który jest klasyfikowany (najprostsze rozwiązanie to użycie funkcji podobieństwa sim(x,y)); - 2 -

3 4. Naiwny algorytm Bayesa Klasyfikator statystyczny (oparty na twierdzeniu Bayesa); Jaka jest najbardziej prawdopodobna klasyfikacja nowego obiektu (dokumentu) przy danych uczących, którymi dysponujemy? Niech D={t, t 2,, t n } będzie reprezentacją binarną dokumentu w postaci n-wymiarowego wektora; P(C/D) prawdopodobieństwa a-posteriori, że dokument D należy do klasy C; Dokument D klasyfikujemy jako pochodzący z tej klasy C i, dla której wartość P(C i /D), i=,2,,m jest największa; Szacowanie prawdopodobieństwa P(Ci/D) P(C/D) = (P(D/C) P(C))/P(D); P(C) prawdopodobieństwo a priori wystąpienia klasy C (tj. prawdopodobieństwo, że dowolny przykład należy do klasy C) estymujemy jako stosunek liczby przykładów w zbiorze treningowym, które należą do klasy C do liczby wszystkich przykładów w zbiorze treningowym; P(D/C) prawdopodobieństwo a posteriori, że D należy do klasy C; P(D) prawdopodobieństwo a priori wystąpienia dokumenty D - mianownik dla wszystkich klas jest taki sam; Jak obliczyć P(D/C)? Przyjmujemy założenie o niezależności atrybutów Prowadzi to do następującej formuły: P ( D / Ci ) = P( t j / Ci ) Jeśli reprezentacja dokumentów jest binarna, to standardowe podejście (zadanie 2). n j= Jeśli chcemy uwzględnić liczność słów w dokumntach, to wykorzystujemy podejście zaproponowane stricte dla klasyfikacji dokumentów, przy czym, aby wyeliminować sytuację, w której P( t / C ) 0, stosuje się add-one bądź Laplace smoothing (dodanie do każdego j i = wystąpienia): Tct + T + P( t j / Ci ) =, ( T + V t' V ct = ct' + ) ( T t' V ct' ) gdzie T ct to liczba wystąpień t w zbiorze treningowym dokumentów należących do klasy C (włączając w to wielokrotne wystąpienia termu w ramach pojedynczego dokumentu); V jest liczbą termów w słowniku, np

4 Doc ID Content c=china? Training set Chinese Beijing Chinese Yes Training set 2 Chinese Chinese Shanghai Yes Training set 3 Chinese Macao Yes Training set 4 Tokyo Japan Chinese No Test set 5 Chinese Chinese Chinese Tokyo Japan? P(c) = 3/4 P(Chinese/c) = (5+)/(8+6) = 3/7 P(Tokyo/c)=P(Japan/c) = (0+)/(8+6) = /4 P(c/d5) 3/4 (3/7) 3 /4 / P(~c) = /4 P(Chinese/~c) = (+)/(3+6) = 2/9 P(Tokyo/~c)=P(Japan/~c) = (+)/(3+6) = 2/9 P(~c/d5) /4 (2/9) 3 2/9 2/ Decyzja c = China. 5. Collaborative Filtering - Social Learning Przykład: System oceniania filmów; skala beznadzieja, 7 super Historyczna baza danych uwzględnia oceny filmów dokonane przez Sally, Boba, Chris oraz Lynn Karen jest nowym użytkownikiem, który ocenił trzy filmu, ale nie widział jeszcze Dnia niepodległości. Czy powinniśmy jej go zarekomendować? Sally Bob Chris Lynn Karen Star Wars Jurassic Park Terminator II Independence Day ? Wypracuj rekomendację dla użytkownika na podstawie ocen innych użytkowników lub innych obiektów Zwykle rozważane są obiekty podobnej natury (albo strony internetowe albo kawałki muzyczne albo filmy, itd.) Zwykle zakłada się dostępność ocen obiektów na określonej skali (choć są próby uzyskania ocen nie wprost, np. na podstawie zachowań użytkowników; problemem jest fakt, że są to dane binarne) User-Based Collaborative Filtering Oblicz podobieństwo między użytkownikami, bazując na ich ocenach różnych obiektów Zastosuj algorytm k-nn Oblicz przewidywaną ocenę danego użytkownika - 4 -

5 Pearson Correlation Korelacja między użytkownikiem U oraz J r UJ = ( U U ) ( J J ) 2 ( U U ) ( J J ) gdzie U oraz J to średnie oceny użytkowników U oraz J dla wszystkich obiektów. ( oznacza ogromne podobieństwo, 0 brak korelacji, - przeciwstawne preferencje) Sprawdza się to dobrze dla ocen użytkowników na skali co najmniej -5 nie zawsze możliwe; w niektórych sytuacjach mamy dostępną tylko wartość binarną (np. użytkownik wybrał plik/dokument lub nie) Funkcja CORREL (WSP.KORELACJI) w MS Excel 2 Sposób obliczenia przewidywanej oceny W prostym podejściu przewidywana oceny jest średnią z ocen k najbliższych sąsiadów. W praktyce wykorzystuje się albo średnią ważoną przez miary podobieństwa: r( a, i) = k u= k r u, i i= sim( a, u) sim( a, u) albo średnią ważoną odchyleń od średnich ocen k najbliższych sąsiadów: r( a, i) = r a + k u= ( r u, i k i= r u ) sim( a, u) sim( a, u) Item-Based Collaborative Filtering Znajdź podobieństwo między obiektami, bazując na ocenach różnych użytkowników Predykcja nieznanej oceny użytkownika a dla obiektu I jest wypracowywana na podstawie przeszłych ocen użytkownika a dla obiektów podobnych do I Zalety: Ignoruje zawartość, bierze pod uwagę tylko to, kto ocenia obiekty w podobny sposób Jeśli mój kolega lubił tę książkę, to ja też ja będę lubił Jeśli podobały Ci się Gwiezdne Wojny, to spodoba Ci się też Dzień Niepodległości Sprawdza się dobrze dla danych odnoszących się do gustów Wady: Oceny dodane do bazy jako pierwsze mają większy wpływ na propozycje dla innych użytkowników Jeśli jest mało użytkowników, to wyniki mogą być niezadowalające Problem skalowania dla dużej liczby użytkowników, obliczenia dla k-nn zabierają sporo czasu Wykorzystanie dynamiczne, więc ciężko wybrać tylko część danych jako zbiór uczący Podatny na ataki shilling, push attack, nuke, system-wide attacks - 5 -

6 5. Ćwiczenia I. Dany jest przydział do klas (A lub B) dla 0 dokumentów (D-D0) ze zbioru uczącego oraz miary podobieństwa 8 z nich (D-D8) z dokumentem X o nieznanym przydziale. Podobieństwo pozostałych 2 dokumentów (D9-D0) z dokumentem X oblicz, korzystając ze współczynnika Jaccarda (dane są liczba wspólnych termów dokumentów D9 oraz D0 z X oraz liczby termów ogółem w tych dokumentach). Do jakiej klasy trafi dokument X, jeśli klasyfikatorem jest algorytm 3-najbliższych sąsiadów w wersji głosowania prostego lub ważonego? Uzasadnij przydział D D2 D3 D4 D5 D6 D7 D8 D9 D0 X Klasa B A B B A B A A A B? Podobieństwo z X ?? - X D9 D0 Liczba termów ogółem Liczba termów wspólnych z X Decyzja dla 3-NN (algorytm prosty): Rozwiązanie: podobieństwo X z D9 = podobieństwo X z D0 = Dokumenty na podstawie, których podejmujesz decyzję: Decyzja dla 3-NN (algorytm ważony): II. Dana jest reprezentacja binarna 0 dokumentów (D-D0), przy czym za istotne uważane są 3 termy (T-T3). Do jakiej klasy (A lub B) trafi dokument Y, jeśli klasyfikatorem jest naiwny klasyfikator bayerowski? Pokaż wszystkie prawdopodobieństwa cząstkowe, które trzeba obliczyć, by podjąć ostateczną decyzję. Jeśli prawdopodobieństwo cząstkowe będzie równe 0, zamiast 0 przyjmij wartość 0.0. Uzasadnij decyzję o przydziale do klasy. T T2 T3 C D B D2 0 0 B D3 0 0 B D4 0 0 B D A D6 0 A D7 0 A D8 0 0 A D9 0 A D0 0 0 A Y 0? Rozwiązanie: Dla klasy A: Dla klasy B: P(A) = P(B) = P( T = / A ) = P( T = / B ) = P( T2 = / A ) = P( T2 = / B ) = P( T3 = / A ) = P( T3 = / B ) = P(C=A/Y) Odpowiedź: Dokument Y zostanie przydzielony do klasy P(C=B/Y), ponieważ III. Historyczna baza danych uwzględnia oceny filmów dokonane przez Sally, Boba, Chris oraz Lynn. Karen jest nowym użytkownikiem, który ocenił trzy filmz, ale nie widział jeszcze Dnia niepodległości. Czy powinniśmy jej go zarekomendować? Pearson(Sally, Karen) = Star Wars Jur. Park Termin. II Ind. Day Średnia Kosinusowa Pearson Sally Bob Chris Lynn Karen 7 4 3?.0.0 K= - Predykcja = K=2 - Predykcja = K=3 - Predykcja = Załóżmy, że sim(sw,id) > sim(jp,id) > sim (TII, ID). Określ predykcję oceny Karen dla ID, gdy przyjmiemy k=

7 6. Omówienie zadań do samodzielnego wykonania Należy rozwiązać 2 z 3 pierwszych zadań oraz zadanie 4 i 5 (programistyczne - łatwe) w sumie do zdobycia =0 punktów I. [2] Do odfiltrowania spamu w skrzynce milowej wykorzystywany jest klasyfikator Naive Bayes. Jako dane uczące wybrano 0 dokumentów i określono dla nich, czy rzeczywiście są spamem. Do reprezentacji dokumentów za pomocą 5 termów wykorzystano macierz binarną. Używając klasyfikatora Naive Bayes określ, jak zostaną zaklasyfikowane wiadomości E (zawiera termy t, t2 i t4) oraz F (zawiera termy t 3 i t 5 ). Rozpocznij od obliczenia prawdopodobieństw Pr(t i /yes) oraz Pr(t i /no) dla i =,, 5, oraz Pr(yes) i Pr(no). Następnie oblicz Pr(yes/DOK) oraz Pr(no/DOK), gdzie DOK reprezentuje E lub F. Podaj uzasadnienie decyzji o przydziale do klasy. t t 2 t 3 t 4 t 5 SPAM D 0 0 No D No D3 0 0 Yes D4 0 Yes D Yes D No D Yes D8 0 0 Yes D9 0 0 No D0 0 0 Yes II. [2] Dany jest zbiór dokumentów opisujący wydziały w The School of Arts and Sciences, reprezentowanych jako wektory TFIDF z sześcioma atrybutami. Dla każdego z nich dana jest też etykieta klasy (patrz arkusz). Klasa ostatniego dokumentu jest nieznana. Obliczono też odległość między dokumentami za pomocą odległości cosinusowej. Do jakiej klasy trafi "Document" przy założeniu k=, k=3, k=7. Dla k=3 i k=7 podaj decyzję, którą podjąłby algorytm za pomocą prostego głosowania (każdy głos z wagą.0) i ważonego głosowania (waga głosu wynika z podobieństwa). Do znalezienia k najbardziej podobnych dokumentów możesz wykorzystać funkcję MAX.K. Czy duże k w algorytmie k-nn jest korzystne, czy może należy stosować k o małych wartościach? Jakie są wady wykorzystania k=? Uzasadnij. III. [2] Księgarnia internetowa zgromadziła oceny od 20 użytkowników U-U20 dla wybranych książek ( oznacza ocenę najgorszą, a 5 ocenę najlepszą patrz arkusz). Dwóch nowych użytkowników NU i NU2, którzy ostatnio odwiedzili witrynę księgarni oceniło niektóre książki w następujące sposób (? reprezentuje brak oceny): TRUE BELIEVER THE DA VINCI CODE THE WORLD IS FLAT MY LIFE SO FAR THE TAKING THE KITE RUNNER RUNNY BABBIT HARRY POTTER NU 4? ? 4 NU2? ? 2? Używając algotymu k-nn określ przewidywaną ocenę tych użytkowników dla książek, którym nie wystawili not. Użyj współczynnika korelacji Pearsona jako miary podobieństwa

8 a) [] Wykorzystaj podejście User-Based Collaborative Filtering. Oblicz podobieństwo między NU i NU2 a wszystkimi pozostałymi użytkownikami. Potem określ przewidywaną ocenę dla książek nieocenionych przez NU i NU2, przyjmując k=3. Wykorzystaj ważoną średnią funkcję do obliczenia prognozowanej oceny i pokaż kroki pośrednie w obliczeniach. Funkcja do obliczenia prognozowanej oceny: Załóżmy, że k najbliższymi sąsiadami dla NU są U, U2,, Uk. Określmy ocenę Uu dla elementu Ij przez r(ui,ij), a podobieństwo między użytkownikami Ui oraz NU przez sim(nu,ui). Predykcję oceny liczy się wtedy z następującego wzoru: k r( U i= i, I t ) sim( NU, U t ) r( NU, I t ) = k. sim( NU, U ) i= Zwróć uwagę, że jeśli wśród k najbliższych sąsiadów są tacy, których podobieństw do NU jest ujemne, to nie bierze się ich pod uwagę. Poza tym wśród k najbliższych sąsiadów rozważamy tylko tych, którzy dokonali oceny I t. A więc zakładając, że k=3 oraz U2 nie dokonał oceny I t, wzór wyglądałby następująco: r( NU, I t r( U ) =, I t ) sim( NU, U sim( NU, U t ) + r( U 3, It ) sim( NU, U ) + sim( NU, U ) 3 3 ) b) [] Wykorzystaj podejście Item-Based Collaborative Filtering. Oblicz przewidywaną ocenę NU dla The DaVinci Code. W tym wypadków musisz znaleźć najbardziej podobne książki (items) do The DaVinci Code, bazując na ich wektorach ocen. Dla tej części zadania przyjmij k=2, cosinusową miarę podobieństwa i ważoną f. predykcji

9 APACHE MAHOUT Biblioteka (Java), implementująca techniki uczenia maszynowego do: klasyfikacji uczenie się z istniejącej kategoryzacji dokumentów, jak wyglądają dokumenty specyficzne dla danej kategorii i nadawanie etykiet dokumentom nieocenionym; grupowania klastruje np. dokumenty w grupy powiązane tematycznie; odkrywania zbiorów częstych; rekomendacji bierze pod uwagę zachowanie użytkowników, starając się przewidzieć obiekty, które mogą im się podobać. Mahout jest obok Weki oraz R jednym z popularniejszym narzędzi wykorzystywanych w dziedzinie uczenia maszynowego. Podstawowe zalety: licencja Apache, szerokie środowisko, dobra dokumentacja, skalowalność (oparte na hadoopie, ale jego wykorzystanie nie jest obowiązkowe) -> możliwość zastosowania do dużych danych. Wykorzystanie: Adobe, Facebook, LinkedIn, BuzzLogic, Shop It To Me, Foursquare (recommendation engine), Twitter (user interest modeling), Yahoo (patern mining anti-spam) Tutorial i ćwiczenia do wykonania skupiają się na rekomendacji. Rekomendacja zaimplementowane algorytmy: User-based Collaborative Filtering (klasa GenericUserBasedRecommender) Item-based Collaborative Filtering (GenericItemBasedRecommender) SlopeOne Recommenders (SlopOneRecommender) Singular Value Decomposition-based Collaborative Filtering (SVDRecommender) W ramach oryginalnego projektu Mahout, dla celów reokmendacji wyodręniono framework do collaborative filtering o nazwie Taste. Rekomendacja w Mahout: Input: surowe dane (preferencje użytkowników) Output: estymacja preferencji Kroki działania systemu rekomendacyjnego: Step : mapowanie surowych danych na obiekty DataModel, na których operuje Mahout Step 2: ustalenie przez użytkownika parametrów systemu rekomendacyjnego: miara podobieństwa, sąsiedztwo, itd. Step 3: obliczenie estymat ocen. Step 4: ocena systemu rekomendacyjnego

10 Kluczowe interfacy Javy: DataModel: mapowanie surowych danych na format wymagany przez Mahout Każda metoda mapujące surowe dane na format Mahout jest implementacją generycznego interfacu, np. MySQLLJDBCDataModel wypełnia DataModel na postawie danych z bazy MySQL; możliwość wypełnienia na postawie MySQL, PostgreSQL, zewnętrznych plików (FileDataModel, format CSV), bezpośrednio z kodu FileDataModel zakłada, że dane są w pliku CSV,0,5.0 użytkownik ocenił obiekt 0 na 5.0,02,3.0 2,02,2.0 użytkownik 2 ocenił 02 na 2.0 2,04,5.0 Bez względu na źródło danych, oparowanie na obiektach DataModel jest takie samo Podstawowe obiekty: Preference trójka (user, item, score), przechowywane w UserPreferenceArray; dwie implementacje: GenericUserPreferenceArray (numeryczne preferencje), BooleanUserPreferenceArray (pomija numeryczne preferencje). UserSimilarity: obliczenie stopnia podobieństwa (korelacji) dla par użytkowników ItemSimilarity: obliczenie stopnia podoieńśtwa (korelacji) dla par obiektów Miary podobieństwa dla UserSimilarity oraz ItemSimilarity: Pearson Correlation Spearman Correlation Euclidean Distance Cosine Coefficient NC N A N B - N A liczba klientów którzy kupili produkt A, NC liczba klientów którzy kupili produkty A i B. Tanimoto Coefficient: N A N + N C B N C LogLikelihood Similarity LogLikelihood Similarity UserNeighborhood: metody dla zdefiniowania pojęcia sąsiedztwa N najbliższych sąsiadów N użytkowników (obiektów) z najwyższym podobieństwem jest uważanych za bliskich sąsiadów Próg (threshold) użytkownicy (obiekty) z podobieństwem wyższym od progu jest uważanych za bliskich sąsiadów Recommender - metody implementujące podejścia do rekomendacji - 0 -

11 RecommederEvaluator - metody implementujące funkcje oceny działania systemu rekomendacyjnego Miary oceny działania systemu rekomendacyjnego: Oparte na predykcji: Mean Average Error oraz RMSE (Root Mean Square Error) Na przykład: AverageAbsoluteDifferenceEvaluator - metoda: evaluate() z parametrami: Recommender implementation DataModel implementation TrainingSet size (np. 70%) % danych wykorzystywanych w ocenie Zapożyczone z IR (Information Retrieval): precision, recal, F także w wersji obciętej do k Na przykład: GenericReommenderIRStatsEvaluator - metoda: evaluate() z parametrami: Recommender implementation DataModel implementation Relevance Threshold (średnia + odchylenie standardowe) % danych wykorzystywanych w ocenie Tutorial + ćwiczenia odwołują się do zbioru danych movies.csv (zakładam że będzie on w folderze data w katalogu projektu; plik pobrałem z MovieLens i przetransformowałem do formatu wymaganego przez Mahout) W ramach ćwiczeń tutorialowych (I, II, III, IV, V, VII, VIII) w katalogu lab7 znajdują się klasy, które je rozwiązują. Ćwiczenia właściwe (VI, IX) polegają na rozwiązaniu analogicznego problemu samodzielnie (nie zmienia to faktu, że rozwiązuje się to przez analogię do tego co dostarczam w klasach dla tutorialu). Dodaj do projektu biblioteki (są spakowane w katalogu lib w lab7): mahout-core-0.9.jar mahout-integration-0.9.jar mahout-math-0.9.jar guava-8.0.jar slf4j-api-.7.7.jar slf4j-nop-.7.7.jar commons-math3-3.3.jar - -

12 I. Klasa CreatePreferenceArray Ćwiczenie polega na utworzeniu obiektu klasy Preference i wypełnieniu go preferencjami (ocenami) pojedynczego użytkownika dla dwóch obiektów bezpośrednio z poziomu kodu Klasy: GenericUserPreferenceArray, Preference PreferenceArray przechowuje preferencje pojedynczego użytkownika II. Klasa CreateGenericDataModel Ćwiczenie polega na utworzeniu obiektu klasy DataModel i wypełnieniu go preferencjami podanymi z poziomu kodu. Klasy: FastByIdMap, DataModel FastByIdMap przechowuje preferencje wszystkich użytkowników - jest rodzajem HashMapy zaprojektowanej tak, by zoptymalizować czynności związane z rekomendacją III. Klasa ExampleSimilarity Ćwiczenie polega na utworzenie DataModel na podstawie danych z pliku CSV (data/movies.csv) i obliczenie podobieństwa między użytkownikami dla wybranych miar podobieństwa: Pearsona i Eukildesowej Klasy: FileDataModel, PearsonCorrelationSimilarity, TanimotoCoefficientSimilarity, itd. IV. Klasa RecommederIntro Zadanie polega na utworzeniu prostego systemu rekomendacyjnego w oparciu o następującą charakterystykę: Utworzenie DataModel na podstawie danych z pliku CSV Zdefiniowanie miary podobieństwa z korelacją Pearsona Działa jako User-based CF Zdefiniowanie sąsiedztwa jaka 50-NN Wypisanie rekomendacji: top 0 obiektów dla użytkownika nr 50 Klasy: FileDataModel, UserSimilarity, UserNeighborhood, Recommender, RecommendedItem V. Klasa RecommnederIntroAdvanced Zadanie polega na utworzeniu bardziej złożonego systemu rekomendacyjnego o następującej charakterystyce: Utworzenie DataModel na podstawie danych z pliku CSV Zdefiniowanie miary podobieństwa ze współczynnikiem Tanimoto Działa jako Item-based CF Dla Item-based CF nie definiuje się sąsiedztwa Wypisanie dla każdego obiektu 5 obiektów najbardziej do niego podobnych - 2 -

13 VI. [3] Samodzielne: Zadanie polega na napisaniu klasy EZIRecommender, która będzie implementowała system rekomendacyjny o następującej charakterystyce: Utworzenie DataModel na podstawie danych z pliku CSV Zdefiniowanie miary podobieństwa jako odległości Euklidesowej Zdefiniowanie sąsiedztwa z definicją progową (threshold=0.7) User-based Collaborative Filtering Wypisze dla każdego użytkownika 3 najlepsze rekomendacje (obiekty) recommeder.recommend(userid,3) Dla użytkownika o numerze 943, wskaż 3 rekomendowane obiekty wraz z podobieństwami dodaj ten wynik jako komentarz w kodzie klasy VII. Klasa EvaluatorIntro Zadanie polega na ocenie systemu rekomendacyjnego (User-based CF, Pearson, 00-NN) za pomocą następującej metody: Wykorzystanie RandomUtils.useTestSeed() by zapewnić spójność między różnymi uruchomieniami testy Metryka Mean Average Error 70% zbioru danych jako dane uczące Testowanie na całym zbiorze Interface RecommenderEvaluation, Klasa AverageAbsoluteDifferenceRecommenderEvaluation Metoda evaluate() RecommenderBuilder instancja systemu rekomendacyjnego DataModelBuilder kryterium do uczenia Split Training-Test double (np. 0.7 dla 70%) Ilość danych wykorzystywanych w ocenie double (np..0 dla 00%) VIII. Klasa IREvaluatorIntro Zadanie polega na ocenie systemu rekomendacyjnego (Item-based CF, Pearson) za pomocą następującej metody: Wykorzystanie RandomUtils.useTestSeed() by zapewnić spójność między różnymi uruchomieniami testy Metryki: Precision, Recall, F obcięte do 5 Klasy: GenericRecommenderIRStatsEvaluator IX. [3] Samodzielne: zadanie polega na napisaniu klasy EZIEvaluator, która będzie implementowała ocenę różnych 2 (3 razy 4) konfiguracji systemu rekomendacyjnego typu User-based CF: Miara podobieństwa: odległość Euklidesowa, korelacja Pearsona, współczynnik Tanimoto Miara sąsiedztwa: próg 0.5 lub 0.7 albo najbliższych sąsiadów 5 lub 9 Metryka oceny: RMSE (Root Mean Square Error) Wskaż najlepszą konfigurację w komentarzu w kodzie klasy. Jako rozwiązanie arkusz + 2 klasy (EZIRecommender + EZIEvaluator)

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Prawdopodobieństwo czerwonych = = 0.33

Prawdopodobieństwo czerwonych = = 0.33 Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba Cel zadania Celem zadania jest implementacja klasyfikatorów

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba, J. Kaczmar Cel zadania Celem zadania jest implementacja klasyfikatorów

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Wykład 16 2 Data Science: Uczenie maszynowe Uczenie maszynowe: co to znaczy? Metody Regresja Klasyfikacja Klastering

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Inteligentne systemy informacyjne

Inteligentne systemy informacyjne Filip Graliński Inteligentne systemy informacyjne Rekomendacje założenia n użytkowników (widzów, czytelników, słuchaczy etc.) m obiektów (filmów, książek, piosenek etc.) opinie wyrażone za pomocą liczb

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Mail: Pokój 214, II piętro

Mail: Pokój 214, II piętro Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,

Bardziej szczegółowo

Adrian Horzyk

Adrian Horzyk Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie

Bardziej szczegółowo

WA R S AW D ATA S C I E N C E M E E T U P

WA R S AW D ATA S C I E N C E M E E T U P WA R S AW D ATA S C I E N C E M E E T U P Mateusz Grzyb konsultant technologiczny Microsoft Polska mateuszgrzyb.pl Plan prezentacji 1. Zbiory rozmyte. 2. Logika rozmyta. 3. Systemy rekomendacyjne. 4.

Bardziej szczegółowo

Metody probabilistyczne klasyfikatory bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin

Bardziej szczegółowo

Laboratorium 11. Regresja SVM.

Laboratorium 11. Regresja SVM. Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Algorytm k-nn Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Jak daleko są położone obiekty od siebie? knn k nearest neighbours jest

Bardziej szczegółowo

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych Eksploracja zasobów internetowych Wykład 3 Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Wyszukiwanie dokumentów za pomocą słów kluczowych bazujące

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Sztuczna inteligencja : Algorytm KNN

Sztuczna inteligencja : Algorytm KNN Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr

Bardziej szczegółowo

Analiza danych tekstowych i języka naturalnego

Analiza danych tekstowych i języka naturalnego Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Optymalizacja systemów

Optymalizacja systemów Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji

Bardziej szczegółowo

Filip Graliński. Sztuczna inteligencja. Klasyfikacja i rekomendacja

Filip Graliński. Sztuczna inteligencja. Klasyfikacja i rekomendacja Filip Graliński Sztuczna inteligencja Klasyfikacja i rekomendacja Wyszukiwanie Odkrywanie wzorców Inteligentne systemy informacyjne Eksploracja Predykcja Opis Wyszukiwanie Odkrywanie wzorców Inteligentne

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Klasyfikacja i regresja Wstęp do środowiska Weka

Klasyfikacja i regresja Wstęp do środowiska Weka Klasyfikacja i regresja Wstęp do środowiska Weka 19 listopada 2015 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików pdf sformatowanych podobnie do tego dokumentu.

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa. GLM (Generalized Linear Models) Data Mining Wykład 6 Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa Naiwny klasyfikator Bayesa jest klasyfikatorem statystycznym -

Bardziej szczegółowo

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Wyszukiwanie informacji w internecie. Nguyen Hung Son Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. zajecia.jakubw.pl/nai Literatura: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 997. PODSTAWOWE ZAGADNIENIA TECHNICZNE AI

Bardziej szczegółowo

Technologie Informacyjne

Technologie Informacyjne Systemy Uczące się Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności January 16, 2017 1 Wprowadzenie 2 Uczenie nadzorowane 3 Uczenie bez nadzoru 4 Uczenie ze wzmocnieniem Uczenie się - proces

Bardziej szczegółowo

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi. Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a

Bardziej szczegółowo

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Laboratorium 4. Naiwny klasyfikator Bayesa.

Laboratorium 4. Naiwny klasyfikator Bayesa. Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak OpenAI Gym Adam Szczepaniak, Kamil Walkowiak Plan prezentacji Programowanie agentowe Uczenie przez wzmacnianie i problemy związane z rozwojem algorytmów Charakterystyka OpenAI Gym Biblioteka gym Podsumowanie

Bardziej szczegółowo

Sieci Kohonena Grupowanie

Sieci Kohonena Grupowanie Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego

Bardziej szczegółowo

UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji

UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji Filip Wójcik Wydział Zarządzania, Informatyki i Finansów Instytut Informatyki Ekonomicznej

Bardziej szczegółowo

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):

Bardziej szczegółowo

Przedmiotowe Zasady Oceniania matematyka, geometria w ćwiczeniach, funkcje w zastosowaniach Sposoby sprawdzania osiągnięć edukacyjnych

Przedmiotowe Zasady Oceniania matematyka, geometria w ćwiczeniach, funkcje w zastosowaniach Sposoby sprawdzania osiągnięć edukacyjnych Przedmiotowe Zasady Oceniania matematyka, geometria w ćwiczeniach, funkcje w zastosowaniach Sposoby sprawdzania osiągnięć edukacyjnych Ocenie podlegają: a) sprawdziany pisemne wiadomości: - kartkówka obejmuje

Bardziej szczegółowo

Data Mining Wykład 4. Plan wykładu

Data Mining Wykład 4. Plan wykładu Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Metody klasyfikacji i rozpoznawania wzorców.  Najważniejsze rodzaje klasyfikatorów Metody klasyfikacji i rozpoznawania wzorców www.michalbereta.pl Najważniejsze rodzaje klasyfikatorów Dla określonego problemu klasyfikacyjnego (tzn. dla danego zestawu danych) należy przetestować jak najwięcej

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne Metody eksploracji danych Laboratorium 4 Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne Zbiory danych Podczas ćwiczeń będziemy przetwarzali dane tekstowe pochodzące z 5 książek

Bardziej szczegółowo

Techniki grupowania danych w środowisku Matlab

Techniki grupowania danych w środowisku Matlab Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe

Bardziej szczegółowo

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 3 Regresja logistyczna autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest zaimplementowanie modelu

Bardziej szczegółowo

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15 VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 3 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba Cel zadania Celem zadania jest zaimplementowanie algorytmów

Bardziej szczegółowo

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.

Bardziej szczegółowo

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta Wprowadzenie do programu RapidMiner, część 4 Michał Bereta www.michalbereta.pl 1. Wybór atrybutów (ang. attribute selection, feature selection). Jedną z podstawowych metod analizy współoddziaływania /

Bardziej szczegółowo

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych. mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie

Bardziej szczegółowo

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych. Inteligencja obliczeniowa stud. niestac. Laboratorium 4: Zadanie klasyfikacji poznanie trzech algorytmów klasyfikujących: knn, NaiveBayes, drzewo decyzyjne. Przy pomnijmy sobie bazę danych z irysami. Na

Bardziej szczegółowo

SPOTKANIE 2: Wprowadzenie cz. I

SPOTKANIE 2: Wprowadzenie cz. I Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie

Bardziej szczegółowo

Klasyfikacja naiwny Bayes

Klasyfikacja naiwny Bayes Klasyfikacja naiwny Bayes LABORKA Piotr Ciskowski NAIWNY KLASYFIKATOR BAYESA wyjaśnienie Naiwny klasyfikator Bayesa żródło: Internetowy Podręcznik Statystyki Statsoft dane uczące 2 klasy - prawdopodobieństwo

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1 Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt

Bardziej szczegółowo

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

komputery? Andrzej Skowron, Hung Son Nguyen  Instytut Matematyki, Wydział MIM, UW Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Porównywanie populacji

Porównywanie populacji 3 Porównywanie populacji 2 Porównywanie populacji Tendencja centralna Jednostki (w grupie) według pewnej zmiennej porównuje się w ten sposób, że dokonuje się komparacji ich wartości, osiągniętych w tej

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Zastosowania sieci neuronowych

Zastosowania sieci neuronowych Zastosowania sieci neuronowych klasyfikacja LABORKA Piotr Ciskowski zadanie 1. klasyfikacja zwierząt sieć jednowarstwowa żródło: Tadeusiewicz. Odkrywanie własności sieci neuronowych, str. 159 Przykład

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem

Bardziej szczegółowo

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:

Bardziej szczegółowo

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-11 1 Modelowanie funkcji logicznych

Bardziej szczegółowo

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

WYKŁAD 3. Klasyfikacja: modele probabilistyczne Wrocław University of Technology WYKŁAD 3 Klasyfikacja: modele probabilistyczne Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania

Bardziej szczegółowo

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

Ankieta. Informacje o uczestniku. Imię i nazwisko: Stanowisko : Warsztat Innowacyjne metody dydaktyczne (np. learning by doing, design thinking)

Ankieta. Informacje o uczestniku. Imię i nazwisko: Stanowisko : Warsztat Innowacyjne metody dydaktyczne (np. learning by doing, design thinking) Szanowni Państwo, w związku z uruchomieniem szkoleń w ramach projektu Rozwój kompetencji kadry akademickiej Wyższej Szkoły Menedżerskiej zwracamy się z prośbą o wypełnienie niniejszej ankiety. Ankieta

Bardziej szczegółowo