EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM VII KLASYFIKACJA I PREDYKCJA PLUS MAHOUT
|
|
- Kacper Czech
- 6 lat temu
- Przeglądów:
Transkrypt
1 EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM VII KLASYFIKACJA I PREDYKCJA PLUS MAHOUT. Plan laboratorium VII Klasyfikacja znalezienie odwzorowania dokumentów w zbiór predefiniowanych klas; Budowa modelu opisującego predefiniowany zbiór klas; Zastosowanie opracowanego modelu do klasyfikacji nowych danych... Klasyfikacja Rocchio.2. Algorytm najbliższych sąsiadów (k-nn);.3. Naiwny klasyfikator Bayesa..4. Predykcja - User-Based i Item-Based Collaborative Filtering, Slope-One.5. Mahout Zastosowania: Strony internetowe (rekomendacja, strony-spam, SafeSearch, klasyfikacja Yahoo-like) Wiadomości w ramach Newsgroup (rekomendacja, filtrowanie spamu) Artykuły (personalizowane gazety) (routing, prioritizing, folderizing, filtrowanie spamu, sortowanie wiadomości) 2. Klasyfikacja Rocchio Wykorzystanie reprezentacji wektorowej Jak obliczyć granice między klasami? Klasyfikacja Rocchio wykorzystuje centroid każdej klasy: µ C = D C d D C v( d) Granica między parą klas jest zdefiniowana jako zbiór punktów w równej odległości od centroidów tych klas (dla dwóch wymiarów linia, dla większej hiperpłaszczyzna) Nowy obiekt jest przypisywany do klasy, w której region wpada (do klasy najbardziej podobnego centroidu): - -
2 Gdzie trafi gwiazdka? Gdzie trafi kwadrat? (algorytm ignoruje rozkład punktów w ramach klas) 3. Algorytm najbliższego sąsiada Charakterystyka: Klasyfikacja nowych dokumentów jest dokonywana na bieżąco (gdy pojawia się potrzeba klasyfikacji nowego przypadku); Uczenie z przykładów (instance-based learning); Uczenie leniwe (lazy learning) tworzenie modelu nie wymaga dodatkowych obliczeń; W algorytmie -NN klasa nowego dokumentu wynika z etykiety klasy najbliższego do niego dokumentu ze zbioru uczącego; Metoda czuła na punkty osobliwe i szum w danych treningowych; Rozwiązanie: zastosowanie strategii k-najbliższych sąsiadów (k-nn); Nowy przypadek klasyfikujemy jako należący do klasy, która dominuje w zbiorze k-najbliższych sąsiadów; Zwykle k=3 lub k=5; Ważony algorytm k-nn ważenie głosów za pomocą podobieństwa (lub odległości) dokumentów ze zbioru uczącego do dokumentu, który jest klasyfikowany (najprostsze rozwiązanie to użycie funkcji podobieństwa sim(x,y)); - 2 -
3 4. Naiwny algorytm Bayesa Klasyfikator statystyczny (oparty na twierdzeniu Bayesa); Jaka jest najbardziej prawdopodobna klasyfikacja nowego obiektu (dokumentu) przy danych uczących, którymi dysponujemy? Niech D={t, t 2,, t n } będzie reprezentacją binarną dokumentu w postaci n-wymiarowego wektora; P(C/D) prawdopodobieństwa a-posteriori, że dokument D należy do klasy C; Dokument D klasyfikujemy jako pochodzący z tej klasy C i, dla której wartość P(C i /D), i=,2,,m jest największa; Szacowanie prawdopodobieństwa P(Ci/D) P(C/D) = (P(D/C) P(C))/P(D); P(C) prawdopodobieństwo a priori wystąpienia klasy C (tj. prawdopodobieństwo, że dowolny przykład należy do klasy C) estymujemy jako stosunek liczby przykładów w zbiorze treningowym, które należą do klasy C do liczby wszystkich przykładów w zbiorze treningowym; P(D/C) prawdopodobieństwo a posteriori, że D należy do klasy C; P(D) prawdopodobieństwo a priori wystąpienia dokumenty D - mianownik dla wszystkich klas jest taki sam; Jak obliczyć P(D/C)? Przyjmujemy założenie o niezależności atrybutów Prowadzi to do następującej formuły: P ( D / Ci ) = P( t j / Ci ) Jeśli reprezentacja dokumentów jest binarna, to standardowe podejście (zadanie 2). n j= Jeśli chcemy uwzględnić liczność słów w dokumntach, to wykorzystujemy podejście zaproponowane stricte dla klasyfikacji dokumentów, przy czym, aby wyeliminować sytuację, w której P( t / C ) 0, stosuje się add-one bądź Laplace smoothing (dodanie do każdego j i = wystąpienia): Tct + T + P( t j / Ci ) =, ( T + V t' V ct = ct' + ) ( T t' V ct' ) gdzie T ct to liczba wystąpień t w zbiorze treningowym dokumentów należących do klasy C (włączając w to wielokrotne wystąpienia termu w ramach pojedynczego dokumentu); V jest liczbą termów w słowniku, np
4 Doc ID Content c=china? Training set Chinese Beijing Chinese Yes Training set 2 Chinese Chinese Shanghai Yes Training set 3 Chinese Macao Yes Training set 4 Tokyo Japan Chinese No Test set 5 Chinese Chinese Chinese Tokyo Japan? P(c) = 3/4 P(Chinese/c) = (5+)/(8+6) = 3/7 P(Tokyo/c)=P(Japan/c) = (0+)/(8+6) = /4 P(c/d5) 3/4 (3/7) 3 /4 / P(~c) = /4 P(Chinese/~c) = (+)/(3+6) = 2/9 P(Tokyo/~c)=P(Japan/~c) = (+)/(3+6) = 2/9 P(~c/d5) /4 (2/9) 3 2/9 2/ Decyzja c = China. 5. Collaborative Filtering - Social Learning Przykład: System oceniania filmów; skala beznadzieja, 7 super Historyczna baza danych uwzględnia oceny filmów dokonane przez Sally, Boba, Chris oraz Lynn Karen jest nowym użytkownikiem, który ocenił trzy filmu, ale nie widział jeszcze Dnia niepodległości. Czy powinniśmy jej go zarekomendować? Sally Bob Chris Lynn Karen Star Wars Jurassic Park Terminator II Independence Day ? Wypracuj rekomendację dla użytkownika na podstawie ocen innych użytkowników lub innych obiektów Zwykle rozważane są obiekty podobnej natury (albo strony internetowe albo kawałki muzyczne albo filmy, itd.) Zwykle zakłada się dostępność ocen obiektów na określonej skali (choć są próby uzyskania ocen nie wprost, np. na podstawie zachowań użytkowników; problemem jest fakt, że są to dane binarne) User-Based Collaborative Filtering Oblicz podobieństwo między użytkownikami, bazując na ich ocenach różnych obiektów Zastosuj algorytm k-nn Oblicz przewidywaną ocenę danego użytkownika - 4 -
5 Pearson Correlation Korelacja między użytkownikiem U oraz J r UJ = ( U U ) ( J J ) 2 ( U U ) ( J J ) gdzie U oraz J to średnie oceny użytkowników U oraz J dla wszystkich obiektów. ( oznacza ogromne podobieństwo, 0 brak korelacji, - przeciwstawne preferencje) Sprawdza się to dobrze dla ocen użytkowników na skali co najmniej -5 nie zawsze możliwe; w niektórych sytuacjach mamy dostępną tylko wartość binarną (np. użytkownik wybrał plik/dokument lub nie) Funkcja CORREL (WSP.KORELACJI) w MS Excel 2 Sposób obliczenia przewidywanej oceny W prostym podejściu przewidywana oceny jest średnią z ocen k najbliższych sąsiadów. W praktyce wykorzystuje się albo średnią ważoną przez miary podobieństwa: r( a, i) = k u= k r u, i i= sim( a, u) sim( a, u) albo średnią ważoną odchyleń od średnich ocen k najbliższych sąsiadów: r( a, i) = r a + k u= ( r u, i k i= r u ) sim( a, u) sim( a, u) Item-Based Collaborative Filtering Znajdź podobieństwo między obiektami, bazując na ocenach różnych użytkowników Predykcja nieznanej oceny użytkownika a dla obiektu I jest wypracowywana na podstawie przeszłych ocen użytkownika a dla obiektów podobnych do I Zalety: Ignoruje zawartość, bierze pod uwagę tylko to, kto ocenia obiekty w podobny sposób Jeśli mój kolega lubił tę książkę, to ja też ja będę lubił Jeśli podobały Ci się Gwiezdne Wojny, to spodoba Ci się też Dzień Niepodległości Sprawdza się dobrze dla danych odnoszących się do gustów Wady: Oceny dodane do bazy jako pierwsze mają większy wpływ na propozycje dla innych użytkowników Jeśli jest mało użytkowników, to wyniki mogą być niezadowalające Problem skalowania dla dużej liczby użytkowników, obliczenia dla k-nn zabierają sporo czasu Wykorzystanie dynamiczne, więc ciężko wybrać tylko część danych jako zbiór uczący Podatny na ataki shilling, push attack, nuke, system-wide attacks - 5 -
6 5. Ćwiczenia I. Dany jest przydział do klas (A lub B) dla 0 dokumentów (D-D0) ze zbioru uczącego oraz miary podobieństwa 8 z nich (D-D8) z dokumentem X o nieznanym przydziale. Podobieństwo pozostałych 2 dokumentów (D9-D0) z dokumentem X oblicz, korzystając ze współczynnika Jaccarda (dane są liczba wspólnych termów dokumentów D9 oraz D0 z X oraz liczby termów ogółem w tych dokumentach). Do jakiej klasy trafi dokument X, jeśli klasyfikatorem jest algorytm 3-najbliższych sąsiadów w wersji głosowania prostego lub ważonego? Uzasadnij przydział D D2 D3 D4 D5 D6 D7 D8 D9 D0 X Klasa B A B B A B A A A B? Podobieństwo z X ?? - X D9 D0 Liczba termów ogółem Liczba termów wspólnych z X Decyzja dla 3-NN (algorytm prosty): Rozwiązanie: podobieństwo X z D9 = podobieństwo X z D0 = Dokumenty na podstawie, których podejmujesz decyzję: Decyzja dla 3-NN (algorytm ważony): II. Dana jest reprezentacja binarna 0 dokumentów (D-D0), przy czym za istotne uważane są 3 termy (T-T3). Do jakiej klasy (A lub B) trafi dokument Y, jeśli klasyfikatorem jest naiwny klasyfikator bayerowski? Pokaż wszystkie prawdopodobieństwa cząstkowe, które trzeba obliczyć, by podjąć ostateczną decyzję. Jeśli prawdopodobieństwo cząstkowe będzie równe 0, zamiast 0 przyjmij wartość 0.0. Uzasadnij decyzję o przydziale do klasy. T T2 T3 C D B D2 0 0 B D3 0 0 B D4 0 0 B D A D6 0 A D7 0 A D8 0 0 A D9 0 A D0 0 0 A Y 0? Rozwiązanie: Dla klasy A: Dla klasy B: P(A) = P(B) = P( T = / A ) = P( T = / B ) = P( T2 = / A ) = P( T2 = / B ) = P( T3 = / A ) = P( T3 = / B ) = P(C=A/Y) Odpowiedź: Dokument Y zostanie przydzielony do klasy P(C=B/Y), ponieważ III. Historyczna baza danych uwzględnia oceny filmów dokonane przez Sally, Boba, Chris oraz Lynn. Karen jest nowym użytkownikiem, który ocenił trzy filmz, ale nie widział jeszcze Dnia niepodległości. Czy powinniśmy jej go zarekomendować? Pearson(Sally, Karen) = Star Wars Jur. Park Termin. II Ind. Day Średnia Kosinusowa Pearson Sally Bob Chris Lynn Karen 7 4 3?.0.0 K= - Predykcja = K=2 - Predykcja = K=3 - Predykcja = Załóżmy, że sim(sw,id) > sim(jp,id) > sim (TII, ID). Określ predykcję oceny Karen dla ID, gdy przyjmiemy k=
7 6. Omówienie zadań do samodzielnego wykonania Należy rozwiązać 2 z 3 pierwszych zadań oraz zadanie 4 i 5 (programistyczne - łatwe) w sumie do zdobycia =0 punktów I. [2] Do odfiltrowania spamu w skrzynce milowej wykorzystywany jest klasyfikator Naive Bayes. Jako dane uczące wybrano 0 dokumentów i określono dla nich, czy rzeczywiście są spamem. Do reprezentacji dokumentów za pomocą 5 termów wykorzystano macierz binarną. Używając klasyfikatora Naive Bayes określ, jak zostaną zaklasyfikowane wiadomości E (zawiera termy t, t2 i t4) oraz F (zawiera termy t 3 i t 5 ). Rozpocznij od obliczenia prawdopodobieństw Pr(t i /yes) oraz Pr(t i /no) dla i =,, 5, oraz Pr(yes) i Pr(no). Następnie oblicz Pr(yes/DOK) oraz Pr(no/DOK), gdzie DOK reprezentuje E lub F. Podaj uzasadnienie decyzji o przydziale do klasy. t t 2 t 3 t 4 t 5 SPAM D 0 0 No D No D3 0 0 Yes D4 0 Yes D Yes D No D Yes D8 0 0 Yes D9 0 0 No D0 0 0 Yes II. [2] Dany jest zbiór dokumentów opisujący wydziały w The School of Arts and Sciences, reprezentowanych jako wektory TFIDF z sześcioma atrybutami. Dla każdego z nich dana jest też etykieta klasy (patrz arkusz). Klasa ostatniego dokumentu jest nieznana. Obliczono też odległość między dokumentami za pomocą odległości cosinusowej. Do jakiej klasy trafi "Document" przy założeniu k=, k=3, k=7. Dla k=3 i k=7 podaj decyzję, którą podjąłby algorytm za pomocą prostego głosowania (każdy głos z wagą.0) i ważonego głosowania (waga głosu wynika z podobieństwa). Do znalezienia k najbardziej podobnych dokumentów możesz wykorzystać funkcję MAX.K. Czy duże k w algorytmie k-nn jest korzystne, czy może należy stosować k o małych wartościach? Jakie są wady wykorzystania k=? Uzasadnij. III. [2] Księgarnia internetowa zgromadziła oceny od 20 użytkowników U-U20 dla wybranych książek ( oznacza ocenę najgorszą, a 5 ocenę najlepszą patrz arkusz). Dwóch nowych użytkowników NU i NU2, którzy ostatnio odwiedzili witrynę księgarni oceniło niektóre książki w następujące sposób (? reprezentuje brak oceny): TRUE BELIEVER THE DA VINCI CODE THE WORLD IS FLAT MY LIFE SO FAR THE TAKING THE KITE RUNNER RUNNY BABBIT HARRY POTTER NU 4? ? 4 NU2? ? 2? Używając algotymu k-nn określ przewidywaną ocenę tych użytkowników dla książek, którym nie wystawili not. Użyj współczynnika korelacji Pearsona jako miary podobieństwa
8 a) [] Wykorzystaj podejście User-Based Collaborative Filtering. Oblicz podobieństwo między NU i NU2 a wszystkimi pozostałymi użytkownikami. Potem określ przewidywaną ocenę dla książek nieocenionych przez NU i NU2, przyjmując k=3. Wykorzystaj ważoną średnią funkcję do obliczenia prognozowanej oceny i pokaż kroki pośrednie w obliczeniach. Funkcja do obliczenia prognozowanej oceny: Załóżmy, że k najbliższymi sąsiadami dla NU są U, U2,, Uk. Określmy ocenę Uu dla elementu Ij przez r(ui,ij), a podobieństwo między użytkownikami Ui oraz NU przez sim(nu,ui). Predykcję oceny liczy się wtedy z następującego wzoru: k r( U i= i, I t ) sim( NU, U t ) r( NU, I t ) = k. sim( NU, U ) i= Zwróć uwagę, że jeśli wśród k najbliższych sąsiadów są tacy, których podobieństw do NU jest ujemne, to nie bierze się ich pod uwagę. Poza tym wśród k najbliższych sąsiadów rozważamy tylko tych, którzy dokonali oceny I t. A więc zakładając, że k=3 oraz U2 nie dokonał oceny I t, wzór wyglądałby następująco: r( NU, I t r( U ) =, I t ) sim( NU, U sim( NU, U t ) + r( U 3, It ) sim( NU, U ) + sim( NU, U ) 3 3 ) b) [] Wykorzystaj podejście Item-Based Collaborative Filtering. Oblicz przewidywaną ocenę NU dla The DaVinci Code. W tym wypadków musisz znaleźć najbardziej podobne książki (items) do The DaVinci Code, bazując na ich wektorach ocen. Dla tej części zadania przyjmij k=2, cosinusową miarę podobieństwa i ważoną f. predykcji
9 APACHE MAHOUT Biblioteka (Java), implementująca techniki uczenia maszynowego do: klasyfikacji uczenie się z istniejącej kategoryzacji dokumentów, jak wyglądają dokumenty specyficzne dla danej kategorii i nadawanie etykiet dokumentom nieocenionym; grupowania klastruje np. dokumenty w grupy powiązane tematycznie; odkrywania zbiorów częstych; rekomendacji bierze pod uwagę zachowanie użytkowników, starając się przewidzieć obiekty, które mogą im się podobać. Mahout jest obok Weki oraz R jednym z popularniejszym narzędzi wykorzystywanych w dziedzinie uczenia maszynowego. Podstawowe zalety: licencja Apache, szerokie środowisko, dobra dokumentacja, skalowalność (oparte na hadoopie, ale jego wykorzystanie nie jest obowiązkowe) -> możliwość zastosowania do dużych danych. Wykorzystanie: Adobe, Facebook, LinkedIn, BuzzLogic, Shop It To Me, Foursquare (recommendation engine), Twitter (user interest modeling), Yahoo (patern mining anti-spam) Tutorial i ćwiczenia do wykonania skupiają się na rekomendacji. Rekomendacja zaimplementowane algorytmy: User-based Collaborative Filtering (klasa GenericUserBasedRecommender) Item-based Collaborative Filtering (GenericItemBasedRecommender) SlopeOne Recommenders (SlopOneRecommender) Singular Value Decomposition-based Collaborative Filtering (SVDRecommender) W ramach oryginalnego projektu Mahout, dla celów reokmendacji wyodręniono framework do collaborative filtering o nazwie Taste. Rekomendacja w Mahout: Input: surowe dane (preferencje użytkowników) Output: estymacja preferencji Kroki działania systemu rekomendacyjnego: Step : mapowanie surowych danych na obiekty DataModel, na których operuje Mahout Step 2: ustalenie przez użytkownika parametrów systemu rekomendacyjnego: miara podobieństwa, sąsiedztwo, itd. Step 3: obliczenie estymat ocen. Step 4: ocena systemu rekomendacyjnego
10 Kluczowe interfacy Javy: DataModel: mapowanie surowych danych na format wymagany przez Mahout Każda metoda mapujące surowe dane na format Mahout jest implementacją generycznego interfacu, np. MySQLLJDBCDataModel wypełnia DataModel na postawie danych z bazy MySQL; możliwość wypełnienia na postawie MySQL, PostgreSQL, zewnętrznych plików (FileDataModel, format CSV), bezpośrednio z kodu FileDataModel zakłada, że dane są w pliku CSV,0,5.0 użytkownik ocenił obiekt 0 na 5.0,02,3.0 2,02,2.0 użytkownik 2 ocenił 02 na 2.0 2,04,5.0 Bez względu na źródło danych, oparowanie na obiektach DataModel jest takie samo Podstawowe obiekty: Preference trójka (user, item, score), przechowywane w UserPreferenceArray; dwie implementacje: GenericUserPreferenceArray (numeryczne preferencje), BooleanUserPreferenceArray (pomija numeryczne preferencje). UserSimilarity: obliczenie stopnia podobieństwa (korelacji) dla par użytkowników ItemSimilarity: obliczenie stopnia podoieńśtwa (korelacji) dla par obiektów Miary podobieństwa dla UserSimilarity oraz ItemSimilarity: Pearson Correlation Spearman Correlation Euclidean Distance Cosine Coefficient NC N A N B - N A liczba klientów którzy kupili produkt A, NC liczba klientów którzy kupili produkty A i B. Tanimoto Coefficient: N A N + N C B N C LogLikelihood Similarity LogLikelihood Similarity UserNeighborhood: metody dla zdefiniowania pojęcia sąsiedztwa N najbliższych sąsiadów N użytkowników (obiektów) z najwyższym podobieństwem jest uważanych za bliskich sąsiadów Próg (threshold) użytkownicy (obiekty) z podobieństwem wyższym od progu jest uważanych za bliskich sąsiadów Recommender - metody implementujące podejścia do rekomendacji - 0 -
11 RecommederEvaluator - metody implementujące funkcje oceny działania systemu rekomendacyjnego Miary oceny działania systemu rekomendacyjnego: Oparte na predykcji: Mean Average Error oraz RMSE (Root Mean Square Error) Na przykład: AverageAbsoluteDifferenceEvaluator - metoda: evaluate() z parametrami: Recommender implementation DataModel implementation TrainingSet size (np. 70%) % danych wykorzystywanych w ocenie Zapożyczone z IR (Information Retrieval): precision, recal, F także w wersji obciętej do k Na przykład: GenericReommenderIRStatsEvaluator - metoda: evaluate() z parametrami: Recommender implementation DataModel implementation Relevance Threshold (średnia + odchylenie standardowe) % danych wykorzystywanych w ocenie Tutorial + ćwiczenia odwołują się do zbioru danych movies.csv (zakładam że będzie on w folderze data w katalogu projektu; plik pobrałem z MovieLens i przetransformowałem do formatu wymaganego przez Mahout) W ramach ćwiczeń tutorialowych (I, II, III, IV, V, VII, VIII) w katalogu lab7 znajdują się klasy, które je rozwiązują. Ćwiczenia właściwe (VI, IX) polegają na rozwiązaniu analogicznego problemu samodzielnie (nie zmienia to faktu, że rozwiązuje się to przez analogię do tego co dostarczam w klasach dla tutorialu). Dodaj do projektu biblioteki (są spakowane w katalogu lib w lab7): mahout-core-0.9.jar mahout-integration-0.9.jar mahout-math-0.9.jar guava-8.0.jar slf4j-api-.7.7.jar slf4j-nop-.7.7.jar commons-math3-3.3.jar - -
12 I. Klasa CreatePreferenceArray Ćwiczenie polega na utworzeniu obiektu klasy Preference i wypełnieniu go preferencjami (ocenami) pojedynczego użytkownika dla dwóch obiektów bezpośrednio z poziomu kodu Klasy: GenericUserPreferenceArray, Preference PreferenceArray przechowuje preferencje pojedynczego użytkownika II. Klasa CreateGenericDataModel Ćwiczenie polega na utworzeniu obiektu klasy DataModel i wypełnieniu go preferencjami podanymi z poziomu kodu. Klasy: FastByIdMap, DataModel FastByIdMap przechowuje preferencje wszystkich użytkowników - jest rodzajem HashMapy zaprojektowanej tak, by zoptymalizować czynności związane z rekomendacją III. Klasa ExampleSimilarity Ćwiczenie polega na utworzenie DataModel na podstawie danych z pliku CSV (data/movies.csv) i obliczenie podobieństwa między użytkownikami dla wybranych miar podobieństwa: Pearsona i Eukildesowej Klasy: FileDataModel, PearsonCorrelationSimilarity, TanimotoCoefficientSimilarity, itd. IV. Klasa RecommederIntro Zadanie polega na utworzeniu prostego systemu rekomendacyjnego w oparciu o następującą charakterystykę: Utworzenie DataModel na podstawie danych z pliku CSV Zdefiniowanie miary podobieństwa z korelacją Pearsona Działa jako User-based CF Zdefiniowanie sąsiedztwa jaka 50-NN Wypisanie rekomendacji: top 0 obiektów dla użytkownika nr 50 Klasy: FileDataModel, UserSimilarity, UserNeighborhood, Recommender, RecommendedItem V. Klasa RecommnederIntroAdvanced Zadanie polega na utworzeniu bardziej złożonego systemu rekomendacyjnego o następującej charakterystyce: Utworzenie DataModel na podstawie danych z pliku CSV Zdefiniowanie miary podobieństwa ze współczynnikiem Tanimoto Działa jako Item-based CF Dla Item-based CF nie definiuje się sąsiedztwa Wypisanie dla każdego obiektu 5 obiektów najbardziej do niego podobnych - 2 -
13 VI. [3] Samodzielne: Zadanie polega na napisaniu klasy EZIRecommender, która będzie implementowała system rekomendacyjny o następującej charakterystyce: Utworzenie DataModel na podstawie danych z pliku CSV Zdefiniowanie miary podobieństwa jako odległości Euklidesowej Zdefiniowanie sąsiedztwa z definicją progową (threshold=0.7) User-based Collaborative Filtering Wypisze dla każdego użytkownika 3 najlepsze rekomendacje (obiekty) recommeder.recommend(userid,3) Dla użytkownika o numerze 943, wskaż 3 rekomendowane obiekty wraz z podobieństwami dodaj ten wynik jako komentarz w kodzie klasy VII. Klasa EvaluatorIntro Zadanie polega na ocenie systemu rekomendacyjnego (User-based CF, Pearson, 00-NN) za pomocą następującej metody: Wykorzystanie RandomUtils.useTestSeed() by zapewnić spójność między różnymi uruchomieniami testy Metryka Mean Average Error 70% zbioru danych jako dane uczące Testowanie na całym zbiorze Interface RecommenderEvaluation, Klasa AverageAbsoluteDifferenceRecommenderEvaluation Metoda evaluate() RecommenderBuilder instancja systemu rekomendacyjnego DataModelBuilder kryterium do uczenia Split Training-Test double (np. 0.7 dla 70%) Ilość danych wykorzystywanych w ocenie double (np..0 dla 00%) VIII. Klasa IREvaluatorIntro Zadanie polega na ocenie systemu rekomendacyjnego (Item-based CF, Pearson) za pomocą następującej metody: Wykorzystanie RandomUtils.useTestSeed() by zapewnić spójność między różnymi uruchomieniami testy Metryki: Precision, Recall, F obcięte do 5 Klasy: GenericRecommenderIRStatsEvaluator IX. [3] Samodzielne: zadanie polega na napisaniu klasy EZIEvaluator, która będzie implementowała ocenę różnych 2 (3 razy 4) konfiguracji systemu rekomendacyjnego typu User-based CF: Miara podobieństwa: odległość Euklidesowa, korelacja Pearsona, współczynnik Tanimoto Miara sąsiedztwa: próg 0.5 lub 0.7 albo najbliższych sąsiadów 5 lub 9 Metryka oceny: RMSE (Root Mean Square Error) Wskaż najlepszą konfigurację w komentarzu w kodzie klasy. Jako rozwiązanie arkusz + 2 klasy (EZIRecommender + EZIEvaluator)
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Prawdopodobieństwo czerwonych = = 0.33
Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba Cel zadania Celem zadania jest implementacja klasyfikatorów
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba, J. Kaczmar Cel zadania Celem zadania jest implementacja klasyfikatorów
TEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Wykład 16 2 Data Science: Uczenie maszynowe Uczenie maszynowe: co to znaczy? Metody Regresja Klasyfikacja Klastering
Klasyfikacja metodą Bayesa
Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo
Inteligentne systemy informacyjne
Filip Graliński Inteligentne systemy informacyjne Rekomendacje założenia n użytkowników (widzów, czytelników, słuchaczy etc.) m obiektów (filmów, książek, piosenek etc.) opinie wyrażone za pomocą liczb
Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Mail: Pokój 214, II piętro
Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,
Adrian Horzyk
Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
WA R S AW D ATA S C I E N C E M E E T U P
WA R S AW D ATA S C I E N C E M E E T U P Mateusz Grzyb konsultant technologiczny Microsoft Polska mateuszgrzyb.pl Plan prezentacji 1. Zbiory rozmyte. 2. Logika rozmyta. 3. Systemy rekomendacyjne. 4.
Metody probabilistyczne klasyfikatory bayesowskie
Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin
Laboratorium 11. Regresja SVM.
Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?
Algorytm k-nn Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Jak daleko są położone obiekty od siebie? knn k nearest neighbours jest
Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych
Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych
Eksploracja zasobów internetowych Wykład 3 Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Wyszukiwanie dokumentów za pomocą słów kluczowych bazujące
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
CLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Sztuczna inteligencja : Algorytm KNN
Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr
Analiza danych tekstowych i języka naturalnego
Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Optymalizacja systemów
Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji
Filip Graliński. Sztuczna inteligencja. Klasyfikacja i rekomendacja
Filip Graliński Sztuczna inteligencja Klasyfikacja i rekomendacja Wyszukiwanie Odkrywanie wzorców Inteligentne systemy informacyjne Eksploracja Predykcja Opis Wyszukiwanie Odkrywanie wzorców Inteligentne
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Klasyfikacja i regresja Wstęp do środowiska Weka
Klasyfikacja i regresja Wstęp do środowiska Weka 19 listopada 2015 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików pdf sformatowanych podobnie do tego dokumentu.
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów
Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie
Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.
GLM (Generalized Linear Models) Data Mining Wykład 6 Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa Naiwny klasyfikator Bayesa jest klasyfikatorem statystycznym -
Wyszukiwanie informacji w internecie. Nguyen Hung Son
Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. zajecia.jakubw.pl/nai Literatura: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 997. PODSTAWOWE ZAGADNIENIA TECHNICZNE AI
Technologie Informacyjne
Systemy Uczące się Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności January 16, 2017 1 Wprowadzenie 2 Uczenie nadzorowane 3 Uczenie bez nadzoru 4 Uczenie ze wzmocnieniem Uczenie się - proces
Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.
Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty
Analiza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Laboratorium 4. Naiwny klasyfikator Bayesa.
Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak
OpenAI Gym Adam Szczepaniak, Kamil Walkowiak Plan prezentacji Programowanie agentowe Uczenie przez wzmacnianie i problemy związane z rozwojem algorytmów Charakterystyka OpenAI Gym Biblioteka gym Podsumowanie
Sieci Kohonena Grupowanie
Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego
UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji
UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji Filip Wójcik Wydział Zarządzania, Informatyki i Finansów Instytut Informatyki Ekonomicznej
WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska
Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):
Przedmiotowe Zasady Oceniania matematyka, geometria w ćwiczeniach, funkcje w zastosowaniach Sposoby sprawdzania osiągnięć edukacyjnych
Przedmiotowe Zasady Oceniania matematyka, geometria w ćwiczeniach, funkcje w zastosowaniach Sposoby sprawdzania osiągnięć edukacyjnych Ocenie podlegają: a) sprawdziany pisemne wiadomości: - kartkówka obejmuje
Data Mining Wykład 4. Plan wykładu
Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje
Systemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów
Metody klasyfikacji i rozpoznawania wzorców www.michalbereta.pl Najważniejsze rodzaje klasyfikatorów Dla określonego problemu klasyfikacyjnego (tzn. dla danego zestawu danych) należy przetestować jak najwięcej
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne
Metody eksploracji danych Laboratorium 4 Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne Zbiory danych Podczas ćwiczeń będziemy przetwarzali dane tekstowe pochodzące z 5 książek
Techniki grupowania danych w środowisku Matlab
Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 3 Regresja logistyczna autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest zaimplementowanie modelu
VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15
VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 3 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba Cel zadania Celem zadania jest zaimplementowanie algorytmów
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
Wprowadzenie do programu RapidMiner, część 4 Michał Bereta
Wprowadzenie do programu RapidMiner, część 4 Michał Bereta www.michalbereta.pl 1. Wybór atrybutów (ang. attribute selection, feature selection). Jedną z podstawowych metod analizy współoddziaływania /
mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.
mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie
Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.
Inteligencja obliczeniowa stud. niestac. Laboratorium 4: Zadanie klasyfikacji poznanie trzech algorytmów klasyfikujących: knn, NaiveBayes, drzewo decyzyjne. Przy pomnijmy sobie bazę danych z irysami. Na
SPOTKANIE 2: Wprowadzenie cz. I
Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie
Klasyfikacja naiwny Bayes
Klasyfikacja naiwny Bayes LABORKA Piotr Ciskowski NAIWNY KLASYFIKATOR BAYESA wyjaśnienie Naiwny klasyfikator Bayesa żródło: Internetowy Podręcznik Statystyki Statsoft dane uczące 2 klasy - prawdopodobieństwo
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt
komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW
Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne
Porównywanie populacji
3 Porównywanie populacji 2 Porównywanie populacji Tendencja centralna Jednostki (w grupie) według pewnej zmiennej porównuje się w ten sposób, że dokonuje się komparacji ich wartości, osiągniętych w tej
Testowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych klasyfikacja LABORKA Piotr Ciskowski zadanie 1. klasyfikacja zwierząt sieć jednowarstwowa żródło: Tadeusiewicz. Odkrywanie własności sieci neuronowych, str. 159 Przykład
Drzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Wykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 23 maja 2018 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:
Wykład 12 Testowanie hipotez dla współczynnika korelacji
Wykład 12 Testowanie hipotez dla współczynnika korelacji Wrocław, 24 maja 2017 Współczynnik korelacji Niech będą dane dwie próby danych X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y n ). Współczynnikiem
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-11 1 Modelowanie funkcji logicznych
WYKŁAD 3. Klasyfikacja: modele probabilistyczne
Wrocław University of Technology WYKŁAD 3 Klasyfikacja: modele probabilistyczne Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy
Wnioskowanie bayesowskie
Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
Ankieta. Informacje o uczestniku. Imię i nazwisko: Stanowisko : Warsztat Innowacyjne metody dydaktyczne (np. learning by doing, design thinking)
Szanowni Państwo, w związku z uruchomieniem szkoleń w ramach projektu Rozwój kompetencji kadry akademickiej Wyższej Szkoły Menedżerskiej zwracamy się z prośbą o wypełnienie niniejszej ankiety. Ankieta