Podobieństwo i klasyfikacja dźwięku w kontekście rekomendacji muzycznej

Wielkość: px
Rozpocząć pokaz od strony:

Download "Podobieństwo i klasyfikacja dźwięku w kontekście rekomendacji muzycznej"

Transkrypt

1 PRACA MAGISTERSKA Podobieństwo i klasyfikacja dźwięku w kontekście rekomendacji muzycznej Mariusz Kleć nr albumu: s3547 Kierunek: Informatyka Specjalność: Multimedia Promotor: prof. dr hab. Krzysztof Marasek Warszawa, 2010

2 Pracę tę dedykuję mojemu Bratu oraz Rodzicom.

3 Spis treści Spis treści CEL PRACY... 5 WSTĘP TECHNIKI GENEROWANIA PLAY LIST MUZYCZNYCH TECHNIKI STANDARDOWE TECHNIKI OPARTE NA METADANYCH INTERNETOWYCH PLAY LISTY OPARTE O ANALIZĘ POWIĄZAŃ SPOŁECZNYCH PLAY LISTY OPARTE O ANALIZĘ SYGNAŁU AUDIO MIARY PODOBIEŃSTWA CO TO JEST PODOBIEŃSTWO? PODOBIEŃSTWO WARTOŚCI BINARNYCH Odległość Hamminga Prosty współczynnik dopasowania i odległości Współczynnik Jaccarda PODOBIEŃSTWO WARTOŚCI LICZBOWYCH Odległość Euklidesowa Odległość city block Odległość Czebyszewa Odległość Canberra Odległość Bray Curtis Kosinus kąta między wektorami Współczynnik korelacji Odległość Mahalanobisa NORMALIZACJA Z wykorzystaniem funkcji sigmoidalnej unipolarnej Z wykorzystaniem wartości maksymalnej i minimalnej Gdy wartość maksymalna jest nieznana Normalizacja wartości ujemnych Standaryzacja PODSUMOWANIE KLASYFIKACJA MUZYCZNA CZYM JEST KLASYFIKACJA? TRENING I TESTOWANIE KLASYFIKATORA PREDYKCJA KRYTERIA PORÓWNAWCZE METODY UCZENIA MASZYNOWEGO K najbliższych sąsiadów (k-nn) Naiwny klasyfikator Bayesa Metoda wektorów nośnych SVM Drzewa decyzyjne

4 3.5.5 Sieci neuronowe Ada-Boost Bagging PODSUMOWANIE PAKIET PROGRAMÓW JMIR FRAMEWORK ACE JAUDIO OPIS DESKRYPTORÓW DOSTĘPNYCH W PROGRAMIE JAUDIO JWEBMINER PODSUMOWANIE EKSPERYMENT KLASYFIKACJI MUZYKI OPIS EKSPERYMENTU PRZEBIEG EKSPERYMENTU WNIOSKI PROGRAM PLAY LIST GENERATOR INSTALACJA PROGRAMU Instalacja bibliotek zewnętrznych Rejestracja sterownika źródła danych Uruchomienie programu OPIS INTERFEJSU UŻYTKOWNIKA Menedżer bazy danych Play lista OPIS OPCJI POMIARU PODOBIEŃSTWA STRUKTURA KODU I IMPLEMENTACJA ANALIZA SKUTECZNOŚCI PROGRAMU ŚRODOWISKO BADAWCZE PRZEBIEG BADAŃ WYNIKI BADAŃ WNIOSKI PODSUMOWANIE DODATEK A: OBLICZENIA PODOBIEŃSTWA PLAY LIST DODATEK B: SZCZEGÓŁOWY OPIS PROGRAMU JWEBMINER DODATEK C. KOD FUNKCJI GENERUJĄCEJ PLAY LISTĘ DODATEK D. LISTA UTWORÓW W EKSPERYMENCIE DODATEK E. SPIS ZAWARTOŚCI DOŁĄCZONEJ PŁYTY CD BIBLIOGRAFIA

5 Cel pracy Dzięki coraz większym i tańszym urządzeniom magazynującym, osobiste kolekcje muzyczne rozrastają się dziś w nadzwyczajnym tempie. Technologie mobilne umożliwiają ściąganie całych kolekcji muzycznych i przenoszenie ich w kieszeni słuchacza. Odtwarzacze MP3 mogą przechowywać z łatwością ponad utworów. Wybór ulubionych utworów jest zadaniem nierzadko frustrującym, nużącym, a przede wszystkim nieefektywnym. Niezwykle trudnym staje się wybór muzyki na różne okazje. Następujące po sobie utwory powinny pasować do siebie, brzmieć podobnie lub przynajmniej posiadać wspólne cechy. Cieszące się powodzeniem rozgłośnie radiowe dbają o to, aby ich program radiowy charakteryzował się określonym typem muzyki oraz dużym zróżnicowaniem, aby utrzymać słuchaczy. Systemy rekomendacji muzycznej działają na podobnej zasadzie, próbując dobierać odpowiedni zestaw utworów na daną okoliczność. Aby było to jednak możliwe, niezbędne są badania nad dwoma kluczowymi tematami w tej dziedzinie: pomiarem podobieństwa między utworami oraz ich klasyfikacją.

6 Wstęp We wszystkich okresach swego rozwoju historycznego ludzkość tworzyła muzykę. Stała się ona bogatym źródłem natchnienia dla wielkich myślicieli. Muzyka została elementem filmów, wydarzeń sportowych, ceremonii religijnych, klubów nocnych, a nawet zakupów w supermarketach. Człowiek podczas konfrontacji z dźwiękami dokonuje ich oceny, na którą wpływa m.in. stan emocjonalny. Nawet osoby niewykształcone muzycznie, mogą świadomie lub podświadomie wyrabiać sobie szybko poglądy i oceniać muzykę, również na podstawie niewielkich jej fragmentów. Poglądy te mogą dotyczyć takich cech jak styl muzyczny, wykonawca, rytm, wpływ emocjonalny itp. [1]. Zbudowanie algorytmu o zdolnościach tworzenia poglądów podobnych do tych, które tworzą ludzie jest niezwykle trudne. Istnieją jednak pewne modele komputerowe, wyjaśniające tą kwestię. Mogą one być wykorzystane do budowy mechanizmu szacującego podobieństwo dwóch utworów muzycznych. Stąd jest już bliska droga do zbudowania systemu rekomendującego muzykę na podstawie preferencji muzycznych słuchacza lub całych społeczności. Zanim to jednak nastąpi, musimy nauczyć maszynę słuchania muzyki. Do tego celu niezbędne jest dogłębne zrozumienie percepcji muzycznej człowieka. Badania w tym kierunku doprowadziły do powstania algorytmów ekstrakcji cech muzycznych (deskryptorów) z sygnału dźwiękowego. W Internecie znaleźć można wiele serwisów rekomendujących muzykę. Dobrym przykładem jest firma Apple i należący do niej sklep muzyczny itunes Store 1 (ang. itunes Music Store), oferujący liczne sposoby odkrywania muzyki. Sposoby te polegają m.in. na śledzeniu, czego słuchają inni, wnioskowaniu upodobań muzycznych klienta na podstawie wcześniej pobranych utworów itp. Żaden inny ze znanych sposobów dystrybucji muzyki nie może konkurować z nieograniczonym dostępem, wysoką skutecznością rekomendacji oraz z nieprzerwaną dostępnością 24 godziny na dobę. Ponadto, istnieje liczna grupa serwisów oferujących dostęp do olbrzymich kolekcji muzycznych za darmo lub prawie za darmo. Serwisy te zwykle przybierają formę spersonalizowanych stacji radiowych. Są to między innymi Launchcast 2 firmy Yahoo!, Last.fm 3 oraz Pandora 4. Ten ostatni dostępny jest jednak tylko na terytorium U.S.A

7 Wstęp Ogólnie rzecz ujmując, narzędzia, które wzbogacają doświadczenia związane z słuchaniem muzyki, rozwijają się bardzo szybko. W tym kontekście pomiar podobieństwa, klasyfikacja utworów oraz programy opisane w tej pracy magisterskiej stanowią jedynie niewielką cegiełkę w dążeniu do tego celu. Z całą pewnością podniosą natomiast świadomość używanych metod i algorytmów, których działanie często utrzymane jest w tajemnicy przez firmy będące właścicielami wyżej opisanych systemów. Niezwykle ważną rolę na tym polu odgrywają coroczne konferencje ISMIR 5 (ang. International Conference on Music Information Retrieval) zajmujące się interdyscyplinarną dziedziną nauki, jaką jest wyszukiwanie informacji muzycznej (ang. Music Information Retrieval, MIR). Liczne prace i tematy związane z konferencją ISMIR 6 znalazły wiele zastosowań w projektach akademickich i przemysłowych (m.in. w last.fm). Szczególną popularnością cieszy się system Marsyas 7 (ang. Music Analysis, Retrieval and Synthesis for Audio Signals), którego projektantem jest George Tzanetakis. Marsyas rozwijany jest od 1998 roku. Służy do przetwarzania sygnału audio, ze szczególnym uwzględnieniem zagadnień związanych z wyszukiwaniem informacji muzycznej. W programie zintegrowany został system klasyfikacji oraz ekstrakcji cech muzycznych. By to pierwszy darmowy program tego typu. Kolejnym ciekawym przedsięwzięciem jest projekt o nazwie CLAM uniwersytetu Pompeu Fabra 8. Służy do analizy oraz syntezy sygnału audio. Nie został on jednak przystosowany do wykorzystania wyekstrahowanych za jego pomocą cech muzycznych w innych systemach. Ostatnim z projektów, na który warto zwrócić uwagę, jest program Sonic Annotator 9. Służy do ekstrakcji cech muzycznych z sygnału audio, wykorzystując przy tym wtyczki Vamp plugins 10. Wtyczki te rozszerzają funkcjonalność Sonic Annotator oraz programu do wizualizacji i analizy dźwięku Sonic Visualizer 11. Pozwalają m.in. na szacowanie tempa utworu, śledzenie wysokości dźwięku oraz ekstrakcję niskopoziomowych deskryptorów dźwiękowych

8 Niniejsza praca magisterska została podzielona na pięć rozdziałów. Pierwszy z nich omawia metryki pomiaru podobieństwa dwóch wektorów będących deskryptorami muzycznymi. W rozdziale drugim przedstawiono ogólne informacje związane z klasyfikacją, ze szczególnym uwzględnieniem klasyfikacji muzyki. Rozdział trzeci bardzo szczegółowo opisuje narzędzia wykorzystane podczas budowy autorskiego programu oraz przeprowadzania eksperymentów. W rozdziale czwartym opisano przeprowadzony eksperyment klasyfikacji 10 utworów muzycznych, z wykorzystaniem 7 różnych klasyfikatorów. Rozdział piąty opisuje autorski program Play List Generator, służący do generowania play list muzycznych, wykorzystujący podobieństwo utworów obliczone na podstawie przeszukiwania sieci Web. Program ukierunkowany jest na jego przyszły rozwój, w którym przewiduje się implementację wszystkich technik opisywanych w tej pracy.

9 1 Techniki generowania play list muzycznych Pojęcie play listy może być zdefiniowane, jako skończony zbiór sekwencyjnie ułożonych utworów muzycznych. Bazując na tej definicji, można wyróżnić trzy istotne atrybuty związane z play listami. Atrybutami tymi są: poszczególne utwory zawarte w play liście, ich ilość oraz kolejność, w której występują. Poszczególne utwory występujące w play liście są głównym celem, dla którego play lista jest tworzona. Utwory te powinny spełniać określone oczekiwania słuchacza bądź słuchaczy. Kolejność występowania utworów powinna odwzorowywać pewien porządek przejść między utworami np. począwszy od szybkich a skończywszy na wolnych utworach. Ilości utworów umożliwia określenie długości trwania całej play listy [3]. Automatyczne generowanie play list wymaga zainicjowania pewnych początkowych działań przez użytkownika. Przede wszystkim, musi on w jakiś sposób określić, czego chciałby słuchać. To początkowe określenie dotyczące np. stylu muzycznego może być przeprowadzone w sposób, w którym użytkownik dostarcza pewnego rodzaju wzoru muzycznego np. za pomocą swoich ulubionych artystów, lub innych warunków opisujących muzykę, której chciałby posłuchać. Zagadnienie to jest jednak dość skomplikowane, ponieważ definicja gatunku muzycznego jest bardzo subiektywna a większość muzyki nie należy tylko i wyłącznie do jednego gatunku. Bardzo często są one mieszaniną różnych styli [2]. Jednym ze sposobów automatycznej generacji play list jest narysowanie ścieżki na mapie, będącej wizualizacją muzycznej bazy danych. Na takiej mapie utwory podobne są skupione wokół siebie. Stopień skupienia utworów mierzony jest za pomocą technik pomiaru podobieństwa. Przykładem takiego podejścia jest aplikacja zwana PlaySom [4]. Kolejną techniką, która może być wykorzystana do automatycznej generacji play list jest technika polegająca na dostarczeniu tzw. utworu wzorcowego (ang. query-by-example), który powinien wskazać styl muzyczny dla pozostałych utworów w play liście. Bazując na utworach wzorcowych, generator play list próbuje odnaleźć najbardziej podobne utwory w całej kolekcji muzycznej. Utwory te są następnie sortowane względem podobieństwa tworząc ostateczną play listę. W pracy Beth Logan [5] znajduje się ewaluacja tej techniki wraz z technikami analizy podobieństwa. Elias Pampalk rozwija tą technikę wprowadzając dodatkowo analizę przeskakiwanych (opuszczonych) utworów podczas odsłuchiwania play

10 listy [6]. Opuszczone utwory dostarczają negatywnego sygnału zwrotnego, natomiast utwory odsłuchane do końca traktowane są w kategoriach pozytywnego sygnału zwrotnego. Za pomocą analizy sygnałów zwrotnych, przyszłe play listy mogą być ulepszane a co za tym idzie jeszcze bardziej odpowiadać preferencjom muzycznym słuchacza. 1.1 Techniki standardowe Techniki standardowe polegają zwykle na metadanych, takich jak gatunek, liczba już odegranych utworów, ocena utworu przez użytkownika (ang. rating) itp. Zwykle informacje te są zakodowane w pliku w postaci znaczników ID3, lub są generowane w wyniku interakcji użytkownika z odtwarzaczem. Następnie informacje te są używane przez odtwarzacz muzyczny do sortowaniu lub wyszukiwania muzyki. Metoda ta działa poprawnie pod warunkiem, że wszystkie utwory są dobrze opisane i sklasyfikowane przez użytkownika. Typowo, strategia ta zawodzi, ponieważ standardowe kolekcje muzyczne są zwykle słabo opisane pod kątem gatunku muzycznego lub są po prostu są za duże, aby je ręcznie opisywać i klasyfikować. 1.2 Techniki oparte na metadanych internetowych Jest to bardziej inteligentny sposób wychodzący naprzeciw wadom technik standardowych. Sposób ten polega na użyciu Internetu w celu uzyskania dodatkowych metadanych na temat utworu. Tak zebrane informacje mogą być następnie użyte do generowania play list. Technika ta działa dość dobrze na poziomie nazwisk artystów, ponieważ informacje na ich temat są szeroko rozpowszechnione w Internecie. Technika nie działa zadowalająco, jeśli szacowanie podobieństwa odbywa się na poziomie porównania indywidualnych piosenek. Takie informacje dość rzadko występują w Internecie, w porównaniu z informacjami o artystach. Dokładniej techniki te opisane zostały m.in. w następujących pracach: Brian Whitman i Paris Smaragdis [7] oraz Jean-Julien Aucouturier i Francois Pachet [8]. 1.3 Play listy oparte o analizę powiązań społecznych Jest to dość nowa technika zbierająca informację na temat gustów muzycznych pewnej społeczności użytkowników. Społecznościowe muzyczne serwisy internetowe wymagają od użytkownika założenia jego własnego profilu. Po tej czynności, za pomocą usług sieciowych możliwe jest sklasyfikowanie preferencji użytkownika poprzez porównanie jego profilu z profilami inny użytkowników. Rodzajem tej techniki jest tzw. technika

11 Techniki generowania play list muzycznych kolaborująca (ang. collaborative filtering) (Rys. 1.1). Przyjmuje ona założenie, jeśli słuchacz ma wiele wspólnego z słuchaczem w kategoriach ich kolekcji muzycznej, to posiadają oni podobny gust muzyczny. W rezultacie system poleci utwory słuchaczowi z kolekcji muzycznej słuchacza i na odwrót. Jeśli z kolei słuchacz posiada kolekcję muzyczną, która ma niewiele wspólnego z kolekcjami słuchaczy i, żaden utwór nie będzie rekomendowany z kolekcji słuchacza [9] [3]. Przykładem serwisu internetowego, który wykorzystuje wyżej opisaną technikę jest last.fm 12 kolekcjonujący informacje na temat zwyczajów słuchania muzyki i porównujący wyniki z innymi użytkownikami serwisu. Rysunek 1.1 Zobrazowanie techniki kolaborującej [3]. Słuchacz A ma wiele wspólnego z słuchaczem B w przeciwieństwie do słuchacza C. Słuchaczowi A będą polecane utwory słuchacza B i na odwrót. Żaden utwór nie będzie polecany z bazy muzycznej słuchacza C. 1.4 Play listy oparte o analizę sygnału audio Metoda ta polega na komputerowej ekstrakcji cech muzycznych z sygnału audio. Cechy te nazywane są deskryptorami i zwykle reprezentowane są przez wartości numeryczne. Jeśli dwa wektory cech muzycznych (deskryptorów) są do siebie podobne, utwory powinny brzmieć podobnie w tym aspekcie, w którym deskryptor próbuje opisać sygnał audio. Jest to sposób na porównanie dwóch utworów między sobą lub na ich uporządkowanie. Ekstrakcja cech jest zwykle dość trudnym zadaniem, ponieważ deskryptory powinny

12 odpowiadać aspektom odbierania dźwięku przez człowieka [10]. Spośród wszystkich metod generowania play list, metoda ta posiada najwięcej zalet, jako że rezultaty jej nie zależą od opinii innych użytkowników, tak jak w przypadku sieci społecznych czy opisów utworów jak w przypadku technik standardowych i technikach opartych na metadanych Internetowych.

13 Miary podobieństwa 2 Miary podobieństwa Rozważania nad czystym podobieństwem utworów są wysoce interesujące i dyskusyjne zarazem, jako iż ujawniają wiele pytań, na które odpowiedź nie jest jednoznaczna. W jaki sposób określić podobieństwo? Czy podczas pomiaru podobieństwa powinniśmy również rozważać różnice? W jaki sposób oceniać i mierzyć systemy analizujące podobieństwo? W rozdziale tym przedstawiony zostanie szereg miar, służących do pomiaru podobieństwa dwóch wektorów liczbowych. Są to miary niezwykle istotne z punktu widzenia pomiaru podobieństwa utworów muzycznych, jako iż utwór muzyczny, w świecie komputerowym, może być reprezentowany tylko w postaci wektora pewnych liczb. 2.1 Co to jest podobieństwo? Przypuśćmy, iż mamy cztery obiekty reprezentujące gwiazdy (Rys. 2.1). Które z nich są podobne a które różne? Rysunek 2.1 Przykład obrazujący podobieństwo dwóch obiektów [ 13 ] A B C D Można powiedzieć, że gwiazda A jest podobna do gwiazdy C. Gwiazdy A, B i C mają ten sam rozmiar, podczas gdy gwiazdy A, C i D mają ten sam kolor. Cechy, jakie użyjemy do pomiaru podobieństwa w tym przypadku to kolor i wielkość. Podobieństwo jest wielkością, która odzwierciedla siłę związku pomiędzy dwoma obiektami lub dwoma ich deskryptorami. Kiedy zapytamy, w jaki sposób odróżnić dwa różne typy dźwięku, usłyszymy bardzo różne odpowiedzi dotyczące jego cech. Nawet, jeśli potrafimy nazywać owe cechy, są one w dalszym ciągu abstrakcją, którą trudno zmierzyć, a tym bardziej wydobyć z sygnału audio. Muzycy na przykład, określają różnice pomiędzy dwoma rodzajami gatunków muzycznych, posługując się terminami: tonacja, rytm czy brzmienie. Niestety, deskryptory wysokiego poziomu, takie jak wspomniane powyżej, są w ogólności

14 trudne do wydobycia z sygnału audio w sposób bezpośredni. Oznacza to, iż zawsze należy przynajmniej zacząć od deskryptorów niskiego poziomu. Deskryptory niskiego poziomu są przedstawiane w postaci wektora wartości liczbowych. Dopiero w takiej postaci możemy mierzyć ich podobieństwo. Jest ono zwykle podawane w wartościach z przedziału <-1, 1> lub w znormalizowanej postaci w przedziale <0, 1>. Podobieństwo pomiędzy wektorem cech a wektorem można mierzyć w różny sposób w zależności od rodzaju danych, które posiadamy. Mówiąc o podobieństwie nie sposób nie wspomnieć o odległości, które w tym przypadku jest synonimem słowa różnica. Niech znormalizowana odległość pomiędzy obiektem a obiektem będzie oznaczona jako. Odległość jest wartością liczbową, która spełnia przynajmniej trzy pierwsze spośród niżej wymienionych warunków [11]: 0 - odległość jest zawsze większa bądź równa 0. = 0 - odległość jest równa 0, gdy porównujemy obiekt sam ze sobą. = - odległość jest symetryczna. + odległość spełniająca nierówność trójkąta (Rys. 2.2). Rysunek 2.2 Ilustracja właściwości trójkąta Przy założeniu, że podobieństwo przyjmuje wartości z zakresu <0, 1>, związek pomiędzy podobieństwem a odległością jest następujący: = 1 (1) Gdy podobieństwo jest równe 1 (obiekty są identyczne), odległość jest równa 0 i odwrotnie. Gdy wartość podobieństwa posiada wartości z przedziału <-1, 1>, a odległość w przedziale <0, 1>, wtedy zachodzi następująca zależność: = 1 2 (2)

15 Miary podobieństwa Kiedy różnica wynosi 1 (obiekty nie mają ze sobą nic wspólnego), podobieństwo wynosi 1 i na odwrót. W wielu przypadkach, pomiar odległości jest prostszy od pomiaru podobieństwa. Kiedy obliczymy odległość, można ją znormalizować i w prosty sposób przekonwertować na miarę podobieństwa. Z tego powodu, dalsze rozważania w tym rozdziale będą dotyczyły zarówno odległości jak i podobieństwa. 2.2 Podobieństwo wartości binarnych Obiekty, wobec których dokonujemy pomiaru podobieństwa, mogą zawierać wartości binarne takie jak: obecny i nieobecny, tak, nie, 0, 1 itp. Dla takich danych istnieją tylko dwie możliwe wartości, które są reprezentowane przez wartości logiczne prawda i fałsz. Podobieństwo lub odległość (różnica) dwóch obiektów reprezentowanych przez wartości binarne, może być mierzona w kategoriach częstości występowania pozytywnych i negatywnych wartości w każdym z obiektów. Aby przedstawić miary podobieństwa wartości binarnych, konieczne jest wprowadzenie pewnych oznaczeń oraz przykładu, na którym dokonywane będą obliczenia w celu zobrazowania działania poszczególnych miar podobieństwa. Przykładem niech będą dwa utwory z następującymi cechami binarnymi (Tab. 2.1): Tabela 2.1 Dwa obiekty (utwory muzyczne) z przykładowymi cechami binarnymi Piosenka Wesoła Wolna Zagraniczna Instrumentalna Obiekt Within Temptation Mother Earth Obiekt Apocalyptica Nothing Else Matters NIE NIE TAK NIE NIE TAK TAK TAK Koordynatem (deskryptorem) obiektu jest wektor (0,0,1,0). Dla obiektu jest to wektor (0,1,1,1). Każdy z obiektów jest reprezentowany przez cztery zmienne, dlatego też mówimy, że deskryptory obiektów są czterowymiarowe. Przyjmijmy następujące oznaczenia do dalszych rozważań: Liczba pozytywnych zmiennych dla obydwu obiektów jednocześnie. Liczba zmiennych, które są pozytywne jednocześnie dla -tego obiektu i negatywne dla -tego obiektu. Liczba zmiennych, które są negatywne jednocześnie dla -tego obiektu i pozytywne dla -tego obiektu. Liczba zmiennych, które są negatywne dla obydwu obiektów jednocześnie. 15

16 = Suma wszystkich wyżej opisanych zmiennych. Dla przykładu powyżej, mierząc podobieństwo między utworem a utworem otrzymujemy następujące wartości wyżej opisanych zmiennych: = 1, = 0, = 2, = 1 (3) Zmienne te będą stanowić bazę do dalszych rozważań Odległość Hamminga Określona sekwencja zer i jedynek nazywana jest słowem kodowym. Jeśli dwa słowa mają tę samą długość, możemy policzyć liczbę pozycji, przy których występuje różnica w wartościach zmiennych. Wielkość ta nazywana jest odległością Hamminga (ang. Hamming distance) [11]. Wzór na tę odległość przedstawia się następująco: Kodując wartości z tabeli 2.1 otrzymujemy (Tab. 2.2): = + (4) Tabela 2.2 Zakodowane wartości cech z Tabeli 2.1. Wartości w wierszu Różnica przyjmują wartość 1 gdy zmienne dla dwóch obiektów są różne. W przeciwnym przypadku przyjmują wartość 0. Obiekt Obiekt Różnica Widzimy, iż = 0 i = 2, więc = 2. Odległość Hamminga podzielona przez długość słowa (liczba wszystkich zmiennych) da nam prostą odległość dopasowania (ang. Simple matching distance) Prosty współczynnik dopasowania i odległości Prosty współczynnik dopasowania (ang. Simple matching coefficient) oraz prosty współczynnik odległości (ang. Simple matching distance) są szczególnie użyteczne, gdy informacje reprezentowane przez pozytywne i negatywne wartości są symetryczne względem siebie. Przykładem może być płeć, która jest atrybutem symetrycznym z powodu podobnej liczby wszystkich osobników żeńskich oraz męskich [11]. Wzór na współczynnik dopasowania wygląda następująco: = + (5)

17 Miary podobieństwa Aby zmierzyć odległość bazującą na współczynniku dopasowania, skorzystamy z zależności pomiędzy odległością a podobieństwem: = 1 = 1 + = = + (6) Otrzymany wzór na odległość przedstawia się następująco: = + (7) Dla przykładu podanego we wstępie i przeprowadzeniu obliczeń otrzymujemy następujące współczynniki podobieństwa i różnicy dla obiektu oraz obiektu : = 1 2 (8) = Współczynnik Jaccarda Współczynnik podobieństwa Jaccarda (ang. Jaccard s coefficient) oraz współczynnik odległości Jaccarda (ang. Jaccard s distance) są miarami odpowiednimi dla asymetrycznych informacji nie tylko binarnych. Dla niektórych zastosowań, wykorzystanie prostego współczynnika dopasowania (ang. Simple matching coefficient) nie ma sensu. Jest tak w przypadku, gdy pozytywne i negatywne wartości nie niosą ze sobą równej informacji (są asymetryczne). Na przykład, jeśli z semantycznego punktu widzenia, negatywna wartość jest nieistotna, obliczanie czegoś, co jest nieistotne w obu obiektach prowadzi do niewiarygodnych wyników. Dlatego też, współczynnik Jaccarda przedstawia nowy wzór na podobieństwo obiektów [11]: = + + (9) Wyprowadzenie wzoru na odległość przedstawia się następująco: = 1 = = + + = (10) Otrzymujemy w ten sposób: = (11) 17

18 Po przeprowadzaniu obliczeń dla przykładu z początku rozdziału otrzymujemy następujące wyniki: = 1 3 (12) = 2 3 (13) Dla danych niebinarnych, współczynnik Jaccarda może być także obliczany wykorzystując następującą relację: = (14) Przypuśćmy że mamy dwa zbiory = 7,3,2,4,1 oraz = 4,1,9,7,5. Suma tych zbiorów wynosi = 1,2,3,4,5,7, 9, część wspólna natomiast to: = 1,4, 7. Wyznaczanie współczynnika Jaccarda może odbywać się w oparciu o liczbę elementów w zbiorze części wspólnej podzielonym przez liczbę elementów w zbiorze sumy. = = 3 = 0,429 (15) Podobieństwo wartości liczbowych Załóżmy, że mamy dwa utwory muzyczne oraz wektory cech, których wartości reprezentowane są przez zmienne o wartościach liczbowych (Tab. 2.3). Tabela 2.3 Przykład dwóch obiektów (utworów muzycznych) z przykładowymi cechami liczbowymi Piosenka (1) (2) (3) (4) Obiekt Blues Brothers - How Blue Can you Get Obiekt Brian Adams - Summer of 69 8,517 6,692 3,822 2,026 7,034 6,899 3,308 1,760 Obiekt posiada koordynaty: (8,517, 6,692, 3,822, 2,026). Koordynaty dla obiektu są następujące: (7,034, 6,899, 3,308, 1.760). W dalszej części rozdziału zostaną przedstawione sposoby pomiaru podobieństwa dwóch wektorów zawierających dane liczbowe, posługując się przytoczonym przykładem.

19 Miary podobieństwa Odległość Euklidesowa Odległość Euklidesowa (ang. Euclidean Distance) jest najczęściej używaną miarą do pomiaru odległości np. dwóch punktów. Odległość Euklidesową definiuje się, jako pierwiastek z kwadratu różnicy pomiędzy parami wartości zmiennych [11]: = (16) Dla przykładu z początku rozdziału, odległość Euklidesowa wynosi: = 2, , , ,070 = 1,604 (17) Odległość city block Miara ta znana jest także pod innymi angielskimi nazwami: Manhattan distance, boxcar distance lub absolute value distance. Oblicza wartość absolutną różnicy par zmiennych dwóch koordynatów [11]. = (18) Dla przykładu z początku rozdziału otrzymujemy: = 1, , , ,266 = 2,47 (19) Odległość Czebyszewa Odległość Czebyszewa (ang. Chebyshev Distance) jest znana także jako odległość wartości maksymalnej. Odległość ta bierze pod uwagę maksimum z wartości absolutnej różnicy par zmiennych dwóch koordynatów [11]. = max (20) Dla przykładu z początku rozdziału, odległość Czebyszewa wynosi: = 1,483, 0,207,0,514,0,266 = 1,483 (21) 19

20 2.3.4 Odległość Canberra Odległość Canberra (ang. Canberra distance) jest określone przez sumę ułamków:. Jeśli jedna ze zmiennych wynosi zero, druga zmienna nie ma żadnego znaczenia w obliczaniu odległości. Metryka ta jest bardzo wrażliwa na małe zmiany, gdy oba koordynaty są bliskie zeru [11]. = + (22) Dla przykładu z początku rozdziału, odległość Canberra wynosi: = 1,483 15, ,207 13, ,514 7,13 + 0,266 = 0,252 (23) 3, Odległość Bray Curtis Odległość Bray Curtis (ang. Bray Curtis distance) jest nazywana czasami Sorensen distance. Posiada ciekawą właściwość: jeśli wszystkie koordynaty są większe od zera, wyjściowa wartość znajduje się w przedziale <0, 1>. Odległość ta jest w pewnym stopniu metodą normalizacji. Zero reprezentuje dokładnie identyczne obiekty. Jeśli oba koordynaty posiadają wartości równe zero wtedy miara nie jest zdefiniowana. Normalizacja jest realizowana poprzez użycie różnicy absolutnej podzielonej przez sumę poszczególnych par zmiennych [11]. = + (24) Dla przykładu z początku rozdziału, odległość Bray Curtis wynosi: = 1, , , ,266 = 0,061 (25) 15, , ,13 + 3, Kosinus kąta między wektorami Mierzy raczej podobieństwo niż odległość. Im większa wartość separacji kątowej, tym dwa obiekty są do siebie bardziej podobne. Wartości występują w przedziale <-1, 1> podobnie jak funkcja kosinus [11].

21 Miary podobieństwa = (26) Dla przykładu z początku rozdziału, separacja kątowa wynosi: = = 59, , , , , ,112 = 122,284 = 0,994 (27) 122, Współczynnik korelacji Współczynnik korelacji jest ujednoliconą miarą separacji kątowej, poprzez wycentrowanie koordynatów do ich wartości średnich. Wartości występują w przedziale <-1, 1>. Współczynnik ten jest raczej współczynnikiem podobieństwa niż odległości. = =, = (28) Dla przykładu z początku rozdziału, otrzymujemy: = 1 8, , , ,026 = 5,264 4 = 1 7, , , ,760 = 4,75 4 (29) = = 7, , , ,681 25,184 20,853 = 22,257 22,916 = 0, Odległość Mahalanobisa Odległość Mahalonobisa (ang. Mahalanobis distance) jest odległością pomiędzy dwoma wektorami i, dla zadanej macierzy kowariancji. Odległość Mahalanobista różni się od odległości Euklidesowej tym, iż dodatkowo bierze pod uwagę korelację zmiennych wchodzących w skład porównywanych wektorów. Z tego powodu, miarę tę nazywa się często ważoną odległością Euklidesową, z macierzą wag, będącą macierzą odwrotną do macierzy kowariancji jednego z wektorów [12]. 21

22 , = (30) Macierz kowariancji jest uogólnieniem pojęcia wariancji na przypadek wielowymiarowy. Dla wektora,,,, macierz kowariancji przyjmuje postać: (31) gdzie: = - wariancja zmiennej =, - kowariancja między zmiennymi i. 2.4 Normalizacja Proces przekształcenia wyników na wartości z przedziału <0, 1> jest nazywany normalizacją. Załóżmy, iż wartość odległości znajduje się w przedziale <, > i nie znajduje się w przedziale <0, 1>. Przyjmijmy następujące oznaczenia - oryginalna odległość - odległość znormalizowana Istnieje kilka sposobów na normalizację odległości. Z zasady, aby sprowadzić sekwencję liczb do przedziału <0, 1> powinniśmy posiadać wartości w formie dodatniej i podzielić przez liczbę wyższą od tej wartości [11] Z wykorzystaniem funkcji sigmoidalnej unipolarnej Jednym ze sposobów normalizacji jest wykorzystanie następującej funkcji: = + (32) Zmienna reprezentuje wartości z przedziału <-1, 1> dla 0. Ustawienie większej wartości tworzy wykres o bardziej łagodnym zboczu funkcji (Rys 2.3). Za pomocą następującego wzoru, funkcja być w prosty sposób przetransformowana na wartości z przedziału <0, 1>.

23 Miary podobieństwa = 1 2 (33) Co w połączeniu z oryginalnym wzorem daje: = (34) Rysunek 2.3 Wykres funkcji sigmoidalnej unipolarnej 14 W ogólności, kiedy < 0 wtedy > 0.5. Jeśli > 0, wówczas < 0.5. Dla = 0 funkcja produkuje wartości binarne 0 lub 1 z brakiem jej ciągłości dla = 0 [11]. Dla przykładu, jeśli = 4 i = 100 otrzymamy: = = 0,685 (35) Z wykorzystaniem wartości maksymalnej i minimalnej Kiedy wartość maksymalna i minimalna jest znana, transformacja może wyglądać następująco: = (36) Transformacja zwraca wartości z przedziału <0, 1>. Jeśli =, wtedy = 0. Jeśli = wtedy = 1. Należy jednak zwrócić uwagę, iż dzielenie nie może zostać wykonane, jeśli = 0 [11]

24 2.4.3 Gdy wartość maksymalna jest nieznana W przypadku, gdy w wektorze zmiennych nie znamy wartości maksymalnej, możemy użyć sumy wartości zmiennych, aby zastąpić wartość maksymalną [11]. Przypuśćmy, że ilość zmiennych jest stała i wynosi, wtedy: = (37) Normalizacja wartości ujemnych Wszystkie powyższe transformacje działają pod warunkiem, że nasze dane mają wartości większe od 0. Dla następującego wektora {-1,3,4} suma wynosi 6. Jeśli dokonamy normalizacji przy pomocy wartości maksymalnej otrzymamy:,,. Suma znormalizowanych wartości nadal jest większa od 0, ale wciąż w znormalizowanym wektorze istnieje wartość ujemna (. Rozwiązaniem jest przesunięcie danych poprzez dodanie do każdej zmiennej wartości bezwzględnej z najmniejszej wartości ujemnej. Po tej transformacji otrzymamy 0 w miejscu najmniejszej wartości ujemnej oraz wszystkie pozostałe wartości większe od zera. Wtedy można użyć jednego z wyżej opisanych sposobów normalizacji danych [11]. Dla przykładu, dla danych {-1,3,4}, najmniejszą wartością ujemną jest -1. Po dodaniu wartości bezwzględnej z -1 do pozostałych wartości otrzymamy: {0,4,5}. Po znormalizowaniu otrzymamy wektor: {0,, } Standaryzacja Standaryzacja jest również nazywana normalizacją statystyczną. Celem tej normalizacji jest przekształcenie danych o dowolnym rozkładzie do postaci rozkładu normalnego ze średnią zero i wariancją 1. Wzór normalizacji statystycznej przedstawia się następująco: = (38) gdzie: - wektor początkowych danych średnia - odchylenie standardowe

25 Miary podobieństwa 2.5 Podsumowanie Pomimo, iż istnieje wyraźna różnica pomiędzy klasyfikacją a podobieństwem muzycznym, te dwie dziedziny nie są od siebie aż tak bardzo odległe. Podstawową różnicą w przypadku klasyfikacji jest fakt, iż wymaga ona ustalenia z góry pewnej taksonomii. Badania nad podobieństwem natomiast wyznaczają określone miary, bez konieczności odnoszenia się do zewnętrznych struktur. Jest jednak jeden wspólny obszar w obydwu przypadkach. Mianowicie, wymagane jest zastosowanie tego samego mechanizmu ekstrakcji cech muzycznych. Jak zostało wspomniane na początku tego rozdziału, podobieństwo utworów muzycznych odzwierciedla siłę związku pomiędzy ich deskryptorami. Opis powyższego rozdziału dostarczył metod służących do pomiaru podobieństwa dwóch wektorów cech, a tym samym metod pomiaru podobieństwa utworów. Nie są to jednak jedyne sposoby. Podobieństwo może być również określane za pomocą metod uczenia maszynowego, a więc za pomocą klasyfikacji. 25

26 3 Klasyfikacja muzyczna Rozdział ten opisuje podstawowe zagadnienia związane z klasyfikacją. Opisuje sposoby działania klasyfikatorów, ich uczenie oraz testowanie. Opis nowych pojęć pozwoli lepiej orientować się w tej dziedzinie. Pod koniec rozdziału zostaną zaprezentowane najważniejsze algorytmy uczenia maszynowego, wykorzystywane do klasyfikacji przez program WEKA Czym jest klasyfikacja? Na wstępnie przytoczyć należy definicję klasyfikacji taksonomicznej, jako iż to pojęcie jest szczególnie istotne w badaniach związanych z muzyką. Klasyfikacja taksonomiczna jest to przyporządkowywanie obiektów do wcześniej zdefiniowanego zbioru kategorii (np. taksonomii) na podstawie właściwości tych obiektów. Mówiąc o klasyfikacji utworów, mamy na myśli skategoryzowanie utworów wg pewnej taksonomii (np. taksonomia gatunków muzycznych). Klasyfikacja znalazła szereg zastosowań, między innymi w rozpoznawaniu trendów na rynkach finansowych, w automatycznym rozpoznawaniu obrazów w dużych bazach danych, wspomaganiu decyzji przyznawania kredytów bankowych, itp. Znaczące zastosowanie znalazła w systemach medycznych. Przykładowo, w bazie danych medycznych znalezione mogą być reguły klasyfikujące poszczególne schorzenia, a następnie, przy pomocy tych reguł, automatycznie przeprowadzone diagnozowanie kolejnych pacjentów [13]. W niniejszej pracy, klasyfikacja znalazła zastosowanie w muzyce. Na podstawie zawartości bazy muzycznej budowany jest model (np. drzewo decyzyjne, reguły logiczne), który posłuży do klasyfikowania nowych utworów w bazie danych, lub głębszego zrozumienia istniejącego podziału kolekcji muzycznej. Głównym celem klasyfikacji jest zbudowanie formalnego modelu zwanego klasyfikatorem. Dane wejściowe w procesie klasyfikacji stanowi zbiór treningowy (zbiór przykładów, obserwacji, próbek), będący listą wartości atrybutów opisowych (tzw. deskryptorów) oraz wybranego atrybutu decyzyjnego (ang. class label attribute). W związku z wykorzystaniem zbioru treningowego, klasyfikację możemy nazwać metodą eksploracji danych z nadzorem (z nauczycielem) [13]. Klasyfikator jest modelem, który 15

27 Klasyfikacja muzyczna służy do predykcji wartości atrybutu decyzyjnego (np. gatunku muzycznego) utworów, dla których wartość tego atrybutu, tj. przydział do klasy, nie jest znana. Klasyfikacja jest procesem dwuetapowym. W pierwszym etapie konstruowany jest model (klasyfikator), opisujący predefiniowany zbiór klas. W drugim etapie klasyfikacji otrzymany model jest wykorzystywany do klasyfikacji nowych danych. 3.2 Trening i testowanie klasyfikatora Pierwszy etap klasyfikacji to nauka (trening) klasyfikatora w oparciu o zbiór treningowy. Następnie weryfikowana jest dokładność (jakość) klasyfikatora w oparciu o zbiór danych testowych. W związku z powyższym, aby zbudować klasyfikator należy podzielić bazę danych, czyli zbiór dostępnych utworów muzycznych na dwa niezależne zbiory. Pierwszy zbiór to zbiór treningowy. Na jego podstawie zbudowany zostanie model klasyfikatora. Drugi to zbiór służący do testowania modelu. Dane treningowe Algorytm klasyfikacji tempo wokal gatunek 120 chór dance 80 solo klasyka 100 solo dance 130 solo dance 60 brak klasyka 150 brak dance 120 brak klasyka 77 solo klasyka Klasyfikator (model) If tempo < 90 Or wokal = brak Then gatunek= klasyka Rysunek 3.1 Schemat budowy (nauki) klasyfikatora na podstawie danych treningowych W celu zobrazowania omówionych etapów budowy klasyfikatora, posłużmy się przykładami, takimi jak ten przedstawiony na rysunku 3.1. Załóżmy, iż baza danych zawiera informację o utworach muzycznych oraz ich gatunkach muzycznych. Baza stanowi prostą relację zawierającą trzy atrybuty: atrybut tempo, wokal, czyli rodzaj wokalu w utworze lub jego brak oraz atrybut gatunek związany z informacją o rodzaju muzycznym. Atrybut gatunek jest atrybutem decyzyjnym. Załóżmy ponadto, iż z takiej bazy wydzielono zbiór danych treningowych, przedstawiony na rysunku 3.1. Zbiór ten zostaje poddany algorytmowi klasyfikacji, który z kolei konstruuje klasyfikator. 27

28 Klasyfikator może być np. w postaci drzewa decyzyjnego, zbioru reguł decyzyjnych lub innych algorytmów uczenia maszynowego szczegółowo opisanych w podrozdziale 3.5. W przykładzie z rysunku 3.1, wynikiem działania algorytmu klasyfikacji jest klasyfikator w postaci pojedynczej reguły decyzyjnej:, Jeżeli tempo utworu jest mniejsze od 90 bpm (ang. beats per minute) lub wokal w utworze nie występuje, to utwór jest z gatunku muzyka klasyczna. Reguła ta oczywiście jest dużym uogólnieniem. Przykład ten ma jedynie na celu zobrazowanie ogólnej zasady budowy klasyfikatora. Dane testowe Klasyfikator (model) tempo wokal gatunek 125 chór dance 55 brak klasyka 100 chór dance 130 solo dance gatunek dance klasyka dance klasyka Dokładność = 75% Rysunek 3.2 Schemat testowania klasyfikatora, weryfikujący jego dokładność. W drugim etapie klasyfikacji, zwanym etapem testowania, dokonujemy weryfikacji dokładności opracowanego modelu. Weryfikacja dokładności jest realizowana w następujący sposób: dla zbioru przykładów testowych, wartości atrybutów decyzyjnych są porównywane z wartościami atrybutów generowanych przez klasyfikator. Na rysunku 3.2 przedstawiony został zbiór danych testowych, wyodrębnionych z muzycznej bazy danych. Dla podanych rekordów, klasyfikator generuje wartości atrybutu decyzyjnego, po czym następuje weryfikacja klasyfikatora. Jedną z miar weryfikujących dokładność modelu jest tzw. współczynnik dokładności (precyzja), obliczany jako procent poprawnie zaklasyfikowanych przykładów testowych [13]. Klasyfikator wygenerował następujące wartości atrybutu decyzyjnego dla zbioru testowego: dance, klasyka, dance, klasyka. Jeżeli porównamy wartości atrybutu decyzyjnego wygenerowane przez klasyfikator, z wartościami atrybutu decyzyjnego w zbiorze testowym, okazuje się, że klasyfikator poprawnie zaklasyfikował 3 z 4 przypadków a zatem współczynnik dokładności modelu wynosi 75%. Jeśli dokładność modelu jest akceptowalna, model może

29 Klasyfikacja muzyczna być użyty do klasyfikacji przyszłych danych, dla których wartość atrybutu decyzyjnego (np. gatunek muzyczny) jest nieznana. 3.3 Predykcja Jeżeli dokładność klasyfikatora jest akceptowalna, wówczas możemy go wykorzystać do klasyfikacji nowych danych. Celem klasyfikacji, jest przyporządkowanie nowych danych, dla których wartość atrybutu decyzyjnego jest nieznana, do odpowiedniej klasy. Nowe dane Klasyfikator (model) tempo wokal gatunek 34 chór? 155 brak? 125 chór? 80 brak? gatunek klasyka klasyka dance klasyka Rysunek 3.3 Schemat użycia klasyfikatora do celów predykcji wartości atrybutu decyzyjnego Na rysunku 3.3 przedstawiony został zbiór danych, dla których wartość atrybutu decyzyjnego gatunek nie jest znana. Zbiór ten poddany został procesowi klasyfikacji. W wyniku tego procesu, rozpoznane zostały następujące wartości atrybutu decyzyjnego gatunek : klasyka, klasyka, dance, klasyka. Klasyfikator zaklasyfikował nowe utwory do odpowiednich klas. Utwór z tempem 34 bpm oraz wokalem typu chór został zaklasyfikowany jako klasyka. Podobnie z utworami, które mają tempo 155 oraz 80 bpm i nie posiadają wokalu. 3.4 Kryteria porównawcze W tym punkcie zaprezentowanych zostanie kilka kryteriów, według których można oceniać dany klasyfikator [13]. Kryteria te są istotne nie tylko dlatego, aby rozważać klasyfikatory w kategoriach jakości, ale również, aby móc przeprowadzić eksperymenty na różnych typach klasyfikatorów. Dokładność predykcji (and. predictive accuracy) zdolność modelu do poprawnej predykcji wartości atrybutu decyzyjnego (klasy) nowego obiektu. 29

30 Efektywność (ang. efficiency) koszt obliczeniowy związany z wygenerowaniem i zastosowaniem klasyfikatora. Odporność modelu (ang. robustness) zdolność modelu do poprawnej predykcji klas w przypadku braku części danych lub występowania danych zaszumionych. Skalowalność (ang. scalability) zdolność do konstrukcji klasyfikatora dla dowolnie dużych danych (np. niektóre klasyfikatory są binarne). Interpretowalność (ang. interpretability): odnosi się do stopnia, w jakim konstrukcja klasyfikatora pozwala na zrozumienie mechanizmu klasyfikacji danych. 3.5 Metody uczenia maszynowego Podrozdział ten przedstawia najważniejsze algorytmy uczenia maszynowego, zaimplementowane w programie WEKA 16. Jedną z metod ulepszania obecnych metod klasyfikacji jest łączenie klasyfikatorów w zespoły. Metodę te wykorzystuje sie głównie w sytuacji, gdy klasyfikatory wykazują się dość dużą niestabilnością podczas testów z wykorzystaniem np. walidacji krzyżowej (ang. cross-validation). Walidacja krzyżowa polega na podziale zbioru dostępnych danych na dwa podzbiory treningowy oraz testowy i wykonaniu na nich odpowiednich analiz. Istniejące metody walidacji krzyżowej określają sposób podziału początkowego zbioru. Jedną z tych metod jest walidacja prosta, polegająca na losowym podziale zbioru początkowego na dwa rozłączne zbiory: uczący i testowy. Zwykle zbiór testowy stanowi mniej niż wszystkich elementów zbioru początkowego. Kolejną metodą jest walidacja -krotna, charakteryzująca się podziałem zbioru początkowego na podzbiorów. Następnie każdy z tym podzbiorów, stanowi kolejno zbiór testowy, a pozostałe razem stanowią zbiór uczący. Metoda Leave-one-out jest odmianą walidacji -krotnej. W metodzie tej, początkowy zbiór o elementach jest dzielony na podzbiorów, zawierających po jednym elemencie 17. Niestabilność klasyfikatorów objawia się dużym współczynnikiem błędów klasyfikacji. Istnieją jednak metody niwelowania takiej niestabilności, nazywane metodami stabilizacji klasyfikatorów. Do najbardziej popularnych należą bagging oraz boosting. Obie te metody zostaną omówione w tym rozdziale. Metody te, jak i inne mechanizmy opisywane poniżej, posłużą do klasyfikacji utworów muzycznych w dalszej części pracy

31 Klasyfikacja muzyczna K najbliższych sąsiadów (k-nn) Metoda najbliższych sąsiadów (ang. k-nearest neighbour) polega na przydzieleniu nowego obiektu do klasy decyzyjnej na podstawie kilku najbardziej podobnych do niego znanych obiektów. Zakładając, że obiekty przeznaczone do klasyfikacji są elementami przestrzeni R, wtedy odległość między dwoma obiektami, jest obliczana za pomocą odległości Euklidesowej:, = ( ) (39) Im mniejsza jest wartość odległości, tym obiekty uważane są za bardziej podobne. Klasyfikacja nowego obiektu polega na znalezieniu najbliższych obiektów z danych treningowych i przypisaniu mu klasy reprezentowanej przez większość spośród wyznaczonych reprezentantów [14] Naiwny klasyfikator Bayesa Jest to szeroko stosowana metoda, pozwalająca przewidzieć prawdopodobieństwo przynależności obiektów do klasy. Opiera się na twierdzeniu Bayesa: ( )= ( )( ) () (40) gdzie: obiekt, traktowany jako wektor jego atrybutów {,,, }, którego prawdopodobieństwo przynależności do klasy chcemy oszacować. - klasa, do której może należeć obiekt. ( ) - prawdopodobieństwo przynależności do klasy. ( ) - prawdopodobieństwo warunkowe (a posteriori 18 ) że obiekt posiada atrybuty {,,, }, jeśli wiadomo, że należy do klasy. () - prawdopodobieństwo, że każdy z obiektów posiada atrybuty {,,, }. Jest to tzw. prawdopodobieństwo bezwarunkowe (a priori 19 ). ( ) - prawdopodobieństwo a priori, że losowo wybrany obiekt należy do klasy

32 Prostota tej metody wynika z założenia niezależności statystycznej zmiennych. Stosując ten algorytm można osiągnąć zaskakująco dobre rezultaty. Naiwny klasyfikator Bayesa jest szczególnie odpowiedni przy dużym wymiarze wektora wejściowego. Z powodów opisanych powyżej, klasyfikator ten może być często lepszy od innych, bardziej skomplikowanych metod klasyfikacji [14]. Rysunek 3.4 Zbiór obiektów w przestrzeni dwuwymiarowej, należących do dwóch klas [14] Aby zilustrować koncepcję tego algorytmu, rozpatrzmy przykład z rysunku 3.4. Znajdują się tu obiekty zielone i czerwone. Zadaniem jest zaklasyfikowanie nowego obiektu, który może pojawić się wśród obecnych obiektów. Ponieważ zielonych obiektów jest dwa razy więcej niż czerwonych, rozsądnie będzie przyjąć, że obiekt, który jest jeszcze nieznany, będzie miał dwa razy większe prawdopodobieństwo bycia zielonym niż czerwonym. W analizie Bayesowskiej, takie prawdopodobieństwa nazywane są prawdopodobieństwami a priori. Wynikają one z posiadanych, wcześniejszych (a priori) obserwacji. W tym wypadku, chodzi o procent zielonych względem czerwonych obiektów. Prawdopodobieństwa a priori służą często do przewidywania klasy nieznanych przypadków, zanim się one pojawią. Jako iż na rysunku 3.4 wszystkich obiektów jest 60, obiektów zielonych jest 40, a czerwonych 20, to prawdopodobieństwa przynależności do odpowiednich klas wynoszą:. = 2 3 (41). = 1 3 Mając obliczone prawdopodobieństwo można przystąpić do zaklasyfikowania nowego obiektu [14].

33 Klasyfikacja muzyczna Rysunek 3.5 Zobrazowanie sąsiedztwa punktu przeznaczonego do klasyfikacji [14] Sensownie jest założyć, że im więcej jest obiektów zielonych (lub czerwonych) w pobliżu nowego obiektu, tym bardziej prawdopodobne jest, że nowy obiekt również będzie zielony (czerwony). Rysując okrąg wokół nowego obiektu (Rys. 3.5), tak by obejmował wstępnie zadaną liczbę obiektów, można obliczyć wielkość zwaną szansą, zliczając wystąpienia poszczególnych obiektów wewnątrz okręgu w stosunku do całkowitej liczby obiektów każdego typu., ż ę = 1 40, ż ę = 3 20 (42) Pomimo, iż prawdopodobieństwo wskazuje, że X będzie zielone, to szanse są odwrotne, ze względu na bliskość czerwonych obiektów. Końcowa klasyfikacja w analizie Bayesowskiej bazuje na obu informacjach. Można wyliczyć prawdopodobieństwo że X będzie zielone. Prawdopodobieństwo to jest iloczynem prawdopodobieństwa że X będzie zielone oraz szansy że X będzie zielone. Dla powyższego przykładu prawdopodobieństwo, że X będzie zielone wynosi. Z kolei prawdopodobieństwo że X będzie czerwone wynosi. W rezultacie X należy zaklasyfikować, jako obiekt czerwony, ponieważ prawdopodobieństwo jest większe dla takiej właśnie przynależności [14]. Powyższy przykład ma jedynie charakter intuicyjny. Za pomocą naiwnego klasyfikatora Bayesowskiego, można analizować dowolną liczbę zmiennych niezależnych, ciągłych i skategoryzowanych. Wzór metody Bayesa wygląda następująco:,, =,, (43) 33

34 gdzie oznacza klasę nr, a,, są wartościami obiektów przeznaczonych do klasyfikacji.,, oznacza prawdopodobieństwo przynależności wartości wektora (gdzie k={1,2.,n}) do klasy [15] Metoda wektorów nośnych SVM U podstaw metody wektorów nośnych (ang. Support Vector Machines, SVM) leży koncepcja przestrzeni decyzyjnej, którą dzieli się budując granice separujące obiekty o różnej przynależności klasowej 20. Innymi słowy, zadaniem tej metody jest rozdzielenie danych, należących do przeciwnych klas. Aby odseparować większą liczbę klas, należy użyć tej metody wielokrotnie. Dla przykładu podane są dwie klasy obiektów: obiekty zielone i czerwone. Linia graniczna rozdziela je wyraźnie. Nowy, nieznany obiekt, jeżeli znajdzie się po prawej stronie granicy, zostanie zaklasyfikowany jako zielony, w przeciwnym przypadku jako czerwony. Rysunek 3.6 Przykład działania prostego klasyfikatora liniowego 21 Rys. 3.6 jest ilustracją bardzo prostego przykładu klasyfikatora liniowego, dzielącego obszar prób na dwie części za pomocą prostej. Większość praktycznych zadań klasyfikacyjnych nie jest jednak tak oczywista. Do poprawnego klasyfikowania potrzebne są bardziej skomplikowane struktury niż linia prosta. Rysunek 3.7 Przykład działania klasyfikatora, dzielącego obszar prób na dwie części za pomocą krzywej vm.html

35 Klasyfikacja muzyczna Zilustrować może to przykład z rysunku 3.7, który porównany z poprzednim jasno wskazuje, że do rozdzielenia obiektów zielonych i czerwonych konieczna jest krzywa. Krzywa ta jest przykładem klasyfikatora hiperpłaszczyznowego. Tego typu klasyfikatory otrzymujemy stosując metodę wektorów nośnych SVM [14]. Rysunek 3.8 Przykład wykonania transformacji z jednej przestrzeni na inną za pomocą pewnej funkcji jądrowej Rys. 3.8 ilustruje główną ideę metody wektorów nośnych. Oryginalne obiekty z lewej strony rysunku zostały zmapowane (przetransportowane) za pomocą funkcji jądrowych (ang. kernel functions) na przestrzeń ilustrowaną po prawej. Co ważne, w nowej przestrzeni dwie klasy są liniowo separowane, co pozwala uniknąć skomplikowanej postaci granicy klas. Biały obiekt, to nowy, nieznany przypadek Drzewa decyzyjne Drzewo jest grafem składającym się z wierzchołków i krawędzi łączących niektóre wierzchołki. Najprostsze drzewa to tzw. drzewa binarne, w których z każdego wierzchołka wychodzą dwie krawędzie. Każdy taki wierzchołek reprezentuje decyzję o podziale zbioru obiektów na dwa podzbiory ze względu na jedną z cech objaśniających. Początkowy wierzchołek drzewa, obrazujący pierwszą decyzję podziału, nazywany jest korzeniem drzewa. Z kolei liściem drzewa nazywany jest wierzchołek, z którego nie wychodzą żadne krawędzie. Na tym etapie następuje identyfikacja obiektu. Korzeń drzewa wybierany jest na podstawie tzw. kryterium wyboru. Najczęściej stosowanym kryterium jest tzw. zysk informacji (ang. Information gain). Innymi słowy, wybierany jest ten podział, który daje dwa najbardziej różniące się między sobą podzbiory m.html 35

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Klasyfikacja LDA + walidacja

Klasyfikacja LDA + walidacja Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Prawdopodobieństwo czerwonych = = 0.33

Prawdopodobieństwo czerwonych = = 0.33 Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie

Bardziej szczegółowo

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1 Klasyfikacja Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji Klasyfikacja wykład 1 Niniejszy wykład poświęcimy kolejnej metodzie eksploracji danych klasyfikacji. Na początek

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Data Mining Wykład 4. Plan wykładu

Data Mining Wykład 4. Plan wykładu Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

0 + 0 = 0, = 1, = 1, = 0.

0 + 0 = 0, = 1, = 1, = 0. 5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Mail: Pokój 214, II piętro

Mail: Pokój 214, II piętro Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je. Problem porządkowania zwanego również sortowaniem jest jednym z najważniejszych i najpopularniejszych zagadnień informatycznych. Dane: Liczba naturalna n i ciąg n liczb x 1, x 2,, x n. Wynik: Uporządkowanie

Bardziej szczegółowo

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1 Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego

Bardziej szczegółowo

Jeśli X jest przestrzenią o nieskończonej liczbie elementów:

Jeśli X jest przestrzenią o nieskończonej liczbie elementów: Logika rozmyta 2 Zbiór rozmyty może być formalnie zapisany na dwa sposoby w zależności od tego z jakim typem przestrzeni elementów mamy do czynienia: Jeśli X jest przestrzenią o skończonej liczbie elementów

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Programowanie celowe #1

Programowanie celowe #1 Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem

Bardziej szczegółowo

Analiza składowych głównych

Analiza składowych głównych Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi

Bardziej szczegółowo

Algorytm grupowania danych typu kwantyzacji wektorów

Algorytm grupowania danych typu kwantyzacji wektorów Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA SZTUCZNA INTELIGENCJA SYSTEMY ROZMYTE Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii Biomedycznej Laboratorium

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

Rachunek prawdopodobieństwa

Rachunek prawdopodobieństwa Rachunek prawdopodobieństwa Sebastian Rymarczyk srymarczyk@afm.edu.pl Tematyka zajęć 1. Elementy kombinatoryki. 2. Definicje prawdopodobieństwa. 3. Własności prawdopodobieństwa. 4. Zmienne losowe, parametry

Bardziej szczegółowo

Sztuczna inteligencja : Algorytm KNN

Sztuczna inteligencja : Algorytm KNN Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Matematyka dyskretna. Andrzej Łachwa, UJ, /10

Matematyka dyskretna. Andrzej Łachwa, UJ, /10 Matematyka dyskretna Andrzej Łachwa, UJ, 2018 andrzej.lachwa@uj.edu.pl 10/10 Podziały i liczby Stirlinga Liczba Stirlinga dla cykli (często nazywana liczbą Stirlinga pierwszego rodzaju) to liczba permutacji

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

Relacje. opracował Maciej Grzesiak. 17 października 2011

Relacje. opracował Maciej Grzesiak. 17 października 2011 Relacje opracował Maciej Grzesiak 17 października 2011 1 Podstawowe definicje Niech dany będzie zbiór X. X n oznacza n-tą potęgę kartezjańską zbioru X, tzn zbiór X X X = {(x 1, x 2,..., x n ) : x k X dla

Bardziej szczegółowo

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi. Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a

Bardziej szczegółowo

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja

Bardziej szczegółowo

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych

Bardziej szczegółowo

Metody probabilistyczne klasyfikatory bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin

Bardziej szczegółowo

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań TABELA ODNIESIEŃ EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA PROGRAMU KSZTAŁCENIA DO EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA OBSZARU KSZTAŁCENIA I PROFILU STUDIÓW PROGRAM KSZTAŁCENIA: POZIOM KSZTAŁCENIA: PROFIL KSZTAŁCENIA:

Bardziej szczegółowo

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Kody blokowe Wykład 2, 10 III 2011

Kody blokowe Wykład 2, 10 III 2011 Kody blokowe Wykład 2, 10 III 2011 Literatura 1. R.M. Roth, Introduction to Coding Theory, 2006 2. W.C. Huffman, V. Pless, Fundamentals of Error-Correcting Codes, 2003 3. D.R. Hankerson et al., Coding

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

8. Neuron z ciągłą funkcją aktywacji.

8. Neuron z ciągłą funkcją aktywacji. 8. Neuron z ciągłą funkcją aktywacji. W tym ćwiczeniu zapoznamy się z modelem sztucznego neuronu oraz przykładem jego wykorzystania do rozwiązywanie prostego zadania klasyfikacji. Neuron biologiczny i

Bardziej szczegółowo

Projekt Sieci neuronowe

Projekt Sieci neuronowe Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące

Bardziej szczegółowo

INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Temat: Podstawowe pojęcia z logiki rozmytej Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Dr inż. Barbara Mrzygłód KISiM, WIMiIP, AGH mrzyglod@ agh.edu.pl 1 Wprowadzenie Sterowanie

Bardziej szczegółowo

Mgr Kornelia Uczeń. WYMAGANIA na poszczególne oceny-klasa VII-Szkoła Podstawowa

Mgr Kornelia Uczeń. WYMAGANIA na poszczególne oceny-klasa VII-Szkoła Podstawowa Mgr Kornelia Uczeń WYMAGANIA na poszczególne oceny-klasa VII-Szkoła Podstawowa Oceny z plusem lub minusem otrzymują uczniowie, których wiadomości i umiejętności znajdują się na pograniczu wymagań danej

Bardziej szczegółowo

Rachunek prawdopodobieństwa- wykład 2

Rachunek prawdopodobieństwa- wykład 2 Rachunek prawdopodobieństwa- wykład 2 Pojęcie dyskretnej przestrzeni probabilistycznej i określenie prawdopodobieństwa w tej przestrzeni dr Marcin Ziółkowski Instytut Matematyki i Informatyki Uniwersytet

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji

UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji Filip Wójcik Wydział Zarządzania, Informatyki i Finansów Instytut Informatyki Ekonomicznej

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Wymagania edukacyjne z matematyki w klasie III gimnazjum

Wymagania edukacyjne z matematyki w klasie III gimnazjum Wymagania edukacyjne z matematyki w klasie III gimnazjum - nie potrafi konstrukcyjnie podzielić odcinka - nie potrafi konstruować figur jednokładnych - nie zna pojęcia skali - nie rozpoznaje figur jednokładnych

Bardziej szczegółowo

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot

Bardziej szczegółowo

Systemy uczące się wykład 1

Systemy uczące się wykład 1 Systemy uczące się wykład 1 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 5 X 2018 e-mail: przemyslaw.juszczuk@ue.katowice.pl Konsultacje: na stronie katedry + na stronie domowej

Bardziej szczegółowo

Wstęp do Techniki Cyfrowej... Teoria automatów

Wstęp do Techniki Cyfrowej... Teoria automatów Wstęp do Techniki Cyfrowej... Teoria automatów Alfabety i litery Układ logiczny opisywany jest przez wektory, których wartości reprezentowane są przez ciągi kombinacji zerojedynkowych. Zwiększenie stopnia

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33 Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,

Bardziej szczegółowo

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Analiza głównych składowych- redukcja wymiaru, wykł. 12 Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają

Bardziej szczegółowo

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ALGORYTMY SZTUCZNEJ INTELIGENCJI ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

CMAES. Zapis algorytmu. Generacja populacji oraz selekcja Populacja q i (t) w kroku t generowana jest w następujący sposób:

CMAES. Zapis algorytmu. Generacja populacji oraz selekcja Populacja q i (t) w kroku t generowana jest w następujący sposób: CMAES Covariance Matrix Adaptation Evolution Strategy Opracowanie: Lidia Wojciechowska W algorytmie CMAES, podobnie jak w algorytmie EDA, adaptowany jest rozkład prawdopodobieństwa generacji punktów, opisany

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Systemy liczbowe. 1. Przedstawić w postaci sumy wag poszczególnych cyfr liczbę rzeczywistą R = (10).

Systemy liczbowe. 1. Przedstawić w postaci sumy wag poszczególnych cyfr liczbę rzeczywistą R = (10). Wprowadzenie do inżynierii przetwarzania informacji. Ćwiczenie 1. Systemy liczbowe Cel dydaktyczny: Poznanie zasad reprezentacji liczb w systemach pozycyjnych o różnych podstawach. Kodowanie liczb dziesiętnych

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

5. Rozwiązywanie układów równań liniowych

5. Rozwiązywanie układów równań liniowych 5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Wykład 16 2 Data Science: Uczenie maszynowe Uczenie maszynowe: co to znaczy? Metody Regresja Klasyfikacja Klastering

Bardziej szczegółowo

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcja homograficzna. Definicja. Funkcja homograficzna jest to funkcja określona wzorem f() = a + b c + d, () gdzie współczynniki

Bardziej szczegółowo

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa. GLM (Generalized Linear Models) Data Mining Wykład 6 Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa Naiwny klasyfikator Bayesa jest klasyfikatorem statystycznym -

Bardziej szczegółowo