Podobieństwo i klasyfikacja dźwięku w kontekście rekomendacji muzycznej

Wielkość: px
Rozpocząć pokaz od strony:

Download "Podobieństwo i klasyfikacja dźwięku w kontekście rekomendacji muzycznej"

Transkrypt

1 PRACA MAGISTERSKA Podobieństwo i klasyfikacja dźwięku w kontekście rekomendacji muzycznej Mariusz Kleć nr albumu: s3547 Kierunek: Informatyka Specjalność: Multimedia Promotor: prof. dr hab. Krzysztof Marasek Warszawa, 2010

2 Pracę tę dedykuję mojemu Bratu oraz Rodzicom.

3 Spis treści Spis treści CEL PRACY... 5 WSTĘP TECHNIKI GENEROWANIA PLAY LIST MUZYCZNYCH TECHNIKI STANDARDOWE TECHNIKI OPARTE NA METADANYCH INTERNETOWYCH PLAY LISTY OPARTE O ANALIZĘ POWIĄZAŃ SPOŁECZNYCH PLAY LISTY OPARTE O ANALIZĘ SYGNAŁU AUDIO MIARY PODOBIEŃSTWA CO TO JEST PODOBIEŃSTWO? PODOBIEŃSTWO WARTOŚCI BINARNYCH Odległość Hamminga Prosty współczynnik dopasowania i odległości Współczynnik Jaccarda PODOBIEŃSTWO WARTOŚCI LICZBOWYCH Odległość Euklidesowa Odległość city block Odległość Czebyszewa Odległość Canberra Odległość Bray Curtis Kosinus kąta między wektorami Współczynnik korelacji Odległość Mahalanobisa NORMALIZACJA Z wykorzystaniem funkcji sigmoidalnej unipolarnej Z wykorzystaniem wartości maksymalnej i minimalnej Gdy wartość maksymalna jest nieznana Normalizacja wartości ujemnych Standaryzacja PODSUMOWANIE KLASYFIKACJA MUZYCZNA CZYM JEST KLASYFIKACJA? TRENING I TESTOWANIE KLASYFIKATORA PREDYKCJA KRYTERIA PORÓWNAWCZE METODY UCZENIA MASZYNOWEGO K najbliższych sąsiadów (k-nn) Naiwny klasyfikator Bayesa Metoda wektorów nośnych SVM Drzewa decyzyjne

4 3.5.5 Sieci neuronowe Ada-Boost Bagging PODSUMOWANIE PAKIET PROGRAMÓW JMIR FRAMEWORK ACE JAUDIO OPIS DESKRYPTORÓW DOSTĘPNYCH W PROGRAMIE JAUDIO JWEBMINER PODSUMOWANIE EKSPERYMENT KLASYFIKACJI MUZYKI OPIS EKSPERYMENTU PRZEBIEG EKSPERYMENTU WNIOSKI PROGRAM PLAY LIST GENERATOR INSTALACJA PROGRAMU Instalacja bibliotek zewnętrznych Rejestracja sterownika źródła danych Uruchomienie programu OPIS INTERFEJSU UŻYTKOWNIKA Menedżer bazy danych Play lista OPIS OPCJI POMIARU PODOBIEŃSTWA STRUKTURA KODU I IMPLEMENTACJA ANALIZA SKUTECZNOŚCI PROGRAMU ŚRODOWISKO BADAWCZE PRZEBIEG BADAŃ WYNIKI BADAŃ WNIOSKI PODSUMOWANIE DODATEK A: OBLICZENIA PODOBIEŃSTWA PLAY LIST DODATEK B: SZCZEGÓŁOWY OPIS PROGRAMU JWEBMINER DODATEK C. KOD FUNKCJI GENERUJĄCEJ PLAY LISTĘ DODATEK D. LISTA UTWORÓW W EKSPERYMENCIE DODATEK E. SPIS ZAWARTOŚCI DOŁĄCZONEJ PŁYTY CD BIBLIOGRAFIA

5 Cel pracy Dzięki coraz większym i tańszym urządzeniom magazynującym, osobiste kolekcje muzyczne rozrastają się dziś w nadzwyczajnym tempie. Technologie mobilne umożliwiają ściąganie całych kolekcji muzycznych i przenoszenie ich w kieszeni słuchacza. Odtwarzacze MP3 mogą przechowywać z łatwością ponad utworów. Wybór ulubionych utworów jest zadaniem nierzadko frustrującym, nużącym, a przede wszystkim nieefektywnym. Niezwykle trudnym staje się wybór muzyki na różne okazje. Następujące po sobie utwory powinny pasować do siebie, brzmieć podobnie lub przynajmniej posiadać wspólne cechy. Cieszące się powodzeniem rozgłośnie radiowe dbają o to, aby ich program radiowy charakteryzował się określonym typem muzyki oraz dużym zróżnicowaniem, aby utrzymać słuchaczy. Systemy rekomendacji muzycznej działają na podobnej zasadzie, próbując dobierać odpowiedni zestaw utworów na daną okoliczność. Aby było to jednak możliwe, niezbędne są badania nad dwoma kluczowymi tematami w tej dziedzinie: pomiarem podobieństwa między utworami oraz ich klasyfikacją.

6 Wstęp We wszystkich okresach swego rozwoju historycznego ludzkość tworzyła muzykę. Stała się ona bogatym źródłem natchnienia dla wielkich myślicieli. Muzyka została elementem filmów, wydarzeń sportowych, ceremonii religijnych, klubów nocnych, a nawet zakupów w supermarketach. Człowiek podczas konfrontacji z dźwiękami dokonuje ich oceny, na którą wpływa m.in. stan emocjonalny. Nawet osoby niewykształcone muzycznie, mogą świadomie lub podświadomie wyrabiać sobie szybko poglądy i oceniać muzykę, również na podstawie niewielkich jej fragmentów. Poglądy te mogą dotyczyć takich cech jak styl muzyczny, wykonawca, rytm, wpływ emocjonalny itp. [1]. Zbudowanie algorytmu o zdolnościach tworzenia poglądów podobnych do tych, które tworzą ludzie jest niezwykle trudne. Istnieją jednak pewne modele komputerowe, wyjaśniające tą kwestię. Mogą one być wykorzystane do budowy mechanizmu szacującego podobieństwo dwóch utworów muzycznych. Stąd jest już bliska droga do zbudowania systemu rekomendującego muzykę na podstawie preferencji muzycznych słuchacza lub całych społeczności. Zanim to jednak nastąpi, musimy nauczyć maszynę słuchania muzyki. Do tego celu niezbędne jest dogłębne zrozumienie percepcji muzycznej człowieka. Badania w tym kierunku doprowadziły do powstania algorytmów ekstrakcji cech muzycznych (deskryptorów) z sygnału dźwiękowego. W Internecie znaleźć można wiele serwisów rekomendujących muzykę. Dobrym przykładem jest firma Apple i należący do niej sklep muzyczny itunes Store 1 (ang. itunes Music Store), oferujący liczne sposoby odkrywania muzyki. Sposoby te polegają m.in. na śledzeniu, czego słuchają inni, wnioskowaniu upodobań muzycznych klienta na podstawie wcześniej pobranych utworów itp. Żaden inny ze znanych sposobów dystrybucji muzyki nie może konkurować z nieograniczonym dostępem, wysoką skutecznością rekomendacji oraz z nieprzerwaną dostępnością 24 godziny na dobę. Ponadto, istnieje liczna grupa serwisów oferujących dostęp do olbrzymich kolekcji muzycznych za darmo lub prawie za darmo. Serwisy te zwykle przybierają formę spersonalizowanych stacji radiowych. Są to między innymi Launchcast 2 firmy Yahoo!, Last.fm 3 oraz Pandora 4. Ten ostatni dostępny jest jednak tylko na terytorium U.S.A

7 Wstęp Ogólnie rzecz ujmując, narzędzia, które wzbogacają doświadczenia związane z słuchaniem muzyki, rozwijają się bardzo szybko. W tym kontekście pomiar podobieństwa, klasyfikacja utworów oraz programy opisane w tej pracy magisterskiej stanowią jedynie niewielką cegiełkę w dążeniu do tego celu. Z całą pewnością podniosą natomiast świadomość używanych metod i algorytmów, których działanie często utrzymane jest w tajemnicy przez firmy będące właścicielami wyżej opisanych systemów. Niezwykle ważną rolę na tym polu odgrywają coroczne konferencje ISMIR 5 (ang. International Conference on Music Information Retrieval) zajmujące się interdyscyplinarną dziedziną nauki, jaką jest wyszukiwanie informacji muzycznej (ang. Music Information Retrieval, MIR). Liczne prace i tematy związane z konferencją ISMIR 6 znalazły wiele zastosowań w projektach akademickich i przemysłowych (m.in. w last.fm). Szczególną popularnością cieszy się system Marsyas 7 (ang. Music Analysis, Retrieval and Synthesis for Audio Signals), którego projektantem jest George Tzanetakis. Marsyas rozwijany jest od 1998 roku. Służy do przetwarzania sygnału audio, ze szczególnym uwzględnieniem zagadnień związanych z wyszukiwaniem informacji muzycznej. W programie zintegrowany został system klasyfikacji oraz ekstrakcji cech muzycznych. By to pierwszy darmowy program tego typu. Kolejnym ciekawym przedsięwzięciem jest projekt o nazwie CLAM uniwersytetu Pompeu Fabra 8. Służy do analizy oraz syntezy sygnału audio. Nie został on jednak przystosowany do wykorzystania wyekstrahowanych za jego pomocą cech muzycznych w innych systemach. Ostatnim z projektów, na który warto zwrócić uwagę, jest program Sonic Annotator 9. Służy do ekstrakcji cech muzycznych z sygnału audio, wykorzystując przy tym wtyczki Vamp plugins 10. Wtyczki te rozszerzają funkcjonalność Sonic Annotator oraz programu do wizualizacji i analizy dźwięku Sonic Visualizer 11. Pozwalają m.in. na szacowanie tempa utworu, śledzenie wysokości dźwięku oraz ekstrakcję niskopoziomowych deskryptorów dźwiękowych

8 Niniejsza praca magisterska została podzielona na pięć rozdziałów. Pierwszy z nich omawia metryki pomiaru podobieństwa dwóch wektorów będących deskryptorami muzycznymi. W rozdziale drugim przedstawiono ogólne informacje związane z klasyfikacją, ze szczególnym uwzględnieniem klasyfikacji muzyki. Rozdział trzeci bardzo szczegółowo opisuje narzędzia wykorzystane podczas budowy autorskiego programu oraz przeprowadzania eksperymentów. W rozdziale czwartym opisano przeprowadzony eksperyment klasyfikacji 10 utworów muzycznych, z wykorzystaniem 7 różnych klasyfikatorów. Rozdział piąty opisuje autorski program Play List Generator, służący do generowania play list muzycznych, wykorzystujący podobieństwo utworów obliczone na podstawie przeszukiwania sieci Web. Program ukierunkowany jest na jego przyszły rozwój, w którym przewiduje się implementację wszystkich technik opisywanych w tej pracy.

9 1 Techniki generowania play list muzycznych Pojęcie play listy może być zdefiniowane, jako skończony zbiór sekwencyjnie ułożonych utworów muzycznych. Bazując na tej definicji, można wyróżnić trzy istotne atrybuty związane z play listami. Atrybutami tymi są: poszczególne utwory zawarte w play liście, ich ilość oraz kolejność, w której występują. Poszczególne utwory występujące w play liście są głównym celem, dla którego play lista jest tworzona. Utwory te powinny spełniać określone oczekiwania słuchacza bądź słuchaczy. Kolejność występowania utworów powinna odwzorowywać pewien porządek przejść między utworami np. począwszy od szybkich a skończywszy na wolnych utworach. Ilości utworów umożliwia określenie długości trwania całej play listy [3]. Automatyczne generowanie play list wymaga zainicjowania pewnych początkowych działań przez użytkownika. Przede wszystkim, musi on w jakiś sposób określić, czego chciałby słuchać. To początkowe określenie dotyczące np. stylu muzycznego może być przeprowadzone w sposób, w którym użytkownik dostarcza pewnego rodzaju wzoru muzycznego np. za pomocą swoich ulubionych artystów, lub innych warunków opisujących muzykę, której chciałby posłuchać. Zagadnienie to jest jednak dość skomplikowane, ponieważ definicja gatunku muzycznego jest bardzo subiektywna a większość muzyki nie należy tylko i wyłącznie do jednego gatunku. Bardzo często są one mieszaniną różnych styli [2]. Jednym ze sposobów automatycznej generacji play list jest narysowanie ścieżki na mapie, będącej wizualizacją muzycznej bazy danych. Na takiej mapie utwory podobne są skupione wokół siebie. Stopień skupienia utworów mierzony jest za pomocą technik pomiaru podobieństwa. Przykładem takiego podejścia jest aplikacja zwana PlaySom [4]. Kolejną techniką, która może być wykorzystana do automatycznej generacji play list jest technika polegająca na dostarczeniu tzw. utworu wzorcowego (ang. query-by-example), który powinien wskazać styl muzyczny dla pozostałych utworów w play liście. Bazując na utworach wzorcowych, generator play list próbuje odnaleźć najbardziej podobne utwory w całej kolekcji muzycznej. Utwory te są następnie sortowane względem podobieństwa tworząc ostateczną play listę. W pracy Beth Logan [5] znajduje się ewaluacja tej techniki wraz z technikami analizy podobieństwa. Elias Pampalk rozwija tą technikę wprowadzając dodatkowo analizę przeskakiwanych (opuszczonych) utworów podczas odsłuchiwania play

10 listy [6]. Opuszczone utwory dostarczają negatywnego sygnału zwrotnego, natomiast utwory odsłuchane do końca traktowane są w kategoriach pozytywnego sygnału zwrotnego. Za pomocą analizy sygnałów zwrotnych, przyszłe play listy mogą być ulepszane a co za tym idzie jeszcze bardziej odpowiadać preferencjom muzycznym słuchacza. 1.1 Techniki standardowe Techniki standardowe polegają zwykle na metadanych, takich jak gatunek, liczba już odegranych utworów, ocena utworu przez użytkownika (ang. rating) itp. Zwykle informacje te są zakodowane w pliku w postaci znaczników ID3, lub są generowane w wyniku interakcji użytkownika z odtwarzaczem. Następnie informacje te są używane przez odtwarzacz muzyczny do sortowaniu lub wyszukiwania muzyki. Metoda ta działa poprawnie pod warunkiem, że wszystkie utwory są dobrze opisane i sklasyfikowane przez użytkownika. Typowo, strategia ta zawodzi, ponieważ standardowe kolekcje muzyczne są zwykle słabo opisane pod kątem gatunku muzycznego lub są po prostu są za duże, aby je ręcznie opisywać i klasyfikować. 1.2 Techniki oparte na metadanych internetowych Jest to bardziej inteligentny sposób wychodzący naprzeciw wadom technik standardowych. Sposób ten polega na użyciu Internetu w celu uzyskania dodatkowych metadanych na temat utworu. Tak zebrane informacje mogą być następnie użyte do generowania play list. Technika ta działa dość dobrze na poziomie nazwisk artystów, ponieważ informacje na ich temat są szeroko rozpowszechnione w Internecie. Technika nie działa zadowalająco, jeśli szacowanie podobieństwa odbywa się na poziomie porównania indywidualnych piosenek. Takie informacje dość rzadko występują w Internecie, w porównaniu z informacjami o artystach. Dokładniej techniki te opisane zostały m.in. w następujących pracach: Brian Whitman i Paris Smaragdis [7] oraz Jean-Julien Aucouturier i Francois Pachet [8]. 1.3 Play listy oparte o analizę powiązań społecznych Jest to dość nowa technika zbierająca informację na temat gustów muzycznych pewnej społeczności użytkowników. Społecznościowe muzyczne serwisy internetowe wymagają od użytkownika założenia jego własnego profilu. Po tej czynności, za pomocą usług sieciowych możliwe jest sklasyfikowanie preferencji użytkownika poprzez porównanie jego profilu z profilami inny użytkowników. Rodzajem tej techniki jest tzw. technika

11 Techniki generowania play list muzycznych kolaborująca (ang. collaborative filtering) (Rys. 1.1). Przyjmuje ona założenie, jeśli słuchacz ma wiele wspólnego z słuchaczem w kategoriach ich kolekcji muzycznej, to posiadają oni podobny gust muzyczny. W rezultacie system poleci utwory słuchaczowi z kolekcji muzycznej słuchacza i na odwrót. Jeśli z kolei słuchacz posiada kolekcję muzyczną, która ma niewiele wspólnego z kolekcjami słuchaczy i, żaden utwór nie będzie rekomendowany z kolekcji słuchacza [9] [3]. Przykładem serwisu internetowego, który wykorzystuje wyżej opisaną technikę jest last.fm 12 kolekcjonujący informacje na temat zwyczajów słuchania muzyki i porównujący wyniki z innymi użytkownikami serwisu. Rysunek 1.1 Zobrazowanie techniki kolaborującej [3]. Słuchacz A ma wiele wspólnego z słuchaczem B w przeciwieństwie do słuchacza C. Słuchaczowi A będą polecane utwory słuchacza B i na odwrót. Żaden utwór nie będzie polecany z bazy muzycznej słuchacza C. 1.4 Play listy oparte o analizę sygnału audio Metoda ta polega na komputerowej ekstrakcji cech muzycznych z sygnału audio. Cechy te nazywane są deskryptorami i zwykle reprezentowane są przez wartości numeryczne. Jeśli dwa wektory cech muzycznych (deskryptorów) są do siebie podobne, utwory powinny brzmieć podobnie w tym aspekcie, w którym deskryptor próbuje opisać sygnał audio. Jest to sposób na porównanie dwóch utworów między sobą lub na ich uporządkowanie. Ekstrakcja cech jest zwykle dość trudnym zadaniem, ponieważ deskryptory powinny

12 odpowiadać aspektom odbierania dźwięku przez człowieka [10]. Spośród wszystkich metod generowania play list, metoda ta posiada najwięcej zalet, jako że rezultaty jej nie zależą od opinii innych użytkowników, tak jak w przypadku sieci społecznych czy opisów utworów jak w przypadku technik standardowych i technikach opartych na metadanych Internetowych.

13 Miary podobieństwa 2 Miary podobieństwa Rozważania nad czystym podobieństwem utworów są wysoce interesujące i dyskusyjne zarazem, jako iż ujawniają wiele pytań, na które odpowiedź nie jest jednoznaczna. W jaki sposób określić podobieństwo? Czy podczas pomiaru podobieństwa powinniśmy również rozważać różnice? W jaki sposób oceniać i mierzyć systemy analizujące podobieństwo? W rozdziale tym przedstawiony zostanie szereg miar, służących do pomiaru podobieństwa dwóch wektorów liczbowych. Są to miary niezwykle istotne z punktu widzenia pomiaru podobieństwa utworów muzycznych, jako iż utwór muzyczny, w świecie komputerowym, może być reprezentowany tylko w postaci wektora pewnych liczb. 2.1 Co to jest podobieństwo? Przypuśćmy, iż mamy cztery obiekty reprezentujące gwiazdy (Rys. 2.1). Które z nich są podobne a które różne? Rysunek 2.1 Przykład obrazujący podobieństwo dwóch obiektów [ 13 ] A B C D Można powiedzieć, że gwiazda A jest podobna do gwiazdy C. Gwiazdy A, B i C mają ten sam rozmiar, podczas gdy gwiazdy A, C i D mają ten sam kolor. Cechy, jakie użyjemy do pomiaru podobieństwa w tym przypadku to kolor i wielkość. Podobieństwo jest wielkością, która odzwierciedla siłę związku pomiędzy dwoma obiektami lub dwoma ich deskryptorami. Kiedy zapytamy, w jaki sposób odróżnić dwa różne typy dźwięku, usłyszymy bardzo różne odpowiedzi dotyczące jego cech. Nawet, jeśli potrafimy nazywać owe cechy, są one w dalszym ciągu abstrakcją, którą trudno zmierzyć, a tym bardziej wydobyć z sygnału audio. Muzycy na przykład, określają różnice pomiędzy dwoma rodzajami gatunków muzycznych, posługując się terminami: tonacja, rytm czy brzmienie. Niestety, deskryptory wysokiego poziomu, takie jak wspomniane powyżej, są w ogólności

14 trudne do wydobycia z sygnału audio w sposób bezpośredni. Oznacza to, iż zawsze należy przynajmniej zacząć od deskryptorów niskiego poziomu. Deskryptory niskiego poziomu są przedstawiane w postaci wektora wartości liczbowych. Dopiero w takiej postaci możemy mierzyć ich podobieństwo. Jest ono zwykle podawane w wartościach z przedziału <-1, 1> lub w znormalizowanej postaci w przedziale <0, 1>. Podobieństwo pomiędzy wektorem cech a wektorem można mierzyć w różny sposób w zależności od rodzaju danych, które posiadamy. Mówiąc o podobieństwie nie sposób nie wspomnieć o odległości, które w tym przypadku jest synonimem słowa różnica. Niech znormalizowana odległość pomiędzy obiektem a obiektem będzie oznaczona jako. Odległość jest wartością liczbową, która spełnia przynajmniej trzy pierwsze spośród niżej wymienionych warunków [11]: 0 - odległość jest zawsze większa bądź równa 0. = 0 - odległość jest równa 0, gdy porównujemy obiekt sam ze sobą. = - odległość jest symetryczna. + odległość spełniająca nierówność trójkąta (Rys. 2.2). Rysunek 2.2 Ilustracja właściwości trójkąta Przy założeniu, że podobieństwo przyjmuje wartości z zakresu <0, 1>, związek pomiędzy podobieństwem a odległością jest następujący: = 1 (1) Gdy podobieństwo jest równe 1 (obiekty są identyczne), odległość jest równa 0 i odwrotnie. Gdy wartość podobieństwa posiada wartości z przedziału <-1, 1>, a odległość w przedziale <0, 1>, wtedy zachodzi następująca zależność: = 1 2 (2)

15 Miary podobieństwa Kiedy różnica wynosi 1 (obiekty nie mają ze sobą nic wspólnego), podobieństwo wynosi 1 i na odwrót. W wielu przypadkach, pomiar odległości jest prostszy od pomiaru podobieństwa. Kiedy obliczymy odległość, można ją znormalizować i w prosty sposób przekonwertować na miarę podobieństwa. Z tego powodu, dalsze rozważania w tym rozdziale będą dotyczyły zarówno odległości jak i podobieństwa. 2.2 Podobieństwo wartości binarnych Obiekty, wobec których dokonujemy pomiaru podobieństwa, mogą zawierać wartości binarne takie jak: obecny i nieobecny, tak, nie, 0, 1 itp. Dla takich danych istnieją tylko dwie możliwe wartości, które są reprezentowane przez wartości logiczne prawda i fałsz. Podobieństwo lub odległość (różnica) dwóch obiektów reprezentowanych przez wartości binarne, może być mierzona w kategoriach częstości występowania pozytywnych i negatywnych wartości w każdym z obiektów. Aby przedstawić miary podobieństwa wartości binarnych, konieczne jest wprowadzenie pewnych oznaczeń oraz przykładu, na którym dokonywane będą obliczenia w celu zobrazowania działania poszczególnych miar podobieństwa. Przykładem niech będą dwa utwory z następującymi cechami binarnymi (Tab. 2.1): Tabela 2.1 Dwa obiekty (utwory muzyczne) z przykładowymi cechami binarnymi Piosenka Wesoła Wolna Zagraniczna Instrumentalna Obiekt Within Temptation Mother Earth Obiekt Apocalyptica Nothing Else Matters NIE NIE TAK NIE NIE TAK TAK TAK Koordynatem (deskryptorem) obiektu jest wektor (0,0,1,0). Dla obiektu jest to wektor (0,1,1,1). Każdy z obiektów jest reprezentowany przez cztery zmienne, dlatego też mówimy, że deskryptory obiektów są czterowymiarowe. Przyjmijmy następujące oznaczenia do dalszych rozważań: Liczba pozytywnych zmiennych dla obydwu obiektów jednocześnie. Liczba zmiennych, które są pozytywne jednocześnie dla -tego obiektu i negatywne dla -tego obiektu. Liczba zmiennych, które są negatywne jednocześnie dla -tego obiektu i pozytywne dla -tego obiektu. Liczba zmiennych, które są negatywne dla obydwu obiektów jednocześnie. 15

16 = Suma wszystkich wyżej opisanych zmiennych. Dla przykładu powyżej, mierząc podobieństwo między utworem a utworem otrzymujemy następujące wartości wyżej opisanych zmiennych: = 1, = 0, = 2, = 1 (3) Zmienne te będą stanowić bazę do dalszych rozważań Odległość Hamminga Określona sekwencja zer i jedynek nazywana jest słowem kodowym. Jeśli dwa słowa mają tę samą długość, możemy policzyć liczbę pozycji, przy których występuje różnica w wartościach zmiennych. Wielkość ta nazywana jest odległością Hamminga (ang. Hamming distance) [11]. Wzór na tę odległość przedstawia się następująco: Kodując wartości z tabeli 2.1 otrzymujemy (Tab. 2.2): = + (4) Tabela 2.2 Zakodowane wartości cech z Tabeli 2.1. Wartości w wierszu Różnica przyjmują wartość 1 gdy zmienne dla dwóch obiektów są różne. W przeciwnym przypadku przyjmują wartość 0. Obiekt Obiekt Różnica Widzimy, iż = 0 i = 2, więc = 2. Odległość Hamminga podzielona przez długość słowa (liczba wszystkich zmiennych) da nam prostą odległość dopasowania (ang. Simple matching distance) Prosty współczynnik dopasowania i odległości Prosty współczynnik dopasowania (ang. Simple matching coefficient) oraz prosty współczynnik odległości (ang. Simple matching distance) są szczególnie użyteczne, gdy informacje reprezentowane przez pozytywne i negatywne wartości są symetryczne względem siebie. Przykładem może być płeć, która jest atrybutem symetrycznym z powodu podobnej liczby wszystkich osobników żeńskich oraz męskich [11]. Wzór na współczynnik dopasowania wygląda następująco: = + (5)

17 Miary podobieństwa Aby zmierzyć odległość bazującą na współczynniku dopasowania, skorzystamy z zależności pomiędzy odległością a podobieństwem: = 1 = 1 + = = + (6) Otrzymany wzór na odległość przedstawia się następująco: = + (7) Dla przykładu podanego we wstępie i przeprowadzeniu obliczeń otrzymujemy następujące współczynniki podobieństwa i różnicy dla obiektu oraz obiektu : = 1 2 (8) = Współczynnik Jaccarda Współczynnik podobieństwa Jaccarda (ang. Jaccard s coefficient) oraz współczynnik odległości Jaccarda (ang. Jaccard s distance) są miarami odpowiednimi dla asymetrycznych informacji nie tylko binarnych. Dla niektórych zastosowań, wykorzystanie prostego współczynnika dopasowania (ang. Simple matching coefficient) nie ma sensu. Jest tak w przypadku, gdy pozytywne i negatywne wartości nie niosą ze sobą równej informacji (są asymetryczne). Na przykład, jeśli z semantycznego punktu widzenia, negatywna wartość jest nieistotna, obliczanie czegoś, co jest nieistotne w obu obiektach prowadzi do niewiarygodnych wyników. Dlatego też, współczynnik Jaccarda przedstawia nowy wzór na podobieństwo obiektów [11]: = + + (9) Wyprowadzenie wzoru na odległość przedstawia się następująco: = 1 = = + + = (10) Otrzymujemy w ten sposób: = (11) 17

18 Po przeprowadzaniu obliczeń dla przykładu z początku rozdziału otrzymujemy następujące wyniki: = 1 3 (12) = 2 3 (13) Dla danych niebinarnych, współczynnik Jaccarda może być także obliczany wykorzystując następującą relację: = (14) Przypuśćmy że mamy dwa zbiory = 7,3,2,4,1 oraz = 4,1,9,7,5. Suma tych zbiorów wynosi = 1,2,3,4,5,7, 9, część wspólna natomiast to: = 1,4, 7. Wyznaczanie współczynnika Jaccarda może odbywać się w oparciu o liczbę elementów w zbiorze części wspólnej podzielonym przez liczbę elementów w zbiorze sumy. = = 3 = 0,429 (15) Podobieństwo wartości liczbowych Załóżmy, że mamy dwa utwory muzyczne oraz wektory cech, których wartości reprezentowane są przez zmienne o wartościach liczbowych (Tab. 2.3). Tabela 2.3 Przykład dwóch obiektów (utworów muzycznych) z przykładowymi cechami liczbowymi Piosenka (1) (2) (3) (4) Obiekt Blues Brothers - How Blue Can you Get Obiekt Brian Adams - Summer of 69 8,517 6,692 3,822 2,026 7,034 6,899 3,308 1,760 Obiekt posiada koordynaty: (8,517, 6,692, 3,822, 2,026). Koordynaty dla obiektu są następujące: (7,034, 6,899, 3,308, 1.760). W dalszej części rozdziału zostaną przedstawione sposoby pomiaru podobieństwa dwóch wektorów zawierających dane liczbowe, posługując się przytoczonym przykładem.

19 Miary podobieństwa Odległość Euklidesowa Odległość Euklidesowa (ang. Euclidean Distance) jest najczęściej używaną miarą do pomiaru odległości np. dwóch punktów. Odległość Euklidesową definiuje się, jako pierwiastek z kwadratu różnicy pomiędzy parami wartości zmiennych [11]: = (16) Dla przykładu z początku rozdziału, odległość Euklidesowa wynosi: = 2, , , ,070 = 1,604 (17) Odległość city block Miara ta znana jest także pod innymi angielskimi nazwami: Manhattan distance, boxcar distance lub absolute value distance. Oblicza wartość absolutną różnicy par zmiennych dwóch koordynatów [11]. = (18) Dla przykładu z początku rozdziału otrzymujemy: = 1, , , ,266 = 2,47 (19) Odległość Czebyszewa Odległość Czebyszewa (ang. Chebyshev Distance) jest znana także jako odległość wartości maksymalnej. Odległość ta bierze pod uwagę maksimum z wartości absolutnej różnicy par zmiennych dwóch koordynatów [11]. = max (20) Dla przykładu z początku rozdziału, odległość Czebyszewa wynosi: = 1,483, 0,207,0,514,0,266 = 1,483 (21) 19

20 2.3.4 Odległość Canberra Odległość Canberra (ang. Canberra distance) jest określone przez sumę ułamków:. Jeśli jedna ze zmiennych wynosi zero, druga zmienna nie ma żadnego znaczenia w obliczaniu odległości. Metryka ta jest bardzo wrażliwa na małe zmiany, gdy oba koordynaty są bliskie zeru [11]. = + (22) Dla przykładu z początku rozdziału, odległość Canberra wynosi: = 1,483 15, ,207 13, ,514 7,13 + 0,266 = 0,252 (23) 3, Odległość Bray Curtis Odległość Bray Curtis (ang. Bray Curtis distance) jest nazywana czasami Sorensen distance. Posiada ciekawą właściwość: jeśli wszystkie koordynaty są większe od zera, wyjściowa wartość znajduje się w przedziale <0, 1>. Odległość ta jest w pewnym stopniu metodą normalizacji. Zero reprezentuje dokładnie identyczne obiekty. Jeśli oba koordynaty posiadają wartości równe zero wtedy miara nie jest zdefiniowana. Normalizacja jest realizowana poprzez użycie różnicy absolutnej podzielonej przez sumę poszczególnych par zmiennych [11]. = + (24) Dla przykładu z początku rozdziału, odległość Bray Curtis wynosi: = 1, , , ,266 = 0,061 (25) 15, , ,13 + 3, Kosinus kąta między wektorami Mierzy raczej podobieństwo niż odległość. Im większa wartość separacji kątowej, tym dwa obiekty są do siebie bardziej podobne. Wartości występują w przedziale <-1, 1> podobnie jak funkcja kosinus [11].

21 Miary podobieństwa = (26) Dla przykładu z początku rozdziału, separacja kątowa wynosi: = = 59, , , , , ,112 = 122,284 = 0,994 (27) 122, Współczynnik korelacji Współczynnik korelacji jest ujednoliconą miarą separacji kątowej, poprzez wycentrowanie koordynatów do ich wartości średnich. Wartości występują w przedziale <-1, 1>. Współczynnik ten jest raczej współczynnikiem podobieństwa niż odległości. = =, = (28) Dla przykładu z początku rozdziału, otrzymujemy: = 1 8, , , ,026 = 5,264 4 = 1 7, , , ,760 = 4,75 4 (29) = = 7, , , ,681 25,184 20,853 = 22,257 22,916 = 0, Odległość Mahalanobisa Odległość Mahalonobisa (ang. Mahalanobis distance) jest odległością pomiędzy dwoma wektorami i, dla zadanej macierzy kowariancji. Odległość Mahalanobista różni się od odległości Euklidesowej tym, iż dodatkowo bierze pod uwagę korelację zmiennych wchodzących w skład porównywanych wektorów. Z tego powodu, miarę tę nazywa się często ważoną odległością Euklidesową, z macierzą wag, będącą macierzą odwrotną do macierzy kowariancji jednego z wektorów [12]. 21

22 , = (30) Macierz kowariancji jest uogólnieniem pojęcia wariancji na przypadek wielowymiarowy. Dla wektora,,,, macierz kowariancji przyjmuje postać: (31) gdzie: = - wariancja zmiennej =, - kowariancja między zmiennymi i. 2.4 Normalizacja Proces przekształcenia wyników na wartości z przedziału <0, 1> jest nazywany normalizacją. Załóżmy, iż wartość odległości znajduje się w przedziale <, > i nie znajduje się w przedziale <0, 1>. Przyjmijmy następujące oznaczenia - oryginalna odległość - odległość znormalizowana Istnieje kilka sposobów na normalizację odległości. Z zasady, aby sprowadzić sekwencję liczb do przedziału <0, 1> powinniśmy posiadać wartości w formie dodatniej i podzielić przez liczbę wyższą od tej wartości [11] Z wykorzystaniem funkcji sigmoidalnej unipolarnej Jednym ze sposobów normalizacji jest wykorzystanie następującej funkcji: = + (32) Zmienna reprezentuje wartości z przedziału <-1, 1> dla 0. Ustawienie większej wartości tworzy wykres o bardziej łagodnym zboczu funkcji (Rys 2.3). Za pomocą następującego wzoru, funkcja być w prosty sposób przetransformowana na wartości z przedziału <0, 1>.

23 Miary podobieństwa = 1 2 (33) Co w połączeniu z oryginalnym wzorem daje: = (34) Rysunek 2.3 Wykres funkcji sigmoidalnej unipolarnej 14 W ogólności, kiedy < 0 wtedy > 0.5. Jeśli > 0, wówczas < 0.5. Dla = 0 funkcja produkuje wartości binarne 0 lub 1 z brakiem jej ciągłości dla = 0 [11]. Dla przykładu, jeśli = 4 i = 100 otrzymamy: = = 0,685 (35) Z wykorzystaniem wartości maksymalnej i minimalnej Kiedy wartość maksymalna i minimalna jest znana, transformacja może wyglądać następująco: = (36) Transformacja zwraca wartości z przedziału <0, 1>. Jeśli =, wtedy = 0. Jeśli = wtedy = 1. Należy jednak zwrócić uwagę, iż dzielenie nie może zostać wykonane, jeśli = 0 [11]

24 2.4.3 Gdy wartość maksymalna jest nieznana W przypadku, gdy w wektorze zmiennych nie znamy wartości maksymalnej, możemy użyć sumy wartości zmiennych, aby zastąpić wartość maksymalną [11]. Przypuśćmy, że ilość zmiennych jest stała i wynosi, wtedy: = (37) Normalizacja wartości ujemnych Wszystkie powyższe transformacje działają pod warunkiem, że nasze dane mają wartości większe od 0. Dla następującego wektora {-1,3,4} suma wynosi 6. Jeśli dokonamy normalizacji przy pomocy wartości maksymalnej otrzymamy:,,. Suma znormalizowanych wartości nadal jest większa od 0, ale wciąż w znormalizowanym wektorze istnieje wartość ujemna (. Rozwiązaniem jest przesunięcie danych poprzez dodanie do każdej zmiennej wartości bezwzględnej z najmniejszej wartości ujemnej. Po tej transformacji otrzymamy 0 w miejscu najmniejszej wartości ujemnej oraz wszystkie pozostałe wartości większe od zera. Wtedy można użyć jednego z wyżej opisanych sposobów normalizacji danych [11]. Dla przykładu, dla danych {-1,3,4}, najmniejszą wartością ujemną jest -1. Po dodaniu wartości bezwzględnej z -1 do pozostałych wartości otrzymamy: {0,4,5}. Po znormalizowaniu otrzymamy wektor: {0,, } Standaryzacja Standaryzacja jest również nazywana normalizacją statystyczną. Celem tej normalizacji jest przekształcenie danych o dowolnym rozkładzie do postaci rozkładu normalnego ze średnią zero i wariancją 1. Wzór normalizacji statystycznej przedstawia się następująco: = (38) gdzie: - wektor początkowych danych średnia - odchylenie standardowe

25 Miary podobieństwa 2.5 Podsumowanie Pomimo, iż istnieje wyraźna różnica pomiędzy klasyfikacją a podobieństwem muzycznym, te dwie dziedziny nie są od siebie aż tak bardzo odległe. Podstawową różnicą w przypadku klasyfikacji jest fakt, iż wymaga ona ustalenia z góry pewnej taksonomii. Badania nad podobieństwem natomiast wyznaczają określone miary, bez konieczności odnoszenia się do zewnętrznych struktur. Jest jednak jeden wspólny obszar w obydwu przypadkach. Mianowicie, wymagane jest zastosowanie tego samego mechanizmu ekstrakcji cech muzycznych. Jak zostało wspomniane na początku tego rozdziału, podobieństwo utworów muzycznych odzwierciedla siłę związku pomiędzy ich deskryptorami. Opis powyższego rozdziału dostarczył metod służących do pomiaru podobieństwa dwóch wektorów cech, a tym samym metod pomiaru podobieństwa utworów. Nie są to jednak jedyne sposoby. Podobieństwo może być również określane za pomocą metod uczenia maszynowego, a więc za pomocą klasyfikacji. 25

26 3 Klasyfikacja muzyczna Rozdział ten opisuje podstawowe zagadnienia związane z klasyfikacją. Opisuje sposoby działania klasyfikatorów, ich uczenie oraz testowanie. Opis nowych pojęć pozwoli lepiej orientować się w tej dziedzinie. Pod koniec rozdziału zostaną zaprezentowane najważniejsze algorytmy uczenia maszynowego, wykorzystywane do klasyfikacji przez program WEKA Czym jest klasyfikacja? Na wstępnie przytoczyć należy definicję klasyfikacji taksonomicznej, jako iż to pojęcie jest szczególnie istotne w badaniach związanych z muzyką. Klasyfikacja taksonomiczna jest to przyporządkowywanie obiektów do wcześniej zdefiniowanego zbioru kategorii (np. taksonomii) na podstawie właściwości tych obiektów. Mówiąc o klasyfikacji utworów, mamy na myśli skategoryzowanie utworów wg pewnej taksonomii (np. taksonomia gatunków muzycznych). Klasyfikacja znalazła szereg zastosowań, między innymi w rozpoznawaniu trendów na rynkach finansowych, w automatycznym rozpoznawaniu obrazów w dużych bazach danych, wspomaganiu decyzji przyznawania kredytów bankowych, itp. Znaczące zastosowanie znalazła w systemach medycznych. Przykładowo, w bazie danych medycznych znalezione mogą być reguły klasyfikujące poszczególne schorzenia, a następnie, przy pomocy tych reguł, automatycznie przeprowadzone diagnozowanie kolejnych pacjentów [13]. W niniejszej pracy, klasyfikacja znalazła zastosowanie w muzyce. Na podstawie zawartości bazy muzycznej budowany jest model (np. drzewo decyzyjne, reguły logiczne), który posłuży do klasyfikowania nowych utworów w bazie danych, lub głębszego zrozumienia istniejącego podziału kolekcji muzycznej. Głównym celem klasyfikacji jest zbudowanie formalnego modelu zwanego klasyfikatorem. Dane wejściowe w procesie klasyfikacji stanowi zbiór treningowy (zbiór przykładów, obserwacji, próbek), będący listą wartości atrybutów opisowych (tzw. deskryptorów) oraz wybranego atrybutu decyzyjnego (ang. class label attribute). W związku z wykorzystaniem zbioru treningowego, klasyfikację możemy nazwać metodą eksploracji danych z nadzorem (z nauczycielem) [13]. Klasyfikator jest modelem, który 15

27 Klasyfikacja muzyczna służy do predykcji wartości atrybutu decyzyjnego (np. gatunku muzycznego) utworów, dla których wartość tego atrybutu, tj. przydział do klasy, nie jest znana. Klasyfikacja jest procesem dwuetapowym. W pierwszym etapie konstruowany jest model (klasyfikator), opisujący predefiniowany zbiór klas. W drugim etapie klasyfikacji otrzymany model jest wykorzystywany do klasyfikacji nowych danych. 3.2 Trening i testowanie klasyfikatora Pierwszy etap klasyfikacji to nauka (trening) klasyfikatora w oparciu o zbiór treningowy. Następnie weryfikowana jest dokładność (jakość) klasyfikatora w oparciu o zbiór danych testowych. W związku z powyższym, aby zbudować klasyfikator należy podzielić bazę danych, czyli zbiór dostępnych utworów muzycznych na dwa niezależne zbiory. Pierwszy zbiór to zbiór treningowy. Na jego podstawie zbudowany zostanie model klasyfikatora. Drugi to zbiór służący do testowania modelu. Dane treningowe Algorytm klasyfikacji tempo wokal gatunek 120 chór dance 80 solo klasyka 100 solo dance 130 solo dance 60 brak klasyka 150 brak dance 120 brak klasyka 77 solo klasyka Klasyfikator (model) If tempo < 90 Or wokal = brak Then gatunek= klasyka Rysunek 3.1 Schemat budowy (nauki) klasyfikatora na podstawie danych treningowych W celu zobrazowania omówionych etapów budowy klasyfikatora, posłużmy się przykładami, takimi jak ten przedstawiony na rysunku 3.1. Załóżmy, iż baza danych zawiera informację o utworach muzycznych oraz ich gatunkach muzycznych. Baza stanowi prostą relację zawierającą trzy atrybuty: atrybut tempo, wokal, czyli rodzaj wokalu w utworze lub jego brak oraz atrybut gatunek związany z informacją o rodzaju muzycznym. Atrybut gatunek jest atrybutem decyzyjnym. Załóżmy ponadto, iż z takiej bazy wydzielono zbiór danych treningowych, przedstawiony na rysunku 3.1. Zbiór ten zostaje poddany algorytmowi klasyfikacji, który z kolei konstruuje klasyfikator. 27

28 Klasyfikator może być np. w postaci drzewa decyzyjnego, zbioru reguł decyzyjnych lub innych algorytmów uczenia maszynowego szczegółowo opisanych w podrozdziale 3.5. W przykładzie z rysunku 3.1, wynikiem działania algorytmu klasyfikacji jest klasyfikator w postaci pojedynczej reguły decyzyjnej:, Jeżeli tempo utworu jest mniejsze od 90 bpm (ang. beats per minute) lub wokal w utworze nie występuje, to utwór jest z gatunku muzyka klasyczna. Reguła ta oczywiście jest dużym uogólnieniem. Przykład ten ma jedynie na celu zobrazowanie ogólnej zasady budowy klasyfikatora. Dane testowe Klasyfikator (model) tempo wokal gatunek 125 chór dance 55 brak klasyka 100 chór dance 130 solo dance gatunek dance klasyka dance klasyka Dokładność = 75% Rysunek 3.2 Schemat testowania klasyfikatora, weryfikujący jego dokładność. W drugim etapie klasyfikacji, zwanym etapem testowania, dokonujemy weryfikacji dokładności opracowanego modelu. Weryfikacja dokładności jest realizowana w następujący sposób: dla zbioru przykładów testowych, wartości atrybutów decyzyjnych są porównywane z wartościami atrybutów generowanych przez klasyfikator. Na rysunku 3.2 przedstawiony został zbiór danych testowych, wyodrębnionych z muzycznej bazy danych. Dla podanych rekordów, klasyfikator generuje wartości atrybutu decyzyjnego, po czym następuje weryfikacja klasyfikatora. Jedną z miar weryfikujących dokładność modelu jest tzw. współczynnik dokładności (precyzja), obliczany jako procent poprawnie zaklasyfikowanych przykładów testowych [13]. Klasyfikator wygenerował następujące wartości atrybutu decyzyjnego dla zbioru testowego: dance, klasyka, dance, klasyka. Jeżeli porównamy wartości atrybutu decyzyjnego wygenerowane przez klasyfikator, z wartościami atrybutu decyzyjnego w zbiorze testowym, okazuje się, że klasyfikator poprawnie zaklasyfikował 3 z 4 przypadków a zatem współczynnik dokładności modelu wynosi 75%. Jeśli dokładność modelu jest akceptowalna, model może

29 Klasyfikacja muzyczna być użyty do klasyfikacji przyszłych danych, dla których wartość atrybutu decyzyjnego (np. gatunek muzyczny) jest nieznana. 3.3 Predykcja Jeżeli dokładność klasyfikatora jest akceptowalna, wówczas możemy go wykorzystać do klasyfikacji nowych danych. Celem klasyfikacji, jest przyporządkowanie nowych danych, dla których wartość atrybutu decyzyjnego jest nieznana, do odpowiedniej klasy. Nowe dane Klasyfikator (model) tempo wokal gatunek 34 chór? 155 brak? 125 chór? 80 brak? gatunek klasyka klasyka dance klasyka Rysunek 3.3 Schemat użycia klasyfikatora do celów predykcji wartości atrybutu decyzyjnego Na rysunku 3.3 przedstawiony został zbiór danych, dla których wartość atrybutu decyzyjnego gatunek nie jest znana. Zbiór ten poddany został procesowi klasyfikacji. W wyniku tego procesu, rozpoznane zostały następujące wartości atrybutu decyzyjnego gatunek : klasyka, klasyka, dance, klasyka. Klasyfikator zaklasyfikował nowe utwory do odpowiednich klas. Utwór z tempem 34 bpm oraz wokalem typu chór został zaklasyfikowany jako klasyka. Podobnie z utworami, które mają tempo 155 oraz 80 bpm i nie posiadają wokalu. 3.4 Kryteria porównawcze W tym punkcie zaprezentowanych zostanie kilka kryteriów, według których można oceniać dany klasyfikator [13]. Kryteria te są istotne nie tylko dlatego, aby rozważać klasyfikatory w kategoriach jakości, ale również, aby móc przeprowadzić eksperymenty na różnych typach klasyfikatorów. Dokładność predykcji (and. predictive accuracy) zdolność modelu do poprawnej predykcji wartości atrybutu decyzyjnego (klasy) nowego obiektu. 29

30 Efektywność (ang. efficiency) koszt obliczeniowy związany z wygenerowaniem i zastosowaniem klasyfikatora. Odporność modelu (ang. robustness) zdolność modelu do poprawnej predykcji klas w przypadku braku części danych lub występowania danych zaszumionych. Skalowalność (ang. scalability) zdolność do konstrukcji klasyfikatora dla dowolnie dużych danych (np. niektóre klasyfikatory są binarne). Interpretowalność (ang. interpretability): odnosi się do stopnia, w jakim konstrukcja klasyfikatora pozwala na zrozumienie mechanizmu klasyfikacji danych. 3.5 Metody uczenia maszynowego Podrozdział ten przedstawia najważniejsze algorytmy uczenia maszynowego, zaimplementowane w programie WEKA 16. Jedną z metod ulepszania obecnych metod klasyfikacji jest łączenie klasyfikatorów w zespoły. Metodę te wykorzystuje sie głównie w sytuacji, gdy klasyfikatory wykazują się dość dużą niestabilnością podczas testów z wykorzystaniem np. walidacji krzyżowej (ang. cross-validation). Walidacja krzyżowa polega na podziale zbioru dostępnych danych na dwa podzbiory treningowy oraz testowy i wykonaniu na nich odpowiednich analiz. Istniejące metody walidacji krzyżowej określają sposób podziału początkowego zbioru. Jedną z tych metod jest walidacja prosta, polegająca na losowym podziale zbioru początkowego na dwa rozłączne zbiory: uczący i testowy. Zwykle zbiór testowy stanowi mniej niż wszystkich elementów zbioru początkowego. Kolejną metodą jest walidacja -krotna, charakteryzująca się podziałem zbioru początkowego na podzbiorów. Następnie każdy z tym podzbiorów, stanowi kolejno zbiór testowy, a pozostałe razem stanowią zbiór uczący. Metoda Leave-one-out jest odmianą walidacji -krotnej. W metodzie tej, początkowy zbiór o elementach jest dzielony na podzbiorów, zawierających po jednym elemencie 17. Niestabilność klasyfikatorów objawia się dużym współczynnikiem błędów klasyfikacji. Istnieją jednak metody niwelowania takiej niestabilności, nazywane metodami stabilizacji klasyfikatorów. Do najbardziej popularnych należą bagging oraz boosting. Obie te metody zostaną omówione w tym rozdziale. Metody te, jak i inne mechanizmy opisywane poniżej, posłużą do klasyfikacji utworów muzycznych w dalszej części pracy

31 Klasyfikacja muzyczna K najbliższych sąsiadów (k-nn) Metoda najbliższych sąsiadów (ang. k-nearest neighbour) polega na przydzieleniu nowego obiektu do klasy decyzyjnej na podstawie kilku najbardziej podobnych do niego znanych obiektów. Zakładając, że obiekty przeznaczone do klasyfikacji są elementami przestrzeni R, wtedy odległość między dwoma obiektami, jest obliczana za pomocą odległości Euklidesowej:, = ( ) (39) Im mniejsza jest wartość odległości, tym obiekty uważane są za bardziej podobne. Klasyfikacja nowego obiektu polega na znalezieniu najbliższych obiektów z danych treningowych i przypisaniu mu klasy reprezentowanej przez większość spośród wyznaczonych reprezentantów [14] Naiwny klasyfikator Bayesa Jest to szeroko stosowana metoda, pozwalająca przewidzieć prawdopodobieństwo przynależności obiektów do klasy. Opiera się na twierdzeniu Bayesa: ( )= ( )( ) () (40) gdzie: obiekt, traktowany jako wektor jego atrybutów {,,, }, którego prawdopodobieństwo przynależności do klasy chcemy oszacować. - klasa, do której może należeć obiekt. ( ) - prawdopodobieństwo przynależności do klasy. ( ) - prawdopodobieństwo warunkowe (a posteriori 18 ) że obiekt posiada atrybuty {,,, }, jeśli wiadomo, że należy do klasy. () - prawdopodobieństwo, że każdy z obiektów posiada atrybuty {,,, }. Jest to tzw. prawdopodobieństwo bezwarunkowe (a priori 19 ). ( ) - prawdopodobieństwo a priori, że losowo wybrany obiekt należy do klasy

32 Prostota tej metody wynika z założenia niezależności statystycznej zmiennych. Stosując ten algorytm można osiągnąć zaskakująco dobre rezultaty. Naiwny klasyfikator Bayesa jest szczególnie odpowiedni przy dużym wymiarze wektora wejściowego. Z powodów opisanych powyżej, klasyfikator ten może być często lepszy od innych, bardziej skomplikowanych metod klasyfikacji [14]. Rysunek 3.4 Zbiór obiektów w przestrzeni dwuwymiarowej, należących do dwóch klas [14] Aby zilustrować koncepcję tego algorytmu, rozpatrzmy przykład z rysunku 3.4. Znajdują się tu obiekty zielone i czerwone. Zadaniem jest zaklasyfikowanie nowego obiektu, który może pojawić się wśród obecnych obiektów. Ponieważ zielonych obiektów jest dwa razy więcej niż czerwonych, rozsądnie będzie przyjąć, że obiekt, który jest jeszcze nieznany, będzie miał dwa razy większe prawdopodobieństwo bycia zielonym niż czerwonym. W analizie Bayesowskiej, takie prawdopodobieństwa nazywane są prawdopodobieństwami a priori. Wynikają one z posiadanych, wcześniejszych (a priori) obserwacji. W tym wypadku, chodzi o procent zielonych względem czerwonych obiektów. Prawdopodobieństwa a priori służą często do przewidywania klasy nieznanych przypadków, zanim się one pojawią. Jako iż na rysunku 3.4 wszystkich obiektów jest 60, obiektów zielonych jest 40, a czerwonych 20, to prawdopodobieństwa przynależności do odpowiednich klas wynoszą:. = 2 3 (41). = 1 3 Mając obliczone prawdopodobieństwo można przystąpić do zaklasyfikowania nowego obiektu [14].

33 Klasyfikacja muzyczna Rysunek 3.5 Zobrazowanie sąsiedztwa punktu przeznaczonego do klasyfikacji [14] Sensownie jest założyć, że im więcej jest obiektów zielonych (lub czerwonych) w pobliżu nowego obiektu, tym bardziej prawdopodobne jest, że nowy obiekt również będzie zielony (czerwony). Rysując okrąg wokół nowego obiektu (Rys. 3.5), tak by obejmował wstępnie zadaną liczbę obiektów, można obliczyć wielkość zwaną szansą, zliczając wystąpienia poszczególnych obiektów wewnątrz okręgu w stosunku do całkowitej liczby obiektów każdego typu., ż ę = 1 40, ż ę = 3 20 (42) Pomimo, iż prawdopodobieństwo wskazuje, że X będzie zielone, to szanse są odwrotne, ze względu na bliskość czerwonych obiektów. Końcowa klasyfikacja w analizie Bayesowskiej bazuje na obu informacjach. Można wyliczyć prawdopodobieństwo że X będzie zielone. Prawdopodobieństwo to jest iloczynem prawdopodobieństwa że X będzie zielone oraz szansy że X będzie zielone. Dla powyższego przykładu prawdopodobieństwo, że X będzie zielone wynosi. Z kolei prawdopodobieństwo że X będzie czerwone wynosi. W rezultacie X należy zaklasyfikować, jako obiekt czerwony, ponieważ prawdopodobieństwo jest większe dla takiej właśnie przynależności [14]. Powyższy przykład ma jedynie charakter intuicyjny. Za pomocą naiwnego klasyfikatora Bayesowskiego, można analizować dowolną liczbę zmiennych niezależnych, ciągłych i skategoryzowanych. Wzór metody Bayesa wygląda następująco:,, =,, (43) 33

34 gdzie oznacza klasę nr, a,, są wartościami obiektów przeznaczonych do klasyfikacji.,, oznacza prawdopodobieństwo przynależności wartości wektora (gdzie k={1,2.,n}) do klasy [15] Metoda wektorów nośnych SVM U podstaw metody wektorów nośnych (ang. Support Vector Machines, SVM) leży koncepcja przestrzeni decyzyjnej, którą dzieli się budując granice separujące obiekty o różnej przynależności klasowej 20. Innymi słowy, zadaniem tej metody jest rozdzielenie danych, należących do przeciwnych klas. Aby odseparować większą liczbę klas, należy użyć tej metody wielokrotnie. Dla przykładu podane są dwie klasy obiektów: obiekty zielone i czerwone. Linia graniczna rozdziela je wyraźnie. Nowy, nieznany obiekt, jeżeli znajdzie się po prawej stronie granicy, zostanie zaklasyfikowany jako zielony, w przeciwnym przypadku jako czerwony. Rysunek 3.6 Przykład działania prostego klasyfikatora liniowego 21 Rys. 3.6 jest ilustracją bardzo prostego przykładu klasyfikatora liniowego, dzielącego obszar prób na dwie części za pomocą prostej. Większość praktycznych zadań klasyfikacyjnych nie jest jednak tak oczywista. Do poprawnego klasyfikowania potrzebne są bardziej skomplikowane struktury niż linia prosta. Rysunek 3.7 Przykład działania klasyfikatora, dzielącego obszar prób na dwie części za pomocą krzywej vm.html

35 Klasyfikacja muzyczna Zilustrować może to przykład z rysunku 3.7, który porównany z poprzednim jasno wskazuje, że do rozdzielenia obiektów zielonych i czerwonych konieczna jest krzywa. Krzywa ta jest przykładem klasyfikatora hiperpłaszczyznowego. Tego typu klasyfikatory otrzymujemy stosując metodę wektorów nośnych SVM [14]. Rysunek 3.8 Przykład wykonania transformacji z jednej przestrzeni na inną za pomocą pewnej funkcji jądrowej Rys. 3.8 ilustruje główną ideę metody wektorów nośnych. Oryginalne obiekty z lewej strony rysunku zostały zmapowane (przetransportowane) za pomocą funkcji jądrowych (ang. kernel functions) na przestrzeń ilustrowaną po prawej. Co ważne, w nowej przestrzeni dwie klasy są liniowo separowane, co pozwala uniknąć skomplikowanej postaci granicy klas. Biały obiekt, to nowy, nieznany przypadek Drzewa decyzyjne Drzewo jest grafem składającym się z wierzchołków i krawędzi łączących niektóre wierzchołki. Najprostsze drzewa to tzw. drzewa binarne, w których z każdego wierzchołka wychodzą dwie krawędzie. Każdy taki wierzchołek reprezentuje decyzję o podziale zbioru obiektów na dwa podzbiory ze względu na jedną z cech objaśniających. Początkowy wierzchołek drzewa, obrazujący pierwszą decyzję podziału, nazywany jest korzeniem drzewa. Z kolei liściem drzewa nazywany jest wierzchołek, z którego nie wychodzą żadne krawędzie. Na tym etapie następuje identyfikacja obiektu. Korzeń drzewa wybierany jest na podstawie tzw. kryterium wyboru. Najczęściej stosowanym kryterium jest tzw. zysk informacji (ang. Information gain). Innymi słowy, wybierany jest ten podział, który daje dwa najbardziej różniące się między sobą podzbiory. 22 m.html 35

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1 Klasyfikacja Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji Klasyfikacja wykład 1 Niniejszy wykład poświęcimy kolejnej metodzie eksploracji danych klasyfikacji. Na początek

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Przykładowa analiza danych

Przykładowa analiza danych Przykładowa analiza danych W analizie wykorzystano dane pochodzące z publicznego repozytorium ArrayExpress udostępnionego na stronach Europejskiego Instytutu Bioinformatyki (http://www.ebi.ac.uk/). Zbiór

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą 1. Statystyka odczytać informacje z tabeli odczytać informacje z diagramu 2. Mnożenie i dzielenie potęg o tych samych podstawach 3. Mnożenie i dzielenie potęg o tych samych wykładnikach 4. Potęga o wykładniku

Bardziej szczegółowo

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Algorytm k-nn Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Jak daleko są położone obiekty od siebie? knn k nearest neighbours jest

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Osiągnięcia ponadprzedmiotowe

Osiągnięcia ponadprzedmiotowe W rezultacie kształcenia matematycznego uczeń potrafi: Osiągnięcia ponadprzedmiotowe Umiejętności konieczne i podstawowe czytać teksty w stylu matematycznym wykorzystywać słownictwo wprowadzane przy okazji

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Wymagania edukacyjne z matematyki w klasie III gimnazjum

Wymagania edukacyjne z matematyki w klasie III gimnazjum Wymagania edukacyjne z matematyki w klasie III gimnazjum - nie potrafi konstrukcyjnie podzielić odcinka - nie potrafi konstruować figur jednokładnych - nie zna pojęcia skali - nie rozpoznaje figur jednokładnych

Bardziej szczegółowo

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,

Bardziej szczegółowo

Arkusz maturalny nr 2 poziom podstawowy ZADANIA ZAMKNIĘTE. Rozwiązania. Wartość bezwzględna jest odległością na osi liczbowej.

Arkusz maturalny nr 2 poziom podstawowy ZADANIA ZAMKNIĘTE. Rozwiązania. Wartość bezwzględna jest odległością na osi liczbowej. Arkusz maturalny nr 2 poziom podstawowy ZADANIA ZAMKNIĘTE Rozwiązania Zadanie 1 Wartość bezwzględna jest odległością na osi liczbowej. Stop Istnieje wzajemnie jednoznaczne przyporządkowanie między punktami

Bardziej szczegółowo

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl Komputerowe Systemy Przemysłowe: Modelowanie - UML Arkadiusz Banasik arkadiusz.banasik@polsl.pl Plan prezentacji Wprowadzenie UML Diagram przypadków użycia Diagram klas Podsumowanie Wprowadzenie Języki

Bardziej szczegółowo

Rozkład materiału nauczania

Rozkład materiału nauczania Dział/l.p. Ilość godz. Typ szkoły: TECHNIKUM Zawód: TECHNIK USŁUG FRYZJERSKICH Rok szkolny 2015/2016 Przedmiot: MATEMATYKA Klasa: III 2 godz/tyg 30 = 60 godzin Rozkład materiału nauczania Temat I. LOGARYTMY

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2 Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski Sterowanie procesem i jego zdolność Zbigniew Wiśniewski Wybór cech do kart kontrolnych Zaleca się aby w pierwszej kolejności były brane pod uwagę cechy dotyczące funkcjonowania wyrobu lub świadczenia usługi

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych

Bardziej szczegółowo

ARYTMETYKA BINARNA. Dziesiątkowy system pozycyjny nie jest jedynym sposobem kodowania liczb z jakim mamy na co dzień do czynienia.

ARYTMETYKA BINARNA. Dziesiątkowy system pozycyjny nie jest jedynym sposobem kodowania liczb z jakim mamy na co dzień do czynienia. ARYTMETYKA BINARNA ROZWINIĘCIE DWÓJKOWE Jednym z najlepiej znanych sposobów kodowania informacji zawartej w liczbach jest kodowanie w dziesiątkowym systemie pozycyjnym, w którym dla przedstawienia liczb

Bardziej szczegółowo

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną

Bardziej szczegółowo

Jakość uczenia i generalizacja

Jakość uczenia i generalizacja Jakość uczenia i generalizacja Dokładność uczenia Jest koncepcją miary w jakim stopniu nasza sieć nauczyła się rozwiązywać określone zadanie Dokładność mówi na ile nauczyliśmy się rozwiązywać zadania które

Bardziej szczegółowo

8. Analiza danych przestrzennych

8. Analiza danych przestrzennych 8. naliza danych przestrzennych Treścią niniejszego rozdziału będą analizy danych przestrzennych. naliza, ogólnie mówiąc, jest procesem poszukiwania (wydobywania) informacji ukrytej w zbiorze danych. Najprostszym

Bardziej szczegółowo

Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem przedsięwzięcia z wykorzystaniem metod sieciowych PERT i CPM

Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem przedsięwzięcia z wykorzystaniem metod sieciowych PERT i CPM SZKOŁA GŁÓWNA HANDLOWA w Warszawie STUDIUM MAGISTERSKIE Kierunek: Metody ilościowe w ekonomii i systemy informacyjne Karol Walędzik Nr albumu: 26353 Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem

Bardziej szczegółowo

Propozycje rozwiązań zadań otwartych z próbnej matury rozszerzonej przygotowanej przez OPERON.

Propozycje rozwiązań zadań otwartych z próbnej matury rozszerzonej przygotowanej przez OPERON. Propozycje rozwiązań zadań otwartych z próbnej matury rozszerzonej przygotowanej przez OPERON. Zadanie 6. Dane są punkty A=(5; 2); B=(1; -3); C=(-2; -8). Oblicz odległość punktu A od prostej l przechodzącej

Bardziej szczegółowo

Plan wynikowy. Klasa III Technik pojazdów samochodowych/ Technik urządzeń i systemów energetyki odnawialnej. Kształcenie ogólne w zakresie podstawowym

Plan wynikowy. Klasa III Technik pojazdów samochodowych/ Technik urządzeń i systemów energetyki odnawialnej. Kształcenie ogólne w zakresie podstawowym Oznaczenia: wymagania konieczne, P wymagania podstawowe, R wymagania rozszerzające, D wymagania dopełniające, W wymagania wykraczające. Plan wynikowy lasa III Technik pojazdów samochodowych/ Technik urządzeń

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin. Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Zadania analityczne (1) Analiza przewiduje badanie podobieństw

Bardziej szczegółowo

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Cezary Dendek Wydział Matematyki i Nauk Informacyjnych PW Plan prezentacji Plan prezentacji Wprowadzenie

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela

Statystyka w pracy badawczej nauczyciela Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem

Bardziej szczegółowo

10. Wstęp do Teorii Gier

10. Wstęp do Teorii Gier 10. Wstęp do Teorii Gier Definicja Gry Matematycznej Gra matematyczna spełnia następujące warunki: a) Jest co najmniej dwóch racjonalnych graczy. b) Zbiór możliwych dezycji każdego gracza zawiera co najmniej

Bardziej szczegółowo

Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. 2 godz. = 76 godz.)

Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. 2 godz. = 76 godz.) Rozkład materiału z matematyki dla II klasy technikum zakres podstawowy I wariant (38 tyg. godz. = 76 godz.) I. Funkcja i jej własności.4godz. II. Przekształcenia wykresów funkcji...9 godz. III. Funkcja

Bardziej szczegółowo

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć Katalog wymagań programowych na poszczególne stopnie szkolne Matematyka. Poznać, zrozumieć Kształcenie w zakresie podstawowym. Klasa 3 Poniżej podajemy umiejętności, jakie powinien zdobyć uczeń z każdego

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo

Bardziej szczegółowo

Alicja Marszałek Różne rodzaje baz danych

Alicja Marszałek Różne rodzaje baz danych Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Podstawowym zadaniem, które realizuje

Podstawowym zadaniem, które realizuje Funkcje wyszukiwania i adresu INDEKS Mariusz Jankowski autor strony internetowej poświęconej Excelowi i programowaniu w VBA; Bogdan Gilarski właściciel firmy szkoleniowej Perfect And Practical; Pytania:

Bardziej szczegółowo

Sztuczna Inteligencja Projekt

Sztuczna Inteligencja Projekt Sztuczna Inteligencja Projekt Temat: Algorytm LEM2 Liczba osób realizujących projekt: 2 1. Zaimplementować algorytm LEM 2. 2. Zaimplementować klasyfikator Classif ier. 3. Za pomocą algorytmu LEM 2 wygenerować

Bardziej szczegółowo

WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY W KLASIE I GIMNAZJUM

WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY W KLASIE I GIMNAZJUM WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY W KLASIE I GIMNAZJUM NA OCENĘ DOPUSZCZJĄCĄ UCZEN: zna pojęcie liczby naturalnej, całkowitej, wymiernej rozumie rozszerzenie osi liczbowej na liczby ujemne umie

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

Modelowanie hierarchicznych struktur w relacyjnych bazach danych Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego

Bardziej szczegółowo

Generatory takie mają niestety okres, po którym sekwencja liczb powtarza się.

Generatory takie mają niestety okres, po którym sekwencja liczb powtarza się. 1 Wstęp Będziemyrozważaćgeneratorytypux n+1 =f(x n,x n 1,...,x n k )(modm). Zakładamy,żeargumentamifunkcjifsąliczbycałkowitezezbioru0,1,...,M 1. Dla ustalenia uwagi mogą to być generatory liniowe typu:

Bardziej szczegółowo

MATeMAtyka 3. Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych. Zakres podstawowy i rozszerzony

MATeMAtyka 3. Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych. Zakres podstawowy i rozszerzony Agnieszka Kamińska, Dorota Ponczek MATeMAtyka 3 Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych Zakres podstawowy i rozszerzony Wyróżnione zostały następujące wymagania

Bardziej szczegółowo

Algorytmy genetyczne w interpolacji wielomianowej

Algorytmy genetyczne w interpolacji wielomianowej Algorytmy genetyczne w interpolacji wielomianowej (seminarium robocze) Seminarium Metod Inteligencji Obliczeniowej Warszawa 22 II 2006 mgr inż. Marcin Borkowski Plan: Przypomnienie algorytmu niszowego

Bardziej szczegółowo

Streszczenie pracy doktorskiej Autor: mgr Wojciech Wojaczek Tytuł: Czynniki poznawcze a kryteria oceny przedsiębiorczych szans Wstęp W ciągu

Streszczenie pracy doktorskiej Autor: mgr Wojciech Wojaczek Tytuł: Czynniki poznawcze a kryteria oceny przedsiębiorczych szans Wstęp W ciągu Streszczenie pracy doktorskiej Autor: mgr Wojciech Wojaczek Tytuł: Czynniki poznawcze a kryteria oceny przedsiębiorczych szans Wstęp W ciągu ostatnich kilku dekad diametralnie zmienił się charakter prowadzonej

Bardziej szczegółowo

Algorytm. a programowanie -

Algorytm. a programowanie - Algorytm a programowanie - Program komputerowy: Program komputerowy można rozumieć jako: kod źródłowy - program komputerowy zapisany w pewnym języku programowania, zestaw poszczególnych instrukcji, plik

Bardziej szczegółowo

Zagadnienie klasyfikacji (dyskryminacji)

Zagadnienie klasyfikacji (dyskryminacji) Zagadnienie klasyfikacji (dyskryminacji) Przykład Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka

Bardziej szczegółowo

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 12. Metody eksploracji danych Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych

Bardziej szczegółowo

SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD

SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD Dr inż. Jacek WARCHULSKI Dr inż. Marcin WARCHULSKI Mgr inż. Witold BUŻANTOWICZ Wojskowa Akademia Techniczna SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD Streszczenie: W referacie przedstawiono możliwości

Bardziej szczegółowo

Podstawy działań na wektorach - dodawanie

Podstawy działań na wektorach - dodawanie Podstawy działań na wektorach - dodawanie Metody dodawania wektorów można podzielić na graficzne i analityczne (rachunkowe). 1. Graficzne (rysunkowe) dodawanie dwóch wektorów. Założenia: dane są dwa wektory

Bardziej szczegółowo

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

III. ZMIENNE LOSOWE JEDNOWYMIAROWE III. ZMIENNE LOSOWE JEDNOWYMIAROWE.. Zmienna losowa i pojęcie rozkładu prawdopodobieństwa W dotychczas rozpatrywanych przykładach każdemu zdarzeniu była przyporządkowana odpowiednia wartość liczbowa. Ta

Bardziej szczegółowo

Etapy modelowania ekonometrycznego

Etapy modelowania ekonometrycznego Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,

Bardziej szczegółowo

Wykład 9: Markov Chain Monte Carlo

Wykład 9: Markov Chain Monte Carlo RAP 412 17.12.2008 Wykład 9: Markov Chain Monte Carlo Wykładowca: Andrzej Ruciński Pisarz: Ewelina Rychlińska i Wojciech Wawrzyniak Wstęp W tej części wykładu zajmiemy się zastosowaniami łańcuchów Markowa

Bardziej szczegółowo

Wymagania edukacyjne niezbędne do uzyskania poszczególnych ocen śródrocznych i rocznych ocen klasyfikacyjnych z matematyki klasa 1 gimnazjum

Wymagania edukacyjne niezbędne do uzyskania poszczególnych ocen śródrocznych i rocznych ocen klasyfikacyjnych z matematyki klasa 1 gimnazjum edukacyjne niezbędne do uzyskania poszczególnych ocen śródrocznych i rocznych ocen klasyfikacyjnych z matematyki klasa 1 gimnazjum Semestr I Stopień Rozdział 1. Liczby Zamienia liczby dziesiętne na ułamki

Bardziej szczegółowo

Funkcje wyszukiwania i adresu PODAJ.POZYCJĘ

Funkcje wyszukiwania i adresu PODAJ.POZYCJĘ Funkcje wyszukiwania i adresu PODAJ.POZYCJĘ Mariusz Jankowski autor strony internetowej poświęconej Excelowi i programowaniu w VBA; Bogdan Gilarski właściciel firmy szkoleniowej Perfect And Practical;

Bardziej szczegółowo

PORÓWNANIE TREŚCI ZAWARTYCH W OBOWIĄZUJĄCYCH STANDARDACH EGZAMINACYJNYCH Z TREŚCIAMI NOWEJ PODSTAWY PROGRAMOWEJ

PORÓWNANIE TREŚCI ZAWARTYCH W OBOWIĄZUJĄCYCH STANDARDACH EGZAMINACYJNYCH Z TREŚCIAMI NOWEJ PODSTAWY PROGRAMOWEJ PORÓWNANIE TREŚCI ZAWARTYCH W OBOWIĄZUJĄCYCH STANDARDACH EGZAMINACYJNYCH Z TREŚCIAMI NOWEJ PODSTAWY PROGRAMOWEJ L.p. 1. Liczby rzeczywiste 2. Wyrażenia algebraiczne bada, czy wynik obliczeń jest liczbą

Bardziej szczegółowo

SZCZEGÓŁOWE WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY Z MATEMATYKI KLASA I 2015/2016

SZCZEGÓŁOWE WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY Z MATEMATYKI KLASA I 2015/2016 SZCZEGÓŁOWE WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY Z MATEMATYKI KLASA I 2015/2016 Ocenę dopuszczającą otrzymuje uczeń, który: (Liczby i działania) zna pojęcie liczby naturalnej, całkowitej, wymiernej

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Jednym z elementów walidacji metod pomiarowych jest sprawdzenie liniowości

Bardziej szczegółowo

Definicje. Algorytm to:

Definicje. Algorytm to: Algorytmy Definicje Algorytm to: skończony ciąg operacji na obiektach, ze ściśle ustalonym porządkiem wykonania, dający możliwość realizacji zadania określonej klasy pewien ciąg czynności, który prowadzi

Bardziej szczegółowo

Podstawowe operacje arytmetyczne i logiczne dla liczb binarnych

Podstawowe operacje arytmetyczne i logiczne dla liczb binarnych 1 Podstawowe operacje arytmetyczne i logiczne dla liczb binarnych 1. Podstawowe operacje logiczne dla cyfr binarnych Jeśli cyfry 0 i 1 potraktujemy tak, jak wartości logiczne fałsz i prawda, to działanie

Bardziej szczegółowo

KURS WSPOMAGAJĄCY PRZYGOTOWANIA DO MATURY Z MATEMATYKI ZDAJ MATMĘ NA MAKSA. przyjmuje wartości większe od funkcji dokładnie w przedziale

KURS WSPOMAGAJĄCY PRZYGOTOWANIA DO MATURY Z MATEMATYKI ZDAJ MATMĘ NA MAKSA. przyjmuje wartości większe od funkcji dokładnie w przedziale Zestaw nr 1 Poziom Rozszerzony Zad.1. (1p) Liczby oraz, są jednocześnie ujemne wtedy i tylko wtedy, gdy A. B. C. D. Zad.2. (1p) Funkcja przyjmuje wartości większe od funkcji dokładnie w przedziale. Wtedy

Bardziej szczegółowo

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego IBS PAN, Warszawa 9 kwietnia 2008 Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego mgr inż. Marcin Jaruszewicz promotor: dr hab. inż. Jacek Mańdziuk,

Bardziej szczegółowo

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania

Bardziej szczegółowo

9. Podstawowe narzędzia matematyczne analiz przestrzennych

9. Podstawowe narzędzia matematyczne analiz przestrzennych Waldemar Izdebski - Wykłady z przedmiotu SIT 75 9. odstawowe narzędzia matematyczne analiz przestrzennych Niniejszy rozdział służy ogólnemu przedstawieniu metod matematycznych wykorzystywanych w zagadnieniu

Bardziej szczegółowo

Kryteria oceniania z matematyki w klasie pierwszej w roku szkolnym 2015/2016

Kryteria oceniania z matematyki w klasie pierwszej w roku szkolnym 2015/2016 Kryteria oceniania z matematyki w klasie pierwszej w roku szkolnym 2015/2016 1) Liczby - zamienia liczby dziesiętne skończone na ułamki zwykłe i liczby mieszane, - zapisuje ułamek zwykły w postaci ułamka

Bardziej szczegółowo

Luty 2001 Algorytmy (7) 2000/2001 s-rg@siwy.il.pw.edu.pl

Luty 2001 Algorytmy (7) 2000/2001 s-rg@siwy.il.pw.edu.pl System dziesiętny 7 * 10 4 + 3 * 10 3 + 0 * 10 2 + 5 *10 1 + 1 * 10 0 = 73051 Liczba 10 w tym zapisie nazywa się podstawą systemu liczenia. Jeśli liczba 73051 byłaby zapisana w systemie ósemkowym, co powinniśmy

Bardziej szczegółowo

Sprzętowo wspomagane metody klasyfikacji danych

Sprzętowo wspomagane metody klasyfikacji danych Sprzętowo wspomagane metody klasyfikacji danych Jakub Botwicz Politechnika Warszawska, Instytut Telekomunikacji Plan prezentacji 1. Motywacje oraz cele 2. Problemy klasyfikacji danych 3. Weryfikacja integralności

Bardziej szczegółowo

Matematyka do liceów i techników Szczegółowy rozkład materiału Zakres podstawowy

Matematyka do liceów i techników Szczegółowy rozkład materiału Zakres podstawowy Matematyka do liceów i techników Szczegółowy rozkład materiału Zakres podstawowy Wariant nr (klasa I 4 godz., klasa II godz., klasa III godz.) Klasa I 7 tygodni 4 godziny = 48 godzin Lp. Tematyka zajęć

Bardziej szczegółowo

Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1

Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1 Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Tematem wykładu są zagadnienia związane z grupowaniem. Rozpoczniemy od krótkiego wprowadzenia

Bardziej szczegółowo

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl Analiza metod wykrywania przekazów steganograficznych Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl Plan prezentacji Wprowadzenie Cel pracy Tezy pracy Koncepcja systemu Typy i wyniki testów Optymalizacja

Bardziej szczegółowo

WYMAGANIA KONIECZNE - OCENA DOPUSZCZAJĄCA:

WYMAGANIA KONIECZNE - OCENA DOPUSZCZAJĄCA: WYMAGANIA KONIECZNE - OCENA DOPUSZCZAJĄCA: zna pojęcie liczby naturalnej, całkowitej, wymiernej rozumie rozszerzenie osi liczbowej na liczby ujemne umie zaznaczać liczbę wymierną na osi liczbowej umie

Bardziej szczegółowo

Algorytmy genetyczne

Algorytmy genetyczne Algorytmy genetyczne Motto: Zamiast pracowicie poszukiwać najlepszego rozwiązania problemu informatycznego lepiej pozwolić, żeby komputer sam sobie to rozwiązanie wyhodował! Algorytmy genetyczne służą

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU obraz dr inż. Jacek Naruniec Analiza Składowych Niezależnych (ICA) Independent Component Analysis Dąży do wyznaczenia zmiennych niezależnych z obserwacji Problem opiera

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Wykład 3 Liniowe metody klasyfikacji. Wprowadzenie do klasyfikacji pod nadzorem. Fisherowska dyskryminacja liniowa. Wprowadzenie do klasyfikacji pod nadzorem. Klasyfikacja pod nadzorem Klasyfikacja jest

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

Klasyfikacja i regresja Wstęp do środowiska Weka

Klasyfikacja i regresja Wstęp do środowiska Weka Klasyfikacja i regresja Wstęp do środowiska Weka 19 listopada 2015 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików pdf sformatowanych podobnie do tego dokumentu.

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych

Bardziej szczegółowo

FUNKCJE LICZBOWE. Na zbiorze X określona jest funkcja f : X Y gdy dowolnemu punktowi x X przyporządkowany jest punkt f(x) Y.

FUNKCJE LICZBOWE. Na zbiorze X określona jest funkcja f : X Y gdy dowolnemu punktowi x X przyporządkowany jest punkt f(x) Y. FUNKCJE LICZBOWE Na zbiorze X określona jest funkcja f : X Y gdy dowolnemu punktowi x X przyporządkowany jest punkt f(x) Y. Innymi słowy f X Y = {(x, y) : x X oraz y Y }, o ile (x, y) f oraz (x, z) f pociąga

Bardziej szczegółowo