Uczenie nienadzorowane w wydobywaniu znaczeń leksykalnych słów
|
|
- Nadzieja Piekarska
- 8 lat temu
- Przeglądów:
Transkrypt
1 Uczenie nienadzorowane w wydobywaniu znaczeń leksykalnych słów Bartosz Broda Politechnika Wrocławska Samsung Research Institute Poland 20 maja 2013
2 Plan prezentacji 1 Wstęp 2 Rozstrzyganie niejednoznaczności leksykalnej słów 3 Problem badawczy 4 LexCSD Szacowanie liczby znaczeń słów Automatyczny wybór metody grupowania Wydobywanie przykładów użycia znaczeń 5 Podsumowanie artosz Broda (II,PWr) 20 maja / 41
3 Rozstrzyganie niejednoznaczności Przykład wieloznaczności Problem niejednoznaczności Przewodnik Słownik Języka Polskiego PWN 1 osoba, która zawodowo oprowadza turystów po jakimś terenie 2 książka podająca wiadomości z historii, geografii danego regionu 3 ciało dobrze przewodzące prąd elektryczny w warunkach normalnych Bartosz Broda (II,PWr) 20 maja / 41
4 Rozstrzyganie niejednoznaczności Problem niejednoznaczności Przykład niejednoznaczności Aleksander nasz przewodnik-1 po Petersburgu, profesor, humanista, erudyta... fanatyk zbiorów... To może przewodnik-2 po najpiękniejszych polskich miastach? Izolowane od siebie chłodzone segmenty zachowują się jak zły przewodnik-3 elektryczny, a dobry przewodnik-3 cieplny. Przewodnik Słownik Języka Polskiego PWN 1 osoba, która zawodowo oprowadza turystów 2 książka podająca wiadomości z historii, geografii danego regionu 3 ciało dobrze przewodzące prąd elektryczny w warunkach normalnych Bartosz Broda (II,PWr) 20 maja / 41
5 Rozstrzyganie niejednoznaczności Problem niejednoznaczności Przykład niejednoznaczności Aleksander nasz przewodnik-1 po Petersburgu, profesor, humanista, erudyta... fanatyk zbiorów... To może przewodnik-2 po najpiękniejszych polskich miastach? Izolowane od siebie chłodzone segmenty zachowują się jak zły przewodnik-3 elektryczny, a dobry przewodnik-3 cieplny. Przewodnik Słownik Języka Polskiego PWN 1 osoba, która zawodowo oprowadza turystów 2 książka podająca wiadomości z historii, geografii danego regionu 3 ciało dobrze przewodzące prąd elektryczny w warunkach normalnych Bartosz Broda (II,PWr) 20 maja / 41
6 Rozstrzyganie niejednoznaczności Problem niejednoznaczności Przykład niejednoznaczności Aleksander nasz przewodnik-1 po Petersburgu, profesor, humanista, erudyta... fanatyk zbiorów... To może przewodnik-2 po najpiękniejszych polskich miastach? Izolowane od siebie chłodzone segmenty zachowują się jak zły przewodnik-3 elektryczny, a dobry przewodnik-3 cieplny. Przewodnik Słownik Języka Polskiego PWN 1 osoba, która zawodowo oprowadza turystów 2 książka podająca wiadomości z historii, geografii danego regionu 3 ciało dobrze przewodzące prąd elektryczny w warunkach normalnych Bartosz Broda (II,PWr) 20 maja / 41
7 Rozstrzyganie niejednoznaczności Problem niejednoznaczności Przykład niejednoznaczności Aleksander nasz przewodnik-1 po Petersburgu, profesor, humanista, erudyta... fanatyk zbiorów... To może przewodnik-2 po najpiękniejszych polskich miastach? Izolowane od siebie chłodzone segmenty zachowują się jak zły przewodnik-3 elektryczny, a dobry przewodnik-3 cieplny. Przewodnik Słownik Języka Polskiego PWN 1 osoba, która zawodowo oprowadza turystów 2 książka podająca wiadomości z historii, geografii danego regionu 3 ciało dobrze przewodzące prąd elektryczny w warunkach normalnych Bartosz Broda (II,PWr) 20 maja / 41
8 Rozstrzyganie niejednoznaczności Problem niejednoznaczności Przykład niejednoznaczności Aleksander nasz przewodnik-1 po Petersburgu, profesor, humanista, erudyta... fanatyk zbiorów... To może przewodnik-2 po najpiękniejszych polskich miastach? Izolowane od siebie chłodzone segmenty zachowują się jak zły przewodnik-3 elektryczny, a dobry przewodnik-3 cieplny. Przewodnik Słownik Języka Polskiego PWN 1 osoba, która zawodowo oprowadza turystów 2 książka podająca wiadomości z historii, geografii danego regionu 3 ciało dobrze przewodzące prąd elektryczny w warunkach normalnych Bartosz Broda (II,PWr) 20 maja / 41
9 Rozstrzyganie niejednoznaczności Problem niejednoznaczności Przykład niejednoznaczności Aleksander nasz przewodnik-1 po Petersburgu, profesor, humanista, erudyta... fanatyk zbiorów... To może przewodnik-2 po najpiękniejszych polskich miastach? Izolowane od siebie chłodzone segmenty zachowują się jak zły przewodnik-3 elektryczny, a dobry przewodnik-3 cieplny. Przewodnik Słownik Języka Polskiego PWN 1 osoba, która zawodowo oprowadza turystów 2 książka podająca wiadomości z historii, geografii danego regionu 3 ciało dobrze przewodzące prąd elektryczny w warunkach normalnych Bartosz Broda (II,PWr) 20 maja / 41
10 Rozstrzyganie niejednoznaczności Problem niejednoznaczności Pojęcia podstawowe Rozstrzyganie niejednoznaczności leksykalnej słów ustalenie znaczenia każdego słowa w kontekście ustalenie, które znaczenie słowa zostało użyte w danym kontekście problem klasyfikacji ang. Word Sense Disambiguation Rozróżnianie znaczeń słów ustalenie jakie znaczenia występują w tekście podział wystąpień słów niejednoznacznych na rozłączne znaczeniowo grupy problem grupowania ang. Word Sense Discrimination E. Agirre and P. Edmonds, editors. Word Sense Disambiguation: Algorithms and Applications. Springer, 2006 R. Navigli. Word sense disambiguation: A survey. ACM Computing Surveys, 41(2):1 69, 2009 Bartosz Broda (II,PWr) 20 maja / 41
11 Zastosowania Rozstrzyganie niejednoznaczności Opis problemu Maszynowe tłumaczenie Wybór odpowiedniego tłumaczenia Rozwiązanie denouement, solution, outcome, delivery Wyszukiwanie informacji Którego rozwiązania użytkownik szuka? Ekstrakcja informacji W wypadku zbierania informacji o spółkach giełdowych interesujące są rozwiązania spółek a nie np. porody czy rozwiązania łamigłówek Badania językowe Wspomaganie tworzenia słowników Bartosz Broda (II,PWr) 20 maja / 41
12 Rozstrzyganie niejednoznaczności Opis problemu Skala problemu Monosemiczne Polisemiczne Stopień polisemii słowa i znaczenia słowa znaczenia wszystkie wieloznaczne WordNet Rzeczowniki ,24 2,79 Czasowniki ,17 3,57 Przymiotniki ,40 2,71 Słowosieć 1.6 Rzeczowniki ,44 2,74 Czasowniki ,82 2,99 Przymiotniki ,61 Tabela: Stopień wieloznaczności dla języka angielskiego i polskiego na przykładzie elektronicznych tezaurusów Korpus Instytutu Podstaw Informatyki PAN ponad 250 milionów słów (rozszerzony do 1,8 mld) Narodowego Korpusu Języka Polskiego (1 mld słów) Bartosz Broda (II,PWr) 20 maja / 41
13 Rozstrzyganie niejednoznaczności Istniejące metody Typowe podejścia Oparte o wiedzę ręcznie napisane reguły porównanie definicji słownikowej z kontekstem heurystyki Metody wykorzystujące uczenie nadzorowane indukcja drzew decyzyjnych uczenie pamięciowe W oparciu o przesłanki wielojęzyczne (ang. translational equivalence ) wykorzystanie zasobów wielojęzycznych Metody wykorzystujące uczenie nienadzorowane wykorzystanie dużych korpusów nieoznaczonych ręcznie Bartosz Broda (II,PWr) 20 maja / 41
14 Rozstrzyganie niejednoznaczności Istniejące metody Typowe podejścia Oparte o wiedzę ręcznie napisane reguły porównanie definicji słownikowej z kontekstem heurystyki Metody wykorzystujące uczenie nadzorowane indukcja drzew decyzyjnych uczenie pamięciowe W oparciu o przesłanki wielojęzyczne (ang. translational equivalence ) wykorzystanie zasobów wielojęzycznych Metody wykorzystujące uczenie nienadzorowane wykorzystanie dużych korpusów nieoznaczonych ręcznie Bartosz Broda (II,PWr) 20 maja / 41
15 LexCSD Inspiracja dla zaproponowanej metody Podejście zostało oparte na sposobie pracy leksykografów 1 : Zbieranie przesłanek z korpusów tekstów w postaci przykładów użycia danego słowa Intuicyjny podział zebranych danych na grupy Analiza grup w poszukiwaniu wspólnych właściwości przykładów użycia słowa w grupach Sformułowanie definicji dla znaczeń Lexicographer-Controlled Semi-automatic word sense Disambiguation (LexCSD) 2 : Zbieranie przykładów użycia Grupowanie Opcjonalne opisywanie grup Trenowanie klasyfikatorów Przygotowanie reprezentatywnych przykładów użycia 1 A. Kilgarriff. The hard parts of lexicography. International Journal of Lexicography, 11:51 54, B. Broda and M. Piasecki. Evaluating LexCSD in a Large Scale Experiment. Control and Cybernetics, 40(2), 2011 Bartosz Broda (II,PWr) 20 maja / 41
16 LexCSD Schemat autorskiej metody LexCSD B. Broda and M. Piasecki. Evaluating LexCSD in a Large Scale Experiment. Control and Cybernetics, 40(2), 2011 Bartosz Broda (II,PWr) 20 maja / 41
17 LexCSD Schemat autorskiej metody LexCSD B. Broda and M. Piasecki. Evaluating LexCSD in a Large Scale Experiment. Control and Cybernetics, 40(2), 2011 Bartosz Broda (II,PWr) 20 maja / 41
18 LexCSD Korpus ręcznie oznaczony znaczeniami Korpusik US II PWr Pierwszy dostępny korpus języka polskiego oznaczony znaczeniami leksykalnymi Oparty na Korpusie IPI PAN 13 słów o różnym stopniu polisemii, znaczenia drobnoziarniste ze Słowosieci Różnorodność tematyczna tekstów 2 osoby anotujące cały tekst Wysoka zgodność anotatorów, κ = przykłady użycia słów B. Broda, M. Maziarz, and M. Piasecki. Evaluating lexcsd a weakly-supervised method on improved semantically annotated corpus in a large scale experiment. In S. T. Wierzchoń M. A. Kłopotek, A. Przepiórkowski and K. Trojanowski, editors, Proceedings of Intelligent Information Systems, 2010 Bartosz Broda (II,PWr) 20 maja / 41
19 Statystyki korpusu LexCSD Słowo Znaczenia Anotacje Przykłady κ agent 6 1/9/3/47/ automat 7 1/24/30/4/ dziób 6 28/13/31/ język 7 3/23/ klasa 14 15/6/12/11/14/31/10/8/1/10/ linia 14 13/3/2/2/4/2/11/13/4/3/1/2/ pole 11 1/1/23/25/ policja 3 17/25/ powód 3 136/ sztuka 10 12/10/2/11/41/ zamek 6 18/19/36/ zbiór 7 32/7/8/31/ zespół 7 10/4/28/58/1/ Bartosz Broda (II,PWr) 20 maja / 41
20 Sposób oceny LexCSD Określenie punktów odniesienia Dolna granica: heurystyka wyboru najczęstszego znaczenia, ang. Most Frequent Sense, MFS Górna granica: wynik metod nadzorowanych Metody nadzorowane testowane z wykorzystaniem walidacji krzyżowej Ocena metod przy pomocy dokładności i pokrycia: Dokładność D i = hi h i +m i, gdzie h i to liczba poprawnie podjętych decyzji dla i tego znaczenia, a m i to liczba niepoprawnych decyzji dla i tego znaczenia hi +mi Pokrycie: P i = h i +m i +s i, gdzie s i oznacza liczbę niepodjętych decyzji przez metodę Miara F 1 = 2D P D+P Bartosz Broda (II,PWr) 20 maja / 41
21 LexCSD Badania wielkoskalowe metody LexCSD Cel eksperymentu: sprawdzenie jakości działania metody uczonej na dużych zbiorach tekstów Proste cechy leksykalne, podejście worka słów LexCSD uczone na dużych zbiorach tekstów (ok. 570 milionów tokenów) Korpus IPI PAN Korpus Rzeczpospolitej Korpus Internetowy Test LexCSD z wykorzystaniem Korpusika US II PWr Badane metody klasyfikacji: tablice decyzyjne (DT), maszyny wektorów wspierających (SVM), losowy las drzew (RF), AdaBoost (AB), metoda najbliższego sąsiada (1-NN), drzewa decyzyjne C4.5, naiwny klasyfikator bayesowski (NB) Bartosz Broda (II,PWr) 20 maja / 41
22 Wyniki eksperymentu LexCSD Słowo MFS DT SVM LexCSD DT LexCSD SVM D[%] D[%] D[%] D[%] P[%] D[%] P[%] agent 67,14 67,14 71,43 65, ,17 82,86 automat 43,81 71,43 79,05 57,58 94,27 60,67 84,76 dziób 38,27 59,26 88,89 46, ,43 86,42 język 65,33 77,33 77,33 67,57 98, ,33 klasa 26,05 42,86 63,87 50,79 52,94 39,8 82,35 linia 25,93 37,04 45,68 29,63 66,67 16,22 88,89 pole 47, ,75 64,44 46,88 69,44 75 policja 39,06 40,62 48,44 0 3, ,25 powód 52,71 88,37 89,53 48,58 95,74 38,1 16,28 sztuka 43,16 46,32 54,74 58,82 17,89 48,75 84,29 zamek 39,13 57,61 70,65 36,47 92,74 52,73 59,78 zbiór 36,78 57,47 74,71 70,73 47,13 76,56 73,56 zespół 47,93 65,29 77, ,35 5,71 58,85 w. avg. 44,57 64,06 72,92 45,94 74,18 48,09 62,2 B. Broda and M. Piasecki. Evaluating LexCSD in a Large Scale Experiment. Control and Cybernetics, 40(2), 2011 Bartosz Broda (II,PWr) 20 maja / 41
23 LexCSD Podsumowanie wyników eksperymentu Tabela: Miara F 1 dla średnich ważonych z dokładności i pokrycia LexCSD DT SVM RF AB 1-NN C4.5 NB F 1 56,74 54,24 57,92 44,70 47,30 51,23 48,87 Dokładność niższa od metod nadzorowanych, jednak wyższa od punktu odniesienia Pięć słów z którymi metoda miała największe problemy język, policja, powód jedno dominujące znaczenia w korpusie sztuka ograniczony zestaw cech na etapie klasyfikacji zespół zupełnie inny rozkład znaczeń w dużym korpusie Bartosz Broda (II,PWr) 20 maja / 41
24 Opis problemu LexCSD Szacowanie liczby znaczeń słów O jakości grupowania decyduje w dużym stopniu liczba grup Zbyt mało grup łączenie znaczeń Zbyt dużo grup podział pojedynczych znaczeń na podstawie subtelnych różnic w rozkładzie cech Problem jest istotny w wielu zadaniach Word Sense Induction (SemEval) Wspomagana komputerowo leksykografia (np. rozbudowa Słowosieci) Liczba znaczeń powinna być dostosowana pod kątem dostępnych korpusów tekstów Bartosz Broda (II,PWr) 20 maja / 41
25 LexCSD Szacowanie liczby znaczeń słów Istniejące podejścia 1/2 Statystyczne prawa językowe Na przykład: prawo Zipf a, prawo Menzeratha-Altmana Wykorzystują proste przesłanki takie jak częstość słowa czy jego długość Bardzo dobrze opisują dane Słaba moc predykcyjna Bartosz Broda (II,PWr) 20 maja / 41
26 Istniejące podejścia 2/2 LexCSD Szacowanie liczby znaczeń słów Rodzina metod grupowania, które są w stanie określić liczbę grup Na przykład: Affinity Propagation Estymacja liczby grup jest ściśle związana z daną metodą grupowania Zazwyczaj należy zoptymalizować inne parametry samej metody Funkcje (reguły) zatrzymania Dane są grupowane na 1... k grup Reguła zatrzymania ocenia każdy podział Podział danych odpowiadający optymalnej wartości reguły zatrzymania odpowiada optymalnej liczbie grup Mogą być zastosowane dla dowolnej metody grupowania Charakteryzują się dużym kosztem obliczeń Bartosz Broda (II,PWr) 20 maja / 41
27 LexCSD Szacowanie liczby znaczeń słów Reguły zatrzymania 1/2 Adapted Gap Statistic (AGS) porównywanie zmian w zwartości grup z wartością oczekiwaną pod warunkiem referencyjnego rozkładu danych 1 Wygeneruj dane używając referencyjnego rozkładu prawdopodobieństwa 2 Oblicz rozproszenie wewnątrz grup 3 Oblicz różnicę pomiędzy modelem danych rzeczywistych a danych wygenerowanych 4 Wybirz liczbę grup odpowiadającą najmniejszej różnicy PK1(k) = crfun(k) mean(crfun[1...maxk]) std(crfun[1...maxk]) Optymalna liczba grup gdy PK1 przekracza wskazany próg Konieczność optymalizacji progu Bartosz Broda (II,PWr) 20 maja / 41
28 Reguły zatrzymania 1/2 LexCSD Szacowanie liczby znaczeń słów PK2(k) = crfun(k) crfun(k 1) Porównanie dwóch następujących po sobie podziałów na grupy Wartość optymalna dla PK2 najbliższego 1 2 crfun(k) PK3(k) = crfun(k 1)+crfun(k+1) Podobieństwo do współczynnika Dice Optymalna liczba grupy, gdy PK 3 jest większe od odchylenia standardowego CH = BGSS (k 1) / WGSS n k BGSS suma kwadratów odległości pomiędzy grupami WGSS suma kwadratów odległości wewnątrz grup n wielkość zbioru danych Bartosz Broda (II,PWr) 20 maja / 41
29 LexCSD Szacowanie liczby znaczeń słów Sposób oceny Problemy z definicją zadania Nie wszystkie znaczenia słowa występują w danym korpusie tekstów Rozkład znaczeń jest obciążony Dokładne trafienia nie są zawsze konieczne Nie wszystkie pomyłki są jednakowo groźne Akceptowalne odpowiedzi Mniej niż 4 znaczenia +1 znaczenie Mniej niż 10 znaczeń ±1 znaczenie Więcej niż 10 znaczeń ±2 znaczenia Bartosz Broda (II,PWr) 20 maja / 41
30 LexCSD Szacowanie liczby znaczeń słów Korpusy Korpusik US II PWr Korpusik-coarse Korpusik ze znaczeniami gruboziarnistymi LC13 i LC13-coarse Te same słowa co w Korpusiku 500M słów: Korpus IPI PAN, Rzeczpospolita, korpus internetowy IPIC niejednoznaczne słowa, dane z Korpusu IPI PAN Zbiory z konkurencji SensEval (Lexical Sample Task) Bartosz Broda (II,PWr) 20 maja / 41
31 LexCSD Szacowanie liczby znaczeń słów Eksperymenty Cechy: worek słów Grupowanie podziałowe z funkcjami celu: i1 i e1 Redukcja wymiarowości (SVD) do 30% dla słów opisanych przez zbiór cech o liczności większej niż do 70% dla słów opisanych przez zbiór cech o liczności większej niż 1000 Wszystkie eksperymenty zostały powtórzone 10 raz Znaczenia ze Słowosieci Bartosz Broda (II,PWr) 20 maja / 41
32 LexCSD Wyniki dla języka polskiego Szacowanie liczby znaczeń słów Dataset PK1 [%] PK2 [%] PK3 [%] CH [%] AGS [%] Korpusik Korpusik-coarse LC LC-13-coarse IPIC Tabela: Precyzja reguł zatrzymania dla języka polskiego Bartosz Broda (II,PWr) 20 maja / 41
33 LexCSD Wyniki dla języka angielskiego Szacowanie liczby znaczeń słów Dataset PK1 [%] PK2 [%] PK3 [%] CH [%] AGS [%] SensEval SensEval SensEval SensEval Tabela: Precyzja reguł zatrzymania dla języka angielskiego Bartosz Broda (II,PWr) 20 maja / 41
34 LexCSD Szacowanie liczby znaczeń słów Dyskusja Znaczenia drobnoziarniste: nawet zawodowi leksykografowie nie są zgodni Dodatkowe eksperymenty z innymi zbiorami znaczeń Słownik Języka Polskiego PWN Wyższa precyzja: np. wzrost z 54.54% do 63.63% dla PK2 na IPIC-33 Wyniki dla języka angielskiego są niskie, ale spójne z wynikami znanymi z literatury i wynikami dla języka polskiego CH i AGS wykorzystują odległość euklidesową Bartosz Broda (II,PWr) 20 maja / 41
35 LexCSD Automatyczny wybór metody grupowania Opis problemu Wiele metod grupowania Różny rozkład znaczeń dla różnych słów Wstępne badania pokazały, że wykorzystując jedną metodę grupowania można osiągnąć najlepsze wyniki tylko dla 64% słów Dwa główne sposoby oceny jakości metod grupowania: wykorzystujące kryteria wewnętrzne wykorzystujące kryteria zewnętrzne Bartosz Broda (II,PWr) 20 maja / 41
36 LexCSD Automatyczny wybór metody grupowania Badane metody grupowania k-średnich k-medoidów grupowanie hierarchiczne aglomeracyjne grupowanie hierarchiczne podziałowe grupowanie oparte na podziale grafu metodą min-cut 7 funkcji celu dla metod hierarchicznych Bartosz Broda (II,PWr) 20 maja / 41
37 LexCSD Automatyczny wybór metody grupowania Badane metody oceny jakości grupowania Indeks Dunna DI = dmin d max, gdzie d min oznacza minimalną odległość pomiędzy 2 obiektami nienależącymi do tej samej grupy, a d max maksymalną odległość pomiędzy obiektami w tej samej grupie. Miara oczekiwanej gęstości (ang. Expected Density Measure, EDM) porównywanie gęstości grafów zbudowanych w obrębach grup do grafu zbudowanego na całych danych. Indeks C CI = S Smin S max S min, gdzie S jest sumą odległości pomiędzy obiektami należącymi do tej samej grupy, S min (S max) jest sumą l najmniejszych (największych) odległości pomiędzy dwoma dowolnymi obiektami. Funkcje celu k 1 I 1 = maximize ( sim( v, u)) (1) n i i=1 v, u S i k I 2 = maximize sim( v, u) (2) v, u S i i=1 Bartosz Broda (II,PWr) 20 maja / 41
38 LexCSD Automatyczny wybór metody grupowania Zbiory danych Korpusik US II PWr GPW 28 słów z dziedziny ekonomii w tekstach NE podzbiór NKJP (46 słów w 3732 tekstach) Zbiory z konkurencji SensEval Bartosz Broda (II,PWr) 20 maja / 41
39 Porównanie z BCubed LexCSD Automatyczny wybór metody grupowania Corpus CI DI DI 2 EDM I 1 I 2 GPW NE Korpusik S S S S Average Bartosz Broda (II,PWr) 20 maja / 41
40 Korelacja z BCubed LexCSD Automatyczny wybór metody grupowania Corpus CI DI DI 2 EDM I 1 I 2 GPW NE SCWSD S S S S Average Bartosz Broda (II,PWr) 20 maja / 41
41 LexCSD Automatyczny wybór metody grupowania Ocena ręczna Badania dla całego Korpusu IPI PAN Wybrano 5 słów do ręcznej oceny: agent, pociąg, rakieta, zamek, zbiór Znaczenia określone na podstawie Słowosieci Indek C jako metoda wyboru algorytmu grupowania Wnioski: Nie znaleziono wszystkich znaczeń Większość znaczeń została wykryta poprawnie Dla pociąg tylko jedno znaczenie Dla zamek wykryto wszystkie gruboziarniste znaczenia Bartosz Broda (II,PWr) 20 maja / 41
42 LexCSD Automatyczny wybór metody grupowania Dyskusja Metody oceny wewnętrznej grupowania są pomocne w nienadzorowanym wyborze algorytmu grupowania dla słowa Metody te opierają się na danych korpusowych Największa korelacja z BCubed została osiągnięta dla Indeksu C Zaproponowany protokół badawczy nie jest ograniczony do problemu ujednoznaczniania znaczeń leksykalnych słów Bartosz Broda (II,PWr) 20 maja / 41
43 LexCSD Wydobywanie przykładów użycia znaczeń Wydobywanie przykładów użycia znaczeń Dobry przykład użycia powinien być 1 typowy informatywny jednoznaczny W LexCSD 2 podejście oparte na centroidach grup wspomaganych dodatkowym filtrowaniem heurystycznym, np. wymóg zawierania pewnej liczby rzeczowników heurystyczne usuwanie fragmentów i podpisów tabel usuwanie przykładów użycia opisujących nazwy własne 1 A. Kilgarriff, M. Husák, K. McAdam, M. Rundell, and P. Rychlỳ. GDEX: Automatically finding good dictionary examples in a corpus. In Proceedings of EURALEX, pages , B. Broda, M. Maziarz, and Piasecki. Tools for plwordnet development. presentation and perspectives. In Proceedings of the 8th Language Resources and Evaluation Conference (LREC 12), 2012 Bartosz Broda (II,PWr) 20 maja / 41
44 LexCSD Wydobywanie przykładów użycia znaczeń Automatycznie wydobyte przykłady użycia znaczeń Kleić W domach jednorodzinnych drzwi wewnętrzne najczęściej wykonane są z drewna litego lub klejonego. Oczy mu się kleiły; zaczął szukać po omacku butelki. Rozmowa się zbytnio nie kleiła. Nic dziwnego. Z meczu na mecz gramy coraz lepiej. Gra się nam klei, zgrywamy się, stwarzamy dużo sytuacji bramkowych. Bartosz Broda (II,PWr) 20 maja / 41
45
46 Ankiety LexCSD Wydobywanie przykładów użycia znaczeń Rysunek: W pracy nad Słowosiecią korzystam raczej z... 1 przykładów użycia, 5 innych źródeł danych. B. Broda, M. Maziarz, and Piasecki. Tools for plwordnet development. presentation and perspectives. In Proceedings of the 8th Language Resources and Evaluation Conference (LREC 12), 2012 Bartosz Broda (II,PWr) 20 maja / 41
47 Podsumowanie Podsumowanie Tytuł Uczenie nienadzorowane w wydobywaniu znaczeń leksykalnych słów Charakterystyka dziedziny Opis metody LexCSD Opis problemu szacowania liczby znaczeń Wybór algorytmu grupowania dla słowa Wybór przykładów użycia znaczeń leksykalnych Bartosz Broda (II,PWr) 20 maja / 41
48 Dziękuję za uwagę!
49 Dodatki Przewodnik, Słownik języka polskiego PWN 1 «osoba, która idąc przodem, wskazuje komuś drogę» 2 «osoba, która zawodowo oprowadza turystów po jakimś terenie» 3 «osoba stojąca na czele jakiejś grupy, wpływająca na kogoś» 4 «książka podająca wiadomości z historii, geografii danego regionu» 5 «książka zawierająca praktyczne wiadomości z jakiejś dziedziny» 6 «ciało, substancja zdolne do przewodzenia ciepła lub prądu elektrycznego; też: ciało dobrze przewodzące prąd elektryczny w warunkach normalnych» 7 «osobnik z grupy tego samego gatunku ptaków lub zwierząt idący, lecący na czele stada, klucza» przewodniczy, przewodnicki, przewodnikowy przewodniczka
Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska
Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska Seminarium przetwarzania języka naturalnego Mateusz Kopeć Instytut Podstaw Informatyki Polskiej Akademii Nauk 6 lutego 2012 Plan 1 Zadanie
Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur
Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur Maciej Piasecki, Paweł Kędzia Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Plan prezentacji
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
AUTOMATYKA INFORMATYKA
AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów
Open Access w technologii językowej dla języka polskiego
Open Access w technologii językowej dla języka polskiego Marek Maziarz, Maciej Piasecki Grupa Naukowa Technologii Językowych G4.19 Zakład Sztucznej Inteligencji, Instytut Informatyki, W-8, Politechnika
1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej
WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI
WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI Stefan WÓJTOWICZ, Katarzyna BIERNAT ZAKŁAD METROLOGII I BADAŃ NIENISZCZĄCYCH INSTYTUT ELEKTROTECHNIKI ul. Pożaryskiego 8, 04-703 Warszawa tel. (0)
Program warsztatów CLARIN-PL
W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
A Zadanie
where a, b, and c are binary (boolean) attributes. A Zadanie 1 2 3 4 5 6 7 8 9 10 Punkty a (maks) (2) (2) (2) (2) (4) F(6) (8) T (8) (12) (12) (40) Nazwisko i Imiȩ: c Uwaga: ta część zostanie wypełniona
Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013 http://www.wilno.uwb.edu.
SYLLABUS na rok akademicki 01/013 Tryb studiów Studia stacjonarne Kierunek studiów Informatyka Poziom studiów Pierwszego stopnia Rok studiów/ semestr /3 Specjalność Bez specjalności Kod katedry/zakładu
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016
Metody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
CLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji
Klasyfikacja LDA + walidacja
Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja
Co to jest grupowanie
Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie
Word sense disambiguation dokończenie
Word sense disambiguation dokończenie 1. Krótkie przypomnienie: a) Podejście intuicyjne : podział słowa na znaczenia według słownika oraz przypisywanie każdemu wystąpieniu tego słowa jednego ze znaczeń
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych
Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych
Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław
Drzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU
WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Szczegółowy opis przedmiotu zamówienia
ZP/ITS/19/2013 SIWZ Załącznik nr 1.1 do Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych dla studentów
CLARIN rozproszony system technologii językowych dla różnych języków europejskich
CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN
PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE
UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561
Algorytmy analizy skupień / Sławomir Wierzchoń, Mieczysław Kłopotek. wyd. 1, 1. dodr. (PWN). Warszawa, Spis treści
Algorytmy analizy skupień / Sławomir Wierzchoń, Mieczysław Kłopotek. wyd. 1, 1. dodr. (PWN). Warszawa, 2017 Spis treści Lista ważniejszych oznaczeń 5 Przedmowa 7 1. Analiza skupień 19 1.1. Formalizacja
Rozdział przedstawia kilka najważniejszych algorytmów rozpoznających znaczenie słów w zależności od użytego kontekstu.
Word Sense Disambiguation I WSTĘP Rozdział przedstawia kilka najważniejszych algorytmów rozpoznających znaczenie słów w zależności od użytego kontekstu. 1. Jaka jest idea rozpoznawania znaczenia słów?
Rodzaje testów. Testy. istnieje odpowiedź prawidłowa. autoekspresja brak odpowiedzi prawidłowej ZGADYWANIE TRAFNOŚĆ SAMOOPISU
Rodzaje testów Testy wiedza umiejętności zdolności właściwości poznawcze właściwości afektywne uczucia postawy osobowość emocje wierzenia istnieje odpowiedź prawidłowa autoekspresja brak odpowiedzi prawidłowej
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
INFOBAZY 2014 VII KRAJOWA KONFERENCJA NAUKOWA INSPIRACJA - INTEGRACJA - IMPLEMENTACJA
Centrum Informatyczne TASK Politechnika Gdańska Instytut Oceanologii Polskiej Akademii Nauk (IO PAN) INFOBAZY 2014 VII KRAJOWA KONFERENCJA NAUKOWA INSPIRACJA - INTEGRACJA - IMPLEMENTACJA Gdańsk Sopot,
PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"
PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych
2. Empiryczna wersja klasyfikatora bayesowskiego
Algorytmy rozpoznawania obrazów 2. Empiryczna wersja klasyfikatora bayesowskiego dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Brak pełnej informacji probabilistycznej Klasyfikator bayesowski
CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy
Cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy 13 15 kwietnia 2015 roku Warszawa, Pałac Staszica, ul. Nowy Świat 72, sala 144
Część 2. Teoretyczne i praktyczne aspekty wybranych metod analiz ilościowych w ekonomii i zarządzaniu
Spis treści Część 1 Analiza procedur wyznaczania i wykorzystania rozwiązań uogólnionych wybranej klasy nieliniowych modeli optymalizacyjnych we wspomaganiu procesów decyzyjnych (Jerzy Mika) Wprowadzenie.
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
Systemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
Automatyzacja procesu kontroli danych z lotniczego skanowania laserowego
Instytut Badawczy Leśnictwa www.ibles.pl Automatyzacja procesu kontroli danych z lotniczego skanowania laserowego Bartłomiej Kraszewski, Żaneta Piasecka, Rafał Sadkowski, Krzysztof Stereńczak Zakład Zarządzania
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp
WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp Natalia Kotsyba, IBI AL UW 24 marca 2010 Plan zajęć Praca domowa na zapytania do Korpusu IPI PAN za pomocą
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne
Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne Aleksander Buczyński 2006.06.26 Poliqarp - stan obecny Zwracane są kolejne konteksty wystąpień ciągów segmentów pasujących
Przedmiot statystyki. Graficzne przedstawienie danych. Wykład-26.02.07. Przedmiot statystyki
Przedmiot statystyki. Graficzne przedstawienie danych. Wykład-26.02.07 Statystyka dzieli się na trzy części: Przedmiot statystyki -zbieranie danych; -opracowanie i kondensacja danych (analiza danych);
Pojęcia to. porównanie trzech sposobów ujmowania pojęć. Monika Marczak IP, UAM
Pojęcia to. porównanie trzech sposobów ujmowania pojęć Monika Marczak IP, UAM Takiego zwierzęcia nie ma?????????? Jeśli brakuje umysłowej reprezentacji pewnego fragmentu rzeczywistości, fragment ten dla
mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.
mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Co wylicza Jasnopis? Bartosz Broda
Co wylicza Jasnopis? Bartosz Broda Analiza języka polskiego Ekstrakcja tekstu Dokument narzędzie do mierzenia zrozumiałości Analiza morfologiczna Analiza morfosyntaktyczna Indeksy Klasa trudności:
Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie
Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?
Algorytm k-nn Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Jak daleko są położone obiekty od siebie? knn k nearest neighbours jest
Przedmiot statystyki. Graficzne przedstawienie danych.
Przedmiot statystyki. Graficzne przedstawienie danych. dr Mariusz Grządziel 23 lutego 2009 Przedmiot statystyki Statystyka dzieli się na trzy części: -zbieranie danych; -opracowanie i kondensacja danych
Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć
Katalog wymagań programowych na poszczególne stopnie szkolne Matematyka. Poznać, zrozumieć Kształcenie w zakresie podstawowym. Klasa 3 Poniżej podajemy umiejętności, jakie powinien zdobyć uczeń z każdego
Pattern Classification
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors
Analiza egzaminu z języka angielskiego w roku szkolnym 2013/2014.
Analiza egzaminu z języka angielskiego w roku szkolnym 2013/2014. Opracowała: Monika Mikocka Analiza egzaminu z języka angielskiego w roku szkolnym 2013/2014 I. Do egzaminu pisemnego z języka angielskiego
Metody Ilościowe w Socjologii
Metody Ilościowe w Socjologii wykład 2 i 3 EKONOMETRIA dr inż. Maciej Wolny AGENDA I. Ekonometria podstawowe definicje II. Etapy budowy modelu ekonometrycznego III. Wybrane metody doboru zmiennych do modelu
Lokalizacja Oprogramowania
mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja
W poszukiwaniu sensu w świecie widzialnym
W poszukiwaniu sensu w świecie widzialnym Andrzej Śluzek Nanyang Technological University Singapore Uniwersytet Mikołaja Kopernika Toruń AGH, Kraków, 28 maja 2010 1 Podziękowania Przedstawione wyniki powstały
Wstęp do Techniki Cyfrowej... Teoria automatów
Wstęp do Techniki Cyfrowej... Teoria automatów Alfabety i litery Układ logiczny opisywany jest przez wektory, których wartości reprezentowane są przez ciągi kombinacji zerojedynkowych. Zwiększenie stopnia
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych
Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
Inżynieria oprogramowania. Część 8: Metoda szacowania ryzyka - PERT
UNIWERSYTET RZESZOWSKI KATEDRA INFORMATYKI Opracował: mgr inż. Przemysław Pardel v1.01 2010 Inżynieria oprogramowania Część 8: Metoda szacowania ryzyka - PERT ZAGADNIENIA DO ZREALIZOWANIA (3H) PERT...
WebSty otwarty webowy system do analiz stylometrycznych
WebSty otwarty webowy system do analiz stylometrycznych Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl
EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa
, semantyczne powiązanie i podobieństwo, odległość Projekt przejściowy ARR Politechnika Wrocławska Wydział Elektroniki Wrocław, 22 października 2013 Spis treści 1 językowa 2, kryteria 3 Streszczenie artykułu
O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich
O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich mgr Aleksander Nosarzewski Szkoła Główna Handlowa w Warszawie pod kierunkiem naukowym dr hab. Bogumiła Kamińskiego, prof. SGH Problem Potrzeba
KIERUNKOWE EFEKTY KSZTAŁCENIA
KIERUNKOWE EFEKTY KSZTAŁCENIA Wydział: Matematyki Kierunek studiów: Matematyka i Statystyka (MiS) Studia w j. polskim Stopień studiów: Pierwszy (1) Profil: Ogólnoakademicki (A) Umiejscowienie kierunku
Eksploracja danych - wykład VIII
I Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 2 grudnia 2016 1/31 1 2 2/31 (ang. affinity analysis) polega na badaniu atrybutów lub cech, które są ze sobą powiązane. Metody
Wyszukiwanie informacji w internecie. Nguyen Hung Son
Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy
WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH
WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH Dobrze przygotowane sprawozdanie powinno zawierać następujące elementy: 1. Krótki wstęp - maksymalnie pół strony. W krótki i zwięzły
STATYSTYKA MATEMATYCZNA
Zał. nr 4 do ZW WYDZIAŁ ELEKTRONIKI KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYKA MATEMATYCZNA Nazwa w języku angielskim Mathematical Statistics Kierunek studiów (jeśli dotyczy): Specjalność (jeśli
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin Henryk Bujak e-mail: h.bujak@ihar.edu.pl Ocena różnorodności fenotypowej Różnorodność fenotypowa kolekcji roślinnych zasobów
Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:
WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji
Nowe narzędzia zarządzania jakością
Nowe narzędzia zarządzania jakością Agnieszka Michalak 106947 Piotr Michalak 106928 Filip Najdek 106946 Co to jest? Nowe narzędzia jakości - grupa siedmiu nowych narzędzi zarządzania jakością, które mają
Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON 3
Wydawnictwo UR 2016 ISSN 2080-9069 ISSN 2450-9221 online Edukacja Technika Informatyka nr 4/18/2016 www.eti.rzeszow.pl DOI: 10.15584/eti.2016.4.46 TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON
Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska
Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja
Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych
Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych mgr inż. Michał Marcińczuk opiekun naukowy prof. Zbigniew Huzar Instytut Informatyki Stosowanej Politechnika Wrocławska 17 czerwca 2008 Plan
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Technologie Informacyjne
Systemy Uczące się Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności January 16, 2017 1 Wprowadzenie 2 Uczenie nadzorowane 3 Uczenie bez nadzoru 4 Uczenie ze wzmocnieniem Uczenie się - proces