AUTOREFERAT. Załącznik nr Imię i nazwisko: Julian Szymański
|
|
- Bernard Duda
- 6 lat temu
- Przeglądów:
Transkrypt
1 Załącznik nr 3 AUTOREFERAT 1. Imię i nazwisko: Julian Szymański 2. Posiadane dyplomy, stopnie naukowe/ artystyczne z podaniem nazwy, miejsca i roku ich uzyskania oraz tytułu rozprawy doktorskiej dr nauk technicznych dziedzina: nauki techniczne dyscyplina: informatyka specjalność: sztuczna inteligencja tytuł pracy: Wyszukiwanie kontekstowe w pamięci semantycznej instytucja: Politechnika Gdańska; Wydział Elektroniki, Telekomunikacji i Informatyki 2003 mgr filozofii, instytucja: Uniwersytet Mikołaja Kopernika w Toruniu; Wydział humanistyczny, Instytut Filozofii 1998 mgr inż. informatyki, instytucja: Politechnika Gdańska; Wydział Elektroniki, Telekomunikacji i Informatyki 3. Informacje o dotychczasowym zatrudnieniu w jednostkach naukowych/ artystycznych obecnie Politechnika Gdańska; Wydział Elektroniki, Telekomunikacji i Informatyki, Katedra Architektury Systemów Komputerowych; stanowisko: adiunkt; zakres prac: praca dydaktyczna oraz badawcza w ramach projektów naukowych związanych z wyszukiwaniem informacji i sztuczną inteligencją Politechnika Gdańska; Wydział Elektroniki, Telekomunikacji i Informatyki, Katedra Architektury Systemów Komputerowych; stanowisko: asystent; zakres prac: praca badawcza i dydaktyczna. 1
2 4. Wskazanie osiagnięcia 1 wynikającego z art. 16 ust. 2 ustawy z dnia 14 marca 2003 r. o stopniach naukowych i tytule naukowym oraz o stopniach i tytule w zakresie sztuki (Dz. U r. poz. 882 ze zm. w Dz. U. z 2016 r. poz ): a) tytuł osiagnięcia naukowego/artystycznego: Metody reprezentacji i analizy tekstu do automatycznego przetwarzania repozytoriów encyklopedycznych b) (autor/autorzy, tytuł/tytuły publikacji, rok wydania, nazwa wydawnictwa, recenzenci wydawniczy): 1. Julian Szymański Comparative Analysis of Text Representation Methods Using Classification Cybernetics and Systems, Taylor & Francis 45(2): (2014) (wkład 100%, IF 2014: 0,840) DOI: 2. Julian Szymański, Nathan Kawalec An Analysis of Neural Word Representations for Wikipedia Articles Classification Cybernetics and Systems, Taylor & Francis (2019) (wkład 50%, IF 2017: 1.197) DOI 3. Łukasz Kucharczyk, Julian Szymański Path-based methods on categorical structures for conceptual representation of Wikipedia articles Journal of Intelligent Information Systems, Springer 48(2): (2017) (wkład 50%, IF 2017: 1,107) DOI: 4. Julian Szymański, Jacek Rzeniewicz: Identification of category associations using a multilabel classifier Expert Systems with Applications, Elsevier 61: (2016) (wkład 50%, IF 2016: 3,928) DOI: 1 w przypadku, gdy osiągnięciem tym jest praca/ prace wspólne, należy przedstawić oświadczenia wszystkich jej współautorów, określające indywidualny wkład każdego z nich w jej powstanie. W przypadku, gdy praca zbiorowa ma więcej niż pięciu współautorów, habilitant załącza oświadczenie określające jego indywidualny wkład w powstanie tej pracy oraz oświadczenia co najmniej czterech pozostałych współautorów 2
3 5. Julian Szymański, Tomasz Boiński Crowdsourcing based evaluation of automatic references between Wordnet and Wikipedia International Journal of Software Engineering and Knowledge Engineering, World Scientific Publishing Company 29(3): (2019) (wkład 50%, IF 2017: 0,397) DOI: c) omówienie celu naukowego/artystycznego ww. pracy/prac i osiagniętych wyników wraz z omówieniem ich ewentualnego wykorzystania: C 1. Kontekst prowadzonych prac badawczych i cele naukowe. Ilość informacji zapisanej w języku naturalnym przyrasta w bardzo szybkim tempie. W związku z tym przeszukiwanie i automatyczna organizacja tych zasobów wymaga zastosowania algorytmów analizy tekstu. Dla ludzi rozumienie języka jest naturalne. Maszyny obecnie nie rozumieją języka naturalnego, co najwyżej potrafią go poprawnie przetworzyć, tak by w efekcie działania algorytmu na wyjściu pojawił się oczekiwany przez użytkownika rezultat. Przykładem takiego przetworzenia zasobów tekstowych jest dostarczanie przez system wyszukujący informacji, które są dla końcowego użytkownika najbardziej istotne z punktu widzenia jego preferencji. Sposób reprezentacji języka naturalnego w maszynie jest kluczowy do uzyskania dobrych rezultatów jego automatycznego przetwarzania. W przypadku stosowania do tego celu metod uczenia maszynowego potrzebne jest wyekstrahowanie cech, które będą charakteryzowały tekst. Cechy te dostarczają maszynie informacji o treści tekstu i stanowią jego reprezentację umożliwiającą automatyczną analizę. W zależności od zadania, jakie jest stawiane przed komputerem, do automatyzacji przetwarzania tekstu mogą być wykorzystywane różnego rodzaju reprezentacje. Ich wybór będzie miał wpływ na efektywność analizy oraz jakość wyników zwracanych przez algorytm użyty do rozwiązania określonego zadania, np.: przeszukania repozytorium tekstów czy też wykonania automatycznej kategoryzacji dokumentów (takiej jak klasyfikacja, grupowanie czy rankingowanie). Głównymi celami naukowymi przedstawionego cyklu publikacji powiązanych tematycznie było zbadanie własności reprezentacji tekstu umożliwiających jego kategoryzację z użyciem komputera oraz poprawa wybranych metod automatycznego przetwarzania danych tekstowych, takich jak: identyfikacja powiązań między kategoriami i integracja repozytoriów językowych. Do realizacji powyższych celów zbudowane zostały narzędzia umożliwiające wykonanie eksperymentów mających na celu porównanie różnych metod repre- 3
4 zentacji tekstu, które zweryfikowane zostały poprzez zastosowania w typowych zadaniach uczenia maszynowego: nadzorowanych i nienadzorowanych. Jako repozytorium badawcze wybrana została Wikipedia ze względu na jej rozmiar i powszechność dostępu do zapisanych w niej danych. Wynikiem zrealizowanych prac, przedstawionych w ramach cyklu publikacji, były wnioski i usprawnienia metod przetwarzania artykułów z tego repozytorium. Opracowano algorytmy do automatycznej integracji Wikipedii i słownika WordNet, jak również wskazano metody walidacji tego procesu w modelu wykorzystującym społeczność użytkowników (ang. crowdsourcing). Zaproponowano i dokonano oceny metod oczyszczania istniejących i budowy nowych powiązań w grafach kategorii w Wikipedii. Najważniejsze osiągnięcia przeprowadzonych badań: Wyniki analizy i usprawnienia metod reprezentacji artykułów Wikipedii dla nadzorowanych i nienadzorowanych metod uczenia maszynowego [1, 2, 3]. Do wykonania tych badań opracowano aplikację do automatycznego przetwarzania Wikipedii. Może ona zostać zastosowana w szeregu innych projektów analizujących to repozytorium i udostępniona została na licencji open source jako uniwersalne narzędzie do przetwarzania Wikipedii. Z użyciem tego narzędzia przeprowadzono analizę i usprawnienia następujących reprezentacji tekstu: metod klasycznych wykorzystujących treść, takich jak BoW (Bag of Words), ESA, kompresja, n-gramy oraz odnośniki pochodzące z powiązań pomiędzy analizowanymi tekstami, metod wykorzystujących wektorowe reprezentacje słów (ang. word embeddings), metod wykorzystujących kategorie. Metody identyfikacji nowych powiązań w sieciach kategorii wykorzystujące wielkoskalowy (wieloklasowy i wieloetykietowy) klasyfikator tekstów [4]. W rezultacie zastosowania zaproponowanych metod do analizy sytemu kategorii Wikipedii uzyskano sieć pojęć, która może być wykorzystana do opisu słów występujących jawnie w tekście na wyższym poziomie abstrakcji. Algorytmy automatycznego tworzenia powiązań między artykułami Wikipedii i słownikiem WordNet oraz metodologia ich oceny i poprawy w mode- 4
5 lu kooperacyjnym [5]. Rezultatem realizacji tego zadania jest udostępniona publicznie baza powiązań, która może być wykorzystana w szeregu zadań związanych z przetwarzaniem języka naturalnego takich jak np.: rozszerzanie informacji zawartej jawnie w tekście, czy też semantyczne oznaczanie powiązań miedzy artykułami Wikipedii. C 2. Przeprowadzone prace badawcze i uzyskane wyniki. Wikipedia jest jednym z największych repozytoriów wiedzy. Rozwijana jest przez społeczność wolontariuszy, którzy tworzą artykuły opisujące wybrane zagadnienia wiedzy ludzkiej i organizują je z użyciem kategorii. Dodatkowo kategorie te są powiązane ze sobą, tworząc sieć pojęć stanowiącą abstrakcyjny opis treści artykułów. Repozytorium to, jako publicznie dostępne, może być użyte w wielu zadaniach, między innymi do testowania jakości algorytmów analizujących aspekty ludzkiej aktywności. W przedstawionych tu badaniach Wikipedia użyta została jako źródło danych, na którym testowane były metody reprezentacji tekstu oraz opracowane zostały algorytmy kategoryzacji mające na celu automatyczne odtwarzanie kategorii artykułów pierwotnie utworzonych przez ludzi. Opracowano również algorytmy identyfikacji powiązań między tymi kategoriami oraz metody automatycznego łączenia zasobów językowych. Istnieją dwa główne źródła, na podstawie których można tworzyć reprezentacje tekstu: treść (wewnętrzne), odnośniki (zewnętrzne). Reprezentacje wykorzystujące treść dokumentu (ang. content based) opierają się bezpośrednio na tekście, z którego wydobywają cechy charakteryzujące go. Typowe metody reprezentacji wykorzystują jako cechy słowa wstępujące w tekście (BoW) lub też konstruują je z n-kolejnych tokenów, którymi mogą być słowa czy litery (n-gramy). Głównym ograniczeniem tego typu reprezentacji jest używanie jedynie tej informacji, która jawnie występuje w tekście. W oczywisty sposób uniemożliwia to uzyskanie jakości kategoryzacji porównywalnej z tą jaką wykonałby człowiek, który np. zna podobieństwa pomiędzy synonimami, czy też potrafi generalizować pojęcia. Rozszerzenia reprezentacji wnoszą dodatkową informację do tej, która jest jawnie zawarta w tekście np. poprzez odniesienie się do dodatkowej bazy dokumentów, jak ma to miejsce w metodzie jawnej analizy semantycznej (ang. Explicit 5
6 Semantic Analysis ESA) [6]. Inną metodą jest dostarczanie dodatkowej informacji o podobieństwie, czy znaczeniu słów, z zewnętrznych baz wiedzy o języku lub ze statystycznej analizy dużych korpusów tekstowych. Reprezentacje oparte na odnośnikach (ang. contex based) wykorzystują powiązania występujące pomiędzy dokumentami. Powiązania mogą być różnego rodzaju i zależą od typu dokumentów, np.: dla hipertekstu mogą być to odnośniki między stronami, a dla artykułów naukowych wykorzystać można przypisy bibliograficzne. Wstępne wyniki badania reprezentacji tekstów przeprowadzone na artykułach Wikipedii przedstawione zostały w pracy [1]. Wykonany został tam przegląd głównych metod reprezentacji wykorzystujących treść oraz odnośniki. Do analizy reprezentacji opartej na treści wybrano następujące podejścia: BoW. Podstawowy model reprezentacji tekstów wykorzystuje słowa zawarte w dokumencie do zbudowania wektora cech. W przeprowadzonych eksperymentach do wyznaczenia istotności poszczególnych cech użyto typowej metody ich ważenia TF IDF (ang. Term Frequency Inverse Document Frequency). By zwiększyć wyrazistość różnic i podobieństw między reprezentowanymi artykułami zastosowano przekształcenie wykorzystujące odległość kosinusową. Podejście to zamienia każdy wektor cech poszczególnego artykułu na wektor odległości pomiędzy wszystkimi artykułami w zbiorze uczącym. W rezultacie zamiast reprezentacji artykułua 1 opisanego zbiorem cechf a 1 = [f 1,...,f N ] wykorzystywany jest wektor odległości a 1 = [1,cos(a 1,a 2 ),cos(a 1,a 2 ),...,cos(a 1,a k )], gdzie cos(a i,a j ) = a i a j a i a j (1) n-gramy (znakowe i słowne). Alternatywna dla reprezentacji BoW metoda tworzy reprezentacje z sekwencji znaków lub słów o określonej długości. W pracy przedstawiono wyniki dla sekwencji tworzonych z n = 2 słów i n = 4 znaków. Wartości te ustalone zostały empirycznie podczas wstępnych testów w zadaniach klasyfikacji, w których dawały najlepsze rezultaty. Kompresyjny. Na początku automatycznego przetwarzania tekstu przeważnie przeprowadzane jest jego wstępne przygotowanie. Do tego celu stosuje się różne narzędzia NLP (ang. Natural Language Processing) takie jak: tokenizacja, stemmming czy usuwanie najmniej informatywnych cech. By 6
7 ominąć proces wstępnego przetwarzania tekstu zaproponowano wykorzystanie miar opartych na kompresji, które umożliwiają określenie podobieństwa poprzez obserwację faktu, że dwa dokumenty podobne do siebie będą się kompresowały lepiej niż dwa dokumenty różne. Wykorzystując wzór 2 ( ) size(a+b) p sim A,B = 2 1, (2) size(a) p +size(b) p gdzie A i B oznaczają odpowiednio dwa pliki tekstowe, p operacje kompresji, a + operację konkatenacji plików, zaproponowano sposób określania podobieństwa pomiędzy parą plików tekstowych bez używania wstępnego przetwarzania. Miara 2 wykorzystana została do zbudowania reprezentacji dokumentu poprzez utworzenie wektora podobieństw do wszystkich dokumentów występujących w repozytorium. Explicit Semantic Analysis. Reprezentacja zaproponowana przez [6] bazuje na wyznaczeniu podobieństwa między określonym tekstem, a zewnętrznym repozytorium dokumentów. W podejściu tym reprezentacją konkretnego dokumentu jest wektor podobieństwa do zewnętrznego zbioru dokumentów, którymi w oryginalnej wersji tego podejścia były artykuły z Wikipedii. Do analizy reprezentacji opartej na odnośnikach wybrano następujące podejścia: Powiązania między artykułami. W podstawowej realizacji tej reprezentacji dla każdego artykułu tworzony jest binarny wektor. Jego elementy określają, czy istnieje powiązanie pomiędzy reprezentowanym artykułem, a pozostałymi dokumentami w przetwarzanym repozytorium. Należny zaznaczyć, że dla dużych zbiorów danych utworzona reprezentacja jest wysokowymiarowym wektorem rzadkim, co często może być niewystarczające do uzyskania dobrych rezultatów kategoryzacji. Powiązania wyższego rzędu. Zaproponowano rozszerzenie wcześniejszego podejścia, które polegało na dodaniu do reprezentacji dodatkowych informacji uzyskiwanych poprzez dołączanie z częściową wagą powiązań niebędących bezpośrednio powiązanymi z reprezentowanym artykułem. Kompromis pomiędzy ilością informacji dodawanej do wektora, a jej jakością osiągnięto wykorzystując do utworzenia reprezentacji powiązania wyższych rzędów, które realizowane były do maksymalnego poziomu zagłębienia 7
8 H max = 3. Wagi dodatkowych powiązań dla kolejnych poziomów zagłębiania ustalone zostały jako b dist(a 1,a 2 ), gdzie b = 0,66, a dist(a 1,a 2 ) jest poziomem zagłębienia między artykułami a 1 i a 2, czyli liczbą węzłów w grafie artykułów jakie należy odwiedzić, by przejść z a 1 do a 2. Przyjęte wartości parametrów b i H max ustalone zostały empirycznie na podstawie wstępnych eksperymentów, gdzie dawały najlepsze rezultaty klasyfikacji. Do realizacji eksperymentów zaimplementowana została aplikacja Matrix u umożliwiająca generowanie określonego typu reprezentacji dla artykułów z Wikipedii. Aplikacja ta, jako że może znaleźć szereg zastosowań w innego rodzaju projektach, została udostępniona on-line na stronach projektu CompWiki związanego z maszynową analizą repozytorium Wikipedii 1. Źródła aplikacji napisane w języku C# udostępnione zostały na licencji open source. Opracowane narzędzie oferuje szereg dodatkowych funkcjonalności w porównaniu do alternatywnego rozwiązania wykonanego w języku Java [7]. M.in. Matrix u oferuje intuicyjne definiowanie sposobu przetwarzania Wikipedii w wersji polskiej, angielskiej i angielskiej uproszczonej (simple english) z użyciem interfejsu graficznego (zaprezentowanego w [1] na rysunku 2). W szczególności aplikacja ta pozwala zastosować wskazaną metodę reprezentacji umożliwiającą zamianę Wikipedii z postaci czytelnej dla człowieka na postać, która może być przetworzona przez maszynę. Szczegółowy opis funkcjonalności znajduje się w dokumentacji aplikacji na stronach www projektu CompWiki. Do realizacji eksperymentów oceniających jakość reprezentacji w zadaniu klasyfikacji wybrano metodę wektorów wspierających (ang. Support Vector Machines SVM). Podejście to jest popularną metodą do klasyfikacji danych tekstowych, która daje dobre rezultaty [8]. Podstawowa realizacja SVM działa jako klasyfikator binarny. Aby użyć go do zadania klasyfikacji tekstów wykorzystano metodę 1-vs-all, dzięki której został on przekształcony do narzędzia umożliwiającego wieloklasową i wieloetykietową klasyfikację, gdzie jeden obiekt może przynależeć do więcej niż jednej klasy. Jako że celem eksperymentów nie była maksymalizacja jakości klasyfikacji, a obserwacja różnic, jakie wnosi użycie określonych reprezentacji, klasyfikator uruchamiany był z domyślnymi wartościami parametrów. Eksperymenty przeprowadzone zostały na czterech zbiorach danych wygenerowanych z użyciem aplikacji Matrix u. W publikacji [1] w tabelach 4-5 przedstawiono pełne zestawienie rezultatów eksperymentu, które wskazują, że zarówno podejście oparte na treści, jak i odnośnikach, umożliwia zbudowanie klasyfikatora, który dla liczności klas < 100 po
9 zwala uzyskiwać skuteczność bliską 90% (mierzonej jako miara F1). Zaznaczyć należy, że większość błędów klasyfikatora wynikała tu z etykiet będących rezultatem wieloklasowych przypisań, które w zbiorze treningowym były mało liczne. Zwiększenie liczby klas powyżej powoduje spadek jakości klasyfikacji do około 80%. Zaproponowana metoda reprezentacji oparta na kompresji dawała gorsze rezultaty niż BoW. Mimo to, do pewnych zastosowań może być ona użyteczna ze względu na fakt, że nie wymaga żadnego wstępnego przetwarzania tekstu, co ma miejsce w przypadku BoW. Wykonanie przekształcenia wykorzystującego odległość kosinusową na reprezentacji opartej na BoW poprawiło rezultaty klasyfikacji. Użycie reprezentacji n kolejnych słów dla n = 2, które dawało najlepsze rezultaty podczas wstępnych badań nie poprawiło reprezentacji wykorzystującej pojedyncze słowa. Dla reprezentacji n-gramowych wykorzystujących pojedyncze znaki najlepsze rezultaty uzyskano dla n = 4. Rozszerzenie reprezentacji opartej na odnośnikach, poprzez wprowadzenie powiązań wyższego rzędu dla przeskoku H max = 3, pozwoliło istotnie poprawić wyniki w porównaniu do podejścia wykorzystującego jedynie powiązania bezpośrednie. Głównym wkładem pracy [1] było opracowanie metodologii oceny reprezentacji artykułów Wikipedii z użyciem uczenia nadzorowanego i przeprowadzenie z jej zastosowaniem porównania pięciu podejść, dla których główne wnioski przedstawiono powyżej. Zaproponowano i przetestowano metodę reprezentacji opartą na kompresji artykułów. Wprowadzono modyfikację polegającą na zamianie reprezentacji danych z przestrzeni cech do przestrzeni odległości. Pozwoliła ona uzyskać poprawę we wszystkich testowanych reprezentacjach, co jest uniwersalnym mechanizmem do wzbogacania jakości reprezentacji artykułów Wikipedii. Podejście to prawdopodobnie może być również z powodzeniem zastosowane dla innych danych. Ponadto, w pracy opisano aplikację do przetwarzania Wikipedii oferującą dodatkowe funkcjonalności w porównaniu do narzędzia [7]. Opracowana aplikacja jako uniwersalne narzędzie do przetwarzania Wikipedii została publicznie udostępniona do wykorzystywania w innych projektach związanych z przetwarzaniem tego repozytorium. Coraz bardziej popularnym podejściem do analizy danych stają się głębokie sieci neuronowe. Podejście to znajduje również zastosowanie w budowie wektorowych reprezentacji słów, które mogą zostać użyte do reprezentacji całych dokumentów. W pracy [2] przeprowadzono analizę wykorzystania znanych metod wektorowych reprezentacji słów do klasyfikacji dokumentów. Reprezentacje te porównano do 9
10 klasycznego podejścia BoW. Ponieważ wykorzystanie wektorów słów działa również jako metoda redukcji wymiarowości przeprowadzono porównanie tego podejścia z metodą LSA (ang. Latent Semantic Analysis) [9]. Do oceny jakości reprezentacji wykorzystano metody klasyfikacji, będące reprezentantami metod generatywnych (naiwna metoda Bayesa), dyskryminacyjnych (SVM) i dodatkowo wykonano klasyfikacje z użyciem sieci neuronowych typu FeedForward (FF). Do analizy reprezentacji dokumentów z użyciem wektorów słów wykorzystano trzy metody: 1. Word2Vec [10] - model do zbudowania wektorów słów wykorzystuje sieć neuronową, którą trenuje się podając na wejście sieci zadane słowo, a na wyjściu prognozowany jest jego kontekst. W modelu tym wykorzystuje się sieci typu FF, które są trenowane za pomocą modelu CBoW lub modelu skipgramowego i negatywnego próbkowania (ang. negative sampling). W procesie optymalizacji parametrów sieci powstają wektory reprezentujące poszczególne słowa. Mają one własności zachowywania elementarnej semantyki słów realizowanej poprzez operacje arytmetyczne na wektorach (np.: król - królowa = mężczyzna - kobieta). 2. GloVE tworzy wektory słów wykorzystując statystyczną analizę tekstów z użyciem przesuwanego po dokumencie okna kontekstu [11]. Algorytm tworzenia wektorów słów rozpoczyna się od zbudowania macierzy podobieństwa słów. Odbywa się to na podstawie wyznaczenia statystyk liczności współwystąpień par słów w korpusie treningowym, w obrębie określonego okna kontekstu. Współwystąpienia słów są ważone w zależności od ich wzajemnej odległości w oknie kontekstu. W końcowym etapie zbudowana w ten sposób macierz poddawana jest kompresji, tak by uzyskać wektory słów o zadanej długości. Metoda ta zaproponowana została w 2014 r. Zaznaczyć w tym miejscu należy, że w 2012 r. habilitant w pracy [12] zaproponował bardzo zbliżone podejście, które wykorzystane zostało do wyszukiwania słów z użyciem kontekstu. 3. FASTTEXT wykorzystuje podejście zbliżone do Word2Vec z tą różnicą, że zamiast na całych słowach operacje są wykonywane na n-znakowych podciągach. W podejściu tym pojedyncze słowo jest złożeniem n-gramowych wektorowych reprezentacji. By zbadać jakość reprezentacji niezależnie od użytej metody klasyfikacji do oceny wykorzystano trzy klasyfikatory: SVN, NaiveBayes oraz sieć neuronową 10
11 FF. Eksperymenty zostały przeprowadzone na zbiorach danych wygenerowanych z Wikipedii polskiej i angielskiej, tak by można sprawdzić, czy uzyskane wyniki są niezależne od języka. Dla każdego języka zbudowano 7 paczek danych, różniących się skalą trudności w zadaniu uczenia: rosnąca liczba klas, cech i obiektów. Szczegółowy opis poszczególnych paczek danych przedstawiono w pracy [2] w tabeli 1. Dane te udostępnione zostały on-line, tak by stanowiły punkt odniesienia dla dalszych studiów nad metodami reprezentacji artykułów Wikipedii. W przeprowadzonych eksperymentach zbadano również wpływ zastosowania przekształcenia danych z użyciem odległości kosinusowej i gaussowskiej na jakość klasyfikacji. Uzyskane w przeprowadzonych eksperymentach wyniki opisane zostały w pracy [2] w tabelach 2-8 i pozwoliły wyciągnąć następujące główne wnioski: 1. Użycie wektorowych reprezentacji słów do utworzenia reprezentacji dokumentów poprzez ich uśrednienie daje dobre wyniki dla krótkich dokumentów i małej liczby klas. W przypadku zwiększania się liczby klas (ponad 20) wyniki wyraźnie się pogarszają. 2. Uzyskiwanie lepszych jakościowo wyników przez klasyfikator SVM z reprezentacją BoW w porównaniu do reprezentacji neuronowych wskazuje na konieczność stosowania do budowy wektorowych reprezentacji dokumentów lepszych metod łączenia wektorów słów niż typowo stosowane uśrednianie. 3. Zastosowane do badanych reprezentacji przekształcenia opartego na przekształceniach kosinusowych i gaussowskich dało poprawę wyników we wszystkich klasyfikatorach. Nie można było jednak jednoznacznie wskazać, które z przekształceń daje lepsze wyniki. 4. Metody reprezentacji wykorzystujące wektory słów są skuteczną metodą redukcji wymiarowości. W porównaniu do podejścia LSA, przy tej samej długości wektorów, dają zdecydowanie lesze rezultaty. Zaznaczyć należy również mniejszą złożoność obliczeniową tworzenia reprezentacji opartych na wektorach słów w porównaniu do LSA. 5. Zastosowanie sieci neuronowych do klasyfikacji tekstów jest bardzo kosztowne obliczeniowo. Przy większej liczbie klas reprezentacja BoW uniemożliwia praktyczne zastosowania typowej sieci FF do klasyfikacji. Zastosowanie reprezentacji opartej na wektorach słów umożliwia efektywną 11
12 kategoryzację tekstów z użyciem sieci FF w sytuacji dużej liczby klas i obiektów. 6. Uzyskane rezultaty wskazują na ich niezależność od języka zaobserwowane regularności powtarzają się zarówno dla danych przygotowanych dla polskiej, jak i angielskiej Wikipedii. Zaznaczyć należy, że badania przeprowadzone zostały tylko dla dwóch języków fleksyjnych. W celu potwierdzenia uniwersalności tej obserwacji należałoby wykonać eksperyment dla większej liczby języków, co może zostać zrealizowane przy użyciu aplikacji Matrix u. W pracy [2] przedstawiono wyniki badań będące rozszerzeniem eksperymentów przedstawionych w [1] o reprezentacje wektorowe słów. Głównym moim indywidualnym wkładem opisanym w tej pracy są przedstawione powyżej wnioski z przeprowadzonej analizy rezultatów klasyfikacji artykułów Wikipedii wykorzystującymi wektorowe reprezentacje słów. Artykuły w Wikipedii zorganizowane są z użyciem kategorii. Podobnie jak artykuły, system kategorii rozwijany jest przez społeczność wolontariuszy. Tworzą oni ręcznie powiązania zarówno pomiędzy kategoriami, jak i przypisują artykuły do grup tematycznych. System kategorii tworzy skierowany graf, który ma ułatwiać przeszukiwanie Wikipedii. Dotychczas analizowane metody reprezentacji opierały się w głównej mierze na informacji zawartej jawnie w tekście. W pracy [3] do reprezentacji artykułów Wikipedii zaproponowano użycie grafu kategorii. Podejście to poprawić ma reprezentacje poprzez wyznaczanie podobieństw między pojęciami wynikającymi z analizy ich generalizacji. Ze względu na skalę grafu kategorii i gęstość powiązań hierarchicznych istotnym zagadnieniem jest sposób wykorzystania kategorii nadrzędnych, tak aby podczas tworzenia reprezentacji dla artykułu użyć tylko informacji istotnych, pomijając te, które wprowadzają szum. Do porównywania artykułów z użyciem grafu kategorii zastosowana została metoda Path Length (PL) [13], która jako miarę podobieństwa wykorzystuje najkrótszą ścieżkę między badanymi węzłami. Podejście to w szeregu zastosowań dało dobre rezultaty i w badaniach przedstawionych w omawianym artykule wykorzystane zostało jako punkt odniesienia dla zaproponowanych usprawnień. Oznaczając C 1 i C 2 jako zbiór kategorii przypisanych do artykułów a 1 i a 2 odległość PL jest wyznaczana dla każdej pary (c k,c l ), gdzie c i C 1 i c k C 2. Wtedy do wyznaczenia odległości wyznaczana jest najmniejsza (3) lub średnia (4) wartość pomiędzy wszystkimi parami: 12
13 dist PL+Min (a 1,a 2 ) = min c i C 1,c j C 2 dist PL (c i,c j ) (3) dist PL+Avg (a 1,a 2 ) = c i C 1 c j C 2 dist PL (c i,c j ) C 1 C 2 Ponieważ artykuł w Wikipedii może przynależeć do więcej niż jednej kategorii wykorzystanie metody najkrótszej ścieżki powodować będzie pominięcie informacji pochodzących od kategorii leżących poza nią. Może się to objawiać zmniejszeniem różnic między artykułami, które posiadają wspólne przypisanie do jednego węzła w grafie kategorii. Modyfikacja tej metody wprowadza zamiast najkrótszej ścieżki jej wartość średnią. Jednakże uśrednienie po wszystkich możliwych parach kategorii powoduje przypisywanie nadmiernych wag do tych, które są redundantne. Jest to problematyczne zwłaszcza w przypadku, gdy reprezentacja artykułów realizowana jest przez różne zbiory kategorii, z którymi są one powiązane (co przeważnie ma miejsce). W celu przeciwdziałania tym problemom zaproponowane i ocenione zostały trzy metody alternatywnego wyznaczania podobieństwa artykułów wykorzystujących graf kategorii. Metoda 1: semi-average path length (PL+Avg*) W metodzie tej obejście powyższych problemów zostało przeprowadzone poprzez modyfikację polegającą na zmianie sposobu wyznaczania średniej. Zamiast wyznaczać ją po wszystkich parach kategorii zastosowano następującą procedurę: Dla artykułówa 1,a 2 i przypisanym im zbiorom kategoriic 1,C 2 wyznaczone zostają odległości pomiędzy każdą kategorią i dokumentem przeciwnym, to znaczy dla każdej kategorii ze zbioru C 1 wyznaczana jest jej odległość do artykułua 2 i analogicznie dla każdej kategorii zc 2 wyznaczana jest odległość do artykułu a 1. Następnie wyznaczona zostaje średnia po wszystkich tak uzyskanych odległościach z użyciem wzoru 5. (4) dist PL+Avg (a 1,a 2 ) = c i C 1 dist PL (c i,a 2 )+ c j C 2 dist PL (c j,a 1 ) C 1 + C 2 (5) 13
14 Zaletą użycia tej metody w porównaniu dopl+avg jest redukcja wpływu redundantnych kategorii na końcową wartość odległości. Metoda 2: Semi-average path length z redukcja częstości (PL+Avg*+DF) Rozszerzenie metody 1 wprowadza dopasowanie ignorujące węzły poniżej zadanego progu DF (ang. document frequency) składowej miary typowo wykorzystywanej do wyznaczania wag cech w modelu przestrzeni wektorowej. W tym przypadku jest to liczność artykułów kategorii. Podczas przeglądania grafu kategorii węzły, których wagi będą poniżej określonego progu, nie będą używane do budowy reprezentacji, a ich węzły potomne są przetwarzane dalej normalnie, tak jakby były o jeden poziom bliżej reprezentowanego artykułu. Miara ta określona jest wzorem 6. dist PL+DF (a,c) = dist PL (a,c) R a,c, (6) gdzie R a,c = {r : r p a,c DF(r) < THRESHOLD, p a,c = (a,...,...,c) jest ciągiem węzłów, leżących na ścieżce pomiędzy artykułem a i kategorią c, a R a,c jest podsekwencją p a,c zawierającą te węzły, których częstość dokumentu jest poniżej DF(c) < THRESHOLD. Następnie wyznaczany jest dist PL+Avg +DF tak samo, jak w przypadku metody 1, podstawiając wartościdist PL w równaniu 5 wartościami dist PL+DF. Metoda 3: Minimalna ważona path length (PL+Min+IDF) Metoda ta jest modyfikacją P L+M in, która używa tylko najkrótszej ścieżki do wyznaczenia odległości. PL+Min+IDF nie używa typowego przeszukiwania wszerz, lecz wykonuje wyszukanie najkrótszej ścieżki z użyciem algorytmu Dijkstry. W zaproponowanej metodzie graf kategorii jest ważony, a koszt przejścia przez węzeł kategoriic i wynosi odwrotność jego popularności IDF (inverse document frequency) i jest określony wzorem 7. cost(c i ) = 1 IDF(c i ), (7) N gdzie IDF(c i ) = logdf(c i, a N jest liczbą reprezentowanych artykułów. ) 14
15 Ocenę zaproponowanych metod wykonano poprzez zastosowanie ich w zadaniach uczenia nienadzorowanego, wykorzystującego dwa algorytmy klasteryzujące: OPTICS [14] i K-means. Algorytmy te użyte zostały do grupowania artykułów będącymi rezultatami wyszukiwania w Wikipedii z użyciem wybranych słów kluczowych, dla których stworzono ręcznie oczekiwany wzorzec podziału. Wyniki uzyskiwane za pomocą algorytmu gęstościowego są silnie zależne od zadanych parametrów. Dodatkowo w podstawowej wersji OPTICS nie umożliwia uzyskania hierarchii bezpośrednio z wykresów reachability plots. W związku z tym użyte zostało jego rozszerzenie Cluster Tree, zawierające jeden parametr ratio of significance, który wedle zaleceń jest ustawiany na stałą wartość 0, 75 [15]. Wyniki uzyskane dla wartości tego parametru porównane zostały z optymalną jego wartością maksymalizującą jakość klasteryzacji, będącą zmodyfikowaną do oceny hierarchicznych klastrów wersją miary Pmcc (ang. Pearson productmoment correlation coefficient) [16]. Jako punkt odniesienia wykorzystane zostały miary zdefiniowane wzorami (3) i (4) oraz reprezentacja BoW. Szczegółowe wyniki zamieszczone zostały w pracy [3] w tabelach 1 4. Analiza uzyskanych rezultatów wskazała, że w przypadku użycia algorytmu OPTICS z metodą PL + Avg wyniki ulegają poprawie w porównaniu do wartości uzyskiwanych przez miarę referencyjną (P L). Zaskakującym okazał się fakt uzyskania słabych rezultatów z użyciem metody 3PL+Min+IDF, zwłaszcza dla standardowej wartości parametru ratio of significance. Standardowa wartość nie sprawdziła się również w przypadku reprezentacji BoW. Uśredniona wartość uzyskanych wyników wskazuje, że użycie grafu kategorii daje lepsze rezultaty w stosunku do użycia typowej metody reprezentacji wykorzystującej treść artykułów. Zweryfikowano również, czy uzyskane rezultaty porównania metod reprezentacji są niezależne od użytego algorytmu grupowania. W tym celu eksperymenty zostały powtórzone również dla algorytmu K-Means. Zapewnienie podziału zbioru na oczekiwaną liczbę podgrup przyjęto przez ustalenie parametru K równego liczbie klastrów, jaka była oczekiwana we wzorcowym podziale. Ponieważ algorytm K-Means jest wrażliwy na wartości, którymi jest inicjalizowany, eksperymenty zostały powtórzone 50 razy, a do analizy użyto uśrednione wartości uzyskanych rezultatów. W przypadku tego algorytmu różnice pomiędzy poszczególnymi metodami były mniej wyraźne, jednakże we wszystkich przypadkach zaobserwować można było dominację metody P L + Avg. Również tu wyraźna była przewaga zaproponowanych metod reprezentacji wykorzystujących kategorie, nad standardową metodą BoW. 15
16 Głównym moim indywidualnym wkładem przedstawionym w pracy [3] jest zaproponowanie wykorzystania do reprezentacji artykułów Wikipedii kategorii pochodzących z tego repozytorium oraz zaproponowanie metod wyznaczania podobieństwa artykułów wykorzystujących graf kategorii które w praktycznych zastosowaniach pozwoliły uzyskać jakościowo lepsze rezultaty od miar referencyjnych. Podejście wykorzystujące reprezentacje z użyciem kategorii (w szczególności metoda 1) pozwoliło poprawić jakość nienadzorowanego kategoryzowania rezultatów wyszukiwania w Wikipedii w porównaniu do użycia standardowego podejścia BoW średnio o 21 punktów procentowych. Do zrealizowania podejścia reprezentacji kategoriami opracowano miary podobieństwa artykułów wyznaczane w grafach kategorii. Zaproponowana miara, opisana wzorem 5 dawała lepsze rezultaty w porównaniu do referencyjnej miary Path Length (PL) zaproponowanej przez [13]. Wykorzystywany w opisanych powyżej eksperymentach graf kategorii jest tworzony ręcznie przez wikipedystów. W związku z tym zawiera on niepoprawne oraz nadmiarowe powiązania, a istotne połączenia bywają pominięte, co należy traktować jako szum informacyjny. Jak widać z wyników przedstawionych w pracy [3] graf kategorii Wikipedii (GKW) może być użyteczny w zadaniach kategoryzacji tekstów. Jednakże ze względu na występujący szum jego użycie może powodować szereg problemów w przetwarzaniu tekstu. W artykule [4] zaproponowano metodę oczyszczenia istniejącego systemu kategorii oraz identyfikacji nowych istotnych powiązań w tym grafie. Zadanie oczyszczenia GKW zrealizowane zostało poprzez przeprowadzenie procedur, mających na celu przygotowanie go do dalszego przetwarzania. Kolejnymi procedurami przetwarzającymi GKW były: a) Redukcja ziarnistości: w procedurze tej usunięte zostają kategorie, które są bardzo specyficzne. Procedura posiada parametrl min określający minimalną liczbę artykułów, jakie mają się znaleźć w węzłach struktury kategorii będących liśćmi. W iteracyjnym procesie wszystkie takie kategorie zostają złączone z nadrzędnymi. W ten sposób usunięte zostają mało liczne liście, a rozmiar grafu zostaje zredukowany. b) Usunięcie mało licznych węzłów: poprzednia procedura redukowała jedynie końcowe kategorie, jednakże w grafie cały czas pozostały kategorie zawierające niewielką liczbę artykułów. W związku z tym przeprowadzone zostało kolejne dopasowanie GKW polegające na usunięciu wszystkich kategorii mających mniej niż N min artykułów. Podobnie jak w poprzedniej 16
17 procedurze, redukcja przebiegła poprzez przypisanie artykułów do nadrzędnej kategorii. Na bazie testowego podzbioru, utworzonego z fragmentu oryginalnego grafu kategorii Wikipedii, parametry powyższych procedur ustalone zostały na wartości:l min = 40 i N min = 12. c) Wykorzystanie wyrażeń regularnych: trzecim dopasowaniem, mającym na celu oczyszczenie struktury kategorii, był zbiór reguł wykorzystujący przygotowane ręcznie szablony wzorców znakowych, które wyszukiwane były w nazwach kategorii. Umożliwiło to dalsze oczyszczenie GKW poprzez usuniecie kategorii administracyjnych, takich jak stubs, containers, lists etc. Dla tak przygotowanego GKW opracowano metody identyfikacji nowych, istotnych powiązań, opartych na miarach podobieństwa kategorii wykorzystujących m.in. wielkoskalowy klasyfikator tekstowy bazujący na metodzie wektorów wspierających (SVM). Użycie różnego rodzaju miar ma na celu umożliwienie uchwycenia odmiennych aspektów podobieństwa między kategoriami, dlatego ważne jest, by bazowały one na odmiennych źródłach. W pracy [4] użyto następujące miary podobieństwa między kategoriami: A) Pierwsza miara podobieństwa zaproponowana została na bazie pracy [17]. W metodzie tej, inspirowanej podejściem do identyfikacji reguł asocjacyjnych [18], artykuły odpowiadają koszykom (ang. baskets), a kategorie przypisane do artykułów tworzą pojedynczy zbiór elementów (ang. itemset). W podejściu tym podobieństwo pomiędzy kategoriami jest wyznaczone z użyciem wzoru 8. cos i,j = nk=1 A k C i A k C j nk=1 A k C i n k=1 A k C j, (8) gdzie A k C i jest równe 1, gdy artykuł A k jest przypisany do C i, a 0 w przeciwnym przypadku. Zauważyć należy, że miarę daną wzorem 8 można zinterpretować geometrycznie jako kosinus kąta pomiędzy wektorami kategorii reprezentowanymi w przestrzeni artykułów. Rezultaty uzyskiwane przez tę miarę ustalone zostały jako punkt odniesienia dla miar zaproponowanych dalej (B-E). 17
18 B) Druga miara podobieństwa oparta została na treści tekstowej artykułów przynależących do poszczególnych kategorii. Założeniem jej jest, że podobieństwo pomiędzy kategoriami jest odzwierciedlone w rozkładzie słów. Podobnie jak w typowym modelu przestrzeni wektorowej, wykorzystywanym do wyznaczania podobieństwa między dokumentami z użyciem BoW, kategorie są reprezentowane tu jako złączony zbiór wszystkich słów występujących w artykułach przypisanych do nich. Podobieństwo między wektorami kategorii wyznaczane zostało jako miara kosinusowa. Kolejne miary podobieństwa kategorii wykorzystywały wielkoskalowy klasyfikator: C) Trzecia miara podobieństwa bazuje na współprzypisaniach klasyfikatora dokonującego decyzji dotyczącej przypisania artykułu do więcej niż jednej kategorii. Utworzono ją na bazie założenia przyjmującego, że jeśli klasyfikator prognozuje, iż obiekt przynależy do dwóch klas, to wtedy klasy te są podobne. Analogicznie w sytuacji, gdy klasyfikator dla dwóch klas wskazuje na jedną, jest to wskazaniem do tego, że prawdopodobnie klasy nie są do siebie podobne. D) Czwarta miara podobieństwa wykorzystuje błędy klasyfikatora. Założeniem jej jest, że w sytuacji, gdy następuje niepoprawne przypisanie klasyfikacyjne, istnieje podobieństwo między klasą poprawną a niepoprawną. E) Piąta miara wykorzystuje klasyfikator do określenia podobieństwa poprzez analizę hiperpłaszczyzny rozdzielającej klasy. W przypadku gdy wieloklasowe przypisania z użyciem SVM uzyskane zostały poprzez strategie 1-vsall, model zawiera tyle hiperpłaszczyzn, ile jest klas. W sytuacji tej każda hiperpłaszczyzna oddziela obiekty pojedynczej klasy od reszty. Zaproponowana miara analizuje kąty pomiędzy hiperpłaszczyznami i na podstawie ich wielkości wnioskuje o podobieństwie klas im kąt pomiędzy hiperpłaszczyznami jest mniejszy, tym większe jest podobieństwo między klasami. Podejście to okazało się właściwe dla danych opisanych małą liczbą cech, w przypadku rzeczywistych danych tekstowych obliczenia są wykonywane w przestrzeniach wysokowymiarowych. Analiza tych przestrzeni wykazała, że w przypadku budowy z ich użyciem wieloklasowego klasyfikatora, odsetek dodatnich współczynników kierunkowych hiperpłaszczyny (czyli wskazujących na korelacje z konkretną klasą) jest niewielki. Duża część 18
19 ujemnych wartości negatywnie wpływała na uzyskiwane wyniki. W związku z tym przeprowadzone zostało dopasowanie redukujące cechy ujemne w hiperpłaszczyźnie n tworząc hiperpłaszczyznę n, której współczynniki f określono jako: n [f] = max(n[f],0). W sytuacji tej podobieństwo między kategoriami wyznaczone zostało wzorem 9. s(c i,c j ) = n i n j n i n j (9) Opisane powyżej miary wyznaczają jedynie podobieństwo bezpośrednie. Na podobieństwo między kategoriami będą miały również wpływ powiązania wynikające ze współprzynależności do nadrzędnej klasy. Dlatego, by rozszerzyć zastosowanie powyżej przedstawionych miar do identyfikacji nowych powiązań wprowadzono dodatkową modyfikację określoną jako podobieństwo łączone. Jest ono liniową kombinacją powiązań bezpośrednich i powiązań wynikających z posiadania wspólnego węzła, będącego bezpośrednim przodkiem dwóch wybranych kategorii. Miara ta określona została wzorem 10. s a (C i,c j ) = w 1 s(c i,c j )+w 2 s (C i,c j ), (10) gdzie s(c i,c j ) jest podobieństwem bezpośrednim między klasami C i, C j, natomiast s (C i,c j ) określa średnie podobieństwa między ich przodkami. Miara ta jest rozwinięciem miary zaproponowanej przez [19], której autorzy wykazali, że wagi bezpośrednich podobieństw i podobieństw wyznaczonych poprzez odległości przodków ustalone na w 1 = 0,33 i w 2 = 0,67 są optymalne, i takie wartości parametrów przyjęto w przeprowadzonych eksperymentach. Opracowane miary podobieństwa ocenione zostały w dwojaki sposób. a) Ręczny: dla każdej miary do oceny wybrano par kategorii, które otrzymały najwyższe wartości podobieństwa (zbiór top). Drugi zbiór (deep) utworzono z par pozostałych po pominięciu pierwszych Poprzez porównanie pokrycia uzyskanych wyników z tymi dwoma zbiorami możliwe było wykonanie przybliżonej (bo wykonanej na zredukowanym podzbiorze danych) oceny użyteczności opracowanych miar do identyfikacji istotnych powiązań między kategoriami. b) Automatyczny: polegający na zastosowaniu opracowanych miar podobieństwa do odtworzenia oryginalnych powiązań między kategoriami, które zostały utworzone przez edytorów Wikipedii. Przeprowadzono również ocenę 19
20 podobieństwa wszystkich miar w wersji bezpośredniej i łączonej oraz zbadano rozkłady wartości podobieństw dla pierwszego miliona par powiązanych ze sobą kategorii. Szczegółowe wyniki zaprezentowano w artykule [4] na rysunkach Wskazują one, że miary A i E mają bardzo zbliżone rozkłady wartości podobieństw, jednocześnie A i B są znacząco różne. W celu dokładniejszego porównania wszystkich miar przeprowadzono ich analizę na zbiorze pierwszych i kolejnych po pierwszych parach kategorii. W rezultacie potwierdzone zostało, że miary A i E są najbardziej podobne. Jest to interesujące ze względu na fakt, że były one wyznaczane w zupełnie różny sposób. Dodatkowo zbiór podobnych kategorii uzyskanych za pomocą miary E i miary A używającej podobieństwa łączonego wyniósł blisko 30%. Jest to zbliżone do rozmiaru zbioru podobnych kategorii wygenerowanych przez miarę A w wersji bezpośredniej i łączonej, a jednocześnie więcej niż dla takiego samego przypadku dla miary E. Potwierdza to wcześniejszą obserwację podobieństwa tych dwóch miar. Zaproponowany algorytm do wyznaczanie podobieństwa łączonego ma silny wpływ na uzyskane wyniki podobieństwa par kategorii. W przypadku zbioru top wpływa on na większość analizowanych par, dla zbioru deep zmienia wartości około 30% par. Zgodnie z oczekiwaniami eksperymenty potwierdziły, że użycie podobieństwa łączonego powoduje, że miary stają się bardziej do siebie podobne. Ocena jakości miar podobieństwa w zadaniu odtworzenia oryginalnych powiązań w systemie kategorii wskazała, że najlepiej do tego celu nadaje się miara D. Dla pierwszych par powiązań 22,9% z nich zostało prawidłowo odtworzonych. Interesujący był fakt, że wprowadzenie podobieństwa łączonego nie wpłynęło znacząco na poprawę rezultatów. Ręczna ocena przeprowadzona na zbiorze top wykazała, że zaproponowane podejścia dają dobre rezultaty każda z ocenianych miar uzyskała ponad 80% skuteczność. W większości uzyskane tu rezultaty były lepsze dla podobieństw bezpośrednich. W przypadku oceny na zbiorze deep wszystkie miary uzyskały gorsze rezultaty, co jest zgodne z oczekiwaniami, ponieważ wartości podobieństwa były tu niższe. Zaobserwowano również, że wprowadzenie podobieństwa łączonego powoduje pogorszenie wyników. Zaproponowane miary wykorzystane zostały do zbudowania ważonej sieci kategorii, gdzie poszczególne wartości wag krawędzi określały istotność poszczególnych powiązań. Sieć taka, opisująca powiązania między pojęciami, może znaleźć zastosowanie w zadaniach przetwarzania języka naturalnego jako zewnętrzna baza wiedzy o języku. Dzięki niej możliwe będzie dodanie abstrakcyjnego opisu 20
21 dla pojęć występujących bezpośrednio w analizowanym tekście. W rezultacie połączenia zaproponowanych miar podobieństwa powstał graf pojęć składający się z węzłów i ważonych powiązań. Zaznaczyć należy, że w grafie tym jedynie 10% było oryginalnymi powiązaniami pochodzącymi z systemu kategorii Wikipedii. Tak niski odsetek obrazuje ilość istotnych informacji, która nie została uwzględniona przez edytorów Wikipedii. Głównym moim indywidualnym wkładem przedstawionym w pracy [4] było zaproponowanie miar podobieństwa między kategoriami Wikipedii, które w szczególności wykorzystywały wielkoskalowy klasyfikator i użyte zostały do identyfikacji nowych powiązań w grafach kategorii. Zaproponowane miary (B-E) pozwoliły na uzyskiwanie wysokiej jakości powiązań porównywalnych z wynikami uzyskiwanymi przez bazową miarę (A) zaproponowaną przez [17], jednocześnie wprowadzając nowe, istotne powiązania, które nie były wynajdywane przez miarę bazową. Jedną z możliwości rozszerzania reprezentacji tekstu jest dołączanie do zidentyfikowanych pojęć dodatkowych informacji pochodzących z zewnętrznych repozytoriów danych. Repozytorium takim może być np. słownik WordNet, dzięki któremu można do reprezentacji dołączyć definicje pojęć zidentyfikowanych w tekście oraz relacje określonego typu do innych znaczeń [20]. Umożliwia to rozszerzenie zawartości tekstu ponad to, co jest jawnie dane w jego treści. Dołączenie do Wikipedii informacji pochodzących ze słownika WordNet rozszerza artykuły o informacje zawarte w ustrukturalizowanej sieci znaczeń powiązanych ze sobą określonym typem. Przeszkodą stojącą na drodze użycia synsetów słownika WordNet do opisu artykułów Wikipedii jest brak powszechnie dostępnych, wysokiej jakości powiązań pomiędzy tymi dwoma repozytoriami. W artykule [5] przedstawiono wyniki prac nad integracją Wikipedii i słownika WordNet. By przeprowadzić takie połączenie, zdecydowano najpierw automatyczne wygenerować powiązania między artykułami Wikipedii, a znaczeniami (synsetami) słownika WordNet. Kolejnym krokiem była weryfikacja i korekta tak utworzonych powiązań poprzez wolontariuszy realizujących to zadanie z użyciem zbudowanego narzędzia do pracy kooperacyjnej. Automatyczne utworzenie inicjalnych powiązań między Wikipedią, a słownikiem WordNet wykonane zostało z użyciem następujących algorytmów: 1. Unique results podejście to opiera się na obserwacji, że duża część słów (fraz) w WordNecie jest użyta tylko w jednym synsecie. W sytuacji, kiedy fraza jest unikalna dla wszystkich synsetów i zapytanie o nią Wikipedii 21
22 zwróci tylko jeden artykuł, to utworzone powiązanie artykuł - synset powinno być poprawne. W artykule [5] podano szczegółowy opis tej procedury w pseudokodzie algorithm 2. Ręczna ocena 200 losowo wybranych synsetów wykazała wysoką precyzję proponowanego podejścia na poziomie 97%. Umożliwiło to utworzenie powiązań dla synsetów, co jest 38,99% pokryciem całego zbioru. 2. Podejście oparte na synonimach zakłada odpytanie Wikipedii synonimami synsetu i w sytuacji, gdy w rezultatach wyszukiwania znajdzie się ten sam artykuł, zostaje dla niego utworzone powiązanie. W artykule [5] podano szczegółowy opis tej procedury w pseudokodzie algorithm 3. Ocena 200 losowo wybranych powiązań wskazała precyzję na poziomie 88%, co w rezultacie pozwoliło na utworzenie powiązań. 3. Exact matches trzeci sposób łączenia Wikipedii i słownika WordNet tworzył powiązanie, gdy nagłówek artykułu i wyraz z synsetu były takie same. Szczegółowy opis tej procedury podano w artykule [5] w pseudokodzie algorithm 4. W wyniku wykonania tej procedury 59% synsetów zostało powiązanych z artykułami Wikipedii. Dla ręcznie ocenionego zbioru 200 losowych synsetów uzyskano precyzję 83%. Z użyciem tego podejścia zbudowano powiązania dla synsetów. 4. Most-used czwarte podejście do łączenia artykułów Wikipedii i synsetów słownika WordNet zakładała, że w przypadku zwracania rezultatów, które są uporządkowane według pewnej miary istotności ustalanej przez system wyszukujący (w tym wypadku Wikipedia Opensearch API), najbardziej prawdopodobnym do utworzenia powiązania jest artykuł będący najczęściej na szczycie listy zwracanych rezultatów. Szczegółowy opis procedury przedstawiono pseudokodem algorithm 5 w artykule [5]. Ocena tej procedury, wykonana ręcznie na wylosowanych 200 testowych powiązaniach, potwierdziła że daje ona duże pokrycie 84% synsetów zostało w ten sposób połączonych, jednakże ich precyzja jest niska, rzędu 17%. W rezultacie powstało powiązań z których powinno być poprawnych. Zaproponowane powyżej metody automatycznego łączenia Wikipedii i słownika WordNet są metodami dającymi dobre rezultaty, wybranymi ze wcześniej przeprowadzonych badań, i które mogłyby być uruchomiane dla wszystkich wpisów w słowniku WordNet. Zaznaczyć należy, że do realizacji tego zdania testowano również szereg innych metod, które nie dały oczekiwanych rezultatów, jak np. 22
23 metoda oparta na łączeniu tych dwóch repozytoriów wykorzystująca model przestrzeni wektorowej. Porównuje ona z użyciem BoW definicję synsetu i pierwszego akapitu artykułu [21]. Rezultaty tego podejścia okazały się jednak niewystarczające do stworzenia dobrych jakościowo powiązań dla całego słownika WordNet. W celu uzyskania optymalnego zbioru inicjalnych powiązań przebadano różne kombinacje łączenia wyników zaproponowanych powyższej metod. Do rozstrzygnięcia konfliktów przyjęto następujące reguły: 1. jeśli co najmniej dwie metody utworzyły te samo powiązanie, to uznawane jest ono za właściwe, 2. jeśli dwa lub więcej podejść tworzą różne powiązania, wówczas jako właściwe wybierane jest to, które zostało utworzone przez metodę mającą większą precyzję. Zbudowany w ten sposób zbiór inicjalnych powiązań oceniony został na 200 wylosowanych parach. Dodatkowo przeprowadzono walidacje na powiązaniach utworzonych podczas oceny metod 1-4. Na podstawie tak utworzonego zbioru testowego oszacowano, że w zbiorze automatycznie utworzonych powiązań jest 54% powiązań poprawnych, 19% jest niepoprawnych, a dla reszty 27% nie udało się znaleźć poprawnego powiązania. Zbiór tak zbudowanych powiązań poddany został weryfikacji i korekcie poprzez społeczność użytkowników. Do tego celu utworzona została dedykowana strona internetowa 2 (nie będąca indywidualnym wkładem habilitanta), na której zarejestrowanemu użytkownikowi przedstawiany jest wylosowany synset. Jeżeli ma on wygenerowane powiązanie do Wikipedii, użytkownik może je ocenić jako: właściwe, niewłaściwe lub idealne. W przypadku braku powiązania użytkownik może wyszukać pasujący do zadanego synsetu artykuł Wikipedii lub też ocenić brak powiązania jako właściwy. W rezultacie dla (61,06%) spośród synsetów utworzono powiązania. Zaznaczyć należy, że dla części synsetów takie powiązania mogą nie istnieć. W procesie kooperacyjnej walidacji ponad par powiązań zostało ocenionych przez 15 użytkowników, co pozwoliło ocenić poprawność powiązań na poziomie 92,72%. W celu uatrakcyjnienia procesu oceny utworzono również grę internetową, stanowiącą implementację podejścia do akwizycji wiedzy z użyciem metody tzw. gier z celem [22, 23]. Zaznaczyć należy, że rozwiązanie to nie jest autorskim
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Marcin Deptuła Julian Szymański, Henryk Krawczyk Politechnika Gdańska Wydział Elektroniki, Telekomunikacji i Informatyki Katedra Architektury
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Model referencyjny doboru narzędzi Open Source dla zarządzania wymaganiami
Politechnika Gdańska Wydział Zarządzania i Ekonomii Katedra Zastosowań Informatyki w Zarządzaniu Zakład Zarządzania Technologiami Informatycznymi Model referencyjny Open Source dla dr hab. inż. Cezary
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Lokalizacja Oprogramowania
mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji
Widzenie komputerowe (computer vision)
Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja
Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Klasyfikacja LDA + walidacja
Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja
Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych
Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie
Wyszukiwanie informacji w internecie. Nguyen Hung Son
Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
AUTOMATYKA INFORMATYKA
AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów
Wykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka
Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka L.p. Nazwisko i imię studenta Promotor Temat pracy magisterskiej 1. Wojciech Kłopocki dr Bartosz Ziemkiewicz Automatyczne
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Dopasowywanie modelu do danych
Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Wyszukiwanie tekstów
Wyszukiwanie tekstów Dziedzina zastosowań Elektroniczne encyklopedie Wyszukiwanie aktów prawnych i patentów Automatyzacja bibliotek Szukanie informacji w Internecie Elektroniczne teksy Ksiązki e-book Artykuły
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 9 PRZESZUKIWANIE GRAFÓW Z
PageRank i HITS. Mikołajczyk Grzegorz
PageRank i HITS Mikołajczyk Grzegorz PageRank Metoda nadawania indeksowanym stronom internetowym określonej wartości liczbowej, oznaczającej jej jakość. Algorytm PageRank jest wykorzystywany przez popularną
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.
Bioinformatyka Ocena wiarygodności dopasowania sekwencji www.michalbereta.pl Załóżmy, że mamy dwie sekwencje, które chcemy dopasować i dodatkowo ocenić wiarygodność tego dopasowania. Interesujące nas pytanie
Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32
Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:
Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania
Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 21 maja 2012 Historia dokumentu
W poszukiwaniu sensu w świecie widzialnym
W poszukiwaniu sensu w świecie widzialnym Andrzej Śluzek Nanyang Technological University Singapore Uniwersytet Mikołaja Kopernika Toruń AGH, Kraków, 28 maja 2010 1 Podziękowania Przedstawione wyniki powstały
AiSD zadanie trzecie
AiSD zadanie trzecie Gliwiński Jarosław Marek Kruczyński Konrad Marek Grupa dziekańska I5 5 czerwca 2008 1 Wstęp Celem postawionym przez zadanie trzecie było tzw. sortowanie topologiczne. Jest to typ sortowania
OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak
OpenAI Gym Adam Szczepaniak, Kamil Walkowiak Plan prezentacji Programowanie agentowe Uczenie przez wzmacnianie i problemy związane z rozwojem algorytmów Charakterystyka OpenAI Gym Biblioteka gym Podsumowanie
Odniesienie symbol II/III [1] [2] [3] [4] [5] Efekt kształcenia. Wiedza
Efekty dla studiów drugiego stopnia profil ogólnoakademicki na kierunku Inżynieria i Analiza Danych prowadzonym przez Wydział Matematyki i Nauk Informacyjnych Użyte w poniższej tabeli: 1) w kolumnie 4
Analiza danych tekstowych i języka naturalnego
Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach
Technologie Internetowe Raport z wykonanego projektu Temat: Internetowy sklep elektroniczny
Technologie Internetowe Raport z wykonanego projektu Temat: Internetowy sklep elektroniczny AiRIII gr. 2TI sekcja 1 Autorzy: Tomasz Bizon Józef Wawrzyczek 2 1. Wstęp Celem projektu było stworzenie sklepu
Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling
Summary in Polish Fatimah Mohammed Furaiji Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling Zastosowanie symulacji wieloagentowej w modelowaniu zachowania konsumentów Streszczenie
Systemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H
W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Algorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych
Pojęcie bazy danych. Funkcje i możliwości.
Pojęcie bazy danych. Funkcje i możliwości. Pojęcie bazy danych Baza danych to: zbiór informacji zapisanych według ściśle określonych reguł, w strukturach odpowiadających założonemu modelowi danych, zbiór
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Co to jest grupowanie
Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie
Wstęp do przetwarzania języka naturalnego
Wstęp do przetwarzania języka naturalnego Wykład 9 Wektoryzacja dokumentów i podstawowe miary podobieństwa Wojciech Czarnecki 17 grudnia 2013 Section 1 Przypomnienie Bag of words model Podejście Przypomnienie
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Analiza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji
UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji Filip Wójcik Wydział Zarządzania, Informatyki i Finansów Instytut Informatyki Ekonomicznej
Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych
dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo
Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.
Wprowadzenie do programu RapidMiner Studio 7.6, część 7 Podstawy metod wyboru atrybutów w problemach klasyfikacyjnych, c.d. Michał Bereta www.michalbereta.pl Wybór / ocena atrybutów na podstawie oceny
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Metody indeksowania dokumentów tekstowych
Metody indeksowania dokumentów tekstowych Paweł Szołtysek 21maja2009 Metody indeksowania dokumentów tekstowych 1/ 19 Metody indeksowania dokumentów tekstowych 2/ 19 Czym jest wyszukiwanie informacji? Wyszukiwanie
Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań
Raport 1/2015 Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań autor: Michał Osmoła INIME Instytut nauk informatycznych i matematycznych z zastosowaniem
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Inteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Metody selekcji cech
Metody selekcji cech A po co to Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Efekt kształcenia. Wiedza
Efekty dla studiów drugiego stopnia profil ogólnoakademicki na kierunku Informatyka na specjalności Przetwarzanie i analiza danych, na Wydziale Matematyki i Nauk Informacyjnych, gdzie: * Odniesienie oznacza
Metody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa
, semantyczne powiązanie i podobieństwo, odległość Projekt przejściowy ARR Politechnika Wrocławska Wydział Elektroniki Wrocław, 22 października 2013 Spis treści 1 językowa 2, kryteria 3 Streszczenie artykułu
Katedra Budownictwa Drogowego. Uniwersytet Technologiczno-Przyrodniczy w Bydgoszczy W ŚRODOWISKU VISUM. dr inż. Jacek Chmielewski
Katedra Budownictwa Drogowego Uniwersytet Technologiczno-Przyrodniczy w Bydgoszczy INTERAKTYWNY CZTEROSTOPNIOWY MODEL TRANSPORTOWY DLA MIAST W ŚRODOWISKU VISUM dr inż. Jacek Chmielewski Wprowadzenie n
Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków
Projekt i implementacja systemu wspomagania planowania w języku Prolog
Projekt i implementacja systemu wspomagania planowania w języku Prolog Kraków, 29 maja 2007 Plan prezentacji 1 Wstęp Czym jest planowanie? Charakterystyka procesu planowania 2 Przeglad istniejacych rozwiazań
SPOTKANIE 2: Wprowadzenie cz. I
Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie
operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.
Problem porządkowania zwanego również sortowaniem jest jednym z najważniejszych i najpopularniejszych zagadnień informatycznych. Dane: Liczba naturalna n i ciąg n liczb x 1, x 2,, x n. Wynik: Uporządkowanie
mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.
mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni
Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska
System gromadzenia, indeksowania i opisu słownikowego norm i rekomendacji Praca magisterska Jakub Reczycki Opiekun : dr inż. Jacek Rumiński Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska
Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.
Efekty dla studiów pierwszego stopnia profil ogólnoakademicki na kierunku Informatyka w języku polskim i w języku angielskim (Computer Science) na Wydziale Matematyki i Nauk Informacyjnych, gdzie: * Odniesienie-
Prof. Stanisław Jankowski
Prof. Stanisław Jankowski Zakład Sztucznej Inteligencji Zespół Statystycznych Systemów Uczących się p. 228 sjank@ise.pw.edu.pl Zakres badań: Sztuczne sieci neuronowe Maszyny wektorów nośnych SVM Maszyny
Zagadnienia (1/3) Data-flow diagramy przepływów danych ERD diagramy związków encji Diagramy obiektowe w UML (ang. Unified Modeling Language)
Zagadnienia (1/3) Rola modelu systemu w procesie analizy wymagań (inżynierii wymagań) Prezentacja różnego rodzaju informacji o systemie w zależności od rodzaju modelu. Budowanie pełnego obrazu systemu
Od e-materiałów do e-tutorów
Od e-materiałów do e-tutorów Lech Banachowski, Elżbieta Mrówka-Matejewska, Agnieszka Chądzyńska-Krasowska, Jerzy Paweł Nowacki, Wydział Informatyki, Polsko-Japońska Akademia Technik Komputerowych Plan
Optymalizacja systemów
Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody
5.4. Tworzymy formularze
5.4. Tworzymy formularze Zastosowanie formularzy Formularz to obiekt bazy danych, który daje możliwość tworzenia i modyfikacji danych w tabeli lub kwerendzie. Jego wielką zaletą jest umiejętność zautomatyzowania
Asocjacyjna reprezentacja danych i wnioskowanie
Asocjacyjna reprezentacja danych i wnioskowanie Wykorzystane technologie JetBrains PyCharm 504 Python 35 Struktura drzewa GRAPH PARAM PARAM ID1 ID2 ID_N params params params param_name_1: param_value_1
Praktyczne aspekty stosowania metody punktów funkcyjnych COSMIC. Jarosław Świerczek
Praktyczne aspekty stosowania metody punktów funkcyjnych COSMIC Jarosław Świerczek Punkty funkcyjne Punkt funkcyjny to metryka złożoności oprogramowania wyznaczana w oparciu o określające to oprogramowanie
Tester oprogramowania 2014/15 Tematy prac dyplomowych
Tester oprogramowania 2014/15 Tematy prac dyplomowych 1. Projekt i wykonanie automatycznych testów funkcjonalnych wg filozofii BDD za pomocą dowolnego narzędzia Jak w praktyce stosować Behaviour Driven
Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change
Raport 4/2015 Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change autor: Michał Osmoła INIME Instytut nauk informatycznych i matematycznych
Tom 6 Opis oprogramowania
Część 9 Narzędzie do wyliczania wskaźników statystycznych Diagnostyka Stanu Nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 31 maja 2012 Historia dokumentu Nazwa dokumentu Nazwa
Nazwa wariantu modułu (opcjonalnie): Laboratorium programowania w języku C++
Uniwersytet Śląski w Katowicach str. 1 Kierunek i poziom studiów: Chemia, poziom pierwszy Sylabus modułu: Laboratorium programowania (0310-CH-S1-019) Nazwa wariantu modułu (opcjonalnie): Laboratorium programowania
Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki
Porównanie algorytmów wyszukiwania najkrótszych ścieżek między wierzchołkami grafu. Instytut Informatyki 22 listopada 2015 Algorytm DFS w głąb Algorytm przejścia/przeszukiwania w głąb (ang. Depth First
SZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA SYSTEMY ROZMYTE Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii Biomedycznej Laboratorium
Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski
Wprowadzenie do multimedialnych baz danych Opracował: dr inż. Piotr Suchomski Wprowadzenie bazy danych Multimedialne bazy danych to takie bazy danych, w których danymi mogą być tekst, zdjęcia, grafika,
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki
Programowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Priorytetyzacja przypadków testowych za pomocą macierzy
Priorytetyzacja przypadków testowych za pomocą macierzy W niniejszym artykule przedstawiony został problem przyporządkowania priorytetów do przypadków testowych przed rozpoczęciem testów oprogramowania.
Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.
Wstęp do sieci neuronowych, wykład 7. M. Czoków, J. Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika w Toruniu 212-11-28 Projekt pn. Wzmocnienie potencjału dydaktycznego UMK w Toruniu
Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur
Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur Maciej Piasecki, Paweł Kędzia Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Plan prezentacji