ZASTOSOWANIE SIECI SEMANTYCZNEJ DO DISAMBIGUACJI POJĘĆ W JĘZYKU POLSKIM

Wielkość: px
Rozpocząć pokaz od strony:

Download "ZASTOSOWANIE SIECI SEMANTYCZNEJ DO DISAMBIGUACJI POJĘĆ W JĘZYKU POLSKIM"

Transkrypt

1 ZASTOSOWANIE SIECI SEMANTYCZNEJ DO DISAMBIGUACJI POJĘĆ W JĘZYKU POLSKIM Dariusz Ceglarek Wprowadzenie Zjawisko polisemii (wieloznaczności pojęciowej) dotyczy kaŝdego języka naturalnego i oznacza, Ŝe jednemu słowu (lub związkowi frazeologicznemu) odpowiada wiele znaczeń, czyli Ŝe róŝne pojęcia nazywane są tak samo. Disambiguacja pojęciowa (ujednoznacznianie pojęć), czyli wybór właściwego znaczenia dla pojęcia, które posiada wiele znaczeń i pojawiło się w dłuŝszej sentencji, nie sprawia człowiekowi większej trudności w jego codziennym Ŝyciu. MoŜe poza występującymi w codziennym Ŝyciu Ŝartami, które zazwyczaj opierają się na parainformacji powstającej z wieloznaczności pojęć: MoŜesz na mnie liczyć, powiedział informatykowi jego komputer". Natomiast podczas przetwarzania tekstu przez program operujący na tekście, wieloznaczność stanowi znaczący problem. KaŜdemu pojęciu odpowiada w języku naturalnym zapis w postaci wyrazu, kolokacji 1 lub związku frazeologicznego (np. puścić farbę, jabłko Adama ) będących jego odzwierciedleniem. Zapis pojęcia w języku naturalnym będziemy dalej nazywać konceptem. Celem disambiguacji jest stworzenie przetwarzalnej przez systemy informacyjne reprezentacji dokumentu, tak aby w analizowanym dokumencie na podstawie pochodzącej z niego treści - wyodrębnić jednostki odpowiadające znaczeniu informacyjnemu konceptów z tekstu. 1 Kolokacja to związek semantyczny, którego znaczenie wynika z połączenia znaczeń kilku słów wchodzących w jego skład (np. wirus komputerowy ).

2 W niniejszym artykule pokazana jest nowa metoda automatycznego usuwania wieloznaczności w tekście, czyli automatycznego wyznaczania właściwego znaczenia pojęć. Proponowana metoda wykorzystuje zaleŝności semantyczne pomiędzy pojęciami zapamiętane w zbudowanej uprzednio dla języka polskiego sieci semantycznej. Działanie metody opiera się na wskazaniu najbardziej prawdopodobnego znaczenia pojęcia wieloznacznego biorąc pod uwagę kontekst uŝycia owego pojęcia w badanym dokumencie. Pozbawianie pojęć wieloznaczności Przeszkodami w usuwaniu wieloznaczności są najczęściej: brak wystarczającego kontekstu, metafory tworzące wieloznaczne askryptory pojęć na przykład kraj kwitnącej wiśni, zjawisko homonimii (tzw. wieloznaczność właściwa, której przykładem jest pojęcie zamek : zamek błyskawiczny, zamek królewski, zamek w drzwiach, zamek hokejowy), czy powszechnie występujące zjawisko metonimii 2. Przykładami metonimii są: metonimia przyczyny (np. czytam Słowackiego zamiast czytam utwory Słowackiego), metonimia skutku (np. pot zamiast wysiłek), metonimia miejsca (np. Biały Dom zamiast prezydent USA), metonimia narzędzia, metonimia zawartości, metonimia oznaki czy metonimia konkretu. Celem disambiguacji jest lepsze odwzorowanie konceptów (słów, kolokacji) z dokumentów we właściwe pojęcia, a dzięki temu lepsze dopasowanie informacji wywnioskowanej z dokumentów do potrzeb informacyjnych uŝytkownika systemu wyszukiwania informacji. 2 Metonimia (zamiennia) to w literaturze środek stylistyczny mająca na celu zastąpienie nazwy jakiegoś przedmiotu lub zjawiska nazwą innego, pozostającego z nim w uchwytnej zaleŝności. Jednak z figury tej korzysta się takŝe często w codziennym języku.

3 Zadaniem disambiguacji jest dostarczenie właściwych znaczeń pojęć, równieŝ w zaleŝności od kontekstu, co słuŝy wzrostowi precyzji odpowiedzi systemu wyszukiwania informacji. Disambiguacja pojęć przyczynia się do polepszenia funkcjonowania metod w kluczowych zadaniach systemów wyszukiwawczych: wyszukiwaniu informacji (dzięki mechanizmowi query expansion z wykorzystaniem deskryptorów i skryptorów konceptów, co pokazana w pracy [KrCr1992]), filtrowaniu informacji, klasyfikacji i kategoryzacji [HoSS2003], nawigowaniu oraz przy rozbudowie sieci semantycznych czy ontologii [HoSS2003], [KhMH2004] czy [Łabu2004]. Pierwsze metody, które zastosowano do disambiguacji pojęć miały charakter statystyczny lub lingwistyczny. Metody statystyczne posługiwały się standardowymi strukturami reprezentacji wiedzy: słowo, kolokacje oraz współwystąpienie słów. Najbardziej popularne metody z tej grupy, to analiza współwystępowania pojęć [Sand1997], analiza definicji pojęć poprzez ustalenie słów współwystępujących w pewnym otoczeniu pojęcia [Lesk1986], klastering pojęciowy cech [HePe1996], metody wykorzystujące słowniki wielojęzyczne [LeTV1993]. Metody lingwistyczne, w tym morfologiczne to m. in. analiza morfologiczna pojęć wprowadzona przez Zernika (zobacz [Sand2000]) czy metoda grafów konceptualnych [Sowa1991]. Warto zaznaczyć, Ŝe metody lingwistyczne mają charakter regułowy i charakteryzują się duŝą złoŝonością obliczeniową. W pracy [Sand1997] stwierdzono, Ŝe wyłącznie metody analizy lingwistycznej są w stanie pokonać poziom 90% skuteczności disambiguacji. JednakŜe wyniki tej pracy nie uwzględniały rozbudowy struktur reprezentacji wiedzy, takich jak sieć semantyczna WordNet 3 o 3 WordNet ((www.wordnet.princeton,edu) jest siecią semantyczną rozwijaną przez Cognitive Science Laboratory na Uniwersytecie Princeton. 3

4 nowe związki semantyczne i moŝliwości, choćby rejestrowanie polisemii, organizowanie znaczeń w grupy tematyczne. W ostatnich latach wyjątkowo skutecznymi metodami usuwania wieloznaczności są metody oparte na bardziej złoŝonej reprezentacji wiedzy, w której wykorzystuje się takie struktury reprezentacji wiedzy jak tezaurusy, sieci semantyczne czy ontologie. Wyjątkowo dobrą skutecznością disambiguacji mogą poszczycić się reguły przetwarzania relacji dla pojęć z sieci semantycznej [KhMH2004], [Navi2004], klastering metodą COSA [HoSS2003] czy klastering kontekstu pojęć [PuPe2004]. W pracy [GChY1992] stwierdzono, Ŝe człowiek podczas disambiguacji dokonuje w 96,8% właściwego wyboru znaczenia pojęć polisemicznych. W pracy [Sand2000] znalazł się szereg wniosków waŝnych dla systemów wyszukiwawczych. Zapytania składające się z jednego lub dwóch słów prowadzą do duŝej niejednoznaczności pojęć i małej precyzji odpowiedzi. DłuŜsze zapytania wprowadzają kontekst redukujący gwałtownie wieloznaczność i przyczyniają się do wzrostu precyzji odpowiedzi systemu. Z kolei w pracy [Gonz1998] pokazano, Ŝe system dokonujący disambiguacji pojęć z 40% dokładnością wyboru właściwego znaczenia obniŝa precyzję odpowiedzi systemu wyszukiwawczego o 3,5%. Natomiast system o 70% dokładności wyboru znaczenia pojęć przyczynia się do 2,2% wzrostu precyzji odpowiedzi systemu wyszukiwawczego. Ponadto zastosowanie kombinacji najlepszych metod: uwzględnienie kolokacji, współwystąpień i częstości występowania róŝnych znaczeń dla pojęć dało 62,1% dokładność disambiguacji. Kolejnym waŝkim stwierdzeniem w tej pracy jest, Ŝe około 55% poziom dokładności wyboru znaczenia dla pojęcia wieloznacznego jest neutralny dla precyzji odpowiedzi systemu wyszukiwawczego. Zbyt wąski kontekst

5 znaczenia określany poprzez okienka kontekstowe (czyli tekst otaczający rozpatrywane pojęcie) w niektórych przypadkach powodował, Ŝe system nie był w stanie ustalić kontekstu dla pojęcia i w związku z tym wybrać jakiekolwiek jego znaczenie. Krovetz i Croft w pracy [KrCr1992] pokazali, Ŝe prawdopodobieństwo wystąpienia niejednoznaczności pojęciowej rośnie wtedy, gdy dokument jest nierelewantny do zapytania i gdy liczba słów występujących zarówno w dokumencie i zapytaniu jest mała. Jeśli w zapytaniu pojawiają się pojęcia wieloznaczne, to rośnie prawdopodobieństwo otrzymania nierelewantnych dokumentów w odpowiedzi na zapytanie. Metody reprezentacji wiedzy stosowane w systemach wyszukiwawczych Podstawowe zagadnienia systemów wyszukiwawczych (ang. information retrieval systems) to przede wszystkim reprezentacja wiedzy i sposób przechowywania dokumentów, czyli sposób, w jaki informacje zrozumiałe dla człowieka kodowane są w systemie komputerowym oraz jak są zapisywane, gromadzone i odczytywane. Istotne aspekty tego zagadnienia, to format zapisu, struktura plików oraz najistotniejsza w tym artykule logiczna reprezentacja dokumentów odzwierciedlenie informacji zawartej w dokumentach w sposób umoŝliwiający jej automatyczne przetwarzanie [BaRi1999]. Metody reprezentacji wiedzy są sposobem w jakim wiedza o świecie jest przedstawiana wraz z metodami jej przetwarzania i wnioskowania (inferencji). Stosowana metodą reprezentacji wiedzy jest więc jakiś ściśle określony język opisu wiedzy zaopatrzony w mechanizm przetwarzania. Kluczowym zadaniem systemów wyszukiwawczych jest wyszukiwanie rozumiane jako wybór ze zbioru dokumentów tych, które

6 są dopasowane do określonego wzorca. Wzorzec ten jest zazwyczaj zapytaniem uŝytkownika systemu, który formułuje swoje potrzeby informacyjne w postaci słów kluczowych. Wybór dokumentów pasujących do zapytania jest dokonywany automatycznie przez system wyszukiwawczy za pomocą mechanizmów, które porównują zawartość dokumentu z zapytaniem uŝytkownika i są w stanie ocenić ich dopasowanie (kryterium wyboru). Klasyczne metody stosowane w systemach wyszukiwawczych opierają się na prostej strukturze reprezentacji wiedzy, gdzie dokumenty reprezentowane są przez zbiory słów kluczowych (tzw. bag of words). Najbardziej znanymi modelami zapytań kierowanych do systemu wyszukiwawczego z wykorzystaniem tej reprezentacji wiedzy są model logiczny (ang. boolean model), model wektorowy (ang. vector space model), model probabilistyczny, model LSI (ang. latent semantic indexing) czy model sieci neuronowej [BaRi1999]. Bardziej złoŝone struktury reprezentacji wiedzy to: słownik definicyjny (glosariusz), słownik dziedzinowy, taksonomia, tezaurus, sieć semantyczna i ontologia. Struktury te wprowadzają róŝne relacje leksykalne pomiędzy przechowywanymi w nich konceptami. Tezaurus to zbiór semantycznie i hierarchicznie powiązanych konceptów wykorzystywanych w określonej dziedzinie wiedzy. Koncepty zawarte w tezaurusach uporządkowane są przez relacje synonimii oraz hiperonimii i hiponimii. Systemy wyszukiwawcze oparte o tezaurusy wykorzystują je do indeksowania obiektów. Koncepty są indeksowane deskryptorami (pozostałe pojęcia będące w relacji hiperonimii - hiponimii to askryptory). Korzyści wynikające ze stosowania tezaurusów w systemach wyszukiwawczych zostały dobrze opisane w [BaRi1999]. Najlepszą strukturą dla odzwierciedlania powiązań semantycznych między konceptami jest sieć semantyczna. Jest ona grafem skierowanym

7 posiadającym pojęcia jako wierzchołki oraz krawędzie dla reprezentowania relacji leksykalnych między konceptami. Sieć semantyczna posiada następujące relacje leksykalne: hiperonimy (pojazd jest-nadrzędny-dla samochód) hiponimy (samochód jest-podrzędny-dla pojazd) meronimy (pokój ma-część ściana) holonimy (ściana jest-częścią pokój) konotacje (róŝa ma-cechę zapach) atrybutów (suchy jest-wartością wilgotność) synonimy (piękny jest-synonimem śliczny) Krawędzie w sieci mogą posiadać wagi ilustrujące ich waŝność. MoŜna za pomocą relacji określać proste atrybuty konceptów. Wnioskowanie z wykorzystaniem sieci semantycznej odbywa się po krawędziach, jest to po prostu przeszukiwanie grafu. Rozpoczynając z jednego punktu (węzła grafu) i poruszając się po krawędziach, wychodzących z danego punktu, docieramy do kolejnych węzłów, co odpowiada wnioskowaniu o właściwościach pojęć. Sieć semantyczna gromadzi całą dostępną wiedzę o semantyce pojęć. Stąd moŝliwość jej wykorzystania w systemach wyszukiwawczych. Informacje z sieci mogą być zastosowane do ustalania podobieństwa pomiędzy pojęciami w zadaniach klasyfikacji czy kategoryzacji dokumentów. Ponadto sieć semantyczna moŝe słuŝyć do ograniczenia liczby słów kluczowych opisujących dokument na przykład poprzez sprowadzenie grup synonimów do podanego konceptu jako ich reprezentanta (deskryptora). Najbardziej popularną siecią semantyczną, która jest powszechnie stosowana w systemach wyszukiwawczych dla języka angielskiego jest sieć WordNet, która składa się z ponad słów i kolokacji

8 zorganizowanych w tzw. synsety. KaŜdy synset zawiera słowa które są wzajemnie synonimami, a odnośniki pomiędzy synsetami reprezentują relacje hiperonimii i hiponimii tworząc w ten sposób tezaurus, w którym występuje około słów polisemicznych. W chwili obecnej relacje występujące w WordNecie, to relacje hiperonimii, hiponimii, synonimii, metonimii, homonimii i antonimii. Obejmowanie tych relacji czyni z WordNetu pełnowartościową sieć semantyczną dla języka angielskiego. Wobec braku powszechnie dostępnej analogicznej struktury dla języka polskiego autor posłuŝył się zbudowaną w ramach projektu SeNeCa 4 w Katedrze Informatyki Ekonomicznej Akademii Ekonomicznej w Poznaniu strukturą, którą moŝna określić jako sieć semantyczna dla języka polskiego. Zawiera ona słów i kolokacji i zawiera odmian słów, w tym pojęć jest wieloznaczne. Pojęcia w sieci połączone są ze sobą, relacjami hiperonimii i hiponimii, synonimii, meronimii, homonimii oraz konotacjami. Eksperyment W eksperymencie postawiono zadanie wyznaczenia - na podstawie posiadanej sieci semantycznej - właściwego znaczenia pojęć (konceptów) w zbiorze dokumentów poprzez analizę bliskości pojęciowej pomiędzy konceptem wieloznacznym a konceptami, które wystąpiły razem z nim w dokumencie. W ramach eksperymentu sprawdzono dwie nowe metody disambiguacji pojęć. W pierwszej metodzie wyznacza się znaczenie kaŝdego konceptu wieloznacznego wykorzystując powiązania semantyczne (w sieci semantycznej) pomiędzy nim a wszystkimi konceptami, które pojawiły się w badanym dokumencie. Wpływ na wybór właściwego znaczenia 4 Zadaniem projektu SeNeCa (Semantic Network and Categorization, jest automatyzacja rozbudowy sieci semantycznej dla języka polskiego.

9 danego konceptu wieloznacznego mają te pojęcia z sieci semantycznej, które wystąpiły w dokumencie i ich odległość od analizowanego konceptu jest nie większa od zadanego parametru ϕ oznaczającego głębokość przeszukiwania sieci. Przez odległość pomiędzy konceptami a i b w sieci semantycznej naleŝy rozumieć liczbę krawędzi pomiędzy konceptami, jakie naleŝy pokonać aby dotrzeć od konceptu a do konceptu b. Druga metoda wyznacza znaczenie kaŝdego pojęcia wieloznacznego tworząc tzw. okienko wokół pojęcia w tekście o zadanym promieniu tj. do ustalenia właściwego znaczenia pojęcia brane pod uwagę są wyłącznie pojęcia występujące w dokumencie w bezpośrednim sąsiedztwie konceptu wieloznacznego, gdzie promień sąsiedztwa jest ustalanym parametrem. Przykładowo jeśli promień okienka wynosi 10, oznacza to, Ŝe znaczenie pojęcia wieloznacznego określane jest na podstawie występujących w dokumencie dziesięciu słów przed i dziesięciu słów występujących za badanym pojęciem. W metodzie tej stosowany jest równieŝ parametr ϕ - głębokość przeszukiwania sieci. Obie proponowane tu metody dokonując disambiguacji wykonują uprzednio następujące kroki: wyodrębnienie słów z dokumentu, zastąpienie słów konceptami (wykrycie kolokacji lub związków frazeologicznych) i na końcu lematyzowanie konceptów, czyli sprowadzenie form fleksyjnych do wspólnej formy. Ostatnim krokiem jest odnalezienie w dokumencie pojęć posiadających więcej niŝ jedno znaczenie i ustalenie dlań właściwego znaczenia. ZałóŜmy, Ŝe posiadamy (przykładowy) dokument tekstowy o następującej treści: Na mitingu w Poznaniu Adam Nowak, będący zawodnikiem Olimpii Poznań rzucił dyskiem 60,32 metra. Innym wartościowym rezultatem tych zawodów lekkoatletycznych było 59,50 m w rzucie młotem, osiągnięte przez Sylwię Kowalską.. Na rysunku 2

10 pokazano jak wygląda oznakowanie sieci semantycznej dla takiego dokumentu. Wypełnione okręgi na rysunku oznaczają, Ŝe koncept wystąpił w dokumencie. Tak więc wybierając dla wieloznacznego pojęcia dysk jego właściwe znaczenie (z moŝliwych znaczeń: chrząstka, krąŝek, nośnik pamięci, kształt ) o właściwym wyborze zadecyduje występowanie w sieci takich pojęć jak zawodnik, mityng, młot w otoczeniu pojęcia krąŝek ). Rysunek 1: Automatyczne odszukanie kontekstu w dokumencie. Źródło: opracowanie własne

11 Tabela 1: Algorytm disambiguacji pojęć z wykorzystaniem relacji leksykalnych przechowywanych w sieci semantycznej foreach t P /* dla kaŝdego nierozstrzygniętego pojęcia */ { bestsense := maxvalue := 0 foreach sense S of t { M(S) := 0; foreach concept x where r(s, x) > 0 M(S i ) := M(S i ) + SSR(x, 1) } foreach sense S i of t if (M(S i ) > maxvalue} { bestsense := S i maxvalue := M(S i ) } return bestsense } function SSR(concept x, level δ) { foreach concept y where relation r(x, y) > 0 { M(x) := M(x) + f(y) w(r) if (δ < ϕ ) M(x) = M(x) + SSR(y, δ +1) } } return M(x) } gdzie: r(x,y) relacja semantyczna pomiędzy konceptami x i y f(x) ilość wystąpień konceptu x przechowywana w sieci w(r) waga znaczenia relacji r (relacje hiperonimie, hiponimii, synonimii i inne mają róŝne wagi) M(S i ) wartość współczynnika wskazującego na i-te znaczenie konceptu S. ϕ - jest parametrem głębokości przeszukiwania otoczenia konceptów w sieci semantycznej. W ramach eksperymentu sprawdzono 114 dokumentów tekstowych pochodzących z 2006 roku. Dokumenty pochodzą z portalu dziennika Rzeczpospolita (www.rzeczpospolita.pl) i zawierają 2316 słów wieloznacznych. Wyniki disambiguacji pojęć zawiera tabela 2. Dla analizy lokalnej przyjęto głębokość przeszukania sieci semantycznej ϕ = 4 oraz szerokość okienka wokół pojęć wieloznacznych wynoszącą 12

12 słów. Wartości parametru ϕ oraz szerokości okienka zostały wyznaczone eksperymentalnie, przyczyniając się do stosunkowo wysokiej jakości disambiguacji. Tabela 2: Wyniki disambiguacji pojęć metodą analizy globalnej i metodą analizy lokalnej. Źródło: obliczenia własne Liczba dokumentów Liczba pojęć wieloznacznych Metoda globalna Liczba poprawnych rozpoznań polisemii Skutecz ność metody w % Metoda lokalna Liczba poprawnych rozpoznań polisemii Skutecz ność metody w % Wielkość artykułu (liczba słów) , , , , , , razem , , Wnioski Uzyskane wyniki (umieszczone w tabeli 1) obu zaproponowanych metod są obiecujące i są porównywalne do innych metod disambiguacji pojęć z wykorzystaniem sieci semantycznej [KhMH2004], [Navi2004], czy klasteringu kontekstu pojęć [PuPe2004]. Warte podkreślenia jest, Ŝe zastosowano je z powodzeniem dla bogatego w fleksję języka jakim jest język polski. Zaprezentowana tu metoda globalna, badająca znaczenie pojęcia na podstawie kontekstu całego dokumentu z wykorzystaniem sieci semantycznej ma skuteczność disambiguacji około 76%, z tym, Ŝe skuteczność ta maleje wraz ze wzrostem rozmiaru dokumentów. Metoda lokalna okienka tekstowego korzystająca z sieci semantycznej daje najlepsze rezultaty. Skuteczność disambiguacji pojęć tą metodą, która oscyluje wokół 83%, jest wyjątkowo wysoka i stabilna przy wzroście wielkości dokumentu tekstowego.

13 Prawdopodobnie rozbudowa sieci semantycznej o wieloznaczności skatalogowane na przykład w ramach projektu pl.wikipedia.org oraz uwzględnienie w sieci większej liczby powiązań pozwoliłoby otrzymać precyzję disambiguacji w okolicach 90%. Bibliografia [AbCe2002] Abramowicz W., Ceglarek D.: Zastosowanie metod pełnotekstowej analizy skupień do kategoryzacji dokumentów w języku polskim, [w:] Konferencja SWO 2002, Akademia Ekonomiczna w Katowicach [BaRi1999] Baeza-Yates R., Ribeiro-Neto B.: Modern Information Retrieval, ACM Press, Addison-Wesley Longman Publishing Co., New York 1999 [GChY1992] Gale W., Church K., Yarowsky D.: Estimating upper and lower bounds on the Performance of word-sense Disambiguation programs, [w:] Proceeding of 30 th Annual Meeting of the Association for Computational Linguistics, 1992 [Gonz1998] Gonzalo J. i inni: Indexing with WordNet Synsets can improve Text Retrieval, 1998 [HePe1996] Hearst M.A., Pedersen J.O. : Reexamining the cluster hypothesis: Scatter/Gather on retrieval results. [w:] 19th Annual International Conference on Research and Development in Information Retrieval, 1996 [HoSS2003] Hotho A., Staab S., Stumme: Ontologies improves Text Document Clustering, 2003 [Jone2002] Jones Ch.B.: Spatial Information Retrieval and Geographical Ontologies. An overview of the SPIRIT Project, SIGIR 2002 [HoSS2003a] Hotho A., Staab S., Stumme: Wordnet improves Text Document Clustering, The major Technical Report 425, University of Karlsruhe, Institute AIFB 2003 [KhMH2004] Khan L., McLeod D., Hovy E.: Retrieval effectiveness of an ontology-based model for information selection, 2004 [KrCr1992] Krovetz R, Croft WB.: Lexical Ambiguity and Information Retrieval, 1992 [LeTV1993] Leacock, C., Towell, G., Voorhes E.: Towards Building Contextual Representations of Word Senses Using

14 Statistical Models, [w:] SIGLEX workshop: Acquisition of Lexical Knowledge from Text, 1993 [Łabu2004] Łabuzek M.: Wykorzystanie metamodelowania do specyfikacji ontologii znaczenia opisów rzeczywistości, projekt badawczy KBN, Warszawa 2004 [Navi2004] Navigli R.: Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites, 2004 [PuPe2004] Purandare A., Pedersen T.: Word sense discrimination by clustering contexts in vector and similarity spaces, 2004 [PuPK2005] Purandare A., Pedersen T., Kulkarni A.: Name Discrimination by Clustering Similar Contexts, 2005 [Sand1997] Sanderson M.: Word Sense Disambiguation and Information Retrieval, 1997 [Sand2000] Sanderson M.: Retrieving with Good Sense, 2000 [Sowa1991] Sowa J. F.: Principles of Semantic Networks: Explorations in the Representation of Knowledge, Morgan Kaufmann Publishers, San Mateo 1991 [StOT2003] Stokoe Ch., Oakes M.P., Tait J.: Word Sense Disambiguation in Information Retrieval Revisited, SIGIR 2003 dr Dariusz Ceglarek Katedra Informatyki Ekonomicznej Akademia Ekonomiczna ul. Powstańców Wielkopolskich Poznań - Polska Numer telefonu (fax) +48/61/

Wykrywanie wiedzy w dużych zbiorach danych: przykład personalizacji inżynierii ontologicznej

Wykrywanie wiedzy w dużych zbiorach danych: przykład personalizacji inżynierii ontologicznej Cezary Chudzian, Janusz Granat, Edward Klimasara, Jarosław Sobieszek, Andrzej P. Wierzbicki W artykule, po przedyskutowaniu szeroko rozumianego pojęcia inżynierii wiedzy, a w szczególności inżynierii ontologicznej,

Bardziej szczegółowo

Reprezentacja dokumentów tekstowych w modelu przestrzeni wektorowej

Reprezentacja dokumentów tekstowych w modelu przestrzeni wektorowej POLITECHNIKA WARSZAWSKA WYDZIAŁ ELEKTRONIKI I TECHNIK INFORMACYJNYCH INSTYTUT INFORMATYKI Rok akademicki 2004/2005 PRACA DYPLOMOWA MAGISTERSKA Michał Kosmulski Reprezentacja dokumentów tekstowych w modelu

Bardziej szczegółowo

Mapowanie ontologii na przykładzie CYC i Słownika Semantycznego Języka Polskiego

Mapowanie ontologii na przykładzie CYC i Słownika Semantycznego Języka Polskiego Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Praca magisterska Mapowanie ontologii na przykładzie CYC i Słownika Semantycznego Języka Polskiego Aleksander Pohl Kierunek: Informatyka Nr

Bardziej szczegółowo

Metoda oceny uŝyteczności serwisów internetowych

Metoda oceny uŝyteczności serwisów internetowych Metoda oceny uŝyteczności serwisów internetowych Rozprawa doktorska mgr inŝ. Luiza Fabisiak promotor: dr hab. BoŜena Śmiałkowska Szczecin 2012 1 Rozdział I... 4 Wstęp... 4 1.1 Charakterystyka problemu...

Bardziej szczegółowo

Modelowanie witryn internetowych uczelni wyższych o profilu ekonomicznym

Modelowanie witryn internetowych uczelni wyższych o profilu ekonomicznym UNIWERSYTET WARSZAWSKI WYDZIAŁ ZARZĄDZANIA mgr Marek Rafał Zborowski Praca doktorska p.t. Modelowanie witryn internetowych uczelni wyższych o profilu ekonomicznym Promotor: prof. zw. dr hab. Witold Chmielarz

Bardziej szczegółowo

Semantic Web technologie, zastosowania, rozwój

Semantic Web technologie, zastosowania, rozwój XV Konferencja PLOUG Kościelisko Październik 2009 Semantic Web technologie, zastosowania, rozwój Jarosław Bąk, Czesław Jędrzejek Politechnika Poznańska jaroslaw.bak@put.poznan.pl, czeslaw.jedrzejek@put.poznan.pl

Bardziej szczegółowo

Studium przypadku jako metoda badawcza pracy doktorskiej

Studium przypadku jako metoda badawcza pracy doktorskiej Studium przypadku jako metoda badawcza pracy doktorskiej Piotr Zaborek Niniejszy artykuł ma za zadanie przybliżyć czytelnikowi specyfikę wykorzystania studium przypadku jako metody przygotowania, prowadzenia

Bardziej szczegółowo

Ryszard Tadeusiewicz, Akademia Górniczo-Hutnicza, Laboratorium Biocybernetyki

Ryszard Tadeusiewicz, Akademia Górniczo-Hutnicza, Laboratorium Biocybernetyki DATA MINING JAKO SZANSA NA RELATYWNIE TANIE DOKONYWANIE ODKRYĆ NAUKOWYCH POPRZEZ PRZEKOPYWANIE POZORNIE CAŁKOWICIE WYEKSPLOATOWANYCH DANYCH EMPIRYCZNYCH Ryszard Tadeusiewicz, Akademia Górniczo-Hutnicza,

Bardziej szczegółowo

Wydział Fizyki. Praca magisterska. Optymalizacja kampanii linków płatnych w systemie AdWords jako efektywne narzędzie w reklamie kontekstowej

Wydział Fizyki. Praca magisterska. Optymalizacja kampanii linków płatnych w systemie AdWords jako efektywne narzędzie w reklamie kontekstowej Uniwersytet im Adama Mickiewicza w Poznaniu Wydział Fizyki Praca magisterska Optymalizacja kampanii linków płatnych w systemie AdWords jako efektywne narzędzie w reklamie kontekstowej Paweł Nijakowski

Bardziej szczegółowo

PRACA DYPLOMOWA MAGISTERSKA

PRACA DYPLOMOWA MAGISTERSKA AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA WYDZIAŁ INŻYNIERII METALI I INFORMATYKI PRZEMYSŁOWEJ PRACA DYPLOMOWA MAGISTERSKA Narzędzie do optymalizacji i pozycjonowania stron internetowych dla wyszukiwarki

Bardziej szczegółowo

Podejście procesowe a technologia informatyczna według metodologii ARIS i ADONIS

Podejście procesowe a technologia informatyczna według metodologii ARIS i ADONIS Podejście procesowe a technologia informatyczna według metodologii ARIS i ADONIS JOLANTA RUTKOWSKA Wydział Zarządzania, Uniwersytet Warszawski W artykule dzięki wyjaśnieniu terminu procesu biznesowego,

Bardziej szczegółowo

Edukacyjna wartość dodana, czyli jak wykorzystywać wyniki. egzaminów zewnętrznych do oceny efektywności nauczania

Edukacyjna wartość dodana, czyli jak wykorzystywać wyniki. egzaminów zewnętrznych do oceny efektywności nauczania dr Roman Dolata Edukacyjna wartość dodana, czyli jak wykorzystywać wyniki egzaminów zewnętrznych do oceny efektywności nauczania Wprowadzony w 2002 roku system egzaminów zewnętrznych dostarcza obiektywnych

Bardziej szczegółowo

TECHNOLOGIE WIEDZY W ZARZĄDZANIU PUBLICZNYM

TECHNOLOGIE WIEDZY W ZARZĄDZANIU PUBLICZNYM TECHNOLOGIE WIEDZY W ZARZĄDZANIU PUBLICZNYM Studia Ekonomiczne ZESZYTY NAUKOWE WYDZIAŁOWE UNIWERSYTETU EKONOMICZNEGO W KATOWICACH TECHNOLOGIE WIEDZY W ZARZĄDZANIU PUBLICZNYM Redaktor naukowy Jerzy Gołuchowski

Bardziej szczegółowo

ZASADY EWALUACJI PROGRAMÓW KSZTAŁCENIA ZAWODOWEGO Principles of professional training evaluation

ZASADY EWALUACJI PROGRAMÓW KSZTAŁCENIA ZAWODOWEGO Principles of professional training evaluation Wojciech Oleszak Wyższa Szkoła Humanistyczna TWP w Szczecinie ZASADY EWALUACJI PROGRAMÓW KSZTAŁCENIA ZAWODOWEGO Principles of professional training evaluation Abstract The paper deals with the evaluation

Bardziej szczegółowo

Tytuł: Intuicja intelektualna. Fenomen rozumienia. Autor: Andrzej Chmielecki / filach@ug.gda.pl

Tytuł: Intuicja intelektualna. Fenomen rozumienia. Autor: Andrzej Chmielecki / filach@ug.gda.pl 1 Tytuł: Intuicja intelektualna. Fenomen rozumienia Autor: Andrzej Chmielecki / filach@ug.gda.pl Źródło: http://www.kognitywistyka.net / mjkasperski@kognitywistyka.net Data publikacji: 15 XI 2004 W nawiązaniu

Bardziej szczegółowo

POMIAR JAKOŚCI ŻYCIA. UWAGI NA MARGINESIE PEWNEGO RANKINGU

POMIAR JAKOŚCI ŻYCIA. UWAGI NA MARGINESIE PEWNEGO RANKINGU Zeszyty Naukowe Wydziału Informatycznych Technik Zarządzania Wyższej Szkoły Informatyki Stosowanej i Zarządzania Współczesne Problemy Zarządzania Nr 1/2008 POMIAR JAKOŚCI ŻYCIA. UWAGI NA MARGINESIE PEWNEGO

Bardziej szczegółowo

tom2 Multimedia, technologie internetowe, bazy danych i sieci komputerowe

tom2 Multimedia, technologie internetowe, bazy danych i sieci komputerowe ISBN 978-83-921270-5-5 z b i ó r w y k ł a d ó w w s z e c h n i c y p o p o ł u d n i o w e j Warszawska Wyższa Szkoła Informatyki ul. Lewartowskiego 17 00-169 Warszawa www.wwsi.edu.pl tom2 Multimedia,

Bardziej szczegółowo

Joanna Milewska INTERAKTYWNA WIZUALIZACJA METADANYCH HYDROMETEOROLOGICZNYCH

Joanna Milewska INTERAKTYWNA WIZUALIZACJA METADANYCH HYDROMETEOROLOGICZNYCH Joanna Milewska INTERAKTYWNA WIZUALIZACJA METADANYCH HYDROMETEOROLOGICZNYCH praca magisterska studia dzienne kierunek studiów: informatyka specjalność: informatyka stosowana w inŝynierii środowiska promotor:

Bardziej szczegółowo

6 badania w projektowaniu projekt narzędzia aplikacji do przeprowadzania badań użyteczności stron www

6 badania w projektowaniu projekt narzędzia aplikacji do przeprowadzania badań użyteczności stron www 6 badania w projektowaniu projekt narzędzia aplikacji do przeprowadzania badań użyteczności stron www 05 06 Spis treści: 07. Wstęp 09 Cele projektu 09. Stan wiedzy Proces projektowania stron www Modele

Bardziej szczegółowo

PRACA DYPLOMOWA MAGISTERSKA. Analiza danych z zastosowaniem teorii zbiorów przybliżonych.

PRACA DYPLOMOWA MAGISTERSKA. Analiza danych z zastosowaniem teorii zbiorów przybliżonych. POLITECHNIKA WARSZAWSKA WYDZIAŁ ELEKTRONIKI I TECHNIK INFORMACYJNYCH INSTYTUT INFORMATYKI Rok akademicki 2003/2004 PRACA DYPLOMOWA MAGISTERSKA Andrzej Dominik Analiza danych z zastosowaniem teorii zbiorów

Bardziej szczegółowo

STUDIA I MATERIAŁY POLSKIEGO STOWARZYSZENIA ZARZĄDZANIA WIEDZĄ

STUDIA I MATERIAŁY POLSKIEGO STOWARZYSZENIA ZARZĄDZANIA WIEDZĄ STUDIA I MATERIAŁY POLSKIEGO STOWARZYSZENIA ZARZĄDZANIA WIEDZĄ Redaktor tomu: dr hab. inŝ. Waldemar Bojar prof. UTP Komitet Redakcyjny: prof. dr hab. Ryszard Budziński prof. dr hab. inŝ. Ludosław Drelichowski

Bardziej szczegółowo

Wyniki badań PISA. Przygotowała: Ewa Norkowska. DCDNiIP Wrocław. Źródło: Raport z badania PISA 2006

Wyniki badań PISA. Przygotowała: Ewa Norkowska. DCDNiIP Wrocław. Źródło: Raport z badania PISA 2006 Wyniki badań PISA Przygotowała: Ewa Norkowska DCDNiIP Wrocław Źródło: Raport z badania PISA 2006 Międzynarodowy Program Oceny Umiejętności Uczniów (Programme for International Student Assessement - PISA

Bardziej szczegółowo

Wybrane metody oceny użyteczności stron i aplikacji internetowych

Wybrane metody oceny użyteczności stron i aplikacji internetowych KRAINA BIZNESU Otoczenie przyjazne rozwojowi biznesu UX & Business Consulting Paweł Kopyść Wybrane metody oceny użyteczności stron i aplikacji internetowych Biała Księga Kraków 2014 Kraina Biznesu - UX

Bardziej szczegółowo

O dwóch systemach uwagi wzrokowej

O dwóch systemach uwagi wzrokowej PRZEGLĄD PSYCHOLOGICZNY, 2008, TOM 51, Nr 2, 113-133 O dwóch systemach uwagi wzrokowej Piotr Styrkowiec*1 Instytut Psychologii Uniwersytetu Wrocławskiego Edward Nęcka Instytut Psychologii Uniwersytetu

Bardziej szczegółowo

Materiały do samodzielnego studiowania dla przedmiotu Technologie Informacyjne Studia I stopnia Wydział Ekonomiczny

Materiały do samodzielnego studiowania dla przedmiotu Technologie Informacyjne Studia I stopnia Wydział Ekonomiczny Materiały do samodzielnego studiowania dla przedmiotu Technologie Informacyjne Studia I stopnia Wydział Ekonomiczny 1. Nazwa przedmiotu: Technologie Informacyjne 2. Temat zajęć: Planowanie i zarządzanie

Bardziej szczegółowo

Numer publikacji EA-04/16 Wytyczne EA dotyczące wyrażania niepewności w badaniach ilościowych CEL Celem niniejszego dokumentu jest ujednolicenie sposobu postępowania przy wyznaczaniu niepewności pomiarów

Bardziej szczegółowo

Politechnika Opolska

Politechnika Opolska Politechnika Opolska Wydział Elektrotechniki, Automatyki i Informatyki Instytut Automatyki i Informatyki PRACA DYPLOMOWA inżynierska Rozproszona biblioteka elektroniczna oparta o platformę LAMP Promotor:

Bardziej szczegółowo

Helena Dudycz Instytut Informatyki Ekonomicznej Akademia Ekonomiczna we Wrocławiu helena.dudycz@ae.wroc.pl

Helena Dudycz Instytut Informatyki Ekonomicznej Akademia Ekonomiczna we Wrocławiu helena.dudycz@ae.wroc.pl PRZETWARZANIE ANALITYCZNE PODSTAWĄ ROZWIĄZAŃ INFORMATYCZNYCH KLASY BUSINESS INTELLIGENCE Streszczenie Helena Dudycz Instytut Informatyki Ekonomicznej Akademia Ekonomiczna we Wrocławiu helena.dudycz@ae.wroc.pl

Bardziej szczegółowo

Wprowadzenie do problematyki baz danych

Wprowadzenie do problematyki baz danych Wprowadzenie do problematyki baz danych Wykład przygotował: Robert Wrembel BD wykład 1 (1) Niniejszy cykl 13 wykładów będzie poświęcony bazom danych. 1 Plan wykładu Podstawowa terminologia Charakterystyka

Bardziej szczegółowo

Próba weryfikacji teorii inteligencji sprzyjającej powodzeniu życiowemu poprzez operacje konwergencyjne 1

Próba weryfikacji teorii inteligencji sprzyjającej powodzeniu życiowemu poprzez operacje konwergencyjne 1 PRZEGLĄD PSYCHOLOGICZNY, 2001, TOM 44, Nr 4, 375-403 Próba weryfikacji teorii inteligencji sprzyjającej powodzeniu życiowemu poprzez operacje konwergencyjne 1 Robert J. Sternberg 2 Yale University CONSTRUCT

Bardziej szczegółowo