AKADEMIA GÓRNICZO-HUTNICZA Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki KATEDRA INFORMATYKI Reprezentacja wiedzy - typowa i nietypowa rekcja w wyraŝeniach przyimkowych Kierunek, rok studiów: Informatyka, IV rok Przedmiot: Reprezentacja wiedzy Wersja 0.1-46 z dnia 02.06.2007 Grupa (projekt): Prowadzący zajęcia: Rok akad: 2006/2007 mgr inŝ. Michał Korzycki Semestr: letni Zespół autorski: Mirosław Jedynak m@jedynak.pl Kraków, czerwiec 2007
Niniejsze opracowanie powstało w trakcie i jako rezultat zajęć dydaktycznych z przedmiotu wymienionego na stronie tytułowej, prowadzonych w Akademii Górniczo-Hutniczej w Krakowie (AGH) przez osobę (osoby) wymienioną (wymienione) po słowach "Prowadzący zajęcia" i nie moŝe być wykorzystywane w jakikolwiek sposób i do jakichkolwiek celów, w całości lub części, w szczególności publikowane w jakikolwiek sposób i w jakiejkolwiek formie, bez uzyskania uprzedniej, pisemnej zgody tej osoby (tych osób) lub odpowiednich władz AGH. (AGH) w Krakowie Spis treści 1. Opis problemu 3 2. Implementacja 3 2.1. Tokenizacja 3 2.2. Tagowanie tokenów 4 2.3. Analiza 5 2.4. Podsumowanie ogólnych zasad 5 3. Wnioski 6 3.1. ZałoŜenia początkowe 6 3.2. Obserwacje 6 3.2.1. Błędy językowe 7 3.2.2. Biblioteka CLP 7 3.3. Wyniki 7 3.3.1. Przyimek dla 7 3.3.2. Przyimek do 8 3.3.3. Przyimek na 8 3.3.4. Przyimek od 8 3.3.5. Przyimek po 9 3.3.6. Przyimek przed 9 3.3.7. Przyimek przy 9 3.3.8. Przyimek w 9 4. Podusumowanie 10 2
1. Opis problemu Za Kopalińskim: rekcja składnia rządu, powiązanie dwu członów wypowiedzi, w którym człon nadrzędny wyznacza określoną formę podrzędnego. W językach fleksyjnych (takich jak np. język polski) istnieje silny związek pomiędzy syntaksą a fleksją. Najbardziej klasycznym takim związkiem jest wiązanie przypadku rzeczownika z przyimkiem (dla wyraŝenia w lesie - przyimek w narzuca tu wyrazowi las miejscownik). Typowa rekcja w wyraŝeniach przyimkowych to pary przyimek oraz przypadek, z którym najczęściej występują. Nietypowa rekcja w wyraŝeniach przyimkowych ma miejsce, kiedy przyimek łączy się z rzeczownikiem w danym przypadku tylko dla niewielkiej grupy wyrazów. Przykładem nietypowej rekcji jest zwrot poszły ogary w las tutaj przyimek w łączy się z rzeczownikiem w bierniku. RozróŜnienie czy dana rekcja jest typowa czy nietypowa moŝe mieć miejsce tylko na podstawie statystycznej ilości wystąpień danego powiązania przyimek-przypadek. 2. Implementacja W czasie implementacji proces analizy został podzielony na 3 fazy: tokenizacja tekstu podziała na wyrazy oraz zdania tagowanie - wstępne wczytanie i określenie części mowy dla danego słowa, a dla rzeczowników równieŝ przypadku. analiza występowania danych par przyimek-rzeczownik 2.1. Tokenizacja W czasie tokenizacji wykorzystano model pull-parser tzn. następny moduł (tagger) pytał się tokenizatora o podanie kolejnego zdania. Model tokenizatora zakładał pewne uproszczenia zdanie kończy się kropką a wyrazy rozdzielane są znakami białymi i niealfanumerycznymi. Wynikiem działania parsera były ciągi tokenów, które zostały zaklasyfikowane jako słowo (word) lub separator (separator). Zbudowanie Ulepszonego parsera było innym projektem, dlatego w tej części skupiłem się na funkcjonalności koniecznej do realizacji zadania związanego z rekcją. Przykładowo niektóre słowa zostały inaczej traktowanie w czasie procesu tokenizacji: na stale zostały określone skróty, które nie kończą zdania (np. ok. ) a maja formę taką jak niektóre rzeczownik (od oko ), niemoŝliwą do rozróŝnienia bez dokładnej analizy zdania, co wykracza poza zakres projektu. Rozpoznawane przyimki to: dla 3
do na od po przed przy w 2.2. Tagowanie tokenów W etapie tagowania tokenów wybierane były pary słów w których pierwszy z nich był przyimkiem a drugi rzeczownikiem. Określenie części mowy dla danego słowa odbywało się z wykorzystaniem biblioteki CLP. W przypadku, kiedy słowo posiadało kilka znaczeń (wordid) słowo było pomijane niepoprawne zaklasyfikowanie słowa o wielu znaczeniach negatywnie wpływa na ogólną wnioski, które mogą prowadzić do błędnego zaklasyfikowania wyraŝenia jako nietypowej rekcji. Przykładem takiego słowa jest list. MoŜe być mianownikiem dla rzeczownika list lub dopełniaczem liczby mnogiej rzeczownika lista. Nie jest moŝliwe rozstrzygnięcie bez odwołania do kontekstu, którego słowa wystąpienie zostało znalezione w tekście, dlatego bezcelowa wydaje się próba opierania analizy na słowa o wielu znaczeniach. Dla kaŝdej znalezionej pary tworzona była struktura, która umoŝliwiała późniejszą analizę wystąpień. Struktura przedstawiona została poniŝej. przyimek Rzeczownik + ilość wystapień przy na Drzewie(15) Lesie(32) przypadki miejscownik wołacz Taka struktura umoŝliwiała zachowanie informacji przyimkach wraz z sąsiadującymi rzeczownikami. Aby umoŝliwić określenie, czy w danym wyraŝeniu mamy do czynienia z typową czy nietypową rekcją 4
zapisywana jest ilość jego wystąpień. Ponadto moŝliwe jest, Ŝe dana forma rzeczownika występuje w kilku przypadkach ta niejednoznaczność będzie eliminowana w następnej fazie analizie. 2.3. Analiza W fazie analizy wykorzystywane są informacje zgromadzone w strukturach opisanych powyŝej. PowyŜsze dane zapisywane są w strukturze umoŝliwiającej wygodne wyświetlenie wyników analizy: przypadki Przykładowe wystąpienia w miejscownik mianownik... wołacz 17 18 15 lesie las..... Przed właściwą analizą struktura, która została utworzona w czasie tagowania została posortowana rosnąco według ilości przypadków dla danego rzeczownika (ilość przypadków, dla których danych rzeczownik występuje w podanej formie). Takie ułoŝenie rzeczowników powoduje, Ŝe w pierwszej kolejności analizowane są rzeczowniki, których forma jednoznacznie określa przypadek, a więc tych, które z punktu widzenia celu projektu są najbardziej wiarygodne. PowyŜsza struktura zwiera informacje dla kaŝdego przyimka: listę zbiorów przypadków z którym się łączy, ilość wystąpień oraz przykładowe wystąpienia. Lista zbiorów przypadków ma za zadanie wyeliminować dwuznaczność form. Przykładowo, gdy rozpatrujemy przyimek w, dla rzeczownika w formie lesie lista przypadków to miejscownik oraz wołacz zostaje utworzony zbiór składający się z dwóch elementów. Gdy następną parą będzie w las zostanie utworzony nowy zbiór poniewaŝ przecięcie zbioru składającego się z elementu mianownik jest puste dla kaŝdego dodanego zbioru. Gdy w następnej parze będzie występował rzeczownik, dla którego zbiór przypadków przecięty ze zbiorem przypadków dla wyrazu lesie będzie jednoelementowy zostanie wyeliminowana dwuznaczność- ustalony zostanie związek przyimka w z rzeczownikiem w miejscowniku. 2.4. Podsumowanie ogólnych zasad Niektóre wyrazy, wymienione jako skróty nie były traktowane jako koniec zdania i nie była dla nich sprawdzana forma podstawowa (były pomijane). Przykładem takiego zachowania jest skrót ok., który 5
bez takiego załoŝenia byłby dopełniaczem liczby mnogiej dla rzeczownika oko a zwrot w ok. 1984 zostałby nieprawidłowo zaklasyfikowany jako wyraŝenie przyimkowe (patrz 2.1). Słowa muszą w CLP występować zgodnie z odczytaną wielkością liter (nie są zmniejszane litery w słowie), z wyjątkiem sytuacji, kiedy słowo znajduje się na początku zdania. Bezwarunkowe zmniejszanie liter spowodowałoby niewłaściwe zaklasyfikowani nazw własnych. Przykładowo w Salt Lake City (salt -> dopełniacz liczby mnogiej salto ) Występujący na końcu linii myślnik powodował zawsze sklejenie dwóch słów co w przypadku analizy wyraŝeń przyimkowych nie powoduje błędów (np. na ul- \n icy na ulicy ), jednak w bardziej ogólnych rozwaŝaniach moŝe być niepoprawny ( angielsko polski angielskopolski ). Słowa, które w czasie analizy miały wiele form podstawowych (np. list ), były pomijane (patrz 2.1). PowyŜsze stwierdzenie nie dotyczy słów, które miały tylko jedną formę podstawową, ale forma wyrazy, która występowała w tekście nie określała jednoznacznie przypadku ( radio ) takie słowa były analizowane Przed przystąpieniem do analizy rzeczowniki sortowane są według ilości przypadków dla danej formy rzeczownika. Z punktu widzenia analizy rekcji przyimkowej więcej informacji dostarcza słowo władz (dopełniacz) niŝ bólu (dopełniacz, miejscownik i wołacz). W czasie na podstawie pary słów, w której przynajmniej jedna forma występuje w dwóch przypadkach poprzez wykonanie przecięcia zbioru przypadków moŝna ograniczyć liczbę przypadków występujących z danym przyimkiem. Przykładowo z wyraŝeń w momencie (miejscownik, wołacz) i w Warszawie (celownik, miejscownik) moŝna wywnioskować ze przyimek w moŝe łączyć się z miejscownikiem. W przypadku, kiedy dwa zbiory są rozłączne, naleŝy wprowadzić nowy przypadek, który moŝe występować z danym przyimkiem. Przykładowo z w gazetach (miejscownik) i w ropę (biernik) wynika, Ŝe w moŝe łączyć się z miejscownikiem i biernikiem. 3. Wnioski 3.1. ZałoŜenia początkowe Badanym tekstem były notatki prasowe dostępne na serwerze wierzba w pliku pap-all.not 3.2. Obserwacje Analiza przebiegła poprawnie i znalezione związki pomiędzy przyimkami a przypadkami rzeczownika były zgodne z oczekiwaniami. Wyniki zostały częściowo zaburzone z dwóch powodów: błędów występujących w źródłowym tekście oraz ograniczonej liczbie wyrazów rozpoznawanych przez bibliotekę CLP. 6
3.2.1. Błędy językowe Błędy występujące w tekście źródłowym powodowały powstanie nieprawidłowych związków, które jednak moŝna stosunkowo łatwo wykryć porównując liczbę wystąpień danego przypadku z danym przyimkiem. W przypadku wystąpienia błędu językowego dla tekstu pap-all.not liczba wystąpień nie przekraczała 10, gdzie dla poprawnej odmiany występowała w ilości o 3 rzędy większej (kilka tysięcy). Przyładowo: (linia 174025) Wpływ na nadciśnienie ma teŝ środowisko - badania na tej samej grupie osób w zanieczyszczonych Piekarach Śląskich i czystym Oleśnie wykazały,ŝe w liczba osób z nadciśnieniem w Piekarach była dwukrotnie wyŝsza. (linia 38530) Czterech lat pozbawienia wolności zaŝądał w prokurator dla Eugeniusza K., byłego komendanta StraŜy Miejskiej w Krakowie, oskarŝonego o łapownictwo, płatną protekcję i przekroczenie uprawnień. spowodowało zaklasyfikowania wyraŝenia w -> mianownik. 3.2.2. Biblioteka CLP Ograniczona liczba słów, która rozpoznaje bibliotek CLP równieŝ utrudniała analizę rekcji przyimkowej. Pierwszym problemem było nierozpoznanie słowa, które powodowało, Ŝe występujące w tekście informacja nie została wykorzystana. Przykładem takiego faktu jest wyraŝenie w Minnesocie, gdzie z powodu niepoznania słowa Minnesocie nie została wykorzystania informacja, Ŝe przyimek w łączy się z miejscownikiem. Drugim i zdecydowanie bardziej utrudniającym analizę przypadkiem był przypadek zaklasyfikowania danego słowa do form podstawowych. Przykładowo w wyraŝeniu w sumo CLP określiło formę wyrazu sumo tylko jako wołacz dla suma pomijając znaczenie sumo w kontekście wschodnich sztuk walk. Takie zachowanie spowodowało zaklasyfikowanie wystąpienia przyimka w z wołaczem. Stosunkowo łatwo moŝna jednak wykryć takie zachowanie porównując liczbę wystąpień (analogicznie jak w przypadku błędów językowych). 3.3. Wyniki 3.3.1. Przyimek dla 845 Dopełniacz firm, ofiar, osób Typowa rekcja 7 Mianownik dyrektor, minister, wiceminister 7
1 Biernik kampanię Błąd językowy (patrz 3.2.1) 1 Miejscownik społeczeństwach Błąd językowy (patrz 3.2.1) 1 Narzędnik przypomnieniem Błąd językowy (patrz 3.2.1) 1 Celownik ofiarom Błąd językowy (patrz 3.2.1) 3.3.2. Przyimek do 6785 Dopełniacz wyboru, wyborów, władz Typowa rekcja 36 Mianownik dyrektor, minister, wiceminister 6 Miejscownik dochodach, powiększeniu, rozpadzie Błąd językowy (patrz 3.2.1) 3.3.3. Przyimek na 5559 Miejscownik cywilach, obywatelach, usługach Typowa rekcja 2899 Biernik ankietę, energię, salę Typowa rekcja 8 Narzędnik impotencją, rozpracowaniem, rywalami Błąd językowy (patrz 3.2.1) 2 Mianownik handel, wiceprezes Błąd językowy (patrz 3.2.1) 2 Dopełniacz bosaka, wpadek Nietypowa rekcja, Błąd językowy (patrz 3.2.1) 1 Wołacz lewo 3.3.4. Przyimek od 1710 Dopełniacz czasu, końca, marca Typowa rekcja 2 Celownik wszczęciu, zakończeniu Błąd językowy (patrz 3.2.1) 2 Biernik niedzielę, zgodę Błąd językowy (patrz 3.2.1) 2 Mianownik minister, sekretarz 8
3.3.5. Przyimek po 4025 Miejscownik rozstrzygnięciach, witrynach, zwycięstwie Typowa rekcja 13 Biernik prasę, redukcję, resztę 3 Narzędnik adresem, rygorem, zarzutem Błąd językowy (patrz 3.2.1) 2 Mianownik poseł, prezes Błąd językowy (patrz 3.2.1) 1 Dopełniacz źródeł Błąd językowy (patrz 3.2.1) 3.3.6. Przyimek przed 2260 Narzednik armią, ogłoszeniem, wyborami Typowa rekcja 5 Mianownik ambasadę, komisję, siedzibę 3 Mianownik kamera, siedziba Błąd językowy (patrz 3.2.1) 1 Celownik ambasadom Błąd językowy (patrz 3.2.1) 3.3.7. Przyimek przy 968 Miejscownik dziewczętach, wejściach, świetle Typowa rekcja 1 Mianownik, Biernik, Wołacz molo 3.3.8. Przyimek w 6712 Miejscownik okolicach, rozmowach, wąwozach Typowa rekcja 4608 Biernik niedzielę, sobotę, środę Typowa rekcja 13 Dopełniacz zamian, kompetencji, zespołu Nietypowa rekcja, Błąd 9
językowy (patrz 3.2.1) 13 Narzędnik udziałem, wydawcą, świadkiem Błąd językowy (patrz 3.2.1) 9 Mianownik liczba, prokurator, rzecznik Błąd językowy (patrz 3.2.1) 1 Celownik przyjacielowi Błąd językowy (patrz 3.2.1) 1 Wołacz sumo Błąd CLP (patrz 3.2.2) 4. Podusumowanie Przedstawione wnioski dowiodły, Ŝe zastosowana metoda analizy wyraŝeń przyimkowych jest skuteczna - dla analizowanego tekstu znalazła poprawne pary przyimek-rzeczownik. Dodatkowo powyŝsza analiza umoŝliwiła wykrycie błędów gramatycznych, które przy zastosowaniu tradycyjnego sprawdzania poprawności opartej o słownik zostałyby pominięte. Niestety występujące błędy w tekście źródłowym spowodowały, Ŝe do rozstrzygnięcia czy mamy do czynienia z nietypową rekcją czy błędem gramatycznym potrzebny jest człowiek. Nie ma moŝliwości takiej klasyfikacji tylko na podstawie analizy tekstu konieczne staje się wykorzystanie poprawnego tekstu uczącego, dzięki któremu wykrywane byłyby przypadki nietypowej rekcji i rozróŝniane od błędów gramatycznych. 10