Open Access w technologii językowej dla języka polskiego Marek Maziarz, Maciej Piasecki Grupa Naukowa Technologii Językowych G4.19 Zakład Sztucznej Inteligencji, Instytut Informatyki, W-8, Politechnika Wrocławska nlp.pwr.wroc.pl plwordnet.pwr.wroc.pl
1. Inżynieria języka naturalnego CEL: nauczyć system komputerowy analizować język i treść tekstów w celu dostarczenia ludziom praktycznych korzyści Przykłady: Wyszukiwarki internetowe Systemy odpowiadania na pytania Automatyczne wydobywanie informacji z dużych zasobów tekstowych Automatyczne gromadzenie informacji o danej osobie, określonym wydarzeniu Automatyczne tłumaczenie 2/16
2. Zasoby i narzędzia językowe Zasoby językowe = bazy wiedzy o języku, np. słowniki i gramatyki Narzędzia językowe = programy do analizy wypowiedzi w języka naturalnym na różnych poziomach systemu języka, np. odmiany i słowotwórstwa wyrazów, budowy zdania, znaczeń słów itd. Podstawowe zasoby i narzędzia = standard, którego oczekuje się od technologii językowych 3/16
2. Zasoby i narzędzia językowe 4/16
3. Dostępność zasobów i narzędzi (ZiNJ) Uwarunkowania: Koszt wytworzenie ZiNJ jest wysoki Polskie firmy nie wytworzą wszystkich standardowych ZiNJ samodzielnie Dostępność ZiNJ to warunek konieczny rozwoju systemów bardziej zaawansowanych Brak systemów dla języka polskiego ogranicza dostęp do informacji i inteligentnego wykorzystania informacji w Internecie Open Access warunkuje rozwój nauki i społeczeństwa informacyjnego. 5/16
4. Open Access a technologie jęz. w Polsce 2006 rok - Polska ma bardzo słabo rozwinięte technologie językowe Od 2006 PWr. i IPI PAN pracują wspólnie nad poprawą sytuacji Od początku zakładano Open Access Od 2010 PWr udostępnia narzędzia i zasoby językowe na otwartych licencjach, także do użytku komercyjnego 6/16
5. Technologie językowe na PWr G4.19 grupa technologii językowych na W-8 5 grantów: POIG, NCBiR, 2 x MNiSW (NCN), Clarin Narzędzia językowe: tagery, parsery składniowe i semantyczne, wyszukiwarki Zasoby językowe: słowniki, sieci opisujące semantyczne zależności 7/16
6. Słowosieć OA i Open Source 8/26
6. Słowosieć OA i Open Source Liczba wyrazów w Słowosieci i w WordNecie princetońskim 150000 100000 50000 0 rzeczownik czasownik przymiotnik przysłówek Słowosieć 2.0 WordNet princetoński 9/16
6. Słowosieć OA i Open Source Sieć relacji pomiędzy znaczeniami wyrazów Słownik dla komputerów: 107 000 haseł, 161 000 znaczeń, ok. 450 000 relacji leksykalno-semantycznych Licencja wzorowana na licencji WordNetu za zgodą i przy pełnym poparciu JM Rektora PWr: Wykorzystanie systemu plwordnet jest nieskrępowane. Można się tym systemem posługiwać w zastosowaniach komercyjnych... bez opłat i honorariów 10/16
7. Korpus Języka Polskiego PWr Podstawowy zasób językowy Zbiór starannie wyselekcjonowanych tekstów Teksty różnorodne stylistycznie i gatunkowo 0,5 mln wyrazów Materiał do uczenia maszynowego (narzędzia językowe) Materiał dla językoznawców badających język Licencja Creative Commons Za zgodą i przy pełnym poparciu JM Rektora PWr 11/16
7. Korpus Języka Polskiego PWr 12/16
7. Creative Commons, ale które? Uznanie autorstwa Uznanie autorstwa Na tych samych warunkach Uznanie autorstwa Użycie niekomercyjne Uznanie autorstwa - Bez utworów zależnych 13/16
7. Creative Commons, ale które? Uznanie autorstwa Uznanie autorstwa Na tych samych warunkach Uznanie autorstwa Użycie niekomercyjne Uznanie autorstwa - Bez utworów zależnych 14/16
7. Creative Commons, ale które? Uznanie autorstwa Uznanie autorstwa Na tych samych warunkach Uznanie autorstwa Użycie niekomercyjne Uznanie autorstwa - Bez utworów zależnych 15/16
8. Open Access dlaczego i jak? Korzyści Stymulacja rozwoju technologii językowych w Polsce Wsparcie dla rozwoju społeczeństwa informacyjnego Stymulacja rozwoju gospodarki (technologie IT zwiększają swój udział w rynku) Promocja Politechniki kształtowanie wizerunku Szansa na lepsze publikacje i cytowania. 16/16
Dziękuję za uwagę!