Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Podobne dokumenty
Open Access w technologii językowej dla języka polskiego

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

5. WORD W POLSKIEJ WERSJI

Workplace by Facebook. Twoja bezpieczna, firmowa sieć społecznościowa

Lokalizacja Oprogramowania

ZAGROŻENIE DLA JĘZYKÓW EUROPEJSKICH I WYZWANIE DLA TECHNOLOGII JĘZYKOWYCH

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Tłumaczenie maszynowe. Zasady działania. Autorzy: Josef van Genabith (DFKI), Krzysztof Łoboda (Uniwersytet Jagielloński)

Analiza danych tekstowych i języka naturalnego

Program warsztatów CLARIN-PL

Marcin Miłkowski IFiS PAN

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

System Korekty Tekstu Polskiego

Przedmiotowy system oceniania z języka angielskiego Klasy IV-VI Szkoła Podstawowa w Młodzawach

Spis treści. ROZDZIAŁ 2 Wzajemne oddziaływanie między leksykonem a innymi środkami służącymi kodowaniu informacji... 67

Tradycyjne i alternatywne kanały komunikacji e-marketingowej w branży turystycznej. Piotr Kasperczak

Języki programowania zasady ich tworzenia

AUTOMATYKA INFORMATYKA

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

WYMAGANIA EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH W KLASIE 4 SZKOŁY PODSTAWOWEJ

Investing f or Growth

Instrukcja przygotowania pliku do deponowania

Innowacyjne narzędzia w procesie digitalizacji

NARZĘDZIA Narzędzia Narzędzia

System Korekty Tekstu Polskiego

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Semantyczne podobieństwo stron internetowych

Oferta szkoleniowa 2017

Antyk w kulturze popularnej

Praktyczna nauka drugiego języka obcego II

MATRIX SALON PARTNER L OREAL POLSKA TABELA PLIKÓW COOKIES

HLT_12 Warszawa. Lingwistyka matematyczna w Katedrze Elektroniki AGH

INDYWIDUALNY PLAN DZIAŁANIA

Kampania FAX. Wybrane funkcjonalności: Definiowanie nagłówka. Personalizacja. Formaty PDF, Office i graficzne. Zapowiedź. Indywidualny numer telefonu

Cele kształcenia wymagania ogólne

Wstępna informacja o wynikach egzaminu maturalnego przeprowadzonego w maju 2015 r.

Instrukcja przygotowania pliku do deponowania

01. Bezpieczne korzystanie z urządzeń i systemów teleinformatycznych przez pracowników instytucji finansowych

Co to jest smartfon?

Nowa podstawa programowa a Europejski System Opisu Kształcenia Językowego

studia magisterskie na Uniwersytecie Wrocławskim, ukończenie studiów w 2005 roku i uzyskanie tytułu magistra filologii germańskiej.

Raport Adzuna Listopad 2016

Warsztaty prowadzone są w oparciu o oficjalne wytyczne firmy Microsoft i pokrywają się z wymaganiami

Absolwent szkoły kształcącej w zawodzie technik organizacji reklamy powinien być przygotowany do wykonywania następujących zadań zawodowych:

Przedmiotowy system oceniania z zajęć komputerowych - klasa 4

NOWE TRENDY REKLAMY ONLINE. - Allbiz Międzynarodowe Centrum E-commerce

Kryteria ocen z języka polskiego w klasie 4. Ocenę celującą - otrzymuje uczeń, którego wiedza znacznie przekracza poza obowiązujący program nauczania:

Zastosowania narzędzi analitycznych w komunikacji społecznej

Kiedy porozmawiamy z telefonem? (A nie przez telefon) Systemy informacyjne Wykład 1.

Aldona Sopata Uniwersytet im. Adama Mickiewicza w Poznaniu NOWE TECHNOLOGIE W KSZTAŁCENIU TŁUMACZY NA WYDZIALE NEOFILOLOGII UAM W POZNANIU

Elastyczność i mobilność w jednym, kompletnym pakiecie Panasonic UC Pro. Doskonała łączność gdziekolwiek się znajdujesz

Zintegrowany system promocji gospodarczej. Włodzimierz Majer

Pozycjonowanie stron w wyszukiwarkach internetowych. Szansa dla małych i średnich firm na konkurowanie z największymi

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE V

PL B1. AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA, Kraków, PL BUP 01/11. WIESŁAW WAJS, Kraków, PL

Elastyczność i mobilność w jednym, kompletnym pakiecie Panasonic UC Pro. Doskonała łączność gdziekolwiek się znajdujesz

Oznaczenie rejestru, w którym ujawniono prawo

Menedżer społeczności quiz. 1. Uzupełnij definicję e-handlu, zaznaczając odpowiednie kratki (zaznacz wszystkie poprawne

Spis treści. Polityka dotycząca plików cookie

Projekt współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego

KOMUNIKACJA BEZ BARIER Rozwiązania wspomagające wykorzystanie cyfrowego kanału kontaktu przez osoby starsze oraz niepełnosprawne


Jabra. Speak 710. Podręcznik użytkownika

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ŁACIŃSKIEGO

Przedmiotem zamówienia jest dostawa:

Załącznik do umowy nr..

Technologia informacyjna. Semestr zimowy 2017/2018 Zajęcia nr 8 (LibreOffice)

312[01]/T,SP/MENiS/ PROGRAM NAUCZANIA TECHNIK INFORMATYK 312[01] OPROGRAMOWANIE BIUROWE. Szczegółowe cele kształcenia

UNIWERSYTET ŚLĄSKI W KATOWICACH

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

Zapożyczenia. Zapożyczenia. Wstęp

OPIS PRZEDMIOTU ZAMÓWIENIA. Część nr 4.3

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I-III SZKOŁY PODSTAWOWEJ

Cloud Computing - do czego jeszcze może się przydad? Justyna Kobyłecka Kon-Dor GIS Konsulting

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO DLA UCZNIÓW KLASY VI ZGODNE Z PROGRAMEM NAUCZANIA JĘZYKA POLSKIEGO SŁOWA NA START W KLASIE VI

1. Każdy zdający powinien mieć na egzaminie następujące przybory pomocnicze:

SKRYPT KODOWANIE. Nauczycieli

Wstępna informacja o wynikach egzaminu maturalnego przeprowadzonego w maju 2016 r.

Wstępna informacja o wynikach egzaminu maturalnego przeprowadzonego w maju 2019 r.

Wstępna informacja o wynikach egzaminu maturalnego przeprowadzonego w maju 2019 r.

Wstępna informacja o wynikach egzaminu maturalnego przeprowadzonego w maju 2017 r.

Wstępna informacja o wynikach egzaminu maturalnego przeprowadzonego w maju 2018 r.

Przedmiotowe Zasady Oceniania z języka angielskiego

Imagination Is More Important Than Knowledge

Narzędzia do automatycznego wydobywania kolokacji

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Gramatyka. języka rosyjskiego z ćwiczeniami

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

POLITYKA DOTYCZĄCA PLIKÓW COOKIE

Piotr Dynia. PowerPivot. narzędzie do wielowymiarowej analizy danych

Seria raportów. White Paper Series THE POLISH LANGUAGE IN THE DIGITAL AGE JĘZYK POLSKI W ERZE CYFROWEJ. Marcin Miłkowski

Transkrypt:

Polszczyzna i inżynieria lingwistyczna Autor: Marcin Miłkowski (IFiS PAN) 1

Polszczyzna i jej cechy szczególne Polszczyzną posługuje się od 40 do 48 milionów osób: najczęściej używany język zachodniosłowiański na świecie; język urzędowy w Polsce, ale dopuszcza się też języki mniejszości (niemiecki, białoruski, kaszubski i litewski). Język trudny dla obcokrajowców i systemów przetwarzania automatycznego: trudna wymowa dla obcokrajowców; skomplikowana odmiana rzeczowników (9 rodzajów, bardzo dużo wzorów); znaki diakrytyczne, nadal nie zawsze stosowane (Twitter); swobodny szyk zdania; możliwość tworzenia bardzo długich zdań (Maria Dąbrowska w Nocach i dniach niejednokrotnie przekracza 500 znaków!). 2

Polszczyzna najnowsze tendencje Wpływ języka angielskiego: wiele nowych terminów (smartfon, selfie, czat, ); bezpośrednie formy adresatywne, zwłaszcza w reklamie (forma Ty, wykorzystanie trybu rozkazującego 2 os. l. poj., Kupuj! ). Wpływ rzeczywistości biurokratyczno-korporacyjnej: nowomowa korporacyjna (menedżer sprzedaży, target, misja firmy); nowomowa europejskiej biurokracji (interesariusze, ) Żeńskie nazwy zawodów: profesorka, a nie pani profesor; lecz pani biskup Helsinek, a nie!biskupka Helsinek Wpływ sieci społecznościowych i mediów: szybkie rozprzestrzenianie się neologizmów, zwłaszcza ironicznych 3

Inżynieria lingwistyczna 4

Inżynieria lingwistyczna Przetwarzanie wstępne: normalizacja danych, usuwanie formatowania, wykrywanie języka i kodowania znaków itd. Analiza gramatyczna: wykrywanie orzeczenia i jego dopełnień, okoliczników itd.; określanie struktury zdania. Analiza semantyczna: ujednoznaczenie (które ze znaczeń słowa wina jest odpowiednie w danym kontekście?), identyfikacja okazjonalizmów (takich jak ona, ten samochód itp.); przedstawianie znaczenia zdania w postaci czytelnej dla komputera. 5

Zastosowania inżynierii w polszczyźnie Korekta pisowni i korektory gramatyczne (komercyjne w pakiecie Microsoft Office, Google Docs; otwarte program LanguageTool) Systemy sporządzania dokumentacji technicznej i prawnej Jasnopis 6

Jasnopis: analiza trudności tekstu Analiza trudności tekstu z podstawowymi informacjami o Unii Europejskiej 7

Wyszukiwarki i interakcja głosowa Polskie wyszukiwarki Szukacz i Nesprint przegrały w konkurencji z wyszukiwarką Google, która stosuje statystyczne analizy języka (i autokorektę) Grupowania wyników w wielu językach dostarcza polska wyszukiwarka Carrot Search Interakcja głosowa stosowana w smartfonach (Siri i Cortana nie obsługują polszczyzny) Syntezator mowy Ivona jest bardzo popularny Systemy dialogowe używane do obsługi klienta Rozpoznawanie mowy: Skrybot i PrimeSpeech 8

Tłumaczenie maszynowe Translatica (system regułowy) Google Translate Bing Translate Moses (stosowany w biurach tłumaczeń) 9

Inne zastosowania Automatyczne streszczanie dokumentów prototyp: system Lakon Boty dialogowe na stronach internetowych przedsiębiorstw Także rozrywkowe: PZU (mocnopomocni.pl) Boty generujące spam Wykrywanie plagiatów, zwłaszcza prac naukowych System plagiat.pl (ekspansja na rynki poza Polską) 10

Bariery i możliwości rozwoju Spektakularne sukcesy inżynierów lingwistycznych: polska Słowosieć, największy na świecie słownik typu WordNet, zbudowany najszybciej i dostępny na swobodnej licencji; Narodowy Korpus Języka Polskiego prowadzi do powstawania nowych podstawowych narzędzi przetwarzania języka i słowników (parsery, słowniki walencyjne, systemy rozpoznawania anafory, formalne modele gramatyki) wyszukiwarka NEKST 11