IB047. Pavel Rychlý. 21. února

Podobne dokumenty
PA152,Implementace databázových systémů 2 / 25

Obsah: Organizace předmětu IB030. Situace na FI MU

Zásuvný modul QGISu. QGIS plugin pro práci s katastrálními daty

Martin Pergel. 26. února Martin Pergel

Anna Kratochvílová Anna Kratochvílová (FJFI ČVUT) PDR ve zpracování obrazu / 17

Úvodní informace. 18. února 2019

Institut západní a jižní slavistiky. Tým korpusové lingvistiky slovanských jazyků. Elżbieta Kaczmarska 2

Malá ochutnávka z kuchyně IES nejen pro přijaté studenty. Martin Gregor. 5. června 2014

Internet a zdroje. (Zdroje na Internetu) Mgr. Petr Jakubec. Katedra fyzikální chemie Univerzita Palackého v Olomouci Tř. 17.

Platforma pro analýzu, agregaci a vizualizaci otevřených dat souv

ggplot2 Efektní vizualizace dat v prostředí jazyka R Martin Golasowski 8. prosince 2016

Představení projektu

Kombinatorika a grafy I







Rovnice proudění Slapový model

učební text pro PLIN019

Matematická analýza II pro kombinované studium. Konzultace první a druhá. RNDr. Libuše Samková, Ph.D. pf.jcu.cz

Numerické metody minimalizace

Formálne jazyky Automaty. Formálne jazyky. 1 Automaty. IB110 Podzim

Obsah. Zobrazení na osmistěn. 1 Zobrazení sféry po částech - obecné vlastnosti 2 Zobrazení na pravidelný konvexní mnohostěn

Kristýna Kuncová. Matematika B2

1 Soustava lineárních rovnic

POLIURETANOWE SPRĘŻYNY NACISKOWE. POLYURETHANOVÉ TLAČNÉ PRUŽINY

Automatové modely. Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Ukazka knihy z internetoveho knihkupectvi

Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.

(1) Derivace. Kristýna Kuncová. Matematika B2 17/18. Kristýna Kuncová (1) Derivace 1 / 35

MATEMATIKA 3 NUMERICKÉ METODY. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Úvod do umělé inteligence, jazyk Prolog

Scheelova kometa. Dušan Merta. Colours of Sepsis 2019, OSTRAVA!!!

Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.

Powyższe reguły to tylko jedna z wersji gry. Istnieje wiele innych wariantów, można też ustalać własne zasady. Miłej zabawy!

Gramatické formalismy pro ZPJ

Słowniki i korpusy języka polskiego

TGH01 - Algoritmizace

Obsah: Komunikace Gramatiky. PA026 Projekt z umělé inteligence.

Přirozený jazyk prostředek komunikace

LBF/ZUB22 Programové vybavení ordinace zubního lékaře. Mgr. Markéta Trnečková, Ph.D. Palacký University, Olomouc

Lineární algebra - iterační metody

Modelov an ı v yukov ych dat, obt ıˇznosti probl em u Radek Pel anek

ZÁVĚREČNÁ KONFERENCE Poslanecká sněmovna PČR Praha MEZINÁRODNÍ DOTAZNÍKOVÉ ŠETŘENÍ ANKIETY MIEDZYNARODOWE

Mechanika. Použité pojmy a zákony mohou být použity na jakékoliv mechanické stroje.

Príloha D. Údaje o pedagogickej činnosti organizácie. Semestrálne prednášky:

Biosignál II. Lékařská fakulta Masarykovy univerzity Brno

Polsko czeskie spotkania europejskie w Kaletach LOGO. Projekty Miast Partnerskich. Kalety Vitkov

Obsah: Komunikace Gramatiky. PA026 Projekt z umělé inteligence.

ROBUST January 19, Zdeněk Fabián Ústav informatiky AVČR Praha

Bohemistyka 2003, nr 4, ISSN

Rekrutacja List Motywacyjny

K SAMOSTATNÉ MODULOVÉ SCHODY MONTÁŽI. asta

HL24285SMART. Návod k použití Návod na použitie Instrukcja obsługi Használatı utasítás. Licensed by Hyundai Corporation, Korea


Statistika (KMI/PSTAT)

Naděžda Kvítková, Staročeský text z kvantitativního hlediska, Pedagogická fakulta Univerzity Karlovy v Praze, Praha 2001,124 s.

Geometrická nelinearita: úvod

LEXIKÁLNA PARADIGMATIKA, SÉMANTIKA A KOMBINATORIKA

5. a 12. prosince 2018

Pavel Cenek, Aleš Horák

Dokumentace...9. Tištěná dokumentace... 9 Netištěná dokumentace... 9 Důležité Úvod k této příručce Řešení potíží...12

FRESH SYSTEM IDEÁLNÍ PRO KAŽDOU KUCHYŇ PANTY S INTEGROVANÝM DOVÍRÁNÍM. Rozpis skříněk na str tiché a plynulé dovírání - MODERNÍ DESIGN

DXDB 215 NÁVOD K POUŽITÍ NÁVOD NA POUŽITIE INSTRUKCJA OBSŁUGI USER MANUAL

návod k použití instrukcja obsługi

HAKA watertech 6/2011


Inverzní Z-transformace

Matematika 2, vzorová písemka 1

Referenční plochy. Podpořeno z projektu FRVŠ 584/2011.

Martin Dlask (KSI FJFI) 3. března 2016

Nástroj pro analýzu XML dat

Aproximace funkcí 1,00 0,841 1,10 0,864 1,20 0,885. Body proložíme lomenou čarou.

KORPUSY TEKSTOWE A TWORZENIE MATERIAŁÓW NA ZAJĘCIA Z JĘZYKÓW OBCYCH

Cesky narodni korpus - internetowe źródło standaryzacji i weryfikacji języka czeskiego oraz nowoczesne narzędzie dydaktyczne

Paradoxy geometrické pravděpodobnosti

TGH01 - Algoritmizace

TVL LED NÁVOD K POUŽITÍ NÁVOD NA POUŽITIE

Vlastnosti. Příprava. Czech - 2 -

NÁVOD K POUŽITÍ KEZELÉSI KÉZIKÖNYV INSTRUKCJA OBSŁUGI NÁVOD NA POUŽÍVANIE. Česky. Magyar. Polski. Slovensky

Přehled aplikací matematického programovaní a


návod k použití instrukcja obsługi

EWP W... CS PRAČKA NÁVOD K POUŽITÍ 2 PL PRALKA INSTRUKCJA OBSŁUGI 28

Stavový popis Stabilita spojitých systémů (K611MSAP) Katedra aplikované matematiky Fakulta dopravní ČVUT. čtvrtek 20. dubna 2006

Kapitola 4: Soustavy diferenciálních rovnic 1. řádu

XML data na disku jako databáze

Vybrané kapitoly z matematiky

Rychlý manuál / Rýchly manuál / Krótki przewodnik / Quick guide. pro produkty / pre výrobky / dla produktów / for products POWER N10B

Paralelizace numerických metod

NÁVOD K POUŽITÍ / NÁVOD NA POUŽITIE INSTRUKCJA OBSŁUGI / INSTRUCTION MANUAL HASZNÁLATÍ ÚTMUTATÓ

Jubileusz Profesor Teresy Zofii Orłoś

Regulátory teploty pro klimatizaci Regulatory klimatyzacji

katedra informatiky FEI VŠB-TU Ostrava etr Šaloun (katedra informatiky FEI VŠB-TU Ostrava) Začínáme s C/C září / 25

PROJEKT OŚRODEK WSPARCIA EKONOMII SPOŁECZNEJ MAZOWSZA PŁOCKIEGO WSPÓŁFINANSOWANY PRZEZ UNIĘ EUROPEJSKĄ ZE ŚRODKÓW EUROPEJSKIEGO FUNDUSZU SPOŁECZNEGO

LITERATÚRA. 329 S t r a n a

QSG_ book Page 59 Tuesday, October 14, :53 AM

ČVUT FEL, K October 1, Radek Mařík Ověřování modelů II October 1, / 39

Transkrypt:

Úvod do korpusové lingvistiky a počítačové lexikografie pary@fi.muni.cz Centrum zpracování přirozeného jazyka 21. února 2018

Technické informace http://www.fi.muni.cz/ pary/ib047/

Technické informace http://www.fi.muni.cz/ pary/ib047/ zápočet: vyřešení praktického úkolu vytvoření korpusu označkování rozdílů v gramatickém značkování

Technické informace http://www.fi.muni.cz/ pary/ib047/ zápočet: vyřešení praktického úkolu vytvoření korpusu označkování rozdílů v gramatickém značkování zkouška písemná možnost získat extra body za praktický úkol

Korpusová lingvistika Předmět přednášky lingvistika věda, která se zabývá přirozenými jazyky korpus velký soubor textů většinou v elektronické podobě

Korpusová lingvistika Předmět přednášky lingvistika věda, která se zabývá přirozenými jazyky korpus velký soubor textů většinou v elektronické podobě zkoumá jazyky na základě korpusů

Počítačová lexikografie Předmět přednášky lexikografie věda, která se zabývá slovníky zejména budováním slovníků

Počítačová lexikografie Předmět přednášky lexikografie věda, která se zabývá slovníky zejména budováním slovníků budování slovníků na základě korpusů jedno z nějčastějších použití korpusů

Obsah přednášky (1) Úvod, motivace, historie Typy a formáty korpusů, standardy Značkování, metastruktura Gramatické značkování Syntaktické značkování Paralelní korpusy Automatické značkování, desambiguace

Obsah přednášky (2) Nástroje na tvorbu a údržbu korpusů Statistické zpracování korpusů Využití korpusů, uživatelská rozhraní Typy a formáty slovníků Struktura hesla, popis významů Využití korpusů pro tvorbu slovníků Lexikografické stanice

Motivace Popis přirozeného jazyka slovník gramatika Zkoumání jazyka tradičně pomocí introspekce/intuice podpořené výpisky (citáty) (autorit) často subjektivní

Motivace Tradiční přírodní vědy hypotézy ověřeny měřením Lingvistika Jak provést měření?

Motivace Tradiční přírodní vědy hypotézy ověřeny měřením Lingvistika Jak provést měření? objektivní zkoumání reálných užití jazyka korpus

Má lingvista dělat měření? Pravidla pravopisu závazná norma

Má lingvista dělat měření? Pravidla pravopisu závazná norma Studium cizího jazyka je výhodnější učit se reálný jazyk, jak lidé mluví a píší

Má lingvista dělat měření? Pravidla pravopisu závazná norma Studium cizího jazyka je výhodnější učit se reálný jazyk, jak lidé mluví a píší Zpracování přirozeného jazyka potřebujeme robustní aplikace

Co to je korpus? Co to je text, dokument? leccos Různé typy korpusů textové mluvené

Co to je korpus? Co to je text, dokument? leccos Různé typy korpusů textové mluvené Pro potřeby lingvistiky textový korpus

Textový korpus soubor textů charakteristiky rozsáhlý v jednotném formátu stukturovaný v elektronické podobě

Co znamená rozsáhlý? Co znamená rozsáhlý? první koprusy: 1 milion slov příliš malé pro zajímavější výsledky dostačující pro globální statistiky délka věty/slova, nejčastější slova nyní běžně stovky milionů slov průměrná rychlost čtení je 125 225 slov za minutu 200 60 18 = 216000 slov za den (18 hodin) 79 milionů za rok (365 dní) dost velká slovní zásoba dostupné jsou i giga-korpusy více než miliarda slov zhruba 50 let čtení při 4 hodinách denně málokdo dokáže přečíst více

Typy korpusů vždy záleží na účelu a způsobu použití možnosti jazyk typy textů zdroj dat značkování...

První korpus Brown americká angličtina (1961) Brown University, 1964 gramatické značkování, 1979 500 textů, 1 mil. slov W. N. Francis & H. Kučera první statistické charakteristiky angličtiny relativní četnosti slov a slovních druhů

SUSANNE SUSANNE Geoffrey Sampson English for the Computer část korpusu Brown nové gramatické značkování syntaktické značkování

BNC British National Corpus britská angličtina, 10 % mluva první velký korpus pro lexikografy vydavatelé slovníků + univerzity 1991 1994, World Edition 2000 3000 textů, 100 mil. slov gramatické značkování automatickým nástrojem

BoE Bank of English britská angličtina COBUILD (HarperCollins), University of Birmingham 1991, stále rozšiřován 2005, 525 mil. slov

Další národní korpusy Český národní korpus ÚČNK, FF UK SYN2000: 100 mil. slov (60% noviny) SYN2005: 100 mil. slov (40% beletrie) SYN2010: 100 mil. slov SYN2006PUB: 300 mil. slov SYN2009PUB (700), SYN2013PUB (940) dohromady SYN: 2,5 mld. slov Litera, Synek, BMK, KSK,... InterCorp paralelní koprusy, více než 30 jazyků Slovenský, Mad arský, Chorvatský,... Americký

Korpusy na FI vytvořené na FI Desam ručně značkovaný (desambiguovaný) 1 mil. slov WWW periodika z webu, z let 1996 1998 100 mil. I047 vytvářený studenty Úvodu do korp. ling. 45 mil. Chyby práce studentů předmětu Základy odb. stylu s vyznačenými chybami 400 tis. BiWeC obrovský korpus z webu, zatím angličtina 3 9 miliard slov ententen,detenten korpusy o velikostech 10 10 slov

Korpusy na FI spolupráce itwac, ukwac, dewac,... Dopisy Mluv Kačenka ČNPK 1984 Otto Italian Giga Chinese