Wprowadzenie do projektowania i wykorzystania baz danych Projektowanie zasobów językowych

Podobne dokumenty
Wprowadzenie do projektowania i wykorzystania baz danych Projektowanie zasobów językowych

Bazy nagrań mowy. Katarzyna Klessa Eksploracja, interpretacja, analiza. Wykład otwarty, UAM, Wydział Neofilologii, dn

Językowe bazy danych. Katarzyna Klessa Eksploracja, interpretacja, analiza , Uniwersytet Warszawski, Wydział Polonistyki

Językowe bazy danych. Katarzyna Klessa Eksploracja, interpretacja, analiza , Uniwersytet Warszawski, Wydział Polonistyki

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 4

Uniwersytet Śląski w Katowicach str. 1 Wydział Filologiczny

Wprowadzenie do projektowania i wykorzystania baz danych Relacje i elementy projektowania baz

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 1

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 1

CELE PRAKTYKI ZAWODOWEJ

Wymogi edukacyjne na poszczególne oceny z języka hiszpańskiego w klasie 7A, 7B- w klasach dwujęzycznych z językiem hiszpańskim

WYNIKI EGZAMINU GIMNAZJALNEGO Z JĘZYKA ANGIELSKIEGO ROK SZKOLNY 2016/2017

4C. III MODUŁ. PROJEKT EWALUACJI PROGRAMU ROZWOJU SZKOŁY

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Badania marketingowe. Omówione zagadnienia. Społeczna Wyższa Szkoła Przedsiębiorczości i Zarządzania

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 2

JĘZYK OBCY SYLABUS. A. Informacje ogólne

JĘZYK OBCY SYLABUS. A. Informacje ogólne

Wymogi edukacyjne na poszczególne oceny z języka hiszpańskiego w klasie IIIA, IIIC

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 4

Wymagania edukacyjne w bloku humanistycznym dla klas IV VI Szkoła Podstawowa nr 55 im. Jurija Gagarina w Poznaniu

Kierunki rozwoju w nauczaniu języków obcych. dr Joanna Kic-Drgas

NOWY PROGRAM PRAKTYK PEDAGOGICZNO-METODYCZNYCH REALIZOWANYCH PRZEZ STUDENTÓW LINGWISTYKI STOSOWANEJ UMCS W RAMACH PROJEKTU

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 3

OPIS PRZEDMIOTU ZAMÓWIENIA

PROGRAM INNOWACJI PEDAGOGICZNEJ. Temat: Mówię JA, mówisz TY, rozmawiamy MY

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 3

Grupa przedmiotów godziny pkt ECTS A. PRZEDMIOTY PODSTAWOWE B. PRZEDMIOTY KIERUNKOWE W ZAKRESIE FILOLOGII ANGIELSKIEJ

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Przygotowanie uczniów do egzaminu GCSE z języka polskiego (lato 2014) Paulina Zaleśny

Statystyka w pracy badawczej nauczyciela

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Proces badawczy schemat i zasady realizacji

ZGŁOSZENIE PRAKTYKI*

KRYTERIA OCENIANIA JĘZYKA ANGIELSKIEGO W KLASACH 4-8

Plan nadzoru pedagogicznego szkoły na rok szkolny 2016/17

INNOWACJA PEDAGOGICZNA: Skrzaty pod DACHem Europy. Kulturowa podróż przedszkolaków po krajach niemieckiego obszaru językowego.

Autoewaluacja,,ewaluacja wewnętrzna w Szkole Podstawowej nr 19 im. Mikołaja Kopernika w Olsztynie

Analiza ankiety ewaluacyjnej dla uczniów dotyczącej wyjazdów kulturowo-językowych organizowanych przez SSP 10 i SG 27 STO

REGULAMIN STUDENCKICH PRAKTYK ZAWODOWYCH, PEDAGOGICZNYCH W ZAKRESIE WYCHOWANIA PRZEDSZKOLNEGO

- elementy aktywności: prace domowe, frekwencja, aktywność na zajęciach,

W ramach projektu odbywają się zajęcia dodatkowe:

Zjawisko dopasowania w sytuacji komunikacyjnej. Patrycja Świeczkowska Michał Woźny

METODY I TECHNIKI BADAŃ SPOŁECZNYCH

SEKCJA I: ZAMAWIAJĄCY SEKCJA II: PRZEDMIOT ZAMÓWIENIA. Zamieszczanie ogłoszenia: obowiązkowe. Ogłoszenie dotyczy: zamówienia publicznego.

dr inż. Ewa Kuśmierek, Kierownik Projektu Warszawa, 25 czerwca 2014 r.

Zasady oceniania przedmiotowego z języków obcych

Uwarunkowania osiągnięć językowych w stronę modelu wyjaśniającego

SPIS TREŚCI CZĘŚĆ I : PRZEZNACZENIE, PROCES I PODSTAWY METODOLOGICZNE BADAŃ MARKETINGOWYCH...17

PEANO. Innowacja pedagogiczna dotycząca wprowadzenia nauki programowania. w Zespole Szkół Nr 6 im. Mikołaja Reja w Szczecinie

Szczegółowe warunki realizacji projektu edukacyjnego w Publicznym Gimnazjum w Osieku. Informacje ogólne

Użyteczność stron internetowych

Kontrola i ocena pracy ucznia.

Plan rozwoju zawodowego nauczyciela stażysty, ubiegającego się o stopień nauczyciela kontraktowego

PRZEDMIOTOWY SYSTEM OCENIANIA AUTOR: KATARZYNA MIKOS

ZASADY PRZEDMIOTOWEGO OCENIANIA JĘZYKI OBCE

MŁODY PROGRAMISTA WARSZTATY PROGRAMOWANIA DLA UCZNIÓW KLAS MŁODSZYCH

II. Kontrola i ocena pracy ucznia.

ZGŁOSZENIE PRAKTYKI*

Telewizja publiczna z misją Opracowała: Anna Równy

Wymagania edukacyjne na śródroczne i roczne oceny z z języka włoskiego

Rezultaty projektu Wiedza plus wiara w siebie równa się sukces. Projekt współfinansowany ze środków Unii Europejskiej

Język francuski Przedmiotowe zasady oceniania

PLAN ROZWOJU ZAWODOWEGO

Wykład 1: O statystyce i analizie danych

MARKETINGOWY SYSTEM INFORMACJI

Plan rozwoju zawodowego nauczyciela stażysty ubiegającego się o stopień nauczyciela kontraktowego

ANALIZA SPRAWDZIANU SZÓSTOKLASISTY KWIECIEŃ 2015 W ROKU SZKOLNYM 2014/2015

PROCEDURA OBSERWACJI W PRZEDSZKOLU MIEJSKIM NR 3 W TORUNIU

Monitorowanie wdrażania podstawy programowej kształcenia ogólnego w województwie wielkopolskim. WKWiO Kuratorium Oświaty w Poznaniu

ZASADY WEWNĄTRZSZKOLNEGO OCENIANIA Z JĘZYKA WŁOSKIEGO W VII KLASIE SZKOŁY PODSTAWOWEJ

Badania marketingowe. Omówione zagadnienia

Badania ewaluacyjne WYWIAD 6 ZAJĘCIA

Wymagania edukacyjne dla uczniów klas VII szkoły podstawowej opracowane na podstawie podręcznika do nauki języka niemieckiego Meine Deutschtour

Wymagania na poszczególne oceny z języka niemieckiego dla uczniów Technikum Zawodowego poziom IV.O i IV.1, zakres podstawowy.

Proces badawczy schemat i zasady realizacji

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Język obcy - angielski. 2. KIERUNEK: Pedagogika. 3. POZIOM STUDIÓW: studia pierwszego stopnia

Obserwacja jest jedną z metod/technik badań społecznych, wykorzystywaną w etnologii i antropologii kulturowej, socjologii, psychologii.

UNIWERSYTET ŚLĄSKI W KATOWICACH

ZASADY PRZEDMIOTOWEGO OCENIANIA JĘZYK FRANCUSKI

S Y L A B U S - d l a s z k o l e ń REZULTAT O3 DZIAŁANIA: O3-A2 PROJEKTU E-GOVERNMENT 2.0 W PRAKTYCE

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO w klasach IV - VI. Szkoła Podstawowa im. Jana Pawła II w Węgrowie

EWALUACJA WEWNĘTRZNA PRZEDMIOT BADANIA PROCESY WSPOMAGANIA ROZWOJU I EDUKACJI DZIECI SĄ ZORGANIZOWANE W SPOSÓB SPRZYJAJĄCY UCZENIU SIĘ

Projektowanie systemów informatycznych. Roman Simiński siminskionline.pl. Modelowanie danych Diagramy ERD

Model EWD dla II etapu edukacyjnego.

Jak skutecznie wykorzystać system zarządzania JST do poprawy jakości życia mieszkańców?

EWALUACJA KROK PO KROKU

w w w.w o r l d w i d e s c h o o l.p l OVER 45

PRZEDMIOTOWY SYSTEM OCENIANIA. Języki obce

WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY Z JĘZYKA ANGIELSKIEGO W KLASACH IV-VIII w Szkole Podstawowej im. Jana Pawła II

Metodologia badań psychologicznych

DOBÓR PRÓBY. Czyli kogo badać?

Przedmiotowy system oceniania z języka angielskiego, klasy: I a i IV a, b Szkoły Podstawowej

Przedmiotowe Zasady Oceniania z języka niemieckiego dla klas IV VI

Innowacja pedagogiczna z języka angielskiego

Transkrypt:

Wprowadzenie do projektowania i wykorzystania baz danych Projektowanie zasobów językowych Katarzyna Klessa

Dane surowe, korpusy językowe i bazy danych Dane surowe (raw/primary data) dane bez obróbki, systematyzacji, zebrane Korpus (ang. corpus, corpora; z łac. ciało, określona całość) dane zebrane zwykle wg założonego z góry klucza, w określonym celu różne sposoby systematyzacji korpusów językowych: np. bazy plikowe, arkusze kalkulacyjne, relacyjne bazy danych 2

Korpusy językowe Kolekcja tekstów pisanych, transkrypcji wypowiedzi, czasem również powiązanych z nimi nagrań mowy Zwykle w trakcie projektowania korpusu planuje się określoną jego strukturę oraz sposób opisu danych (anotacji, metadanych) metadane dane o danych» W wypadku nagrań mowy dane osobowe mówcy, jego stan psychiczny, dane środowiska nagraniowego, mikrofonów, osób nagrywających, innych osób obecnych przy nagraniu, innych czynników... 3

Informacja językowa I pozajęzykowa w korpusach Rozbudowany system metadanych może przyczynić się do większej użyteczności korpusu, także w obszarach poza pierwotnym docelowym obszarem zastosowań np. W psychologii, socjologii, terapii języka I mowy, technologii informatycznej i in. Kluczowa rola dokumentacji zasobów 4

Korpusy ogólnego przeznaczenia vs. specjalizowane Specjalizowane selekcja materiału dostosowana do określonych potrzeb a zatem łatwiejsza wnioski wyciągane na podstawie danych mogą tylko dotyczyć tego wybranego wycinka języka, którego dotyczy specjalizacja korpusu Ogólnego przeznaczenia z założenia dotyczą większości zjawisk w języku, powinny zakładać szczegółowy plan struktury korpusu, aby umożliwić jego późniejsze zrównoważenie, różne typy tekstów, stylów wypowiedzi, zróżnicowani mówcy Możliwość większego uogólnienia wniosków wysnuwanych na podstawie danych 5

Korpusy statyczne vs. dynamiczne Statyczne zbiór danych językowych dający informację na temat elementów systemu językowego w określonym momencie łatwiej kontrolować zrównoważenie zawartości korpusu użyteczność może być bardziej ograniczona (dezaktualizacja) Dynamiczne umożliwiają obserwację zmienności zjawisk językowych w czasie trudniejsze w utrzymaniu, droższe drudniejsza kontrola zrównoważenia i jakości danych 6

Zrównoważenie korpusów Zrównoważenie korpusów może przebiegać na jednej lub wielu płaszczyznach, zależnie od typu korpusu. Język pisany czy mówiony Style wypowiedzi (genres, speaking styles) (czytane, spontaniczne, dialogi, monologi, polilogi...) Zróżnicowanie pod względem produkcji mowy (płeć, wiek, pochodzenie regionalne, wykształcenie...) Czynniki związane z czasem pozyskania danych (różne okresy, jeden okres...) 7

Reprezentatywność korpusów Reprezentatywność zakres w jakim korpus informuje o zjawiskach zachodzących w całej populacji, w naszym przypadku w języku lub jego specjalizowanym podzbiorze Odróżnia korpusy od archiwów językowych Możliwość generalizacji, wyciągania uogólnionych wniosków 8

Reprezentatywność korpusów Reprezentatywność a rozmiar korpusu Nie zawsze zwiększenie rozmiaru korpusu pozwoli na zwiększenie reprezentatywności (np. codzienne konwersacje to tylko wycinek pokrycia językowej różnorodności) zob. zrównoważenie 9

Użytkownicy korpusu Jedna lub więcej grup docelowych Specjaliści, językoznawcy, informatycy... vs. np. użytkownicy rodzimi Grupa docelowa w sposób oczywisty warunkuje sposób prezentacji danych Zob. JURISDICT SLDR vs. inne-jezyki.amu.edu.pl vs. languagesindanger.eu (specjaliści, vs. językoznawcy i osoby zainteresowane rewitalizacją języków vs. uczniowie i studenci) 10

Wybór danych do korpusu Losowy (random) losowo wybrane reprezentacje danych z wszystkich dostępnych próbek Wg kategorii (stratified) wybór danych poprzedzony wstępną kategoryzacją próbek, w niektórych przypadkach nadanie wag kategoriom danych Zwykle ten wybór daje bardziej reprezentatywne dane końcowe, ponieważ wariancja pomiędzy grupami będzie większa niż wewnątrz grup i dlatego dobrze jest, aby wszystkie grupy/kategorie miały swoje reprezentacje w korpusie 11

Dobór danych wg kategorii Kanał komunikacyjny pisane, mówone, transkrybowane (Nie)publikowane Prywatne/instytucjonalne/mieszane kwestie prawne Adresat (adresaci) (liczba, obecność, interaktywność, rodzaj komunikowanego tekstu: ogólny, specjalizowany, osobisty) Nadawca Moderator(zy) Cele wypowiedzi: preswacja, rozrywka Tematy Środowisko wypoiwiedzi I warunki techniczne (wyp. mówione) 12

Autentyczność danych w korpusie Paradoks obserwatora - Observer's Paradox Celem badań językoznawczych prowadzonych w danej społeczności ma być ustalenie, jak ludzie rozmawiają ze sobą wtedy, gdy nikt ich systematycznie nie obserwuje. Ale takie dane możemy pozyskać tylko przez systematyczną obserwację. Labov (1972) Sociolinguistic Patterns. 13

Baza JST / CREST Ciekawym przykładem jest też baza mowy spontanicznej i ekspresywnej JST/CREST. Ta baza danych składa się z szeregu podzestawów, z których jeden zebrano tak, że ochotnikom zamontowano małe przenośne urządzenia do nagrywania. Urządzenia rejestrowały spontaniczną mowę tych osób podczas codziennych czynności (w pracy, domu czy szkole) przez stosunkowo długi okres czasu (np. kilka miesięcy). Zarządzanie? Metadane? 14

Korpus języka mówionego w Kilonii Metodą pośrednią pomiędzy dokumentowaniem mowy spontanicznej a elicytacją danych według ustalonego schematu jest stworzenie scenariusza nagrania rozmowy między dwoma użytkownikami języka, który ma być dokumentowany. Dla przykładu, część Korpusu języka mówionego Uniwersytetu w Kilonii stworzono tak, że dwu osobom dano dwa różne tygodniowe rozkłady zajęć i poproszono, by osoby te umówiły się przez telefon na spotkanie w terminie, który by im obu odpowiadał. W rezultacie uzyskano spontaniczne rozmowy z ograniczonym i w dużej mierze przewidywalnym inwentarzem słownictwa. 15

Korpus Are you talking to Mike or to the mike? Kilka etapów sesji nagraniowej zmiany mikrofonów, stopniowanie informacje o rozpoczęciu nagrywania Element emocjonalny fałszywa ocena negatywna 16

Linki http://pl.languagesindanger.eu/book-of-knowledge/lang uage-documentation/ http://sldr.org/voir_depot.php?id=868&version=1&lang=f r&prefix=sldr&creer_toc=oui#toc http://nkjp.pl/ http://www.natcorp.ox.ac.uk/corpus/index.xml?id=intro http://phoible.org/ http://wals.info/ http://glottolog.org/ http://www.buckeyecorpus.osu.edu/ 17

Dziękuję za uwagę!