Analiza danych tekstowych
|
|
- Sławomir Stefański
- 7 lat temu
- Przeglądów:
Transkrypt
1 Analiza danych tekstowych Łączenie informacji lingwistycznych i danych ilościowych Agnieszka Mykowiecka Instytut Podstaw Informatyki PAN Polsko-Japońska Akademia Technik Komputerowych agn@ipipan.waw.pl
2 Czy komputer/program komputerowy rozumie tekst? Chianti to położona w sercu Warszawy trattoria w toskańskim stylu, przepełniona zapachem ziół i oliwy. Chianti is located in the heart of Warsaw, Tuscan-style trattoria, full of the smell of herbs and olive oil. (Google Translator) Chianti is situated in the heart of the Tuscan-style trattoria in Warsaw full of the scent of herbs and olive oil. (Bing Translator) może...
3 Czy komputer/program komputerowy rozumie tekst? Chianti to położona w sercu Warszawy trattoria w toskańskim stylu, przepełniona zapachem ziół i oliwy. Chianti is located in the heart of Warsaw, Tuscan-style trattoria, full of the smell of herbs and olive oil. (Google Translator) Chianti is situated in the heart of the Tuscan-style trattoria in Warsaw full of the scent of herbs and olive oil. (Bing Translator) może...
4 Czy komputer/program komputerowy rozumie tekst? The annual Oscar nominee luncheon brings together contenders from all categories ahead of the awards in just under three weeks time. Roczny nominowany do Oscara lunch skupia pretendentów ze wszystkich kategorii, wyprzedzając nagród w czasie niespełna trzy tygodnie. (Google Translator, 2015) Roczna nominowany do Oscara obiad łączy z pretendentów wszystkie kategorie przed nagród w czasie niespełna trzy tygodnie. (Google Translator, 2017) Roczne Oscar nominacja obiadowe łączy rywali z wszystkich kategorii przed nagród w niecałe trzy tygodnie. (Bing Translator)... na pewno nie
5 Czy komputer/program komputerowy rozumie tekst? The annual Oscar nominee luncheon brings together contenders from all categories ahead of the awards in just under three weeks time. Roczny nominowany do Oscara lunch skupia pretendentów ze wszystkich kategorii, wyprzedzając nagród w czasie niespełna trzy tygodnie. (Google Translator, 2015) Roczna nominowany do Oscara obiad łączy z pretendentów wszystkie kategorie przed nagród w czasie niespełna trzy tygodnie. (Google Translator, 2017) Roczne Oscar nominacja obiadowe łączy rywali z wszystkich kategorii przed nagród w niecałe trzy tygodnie. (Bing Translator)... na pewno nie
6 Aplikacje NLP (Natural Language Processing) down-to-earth ( słabe NLP): przeszukiwanie sieci web, poprawa pisowni uwzględniająca kontekst, analiza trudności tekstu; ustalenie autorstwa, identyfikacja nazw własnych (osoby, firmy, nazwy geograficzne), far-reaching ( silne NLP) zamiana tekstu na dane strukturalne/zapis formalny prawdziwe rozumienie tekstu, wnioskowanie i podejmowanie decyzji na podstawie danych pozyskanych z tekstu (odpowiedzi na pytania), systemy dialogowe (dialog sterowany przez użytkownika). aplikacje flagowe : tłumaczenie Google translator rozumienie mowy, wydawanie poleceń: asystenci typu Apple s Siri
7 Aplikacje NLP (Natural Language Processing) down-to-earth ( słabe NLP): przeszukiwanie sieci web, poprawa pisowni uwzględniająca kontekst, analiza trudności tekstu; ustalenie autorstwa, identyfikacja nazw własnych (osoby, firmy, nazwy geograficzne), far-reaching ( silne NLP) zamiana tekstu na dane strukturalne/zapis formalny prawdziwe rozumienie tekstu, wnioskowanie i podejmowanie decyzji na podstawie danych pozyskanych z tekstu (odpowiedzi na pytania), systemy dialogowe (dialog sterowany przez użytkownika). aplikacje flagowe : tłumaczenie Google translator rozumienie mowy, wydawanie poleceń: asystenci typu Apple s Siri
8 Aplikacje NLP (Natural Language Processing) down-to-earth ( słabe NLP): przeszukiwanie sieci web, poprawa pisowni uwzględniająca kontekst, analiza trudności tekstu; ustalenie autorstwa, identyfikacja nazw własnych (osoby, firmy, nazwy geograficzne), far-reaching ( silne NLP) zamiana tekstu na dane strukturalne/zapis formalny prawdziwe rozumienie tekstu, wnioskowanie i podejmowanie decyzji na podstawie danych pozyskanych z tekstu (odpowiedzi na pytania), systemy dialogowe (dialog sterowany przez użytkownika). aplikacje flagowe : tłumaczenie Google translator rozumienie mowy, wydawanie poleceń: asystenci typu Apple s Siri
9 Dwa nurty formalny i statystyczny Metody formalne: wyrażenia regularne, gramatyki formalne, logiki nieklasyczne,... Nurt statystyczny : statystyki częstościowe, metody maszynowego uczenia się, klasyfikatory, modele liniowe. sieci neuronowe...
10 SHRDLU SHRDLU, a simple dialog with a user, about a small world of objects, 1973
11 Media Monitor
12 Media Monitor
13 Media Monitor
14 Co osiągnęliśmy? Żaden system komputerowy nie modeluje w sposób satysfakcjonujący komunikacji w języku naturalnym dla prawie wszystkich zadań są tylko rozwiązania przybliżone
15 Automatyczna analiza języka, wyznacznik celu Dave Bowman: Open the pod bay doors, HAL. HAL: I m sorry Dave, I m afraid I can t do that. Stanley Kubrick, Arthur C. Clarke 2001: A Space Odyssey (1968)
16 Komunikacja w języku naturalnym - etapy mowa:... tekst Open the pod bay doors, HAL. reprezentacja znaczenia r1 = REQUEST (e, open) agent(e, HAL) object(e, poddoors) interpretacja w kontekście (wiedza, cel, sytuacja... ) (r1 t1 t1 c2) c2 contradicts with c1 c1 aktualny cel reakcja, wybór rodzaju odpowiedzi: decline r 1 sformułowanie słowne odpowiedzi: I m sorry Dave, I m afraid I can t do that.
17 Komunikacja w języku naturalnym - etapy mowa:... tekst Open the pod bay doors, HAL. reprezentacja znaczenia r1 = REQUEST (e, open) agent(e, HAL) object(e, poddoors) interpretacja w kontekście (wiedza, cel, sytuacja... ) (r1 t1 t1 c2) c2 contradicts with c1 c1 aktualny cel reakcja, wybór rodzaju odpowiedzi: decline r 1 sformułowanie słowne odpowiedzi: I m sorry Dave, I m afraid I can t do that.
18 Komunikacja w języku naturalnym - etapy mowa:... tekst Open the pod bay doors, HAL. reprezentacja znaczenia r1 = REQUEST (e, open) agent(e, HAL) object(e, poddoors) interpretacja w kontekście (wiedza, cel, sytuacja... ) (r1 t1 t1 c2) c2 contradicts with c1 c1 aktualny cel reakcja, wybór rodzaju odpowiedzi: decline r 1 sformułowanie słowne odpowiedzi: I m sorry Dave, I m afraid I can t do that.
19 Komunikacja w języku naturalnym - etapy mowa:... tekst Open the pod bay doors, HAL. reprezentacja znaczenia r1 = REQUEST (e, open) agent(e, HAL) object(e, poddoors) interpretacja w kontekście (wiedza, cel, sytuacja... ) (r1 t1 t1 c2) c2 contradicts with c1 c1 aktualny cel reakcja, wybór rodzaju odpowiedzi: decline r 1 sformułowanie słowne odpowiedzi: I m sorry Dave, I m afraid I can t do that.
20 Komunikacja w języku naturalnym - etapy mowa:... tekst Open the pod bay doors, HAL. reprezentacja znaczenia r1 = REQUEST (e, open) agent(e, HAL) object(e, poddoors) interpretacja w kontekście (wiedza, cel, sytuacja... ) (r1 t1 t1 c2) c2 contradicts with c1 c1 aktualny cel reakcja, wybór rodzaju odpowiedzi: decline r 1 sformułowanie słowne odpowiedzi: I m sorry Dave, I m afraid I can t do that.
21 Komunikacja w języku naturalnym - etapy mowa:... tekst Open the pod bay doors, HAL. reprezentacja znaczenia r1 = REQUEST (e, open) agent(e, HAL) object(e, poddoors) interpretacja w kontekście (wiedza, cel, sytuacja... ) (r1 t1 t1 c2) c2 contradicts with c1 c1 aktualny cel reakcja, wybór rodzaju odpowiedzi: decline r 1 sformułowanie słowne odpowiedzi: I m sorry Dave, I m afraid I can t do that.
22 Przyczyny trudności 1. problemy z rozstrzyganiem niejednoznaczności: wyrażenia językowe mają często (częściej niż sobie to uświadamiany) więcej niż jedno znaczenie, prawidłowe rozstrzygniecie niejednoznaczności wymaga często danych z wielu poziomów analizy; 2. brak wystarczająco ogólnych metod reprezentacji semantyki; 3. jest wiele języków naturalnych różniących się między sobą nie tylko na poziomie syntaktycznym.
23 ASR rozpoznawanie mowy fala akustyczna opis numeryczny wybranych cech
24 ASR rozpoznawanie mowy fonemy sh ly j ax s h ae dx ax b ey b ly
25 ASR rozpoznawanie mowy fonemy słowa sh ly j ax s h ae dx ax b ey b ly She just had a baby
26 ASR rozpoznawanie mowy Główne przyczyny niejednoznaczności: różnice w wymowie, barwie głosu, niestaranność wymowy... hałasy tła, nakładające się głosy wielu mówców, niejednoznaczności fonologiczne, m o rz e może, morze
27 Analiza tekstu podział na zdania Teorie syntaktyczne opisują pojedyncze zdania, trzeba zatem je wydzielić. zdanie: sekwencja segmentów zakończona kropką (?!...)? niejednoznaczność kropki W 1964 r. Akademia Krakowska obchodziła swoje 600-lecie. Wysiłki zmierzające do ustalenia wojennej przeszłości bośniackich imigrantów rozpoczęły się w 2004 r. Informacje przekazywane służbom imigracyjnym USA... Dz.U nr 137 poz Ustawa z dnia 13 października 1998 r. o systemie ubezpieczeń społecznych
28 Analiza tekstu segmentacja/tokenizacja Identyfikacja elementów zdania (słowa, liczby, daty, adresy Najprostsze kryterium: sekwencja znaków między spacjami, znakami interpunkcyjnymi lub granicami wierszy. czasem to za mało: 3, czasem za dużo: dwuipółwieczny, dwuipółletni, dwuipółgodzinny, dwuipółmilowy,... biało-czerwony, niebiesko-pomarańczowo-żółty poszedłbym; bym poszedł niejednoznaczności segmentacji: Coś ty zrobił? / Co ty zrobiłeś / Coś zostało zrobione.
29 Analiza morfologiczna Morfeusz-SGJP identyfikacja form podstawowych (haseł słownikowych), kategorii gramatycznej i wartości cech morfologicznych rezultaty są różne, w zależności od przyjętych reguł segmentacji i analizatora morfologicznego, ale zawsze są niejednoznaczne
30 Analiza morfologiczna Morfeusz-SIaT
31 Analiza syntaktyczna identyfikacja fraz i ich powiązań budowa drzewa struktury niektóre niejednoznaczności są eliminowane, ale powstają kolejne: Dla brata gen Jacka gen kawa rozpuszczalna to nie jest kawa. [dla brata Jacka] [ kawa rozpuszczalna]... [dla brata] [ Jacka kawa rozpuszczalna]...
32 Analiza syntaktyczna drzewo rozbioru zgodne z gramatyką frazową (parser Świgra, Woliński)
33 Analiza syntaktyczna analiza zależnościowa (parser zależnościowy, Wróblewska) punct pred subj obj adjunct adjunct comp root Brat Jacka pije kawę z ekspresu.
34 Analiza semantyczna przypisanie interpretacji (na ogół rozbiorowi syntaktycznemu) Jan chodzi [do kina] [z przyjaciółmi]. predykat: chodzić aktor: Jan miejsce docelowe: kino??: przyjaciele Cats are mammals xcat(x) = Mammal(x) I have a cat xcat(x) Own(I, x)
35 Analiza semantyczna niektóre rozbiory syntaktyczne odpowiadają niemożliwym/mało prawdopodobnym interpretacjom semantycznym Jan chodzi [do kina] [z przyjaciółmi]. *Jan chodzi [do [kina [z przyjaciółmi]]]. Jan chodzi [do kina] [z nudów]. Jan chodzi [do [kina z [dobrym nagłośnieniem]]]. *Jan chodzi [do kina] [z [dobrym nagłośnieniem]]. czasem różne rozbiory syntaktyczne odpowiadają temu samemu znaczeniu, czasem różnym Po dwunastej jest spotkanie [w biurze ] [w [ pokoju 101 [ na pietrze]]] Po dwunastej jest spotkanie [w biurze ] [w pokoju 101] [ na pietrze]
36 Rozstrzyganie niejednoznaczności uwzględnienie kontekstu Większe fragmenty tekstu czy konwersacji, wiedza o świecie pomagają wybrać interpretację Pacjent opuścił salę operacyjną w dobrym stanie Kto/co było w dobrym stanie? pacjent opuścił [ salę operacyjną ] [ w dobrym stanie ] pacjent opuścił [salę operacyjną [w dobrym stanie] ]
37 Przykład 1 ekstrakcja terminologii
38 Ekstrakcja terminologii
39 Ekstrakcja terminologii Struktura gramatyczna terminów w jezyku polskim rzeczownik, akronim lub skrót rzeczownika: dochód, pasteryzacja EKG, ONZ ust.(awa), (ęp) rzeczownik z przymiotnikiem: stosunki gospodarcze kodeks karny sekwencja rzeczownika z rzeczownikiem w dopełniaczu: zapalenie nom płuc gen kodeks n;nom pracy n;gen kombinacja powyższych struktur: europejski rynek usług finansowych wodonercze niewielkiego stopnia dolnego układu podwójnego nerki prawej frazy przyimkowe, koordynacja...
40 Ekstrakcja terminologii Identyfikacja kandydatów wejście: dane oznaczone morfologicznie (POS, wartości cech morfologicznych) kandydatami na terminy są frazy zidentyfikowane za pomocą reguł syntaktycznych przykładowa gramatyka (formalizm programu TermoPl): NPP : $NAP NAP GEN ; NAP[agreement] : AP N AP ; NAP GEN[case = gen] : NAP; AP : ADJ ADJA DASH ADJ PPAS; N[pos=subst,ger]; DASH[form= - ]; ADJ[pos=adj]; ADJA[pos=adja]; PPAS[pos=ppas];
41 Ekstrakcja terminologii Lista frekwencyjna fraz dla danych szpitalnych
42 Ekstrakcja terminologii Rangowanie fraz slightly modified C-value coefficient (Frantzi et al, 2000) comprising both one-word and multi-word phrases in one terminology list: C-value(p) = l(p) (freq(p) 1 r(lp) lp LP freq(lp)) if r(lp) > 0, l(p) freq(p), if r(lp) = 0 (1) l increases weight for longer phrases. It is equal to the logarithm of phrase length for multi-word expressions and a constant (e.g. 0.1) for one word terms. LP is a set of different phrases containing p, and r(lp) is the number of their types, r(lp) is counted as a number of different pairs of the nearest left and right words combined together.
43 Ekstrakcja terminologii nadmiarowe elementy fraz słowa wskazujące na określenie czasu, jak np: miesiąc, czwartek, styczeń, poniedziałek przymiotników wymagających kontekstu do interpretacji np: inny, niektóry, jakiś, pewien, dalszy przyimki złożone: [w kierunku] zapalenia nerek kierunek zapalenia nerek [pod postacia] podatku VAT postać podatku VAT [pod katem] diagnostyki obrazowej kat diagnostyki obrazowej; [pod katem] prostym kat prosty
44 Ekstrakcja terminologii Wyniki (dla podanej gramatyki i wybranego zbioru danych medycznych) poprawne terminy medyczne, np. ciśnienie tętnicze krwi terminy ogólne: pora nocy, kolejna próba terminy niepoprawne; błędy mogą wynikać z: niedostatków gramatyki: dziewczynka skierowana z frazy dziewczynka skierowana do chirurga; 5-letni chłopiec błędów anotacji: Lacidofil zalecenia (zalecenia otagowane jako dopełniacz a nie mianownik); złego podziału fraz na podfrazy: infekcja dróg, USG jamy.
45 Ekstrakcja terminologii Niepoprawne podterminy Przykłady frazy o silnym powiązaniu słów: w medycynie: pęcherzyk żółciowy, jama brzuszna, staw kolanowy w ekonomii: papiery wartościowe, fundusz inwestycyjny w angielskim: contact lens Gramatycznie poprawne zagnieżdżone frazy, które nie są terminami dziedzinowymi: [zapalenie pęcherzyka] żółciowego [USG jamy] brzusznej [operacja lewego stawu] kolanowego [giełda papierów] wartościowych [uczestnik funduszu] inwestycyjnego [soft contact] lens
46 Ekstrakcja terminologii Próba karania niepoprawnych podfraz NPMI Wydzielanie fraz zaczynamy od najsłabszego miejsca. Siłę związku mierzymy jako: Normalised Pointwise Mutual Information ( NPMI(x, y) = ln p(x, y) p(x)p(y) ) / ln p(x, y) (2) x y jest bigramem składajacym sie z lematów tokenów x i y, p(x,y) jest prawdopodobinstwem bigramu x y w korpusie, p(x), p(y) jest prawdopodobienstwem unigramów x i y w korpusie.
47 Ekstrakcja terminologii Efekt uwzględnienia NPMI nominalna roczna stopa procentowa nominal annual interest rate nominalna roczna stopa roczna stopa stopa = stopa roczna stopa procentowa roczna stopa procentowa stopa procentowa stopa procentowa
48 Ekstrakcja terminologii Wyniki programu TermoPL dla danych szpitalnych
49 Ekstrakcja terminologii Frazy ze słowem zapalenie zapalenie płuc zapalenie oskrzeli zapalenie wyrostka robaczkowego przewlekłe zapalenie wątroby typu odoskrzelowe zapalenie płuc zapalenie gardła ostre zapalenie wyrostka robaczkowego zapalenie ucha środkowego podejrzenie ostrego zapalenia wyrostka robaczkowego zapalenie opon mózgowo-rdzeniowych kierunek zapalenia wyrostka robaczkowego przewlekłe zapalenie powód zapalenia płuc Obturacyjne zapalenie oskrzeli atopowe zapalenie skóry zapalenie ucha zapalenie wątroby
50 Przykład 2 Jak zapisać wiedzę, że: słoń jest bardziej podobny do tygrysa niż do słońca? Jak stwierdzić, że zdanie: Samochód Kasi jest czerwony. jest bardziej podobne znaczeniowo do Kasi auto polakierowane jest na czerwono. niż do Sweter Kasi jest czerwony. lub, że na następujące pytania można udzielić tej samej odpowiedzi? Jak włączyć transmisję danych w telefonie? Jak mogę włączyć transmisję danych? Co (trzeba) zrobić by działała transmisja danych w telefonie? I jeszcze mam pytanie o transmisję danych. Jak ją uruchomić?
51 Słowa Wiele relacji między słowami hiperonimia/hiponimia słoń ssak biec przemieszczać się co-hiponimia słoń tygrys biec gnać antonimia krótki długi synonimia auto samochód holonimia/meronimia auto silnik
52 Słowa Wiele znaczeń jednego słowa baza znaczeń słów plwordnet 3.0, Verbs Nouns Adjectives Sum lemmas lexical units synsets monosemous lemmas polisemous lemmas
53 Słowa plwordnet, przykład hasła
54 Semantyka dystrybucyjna Hipoteza dystrybucyjna Leksemy o podobnych cechach dystrybucyjnych mają podobne znaczenie Firth (1957): You shall know a word by the company it keeps! Modele dystrybucyjne (DSM) to implementacja hipotezy dystrybucyjnej służąca do dokonywania przybliżonej analizy semantycznej.
55 Podobieństwo słów, metody dystrybucyjne tesguino example (Jurafsky & Martin) Butelka tesguino stoi na stole. Wszyscy lubią pić tesguino. Tesguino sprawia, że jesteś pijany. Tesguino przyrządzane jest z kukurydzy. Co wiadomo o tesguino? tesguino jest napojem alkoholowym (wyrabianym z kukurydzy)
56 Podobieństwo słów, metody dystrybucyjne tesguino example (Jurafsky & Martin) Butelka tesguino stoi na stole. Wszyscy lubią pić tesguino. Tesguino sprawia, że jesteś pijany. Tesguino przyrządzane jest z kukurydzy. Co wiadomo o tesguino? tesguino jest napojem alkoholowym (wyrabianym z kukurydzy)
57 Wektory współwystępowania
58 Wektory współwystępowania
59 Wektory współwystępowania Słowa reprezentowane przez bliskie wektory są semantycznie podobne Podobieństwo wektorów można ustalać za pomocą różnie zdefiniowanych miar podobieństwa (najczęściej jest to cosinus kąta miedzy nimi).
60 Modele dystrybucyjne Modele dystrybucyjne słów oparte są (bezpośrednio lub pośrednio) na częstościach występowania słów w tekście. Sposób tworzenia wektorów reprezentacyjnych słowa: częstości względne współwystępowania wybranych słów i wybranych kontekstów, znormalizowane z wykorzystaniem PMI, redukcja wymiarów za pomocą LSA współczynniki uzyskane z reprezentacji tekstu za pomocą sieci neuronowej - word2vec (Mikolow, 2013) inne metody, np. GLoVE (Pennington, J., Socher, R. & Manning, C. 2014).
61 Szukanie słów podobnych dom plwordnet NKJP+Wikipedia domek 0.73 chałupa 0.64 barak 0.62 chata 0.61 mieszkanie 0.60 willa 0.60 dworek 0.58 altanka 0.57 gospoda 0.56 sypialnia 0.56 kamienica 0.55 świetlica 0.55 domostwo 0.55 Domek 0.55 piwnica 0.55 plebania 0.55 schronisko 0.55 pałacyk 0.54 szałas 0.54 chatka 0.54 pensjonat 0.54 suterena 0.53 baraczek 0.53 pałac 0.53 altana 0.53 stodoła 0.53 pokoik 0.53 budynek 0.52 Wikipedia pałacyk 0.71 domek 0.70 dworek 0.68 pałac 0.67 pawilon 0.66 szpital 0.65 lokal 0.65 pensjonat 0.64 budynek 0.64 apartament 0.62 sierociniec 0.62 dwór 0.60 grobowiec 0.60 pasaż 0.59 zajazd 0.58 ogród 0.58 zameczek 0.58 kościół 0.57 klasztor 0.56 lamus 0.56 sklep 0.56 przytułek 0.55 konwikt 0.55 żłobek 0.55 ośrodek 0.55 refektarz 0.55 kościółek 0.55 zakład 0.55
62 Szukanie słów podobnych
63 Przypisanie znaczenia słowu w kontekście WSD - word sense disambiguation model dystrybucyjny słów nie rozwiązuje problemu wieloznaczności leksykalnej, wektor dystrybucyjny słowa zawiera wszystkie znaczenia, w przypadku nierównego rozkładu znaczeń - największą wagę mają znaczenie najczęstsze.
64 Przypisanie znaczenia słowu w kontekście WSD - word sense disambiguation trudność, trudna sytuacja, z którą człowiek musi się problem 1: zmierzyć zagadnienie, zadanie do rozwiązania, kwestia do przemyślenia, podjęcia problem 2: decyzji Raport podkreśla, że w wielu krajach poważnym problemem/1 jest wysokie bezrobocie. Pozostaje wreszcie problem/2 walorów dydaktycznych książki.
65 Przypisanie znaczenia słowu w kontekście WSD - word sense disambiguation problem 1: kwestia, pytanie, zagwozdka, zagadnienie problem 2: bieda, kłopot, ambaras
66 Przypisanie znaczenia słowu w kontekście Dane model dystrybucyjny dla wyznaczonych zestawów słów/znaczeń(wikipedia). anotacja semantyczna Składnicy zbioru 8241 zweryfikowanych ręcznie drzew rozbioru (ok. 50K słów) przymiotniki, rzeczowniki i czasowniki w tym zdaniach oznaczone są znaczeniami z plwordnet wersja 2.0, oznaczeń w 2785 (34%) zdaniach; ok tokenów w tych zdaniach (12%) nie ma definicji w plwordnet. 303 wystąpień 124 słów obsługiwanych przez tę metodę, 5571 wystąpień słów jednoznacznych, np. słowo problem wystąpiło 38 razy, 23 razy w znaczeniu 1, a 15 w znaczeniu 2, 20 wystąpień oznaczonych poprawnie
67 Przypisanie znaczenia słowu w kontekście Metoda 1 metoda nienadzorowana: korzystając z poniższego wzoru (Taddy, 2015) wyznaczamy prawdopodobieństwa zdania ograniczonego do kontekstu wyrazów jednoznacznych i jednego z alternatywnych wektorów sensu i wybieramy to z najwyższym prawdopodobieństwem logp V (w) = T j=1 k=1 T 1 [1 k j b] logp V (w k w j ) (3) 2 metoda nadzorowana: dane: po 2 wektory prawo- i lewostronnego kontekstu; słowo reprezentowane jest przez wektor reprezentujący wszystkie znaczenia trenowanie modelu składającego się LSTM i gęstej warstwy z sigmoidalną funkcją aktywacji, Keras w końcowym kroku wektor wyjściowy sieci porównywany jest z wekorami sensów
68 Przypisanie znaczenia słowu w kontekście Metoda 1 metoda nienadzorowana: korzystając z poniższego wzoru (Taddy, 2015) wyznaczamy prawdopodobieństwa zdania ograniczonego do kontekstu wyrazów jednoznacznych i jednego z alternatywnych wektorów sensu i wybieramy to z najwyższym prawdopodobieństwem logp V (w) = T j=1 k=1 T 1 [1 k j b] logp V (w k w j ) (3) 2 metoda nadzorowana: dane: po 2 wektory prawo- i lewostronnego kontekstu; słowo reprezentowane jest przez wektor reprezentujący wszystkie znaczenia trenowanie modelu składającego się LSTM i gęstej warstwy z sigmoidalną funkcją aktywacji, Keras w końcowym kroku wektor wyjściowy sieci porównywany jest z wekorami sensów
69 Przypisanie znaczenia słowu w kontekście Rezultaty Method Settings Precision random baseline N/A 0.47 MFS baseline N/A 0.73 pagerank* N/A 0.52 unsupervised supervised 5 word context word epochs epochs epochs Kędzia et al., wynik dla wszystkich słów
70 Metody radzenia sobie z problemami niejednoznaczności: przybliżenia, wybór najbardziej prawdopodobnego rozwiązania; łączenie podejścia statystycznego i formalnego; zapis semantyki i metod wnioskowania: formuły logiczne. ontologie, semantyka dystrybucyjna, semantyka kompozycyjno-dystrybucyjna; wielość języków: budowa zasobów i aplikacji wielojęzycznych, baz łączących słowa/nazwy pojęć w wielu językach. Łączenie nurtu formalnego ze statystycznym.
71 Metody radzenia sobie z problemami niejednoznaczności: przybliżenia, wybór najbardziej prawdopodobnego rozwiązania; łączenie podejścia statystycznego i formalnego; zapis semantyki i metod wnioskowania: formuły logiczne. ontologie, semantyka dystrybucyjna, semantyka kompozycyjno-dystrybucyjna; wielość języków: budowa zasobów i aplikacji wielojęzycznych, baz łączących słowa/nazwy pojęć w wielu językach. Łączenie nurtu formalnego ze statystycznym.
72 Literatura 1. Jurafsky Daniel, Martin James H. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 2nd Edition: Upper Saddle River, Hajnicz, E Lexico-semantic annotation of składnica treebank by means of plwn lexical units. In Heili Orav, Christiane Fellbaum, and Piek Vossen, editors, Proc. of the 7th Int. WordNet Conference (GWC 2014), pp 23 31, Tartu, Estonia. 3. Kędzia, P., Piasecki, M. and Orlińska, M Word sense disambiguation based on large scale Polish CLARIN heterogeneous lexical resources. Cognitive Studies Études cognitives, 15: Marciniak, M. and Mykowiecka, A. Terminology Extraction from Medical Texts in Polish. Journal of Biomedical Semantics, 5. (2014) 5. Marciniak, M. and Mykowiecka, A. Nested Term Recognition Driven by Word Connection Strength. Terminology, 21(2), , (2015) 6. Marciniak, M. and Mykowiecka, A., Rychlik, P. TermoPL - a Flexible Tool for Terminology Extraction, LREC 2016, Portorož, Slovenia, European Language Resources Association (ELRA). 7. Mykowiecka, A., Marciniak, M., Rychlik, P. Recognition of non-domain phrases in automatically extracted lists of terms, Proceedings of the 5th International Workshop on Computational Terminology (Computerm2016), Osaka Wawer, A., Mykowiecka A., Supervised and Unsupervised Word Sense Disambiguation on Word Embedding Vectors of Unambigous Synonyms, Proc. of the SENSE Workshop EACL, Walencja, Woliński, M., Głowińska, K. and Świdziński, M A preliminary version of Składnica a treebank of Polish. In Z. Vetulani, editor, Proc. of the 5th Language & Technology Conference, pp , Poznań, Poland.
73 Linki TermoPL - web service TermoPl - program do pobrania Korpusomat - program do oznaczenia tekstu tagami morfologicznymi Concraft - tagger do pobrania
TermoPL dopasowany do XML-owego wyjścia Korpusomatu
TermoPL dopasowany do XML-owego wyjścia Korpusomatu Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik Instytut Podstaw Informatyki PAN mm@ipipan.waw.pl, agn@ipipan.waw.pl, rychlik@ipipan.waw.pl
Ekstrakcja terminologii dziedzinowej program TermoPL
Ekstrakcja terminologii dziedzinowej program TermoPL Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik Instytut Podstaw Informatyki PAN mm@ipipan.waw.pl, agn@ipipan.waw.pl, rychlik@ipipan.waw.pl
Ekstrakcja terminologii z korpusów dziedzinowych
Ekstrakcja terminologii z korpusów dziedzinowych Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik Instytut Podstaw Informatyki PAN mm@ipipan.waw.pl, agn@ipipan.waw.pl, rychlik@ipipan.waw.pl IV
Ekstrakcja terminologii z tekstów w języku polskim program TermoPL
Ekstrakcja terminologii z tekstów w języku polskim program TermoPL Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik Seminarium IPI PAN, 11 stycznia 2016 Zadanie Cel ekstrakcji terminologii: wydobycie
Maszynowe tłumaczenie Polskiego Języka Migowego
Maszynowe tłumaczenie Polskiego Języka Migowego Projekt WiTKoM Dorota Grądalska VoicePIN.com Sp. z o.o; Akademia Górniczo-Hutnicza, Wydział Informatyki, Elektroniki i Telekomunikacji, Katedra Elektroniki
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej
KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI
Ocena celująca KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI Poziom kompetencji językowej ucznia wykracza poza wiadomości i umiejętności przewidziane dla klasy szóstej. - uczeń potrafi przyjąć
Lokalizacja Oprogramowania
mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji
Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:
WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Marcin Woliński i Anna Andrzejczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Warsztaty CLARIN-PL,
Bank częściowo ujednoznacznionych struktur LFG
Bank częściowo ujednoznacznionych struktur LFG Katarzyna Krasnowska 1 Witold Kieraś 1,2 1 IPI PAN 2 IJP UW 7 października 2013 Katarzyna Krasnowska Witold Kieraś Bank struktur LFG 7 października 2013 1
2
1 2 3 4 5 Dużo pisze się i słyszy o projektach wdrożeń systemów zarządzania wiedzą, które nie przyniosły oczekiwanych rezultatów, bo mało kto korzystał z tych systemów. Technologia nie jest bowiem lekarstwem
AUTOMATYKA INFORMATYKA
AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów
Wstęp do Językoznawstwa
Wstęp do Językoznawstwa Prof. Nicole Nau UAM, IJ, Językoznawstwo Komputerowe Dziesiąte zajęcie 08.12.2015 Składnia: Co bada? Jak bada? Konstrukcja składniowa a) ciąg (zespół) form wyrazowych związanych
Szkoła Podstawowa Nr 45 z Oddziałami Integracyjnymi im. Jana Pawła II w Białymstoku Przedmiotowy system oceniania JĘZYK ANGIELSKI
Szkoła Podstawowa Nr 45 z Oddziałami Integracyjnymi im. Jana Pawła II w Białymstoku Przedmiotowy system oceniania JĘZYK ANGIELSKI Normy wymagań na oceny w klasie IV Ocena dopuszczająca W zakresie gramatyki
CLARIN rozproszony system technologii językowych dla różnych języków europejskich
CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska
Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska Seminarium przetwarzania języka naturalnego Mateusz Kopeć Instytut Podstaw Informatyki Polskiej Akademii Nauk 6 lutego 2012 Plan 1 Zadanie
Program warsztatów CLARIN-PL
W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19
Model zaszumionego kanału
W X kanal Y W^ koder dekoder p(y x) Oryginalna praca Shannona polegała na poszukiwaniu takiego kodowania, które umożliwiało ustalenie nadmiarowości informacji w taki sposób, żeby na wyjściu można było
Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki
Analiza leksykalna 1 Teoria kompilacji Dr inż. Janusz Majewski Katedra Informatyki Zadanie analizy leksykalnej Kod źródłowy (ciąg znaków) Analizator leksykalny SKANER Ciąg symboli leksykalnych (tokenów)
Małgorzata Marciniak, Agnieszka Mykowiecka, Piotr Rychlik Instytut Podstaw Informatyki PAN, Warszawa Malgorzata.Marciniak@ipipan.waw.pl, Agnieszka.Mykowiecka@ipipan.waw.pl, Piotr.Rychlik@ipipan.waw.pl
EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa
, semantyczne powiązanie i podobieństwo, odległość Projekt przejściowy ARR Politechnika Wrocławska Wydział Elektroniki Wrocław, 22 października 2013 Spis treści 1 językowa 2, kryteria 3 Streszczenie artykułu
Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.
Inforex - zarządzanie korpusami i ich anotacja Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl jan.kocon@pwr.edu.pl
Inforex - zarządzanie korpusami i ich anotacja
Inforex - zarządzanie korpusami i ich anotacja Marcin Oleksy marcin.oleksy@pwr.edu.pl Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii
Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur
Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur Maciej Piasecki, Paweł Kędzia Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Plan prezentacji
Pattern Classification
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors
Języki programowania zasady ich tworzenia
Strona 1 z 18 Języki programowania zasady ich tworzenia Definicja 5 Językami formalnymi nazywamy każdy system, w którym stosując dobrze określone reguły należące do ustalonego zbioru, możemy uzyskać wszystkie
Programowanie komputerów
Programowanie komputerów Wykład 1-2. Podstawowe pojęcia Plan wykładu Omówienie programu wykładów, laboratoriów oraz egzaminu Etapy rozwiązywania problemów dr Helena Dudycz Katedra Technologii Informacyjnych
Podstawy programowania: Python. Wprowadzenie. Jolanta Bachan
Podstawy programowania: Python Wprowadzenie Jolanta Bachan Informacje do kontaktu email: jolabachan@gmail.com strona internetowa: http://bachan.speechlabs.pl/ dyżury w sali 312aB środa, 9:30-10:00 czwartek,
System Korekty Tekstu Polskiego
Wnioski Grzegorz Szuba System Korekty Tekstu Polskiego Plan prezentacji Geneza problemu i cele pracy Opis algorytmu bezkontekstowego Opis algorytmów kontekstowych Wyniki testów Rozszerzenie pracy - uproszczona
Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich
Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich Adam Radziszewski Instytut Informatyki Stosowanej PWr SIIS 23, 12 czerwca 2008 O
Wymagania edukacyjne na poszczególne oceny (poziom IV.0-2 godziny tygodniowo) Język francuski- Danuta Kowalik kl. 1c
Wymagania edukacyjne na poszczególne oceny (poziom IV.0-2 godziny tygodniowo) Język francuski- Danuta Kowalik kl. 1c Celujący Bardzo dobry MATERIAŁ GRAMATYCZNO -LEKSYKALNY bezbłędnie posługiwać się podstawowym
Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych
Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych mgr inż. Michał Marcińczuk opiekun naukowy prof. Zbigniew Huzar Instytut Informatyki Stosowanej Politechnika Wrocławska 17 czerwca 2008 Plan
Autoreferat. 2. Posiadane dyplomy i stopnie naukowe z podaniem nazwy, miejsca i roku ich uzyskania oraz tytułu rozprawy doktorskiej
Autoreferat 1. Imię i nazwisko Małgorzata Marciniak 2. Posiadane dyplomy i stopnie naukowe z podaniem nazwy, miejsca i roku ich uzyskania oraz tytułu rozprawy doktorskiej 1987: Dyplom studiów wyższych
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Marcin Deptuła Julian Szymański, Henryk Krawczyk Politechnika Gdańska Wydział Elektroniki, Telekomunikacji i Informatyki Katedra Architektury
Eksploracja Zasobów Internetu
document accents, spacing, etc. stopwords noun groups stemming automatic or manual indexing structure recognition structure full text index terms When Google encounters a hyphen ( ) in a query term, e.g.,
Kategorialny Parser Składniowo-Semantyczny dla języka polskiego
Kategorialny Parser Składniowo-Semantyczny dla języka polskiego Wojciech Jaworski Instytut Informatyki Uniwersytetu Warszawskiego Instytut Podstaw Informatyki Polskiej Akademii Nauk 26 kwietnia 2016 Wojciech
Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych
Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej
Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa
Spis treści -1 LXIII Zjazd PTJ, Warszawa 16-17.09.2003 Pomor, Humor Morfeusz SIAT Poliqarp Holmes Kryteria wyboru Robert Wołosz Marcin Woliński Adam Przepiórkowski Michał Rudolf Niebieska gramatyka Saloni,
WebSty otwarty webowy system do analiz stylometrycznych
WebSty otwarty webowy system do analiz stylometrycznych Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl
Z punktu widzenia kognitywisty: język naturalny
Z punktu widzenia kognitywisty: język naturalny Wykład VIII: Neuronalne podstawy języka Fonologia Dwa paradygmaty:strukturalizm(fonemy i cechy dystynktywne jako podstawa wyjaśnień) oraz fonologia nieliniowa
Wymagania edukacyjne z j. angielskiego na rok szkolny 2013/2014 klasa 1 szkoła podstawowa
Dominika Birkenmajer Wymagania edukacyjne z j. angielskiego na rok szkolny 2013/2014 klasa 1 szkoła podstawowa 1. zakres tematyczny: powitania, pożegnania liczenie 1-10 kolory, owoce moje zabawki przybory
Zadanie analizy leksykalnej
Analiza leksykalna 1 Teoria kompilacji Dr inŝ. Janusz Majewski Katedra Informatyki Zadanie analizy leksykalnej Przykład: We: COST := ( PRICE + TAX ) * 0.98 Wy: id 1 := ( id 2 + id 3 ) * num 4 Tablica symboli:
Widzenie komputerowe (computer vision)
Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja
Przetwarzanie Języka Naturalnego dr inż. Krzysztof Rzecki. Przetwarzanie Języka Naturalnego konspekt (30 godzin) Dr inż.
Przetwarzanie Języka Naturalnego konspekt (30 godzin) Dr inż. Krzysztof Rzecki Literatura: W. Lubaszewski, Słowniki komputerowe i automatyczna ekstrakcja informacji z tekstu, AGH Kraków 2009. Kłopotek
CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy
Cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy 13 15 kwietnia 2015 roku Warszawa, Pałac Staszica, ul. Nowy Świat 72, sala 144
Analiza danych tekstowych i języka naturalnego
Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach
Zaawansowane narzędzie do analizy korpusu w oparciu o reguły
CLARIN-PL Zaawansowane narzędzie do analizy korpusu w oparciu o reguły Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl 2015-04-13
Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów
Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów Maciej Piasecki, Jan Kocoń Politechnika Wrocławska Katedra InteligencjiObliczeniowej Grupa
Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec
Systemy agentowe Uwagi organizacyjne i wprowadzenie Jędrzej Potoniec Kontakt mgr inż. Jędrzej Potoniec Jedrzej.Potoniec@cs.put.poznan.pl http://www.cs.put.poznan.pl/jpotoniec https://github.com/jpotoniec/sa
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Instrukcja. opracował Marcin Oleksy
Instrukcja opracował Marcin Oleksy Wstęp Zarządzanie korpusem Flagi Flagowanie korpusu Usuwanie i edytowanie flag Użytkownicy Przypisywanie użytkowników Role użytkowników Cofnięcie dostępu Podkorpusy Tworzenie
Metody Kompilacji Wykład 1 Wstęp
Metody Kompilacji Wykład 1 Wstęp Literatura: Alfred V. Aho, Ravi Sethi, Jeffrey D. Ullman: Compilers: Princiles, Techniques, and Tools. Addison-Wesley 1986, ISBN 0-201-10088-6 Literatura: Alfred V. Aho,
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P7 KWIECIEŃ 2019 Zadanie 1. (0 1) PF Zadanie 2. (0 1) II. Analiza i interpretacja
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P2 KWIECIEŃ 2019 Zadanie 1. (0 1) 2) wyszukuje w wypowiedzi potrzebne informacje
Korpus Dyskursu Parlamentarnego
Korpus Dyskursu Parlamentarnego Maciej Ogrodniczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki PAN Warsztaty CLARIN-PL Lublin, 25 września 2019 r. Korpus Dyskursu Parlamentarnego W pigułce:
Filozofia z elementami logiki Język jako system znaków słownych część 2
Filozofia z elementami logiki Język jako system znaków słownych część 2 Mariusz Urbański Instytut Psychologii UAM Mariusz.Urbanski@.edu.pl Rozkład jazdy 1 Pojęcie znaku 2 Funkcje wypowiedzi językowych
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ: GH-P2 KWIECIEŃ 2017 Zadanie 1. (0 1) FP Zadanie 2. (0 1) B Zadanie 3. (0 1)
Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)
Polszczyzna i inżynieria lingwistyczna Autor: Marcin Miłkowski (IFiS PAN) 1 Polszczyzna i jej cechy szczególne Polszczyzną posługuje się od 40 do 48 milionów osób: najczęściej używany język zachodniosłowiański
System Korekty Tekstu Polskiego
System Korekty Tekstu Polskiego Plan prezentacji Geneza problemu i cele pracy Opis algorytmu bezkontekstowego Opis algorytmów kontekstowych Wyniki testów Wersja algorytmu dla języka hiszpańskiego Wnioski
Automatyczne wspomaganie tworzenia słowników fleksyjnych jednostek wieloczłonowych
Automatyczne wspomaganie tworzenia słowników fleksyjnych jednostek wieloczłonowych IPI PAN 26 stycznia 2015 Przeglad treści Wstęp 1 Wstęp 2 3 4 5 Problem podstawowy Odmiana jednostek wieloczłonowych: (np.:
WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO DLA KLASY 2 SP
PODRĘCZ NIK New English Adventure 2 WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO DLA KLASY 2 SP Nadrzędnym celem nauczania języka obcego jest wytworzenie kompetencji językowej i komunikacyjnej, umożliwiającej
Metoda Tablic Semantycznych
Procedura Plan Reguły Algorytm Logika obliczeniowa Instytut Informatyki Plan Procedura Reguły 1 Procedura decyzyjna Logiczna równoważność formuł Logiczna konsekwencja Procedura decyzyjna 2 Reguły α, β,
Spis treści. ROZDZIAŁ 2 Wzajemne oddziaływanie między leksykonem a innymi środkami służącymi kodowaniu informacji... 67
Spis treści Wykaz skrótów... 11 Przedmowa... 15 Podziękowania... 17 ROZDZIAŁ 1 Wprowadzenie: założenia metodologiczne i teoretyczne... 19 1. Cel i układ pracy...... 19 2. Język jako przedmiot badań...
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P2 KWIECIEŃ 2018 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek
Semantyczne podobieństwo stron internetowych
Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana
Zastosowanie Wikipedii w przetwarzaniu języka naturalnego
Zastosowanie Wikipedii w przetwarzaniu języka naturalnego Plan prezentacji Wikipedia Klasyfikacja Zastosowanie w NLP Plan prezentacji Wikipedia Klasyfikacja Zastosowanie w NLP Rysunek : http://img2.wikia.nocookie.net/
Matematyczne Podstawy Informatyki
Matematyczne Podstawy Informatyki dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Rok akademicki 2013/2014 Gramatyki bezkontekstowe I Gramatyką bezkontekstową
Metoda tabel semantycznych. Dedukcja drogi Watsonie, dedukcja... Definicja logicznej konsekwencji. Logika obliczeniowa.
Plan Procedura decyzyjna Reguły α i β - algorytm Plan Procedura decyzyjna Reguły α i β - algorytm Logika obliczeniowa Instytut Informatyki 1 Procedura decyzyjna Logiczna konsekwencja Teoria aksjomatyzowalna
Wymagania na poszczególne oceny do podręcznika Steps Forward -klasa IV język angielski
Wymagania na poszczególne oceny do podręcznika Steps Forward -klasa IV język angielski Ocena celująca First steps dobrą. Zna wszystkie wyrazy z zakresu:żywność,ubrania, kolory,przybory szkolne, liczby
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ: GH-P7 KWIECIEŃ 2017 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek
Komputerowa diagnoza medyczna tworzenie i interpretowanie. prof. dr hab. inż. Andrzej Walczak
Komputerowa diagnoza medyczna tworzenie i interpretowanie prof. dr hab. inż. Andrzej Walczak Agenda 1. Po co budujemy komputerowe wspomaganie diagnostyki medycznej? 2. Wymagania na IT wdrażane w medycynie
AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I
AKUSTYKA MOWY Podstawy rozpoznawania mowy część I PLAN WYKŁADU Część I Podstawowe pojęcia z dziedziny rozpoznawania mowy Algorytmy, parametry i podejścia do rozpoznawania mowy Przykłady istniejących bibliotek
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P2 KWIECIEŃ 2016 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek
Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu
Zasób leksykalny polszczyzny II poł. XIX wieku a możliwość automatycznej analizy morfologicznej tekstów z tego okresu DEC-2012/07/B/HS2/00570 Magdalena Derwojedowa Witold Kieraś Danuta Skowrońska Robert
WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp
WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp Natalia Kotsyba, IBI AL UW 24 marca 2010 Plan zajęć Praca domowa na zapytania do Korpusu IPI PAN za pomocą
Modelowanie języka polskiego z wykorzystaniem gramatyki struktur frazowych
Modelowanie języka polskiego z wykorzystaniem gramatyki struktur frazowych Naszym celem jest modelowanie języka. Model językowy odgrywa ważną rolę w systemach automatycznego rozpoznawania mowy dużego słownika.
JĘZYK ANGIELSKI POZIOM ROZSZERZONY
EGZAMIN GIMNAZJALNY W ROKU SZKOLNYM 2013/2014 JĘZYK ANGIELSKI POZIOM ROZSZERZONY ROZWIĄZANIA ZADAŃ I SHEMAT PUNKTOWANIA KWIEIEŃ 2014 Rozumienie ze słuchu Wymagania ogólne II. Rozumienie Uczeń rozumie proste,
ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY Z JĘZYKA NIEMIECKIEGO Nauczyciel prowadzący: mgr Agnieszka Krzeszowiak, mgr Teresa Jaśkowska
ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY Z JĘZYKA NIEMIECKIEGO Nauczyciel prowadzący: mgr Agnieszka Krzeszowiak, mgr Teresa Jaśkowska Ocena bieżąca postępów ucznia uwzględnia wszystkie cztery
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018
EGZAMIN W KLASIE TRZEIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018 ZĘŚĆ 1. JĘZYK POLSKI ZASADY OENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P7 KWIEIEŃ 2018 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek zawartych
WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO klasa III Magdalena Pajor GRAMATYKA I SŁOWNICTWO. Poziomy wymagań:
WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO klasa III Magdalena Pajor GRAMATYKA I SŁOWNICTWO - potrafi poprawnie operować niedużą ilością najprostszych struktur gramatycznych - potrafi budować zdania ale
Wymagania edukacyjne-język angielski Klasa VII-English Class-poziom A2plus
Wymagania edukacyjne-język angielski Klasa VII-English Class-poziom A2plus WIEDZA UMIEJĘTNOŚCI RECEPCJA PRODUKCJA INTERAKCJA Uczeń posługuje się zakresem środków językowych pozwalających mu na realizację
deep learning for NLP (5 lectures)
TTIC 31210: Advanced Natural Language Processing Kevin Gimpel Spring 2019 Lecture 6: Finish Transformers; Sequence- to- Sequence Modeling and AJenKon 1 Roadmap intro (1 lecture) deep learning for NLP (5
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P7 KWIECIEŃ 2016 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek
WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów
IJP PAN / UP Kraków maciejeder@gmail.com WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów ws.clarin-pl.eu/websty.shtml Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016
EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P8 KWIECIEŃ 2016 Zadanie 1. (0 1) 2) wyszukuje w wypowiedzi potrzebne informacje
EGZAMIN MATURALNY 2011 JĘZYK ANGIELSKI
Centralna Komisja Egzaminacyjna w Warszawie EGZAMIN MATURALNY 2011 JĘZYK ANGIELSKI POZIOM PODSTAWOWY MAJ 2011 2 Egzamin maturalny z języka angielskiego poziom podstawowy ZADANIA ZAMKNIĘTE Zadanie 1. Obszar
2. Wymagania wstępne w zakresie wiedzy, umiejętności oraz kompetencji społecznych (jeśli obowiązują): BRAK
OPIS MODUŁU KSZTAŁCENIA (SYLABUS) I. Informacje ogólne 1. Nazwa modułu kształcenia: JĘZYKOZNAWSTWO OGÓLNE 2. Kod modułu kształcenia: 08-KODM-JOG 3. Rodzaj modułu kształcenia: OBLIGATORYJNY 4. Kierunek
WYMAGANIA EDUKACYJNE
SZKOŁA PODSTAWOWA W RYCZOWIE WYMAGANIA EDUKACYJNE niezbędne do uzyskania poszczególnych śródrocznych i rocznych ocen klasyfikacyjnych z JĘZYKA ANGIELSKIEGO w klasie 3 Szkoły Podstawowej str. 1 Wymagania
Wymagania edukacyjne z języka angielskiego dla klasy II gimnazjum. Ocenę dopuszczającą otrzymuje uczeń, który: OSIĄGNIĘCIA
Wymagania edukacyjne z języka angielskiego dla klasy II gimnazjum Ocenę dopuszczającą otrzymuje uczeń, który: SŁOWNICTWO zna podstawowe informacje dotyczące użycia struktur gramatycznych z zakresu: konstrukcje:
Wymagania edukacyjne z języka niemieckiego w roku szkolnym 2017/2018. Kryteria Oceniania
Wymagania edukacyjne z języka niemieckiego w roku szkolnym 2017/2018 Kryteria Oceniania Przedmiotowy System Oceniania z języka niemieckiego jest zgodny z Wewnątrzszkolnym Systemem Oceniania (WSO), Rozporządzeniem
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja
KRYTERIA OCENIANIA ODPOWIEDZI POZIOM PODSTAWOWY
Rozumienie ze słuchu Zadanie 1. KRYTERI OENINI ODPOWIEDZI POZIOM PODSTWOWY Zdający rozumie proste, typowe wypowiedzi ustne, artykułowane wyraźnie, w standardowej odmianie języka 1.1. 1.2. F 1.3. 1.1.)
II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych
II cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych 18-20 maja 2015 roku Politechnika Wrocławska, Centrum Kongresowe,
Arkusz kalkulacyjny Excel
Arkusz kalkulacyjny Excel Ćwiczenie 1. Sumy pośrednie (częściowe). POMOC DO ĆWICZENIA Dzięki funkcji sum pośrednich (częściowych) nie jest konieczne ręczne wprowadzanie odpowiednich formuł. Dzięki nim