Indukcja reguł gramatyki j. polskiego
|
|
- Stanisław Nawrocki
- 8 lat temu
- Przeglądów:
Transkrypt
1 Indukcja reguł gramatyki języka polskiego dr inż. Instytut Informatyki Politechnika Warszawska 25 lutego 2008
2 Plan prezentacji 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań
3 Plan prezentacji Aktualny stan wiedzy 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań
4 (rok 1967) E. M. Gold. Language identification in the limit. Information and Control, 10(5): , Twierdzenie Klasa gramatyk zawierająca wszystkie języki skończone i przynajmniej jeden język nieskończony nie jest identyfikowalna wyłącznie z pozytywnych przykładów.
5 Plan prezentacji Aktualny stan wiedzy 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań
6 Gramatyka transformacyjna (Σ, S, V, P) gdzie: Σ alfabet, S symbol początkowy, V skończony zbiór symboli nieterminalnych takich, że V Σ = φ, P (V Σ) (V Σ) zbiór reguł produkcji.
7 Plan prezentacji Aktualny stan wiedzy 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań
8 (rok 1997) Definicja Gramatyka reversible context-free jest gramatyką bezkontekstową G = (V, Σ, P, S) taką, że: 1 A α i B α znajdują się w zbiorze produkcji P implikuje, że A = B, 2 A αbβ i A αcβ znajdują się w zbiorze produkcji P implikuje, że B = C, gdzie A, B i C są symbolami nieterminalnymi, a α, β (N Σ).
9 (rok 1997) Twierdzenie Klasa gramatyk reversible context-free jest identyfikowalna w granicy z użyciem pozytywnej reprezentacji ustrukturalizowanych łańcuchów, takich, które zostałyby wygenerowane przez gramatykę reversible context-free nieznanego języka bezkontekstowego.
10 Przykład ustrukturalizowanej reprezentacji zdania Duży pies goni małą dziewczynkę
11 Przykład ustrukturalizowanej reprezentacji zdania < <Duży pies> <goni <małą dziewczynkę> > >
12 Przykład ustrukturalizowanej reprezentacji zdania < <Duży pies> <goni <małą dziewczynkę> > >
13 Przykład ustrukturalizowanej reprezentacji zdania S < <Duży pies> <goni <małą dziewczynkę> > >
14 Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 N 3 < <Duży pies> <goni <małą dziewczynkę> > >
15 Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 N 3 A N V A N < <Duży pies> <goni <małą dziewczynkę> > >
16 Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 S N 1 N 2 N 3 A N V A N < <Duży pies> <goni <małą dziewczynkę> > >
17 Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 S N 1 N 2 N 1 AN N 3 A N V A N < <Duży pies> <goni <małą dziewczynkę> > >
18 Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 S N 1 N 2 N 1 AN N 2 VN 3 N 3 A N V A N < <Duży pies> <goni <małą dziewczynkę> > >
19 Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 S N 1 N 2 N 1 AN N 2 VN 3 N 3 AN N 3 A N V A N < <Duży pies> <goni <małą dziewczynkę> > >
20 Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 S N 1 N 2 N 1 AN N 2 VN 3 N 3 AN N 3 A N V A N < <Duży pies> <goni <małą dziewczynkę> > >
21 Przykład ustrukturalizowanej reprezentacji zdania S N 1 N 2 S N 1 N 2 N 1 AN N 2 VN 1 N 1 A N V A N < <Duży pies> <goni <małą dziewczynkę> > >
22 Plan prezentacji Aktualny stan wiedzy 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań
23 tokenizacja, wydzielanie zdań, analiza morfologiczna, ujenoznacznianie Duży pies goni małą dziewczynkę acc m2 fin acc acc adj nom imperf adj f m3 sg sg pos sg pos subst ter sg subst sg
24 Informacja morfologiczna Liczba etykiet w systemie CLAWS 5 76 etykiet w Korpusie IPI PAN 2953 (778) etykiet Metoda odwzorowania umożliwiająca redukcje liczby etykiet możliwy dobór ewolucyjny i manualny intuicyjna umożliwi zbadanie wpływu liczby etykiet na jakość generowanej gramatyki Szczegóły odwzorowania
25 Liczba etykiet w funkcji odwzorowania Język System etykiet/odwzorowanie efektywna liczba etykiet w badanym korpusie maksymalna liczba etykiet EN CLAWS-5-76 PL Korpus IPI/map-flexeme-simple PL Korpus IPI/map-flexeme-one PL Korpus IPI/map-gi-flexeme-simple PL Korpus IPI/map-gi-flexeme-one PL Korpus IPI/map-gi-flexeme-simple-eos PL Korpus IPI/map-gi-flexeme-one-eos PL Korpus IPI/map-ipi-one PL Korpus IPI/map-ipi-one-eos PL Korpus IPI/map-one
26 Odwzorowanie informacji morfologicznej Przykładowy fragment odwzorowania map-gi-flexeme-simple subst depr num numcol adj adja adjp adv ppron12 ppron3 siebie... subst... depr... num... numcol... adj... adja... adjp... adv... ppron12... ppron3... siebie
27 Plan prezentacji Aktualny stan wiedzy Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań
28 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Wyniki badań D. Magermana (rok 1990) Informacja wzajemna MI(S 1, S 2 ) = log P(S) P(S 1 )P(S 2 )
29 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Wyniki badań D. Magermana (rok 1990)
30 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Wyniki badań D. Magermana (rok 1990) Uogólniona informacja wzajemna GMI(x 1,..., x i, y 1,..., y i ) = X zakończone x i Y rozpoczęte y 1 1 σ XY MI(X, Y)
31 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Wyniki badań D. Magermana (rok 1990)
32 Badania wstępne Wartość średnia MI Aktualny stan wiedzy Wyniki badań D. Magermana Wyniki badań M. Gołębskiego
33 Badania wstępne Wartość wariancji MI Aktualny stan wiedzy Wyniki badań D. Magermana Wyniki badań M. Gołębskiego
34 Badania wstępne Wartość średnia MI Aktualny stan wiedzy Wyniki badań D. Magermana Wyniki badań M. Gołębskiego
35 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Liczba wystąpień podsekwencji w funkcji długości
36 Plan prezentacji Aktualny stan wiedzy Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań
37 Kryteria oceny podziału Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Kryterium MI MI(x, y) = log P XY (xy) P X (x)p Y (y)
38 Kryteria oceny podziału Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Kryterium G I MI G I MI(x,..., y) = log P X...Y(x,..., y) P X (x)... P Y (y)
39 Kryteria oceny podziału Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Kryterium G I MI Norm G I MI Norm (x,..., y) = log P X...Y (x,...,y) N X...Y P X (x) N X PY(y) N Y N l współczynnik dany wzorem: N l = x X l P 2 X l (x)
40 Kryteria oceny podziału Wyniki badań D. Magermana Wyniki badań M. Gołębskiego Kryterium SF SF(x,..., y) = log P X (x) N X 1 PY(y) N Y N l współczynnik dany wzorem: N l = x X l P 2 X l (x)
41 Przykład Aktualny stan wiedzy Przykładowe zdanie Duży pies goni małą dziewczynkę
42 Ocena podziału pierwszego rzędu
43 Podziały pierwszego rzędu Nr Ocena Podział <Duży pies><goni><małą dziewczynkę> <Duży pies><goni małą dziewczynkę> <Duży><pies goni małą dziewczynkę>...
44 Ocena szkieletu
45 Ocena szkieletu
46 Wybrane szkielety Ocena addytywna szkieletów Nr Ocena Podział <<Duży><pies>><<goni><<małą><dziewczynkę>>> <Duży><<pies><<goni><<małą><dziewczynkę>>>> <<Duży><pies>><goni><<małą><dziewczynkę>>...
47 Wygenerowana struktura szkieletowa <Duży pies> <goni <małą dziewczynkę>>
48 Kryterium podziału Eksperymenty potwierdziły, że możliwe jest sformułowanie statystycznego kryterium oceny wielopunktowych podziałów zdań, które nie preferuje konkretnej długości podsekwencji.
49 System eksperymentalny zbudowano system eksperymentalny rozwiązujący podstawowe problemy jakie pojawiaja się podczas wykonywania eksperymentów: dostęp do plików, raporty, obsługa sytuacji wyjątkowych, batch mode vs. interakcja z użytkownikiem, skrypty, wielowątkowość, etc. zaimplementowano kryteria: MI GMI G I MI G I MI Norm SF zaimplementowano algorytmy (m.in.): wykrywania struktury zdania generowania najlepszych podziałów generowania reguł gramatyki RCFG
50 Schemat systemu eksperymentalnego
51 Porównanie SF z ABL i EMILE
52 Porównanie SF z ABL i EMILE
53 Porównanie SF z ABL i EMILE
54 Skuteczność kryterium (struktury szkieletowe) Eksperymenty potwierdzają skuteczność tego kryterium do oceny jakości struktur szkieletowych przy budowie anotowanych strukturalnie korpusów języka naturalnego.
55 Pokrycie korpusu 15 i 30
56 Liczba reguł i symboli nieterminalnych
57 Pokrycie zbioru reguł
58 Liczba reguł
59 Plan prezentacji Aktualny stan wiedzy Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań
60 Wyniki przeprowadzonych prac Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań wykryto zjawiska zaniku różnorodności i gwałtownego spadku ogólnej liczby sekwencji ze wzrostem ich długości opracowano metodę oceny podziałów wielopunktowych niewrażliwą na długość sekwencji kryterium SF opracowano metodę oceny struktur szkieletowych na podstawie oceny podziałów tę strukturę definiujących opracowano metodę zawężania i poszerzania informacji morfologicznej opracowano efektywny algorytm generowania struktur szkieletowych udoskonalono metody generowania gramatyki RCFG
61 Plan prezentacji Aktualny stan wiedzy Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań
62 Zastosowanie Aktualny stan wiedzy Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań identyfikacja autora (wykrywanie plagiatów) wykrywanie błędów w korpusach anotowanych strukturalnie wykrywanie zjawisk w języku budowa efektywnych parserów Semantic Web
63 Plan prezentacji Aktualny stan wiedzy Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań 1 Aktualny stan wiedzy 2 Wyniki badań D. Magermana Wyniki badań M. Gołębskiego 3 4 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań
64 Dalsze kierunki badań Aktualny stan wiedzy Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań metody analizy otrzymanych reguł gramatyki metody automatycznego nazywania wykrytych kategorii syntaktycznych efektywne estymowanie prawdopodobieństw występowania sekwencji w korpusie
65 Wyniki przeprowadzonych prac Zastosowanie Dalsze kierunki badań Dziękuję za uwagę
66 Dodatek Informacja morfologiczna Kolejność etykiet użyta w odwzorowaniu nr etykieta nr etykieta nr etykieta nr etykieta nr etykieta 1. subst 18. inf 35. nom 52. sup 69. lbrt 2. depr 19. pcon 36. gen 53. imperf 70. rbrt 3. num 20. pant 37. dat 54. perf 71. comma 4. numcol 21. ger 38. acc 55. aff 72. fstp 5. adj 22. pact 39. inst 56. neg 73. ast 6. adja 23. ppas 40. loc 57. akc 74. pls 7. adjp 24. winien 41. voc 58. nakc 75. mns 8. adv 25. pred 42. m1 59. praep 76. cln 9. ppron prep 43. m2 60. npraep 77. scln 10. ppron3 27. conj 44. m3 61. congr 78. qst 11. siebie 28. qub 45. f 62. rec 79. sie 12. fin 29. xxs 46. n 63. nagl 80. nie 13. bedzie 30. xxx 47. pri 64. agl 81. eos 14. aglt 31. ign 48. sec 65. wok 15. praet 32. interp 49. ter 66. nwok 16. impt 33. sg 50. pos 67. excl 17. imps 34. pl 51. comp 68. quot Powrót
WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I
WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I Natalia Kotsyba, IBI AL UW 3 marca 2010 Czym jest korpus? Zbiór tekstów albo zapisanych wypowiedzi w postaci elektronicznej,
Matematyczne Podstawy Informatyki
Matematyczne Podstawy Informatyki dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Rok akademicki 2013/2014 Gramatyki bezkontekstowe I Gramatyką bezkontekstową
Poszukiwanie struktury w danych naprzykładzieanalizykorespondencji
Jest to tekst związany z odczytem wygłoszonym na XLIV Szkole Matematyki Poglądowej Do czego to się przydaje?, Sulejów, styczeń 2010. Poszukiwanie struktury w danych naprzykładzieanalizykorespondencji Przemysław
Matematyczne Podstawy Informatyki
Matematyczne Podstawy Informatyki dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Rok akademicki 2013/2014 Automat ze stosem Automat ze stosem to szóstka
Gramatyki, wyprowadzenia, hierarchia Chomsky ego. Gramatyka
Gramatyki, wyprowadzenia, hierarchia Chomsky ego Teoria automatów i języków formalnych Dr inŝ. Janusz Majewski Katedra Informatyki Gramatyka Gramatyką G nazywamy czwórkę uporządkowaną gdzie: G =
Tworzenie korpusu tekstów dawnych a korpusu tekstów współczesnych: różnice teoretyczne i warsztatowe
Tworzenie korpusu tekstów dawnych a korpusu tekstów współczesnych: różnice teoretyczne i warsztatowe (na przykładzie Korpusu tekstów polskich XVII-XVIII wieku) W. Gruszczyński R. Bronikowska IJP PAN Porównywane
2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego
2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego Gramatyka Gramatyką G nazywamy czwórkę uporządkowaną G = gdzie: N zbiór symboli nieterminalnych, T zbiór symboli terminalnych, P zbiór
Hierarchia Chomsky ego Maszyna Turinga
Hierarchia Chomsky ego Maszyna Turinga Języki formalne i automaty Dr inż. Janusz Majewski Katedra Informatyki Gramatyka Gramatyką G nazywamy czwórkę uporządkowaną gdzie: G = V skończony zbiór
JĘZYKIFORMALNE IMETODYKOMPILACJI
Stefan Sokołowski JĘZYKIFORMALNE IMETODYKOMPILACJI Inst. Informatyki Stosowanej, PWSZ Elbląg, 2009/2010 JĘZYKI FORMALNE reguły gry Wykład1,2X2009,str.1 Zasadnicze informacje: http://iis.pwsz.elblag.pl/
Gramatyka operatorowa
Gramatyki z pierwszeństwem operatorów Teoria kompilacji Dr inŝ. Janusz Majewski Katedra Informatyki Gramatyka operatorowa Definicja: G = G BK jest gramatyką operatorową (i) (ii) G jest gramatyką
Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki
Analiza leksykalna 1 Teoria kompilacji Dr inż. Janusz Majewski Katedra Informatyki Zadanie analizy leksykalnej Kod źródłowy (ciąg znaków) Analizator leksykalny SKANER Ciąg symboli leksykalnych (tokenów)
Języki formalne i automaty Ćwiczenia 3
Języki formalne i automaty Ćwiczenia 3 Autor: Marcin Orchel Spis treści Spis treści... 1 Wstęp teoretyczny... 2 Algorytm LL(1)... 2 Definicja zbiorów FIRST1 i FOLLOW1... 3 Konstrukcja tabeli parsowania
JAO - Wprowadzenie do Gramatyk bezkontekstowych
JAO - Wprowadzenie do Gramatyk bezkontekstowych Definicja gramatyki bezkontekstowej Podstawowymi narzędziami abstrakcyjnymi do opisu języków formalnych są gramatyki i automaty. Gramatyka bezkontekstowa
11 Probabilistic Context Free Grammars
11 Probabilistic Context Free Grammars Ludzie piszą i mówią wiele rzeczy, a ich wypowiedzi mają zawsze jakąś określoną strukture i regularność. Celem jest znalezienie i wyizolowanie tego typu struktur.
Automat ze stosem. Języki formalne i automaty. Dr inż. Janusz Majewski Katedra Informatyki
Automat ze stosem Języki formalne i automaty Dr inż. Janusz Majewski Katedra Informatyki Automat ze stosem (1) dno stosu Stos wierzchołek stosu Wejście # B B A B A B A B a b b a b a b $ q i Automat ze
Zadanie analizy leksykalnej
Analiza leksykalna 1 Teoria kompilacji Dr inŝ. Janusz Majewski Katedra Informatyki Zadanie analizy leksykalnej Przykład: We: COST := ( PRICE + TAX ) * 0.98 Wy: id 1 := ( id 2 + id 3 ) * num 4 Tablica symboli:
Bank częściowo ujednoznacznionych struktur LFG
Bank częściowo ujednoznacznionych struktur LFG Katarzyna Krasnowska 1 Witold Kieraś 1,2 1 IPI PAN 2 IJP UW 7 października 2013 Katarzyna Krasnowska Witold Kieraś Bank struktur LFG 7 października 2013 1
Testowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
3.4. Przekształcenia gramatyk bezkontekstowych
3.4. Przekształcenia gramatyk bezkontekstowych Definicje Niech będzie dana gramatyka bezkontekstowa G = G BK Symbol X (N T) nazywamy nieużytecznym w G G BK jeśli nie można w tej gramatyce
Hierarchia Chomsky ego
Hierarchia Chomsky ego Gramatyki nieograniczone Def. Gramatyką nieograniczoną (albo typu 0) nazywamy uporządkowaną czwórkę G= gdzie: % Σ - skończony alfabet symboli końcowych (alfabet, nad którym
JĘZYKI FORMALNE I METODY KOMPILACJI
Stefan Sokołowski JĘZYKI FORMALNE I METODY KOMPILACJI Inst Informatyki Stosowanej, PWSZ Elbląg, 2015/2016 JĘZYKI FORMALNE reguły gry Wykład1,str1 Zasadnicze informacje: http://iispwszelblagpl/ stefan/dydaktyka/jezform
Języki formalne i automaty Ćwiczenia 1
Języki formalne i automaty Ćwiczenia Autor: Marcin Orchel Spis treści Spis treści... Wstęp teoretyczny... 2 Wprowadzenie do teorii języków formalnych... 2 Gramatyki... 5 Rodzaje gramatyk... 7 Zadania...
j INSTYTUT PODSTAW INFORMATYKI
j INSTYTUT PODSTAW INFORMATYKI POLSKIEJ AKADEMII NAUK ul. Jana Kazimierza 5, 01-248 Warszawa AGNIESZKA PATEJUK i ADAM PRZEPIÓRKOWSKI Co i kiedy można skoordynować w polskim oraz czy i jak to opisać w LFG
Zaawansowane narzędzie do analizy korpusu w oparciu o reguły
CLARIN-PL Zaawansowane narzędzie do analizy korpusu w oparciu o reguły Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl 2015-04-13
Metody Kompilacji Wykład 7 Analiza Syntaktyczna
Metody Kompilacji Wykład 7 Analiza Syntaktyczna Parsowanie Parsowanie jest to proces określenia jak ciąg terminali może być generowany przez gramatykę. Włodzimierz Bielecki WI ZUT 2/57 Parsowanie Dla każdej
Modelowanie sieci złożonych
Modelowanie sieci złożonych B. Wacław Instytut Fizyki UJ Czym są sieci złożone? wiele układów ma strukturę sieci: Internet, WWW, sieć cytowań, sieci komunikacyjne, społeczne itd. sieć = graf: węzły połączone
GRAMATYKI BEZKONTEKSTOWE
GRAMATYKI BEZKONTEKSTOWE PODSTAWOWE POJĘCIE GRAMATYK Przez gramatykę rozumie się pewien układ reguł zadający zbiór słów utworzonych z symboli języka. Słowa te mogą być i interpretowane jako obiekty językowe
Wprowadzenie: języki, symbole, alfabety, łańcuchy Języki formalne i automaty. Literatura
Wprowadzenie: języki, symbole, alfabety, łańcuchy Języki formalne i automaty Dr inŝ. Janusz Majewski Katedra Informatyki Literatura Aho A. V., Sethi R., Ullman J. D.: Compilers. Principles, Techniques
Zastosowanie metod statystycznych do problemu ujednoznaczniania struktury zdania w języku polskim
Motywacja Zastosowanie metod statystycznych do problemu ujednoznaczniania struktury zdania w języku polskim Seminarium IPI PAN, 03.01.2011 Outline Motywacja 1 Motywacja Poziomy anotacji Równoważność dystrybucyjna
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Marcin Woliński i Anna Andrzejczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Warsztaty CLARIN-PL,
Języki formalne i automaty Ćwiczenia 2
Języki formalne i automaty Ćwiczenia 2 Autor: Marcin Orchel Spis treści Spis treści... 1 Wstęp teoretyczny... 2 Metoda brute force... 2 Konwersja do postaci normalnej Chomskiego... 5 Algorytm Cocke a-youngera-kasamiego
Języki formalne i automaty Ćwiczenia 4
Języki formalne i automaty Ćwiczenia 4 Autor: Marcin Orchel Spis treści Spis treści... 1 Wstęp teoretyczny... 2 Sposób tworzenia deterministycznego automatu skończonego... 4 Intuicyjne rozumienie konstrukcji
Krzysztof Rykaczewski. Szeregi
Krzysztof Rykaczewski Spis treści 1 Definicja szeregu 2 Zbieżność szeregu 3 Kryteria zbieżności szeregów 4 Iloczyn Cauchy ego szeregów 5 Bibliografia 1 / 13 Definicja szeregu Niech dany będzie ciąg (a
Języki formalne i automaty Ćwiczenia 9
Języki formalne i automaty Ćwiczenia 9 Autor: Marcin Orchel Spis treści Spis treści... 1 Wstęp teoretyczny... 2 Maszyna Mealy'ego... 2 Maszyna Moore'a... 2 Automat ze stosem... 3 Konwersja gramatyki bezkontekstowej
Analizator syntaktyczny
Analizator syntaktyczny program źródłowy analizator leksykalny token daj nast. token analizator syntaktyczny drzewo rozbioru syntaktycznego analizator semantyczny kod pośredni tablica symboli Analizator
Generowanie i optymalizacja harmonogramu za pomoca
Generowanie i optymalizacja harmonogramu za pomoca na przykładzie generatora planu zajęć Matematyka Stosowana i Informatyka Stosowana Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
1. Synteza automatów Moore a i Mealy realizujących zadane przekształcenie 2. Transformacja automatu Moore a w automat Mealy i odwrotnie
Opracował: dr hab. inż. Jan Magott KATEDRA INFORMATYKI TECHNICZNEJ Ćwiczenia laboratoryjne z Logiki Układów Cyfrowych ćwiczenie 207 Temat: Automaty Moore'a i Mealy 1. Cel ćwiczenia Celem ćwiczenia jest
Twierdzenia graniczne fluktuacji procesów przebywania dla układów gałazkowych
Publiczna obrona rozprawy doktorskiej Twierdzenia graniczne fluktuacji procesów przebywania dla układów gałazkowych Piotr Miłoś Instytut Matematyczny Polskiej Akademii Nauk 23.10.2008 Warszawa Plan 1 Układy
Gradacyjna analiza danych korpusowych
Seminarium NLP, IPI PAN, 26.06.06 Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek Wiech Instytut Podstaw Informatyki PAN 1 Narzędzie i dane: GradeStat i Korpus SFPW Mapy
Gramatyka TAG dla języka polskiego
Gramatyka TAG dla języka polskiego Katarzyna Krasnowska IPI PAN 25 lutego 2013 Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 1 / 31 Plan prezentacji 1 TAG 2 Ekstrakcja
Gramatyki rekursywne
Gramatyki bezkontekstowe, rozbiór gramatyczny eoria automatów i języków formalnych Dr inŝ. Janusz Majewski Katedra Informatyki Gramatyki rekursywne Niech będzie dana gramatyka bezkontekstowa G =
Języki formalne i automaty Ćwiczenia 6
Języki formalne i automaty Ćwiczenia 6 Autor: Marcin Orchel Spis treści Spis treści... 1 Wstęp teoretyczny... 2 Wyrażenia regularne... 2 Standardy IEEE POSIX Basic Regular Expressions (BRE) oraz Extended
Gramatyki atrybutywne
Gramatyki atrybutywne, część 1 (gramatyki S-atrybutywne Teoria kompilacji Dr inŝ. Janusz Majewski Katedra Informatyki Gramatyki atrybutywne Do przeprowadzenia poprawnego tłumaczenia, oprócz informacji
Metody automatycznego wykrywania błędów w bankach drzew
Metody automatycznego wykrywania błędów w bankach drzew Katarzyna Krasnowska IPI PAN 26 listopada 2012 Katarzyna Krasnowska (IPI PAN) Automatyczne wykrywanie błędów 26 listopada 2012 1 / 49 Plan prezentacji
Biostatystyka, # 3 /Weterynaria I/
Biostatystyka, # 3 /Weterynaria I/ dr n. mat. Zdzisław Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, p. 221 bud. CIW, e-mail: zdzislaw.otachel@up.lublin.pl
komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW
Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,
JĘZYKI FORMALNE I METODY KOMPILACJI
Stefan Sokołowski JĘZYKI FORMALNE I METODY KOMPILACJI Inst Informatyki Stosowanej, PWSZ Elbląg, 2018/2019 JĘZYKI FORMALNE reguły gry Wykład1,str1 Zasadnicze informacje: http://iispwszelblagpl/ stefan/dydaktyka/jezform
Gramatyka Kategorialna Języka Polskiego
Gramatyka Kategorialna Języka Polskiego Wojciech Jaworski Instytut Informatyki Uniwersytet Warszawski 3 października 2011 Wojciech Jaworski (MIM UW) Gramatyka Kategorialna Języka Polskiego 3 października
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2
Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej
Języki, automaty i obliczenia
Języki, automaty i obliczenia Wykład 9: Własności języków bezkontekstowych Sławomir Lasota Uniwersytet Warszawski 27 kwietnia 2016 Plan 1 Pompowanie języków bezkontekstowych 2 Własności domknięcia 3 Obrazy
Tworzenie języków specyfikacji dla zagadnień numerycznych
Tworzenie języków specyfikacji dla zagadnień numerycznych prof. dr hab. inż. Norbert Sczygiol dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 11 września
Generatory analizatorów
Generatory analizatorów Generator analizatora leksykalnego flex ( http://www.gnu.org/software/flex/ ) Generator analizatora składniowego bison ( http://www.gnu.org/software/bison/ ) Idea ogólna Opis atomów
O pewnych związkach teorii modeli z teorią reprezentacji
O pewnych związkach teorii modeli z teorią reprezentacji na podstawie referatu Stanisława Kasjana 5 i 12 grudnia 2000 roku 1. Elementy teorii modeli Będziemy rozważać język L składający się z przeliczalnej
Entropia Kodowanie. Podstawy kompresji. Algorytmy kompresji danych. Sebastian Deorowicz
Algorytmy kompresji danych 2007 02 27 Plan wykładu 1 Modelowanie i kodowanie 2 Modelowanie i kodowanie Plan wykładu 1 Modelowanie i kodowanie 2 Modelowanie i kodowanie definicja stowarzyszona ze zbiorem
Efektywna analiza składniowa GBK
TEORETYCZNE PODSTAWY INFORMATYKI Efektywna analiza składniowa GBK Rozbiór zdań i struktur zdaniowych jest w wielu przypadkach procesem bardzo skomplikowanym. Jego złożoność zależy od rodzaju reguł produkcji
Realizacja zasady integralności danych w zatrudnieniu zgodnie z podejściem PbD
Zasady przetwarzania danych osobowych w sferze zatrudnienia Realizacja zasady integralności danych w zatrudnieniu zgodnie z podejściem PbD Mariola Więckowska Head of Privacy Innovative Technologies Lex
Logika Stosowana. Wykład 1 - Logika zdaniowa. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017
Logika Stosowana Wykład 1 - Logika zdaniowa Marcin Szczuka Instytut Informatyki UW Wykład monograficzny, semestr letni 2016/2017 Marcin Szczuka (MIMUW) Logika Stosowana 2017 1 / 30 Plan wykładu 1 Język
Efektywność Procedur Obliczeniowych. wykład 5
Efektywność Procedur Obliczeniowych wykład 5 Modele procesu obliczeń (8) Jedno-, wielotaśmowa MT oraz maszyna RAM są równoważne w przypadku, jeśli dany problem jest rozwiązywany przez jeden model w czasie
Języki, automaty i obliczenia
Języki, automaty i obliczenia Wykład 12: Gramatyki i inne modele równoważne maszynom Turinga. Wstęp do złożoności obliczeniowej Sławomir Lasota Uniwersytet Warszawski 20 maja 2015 Plan 1 Gramatyki 2 Języki
Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Marcin Miłkowski IFiS PAN
Morfologik Marcin Miłkowski IFiS PAN koordynator pl.openoffice.org Adres projektu: morfologik.blogspot.com Morfologik Trzy składniki projektu: Automatycznie generowany słownik form wyrazowych Reguły korektora
Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa
Spis treści -1 LXIII Zjazd PTJ, Warszawa 16-17.09.2003 Pomor, Humor Morfeusz SIAT Poliqarp Holmes Kryteria wyboru Robert Wołosz Marcin Woliński Adam Przepiórkowski Michał Rudolf Niebieska gramatyka Saloni,
Analiza leksykalna 1. Języki formalne i automaty. Dr inż. Janusz Majewski Katedra Informatyki
Analiza leksykalna 1 Języki formalne i automaty Dr inż. Janusz Majewski Katedra Informatyki Zadanie analizy leksykalnej Kod źródłowy (ciąg znaków) Analizator leksykalny SKANER Ciąg symboli leksykalnych
Jaki język zrozumie automat?
Jaki język zrozumie automat? Wojciech Dzik Instytut Matematyki Uniwersytet Śląski Katowice wojciech.dzik@us.edu.pl 7. Forum Matematyków Polskich, 12-17 września 2016, Olsztyn Prosty Automat do kawy Przemawiamy
Instrukcja korzystania z wyszukiwarki korpusowej w Korpusomacie
Instrukcja korzystania z wyszukiwarki korpusowej w Korpusomacie wersja robocza 14 sierpnia 2018 r. Spis treści Wprowadzenie......................................... 1 1. Segmentacja........................................
KATEDRA INFORMATYKI TECHNICZNEJ. Ćwiczenia laboratoryjne z Logiki Układów Cyfrowych. ćwiczenie 204
Opracował: prof. dr hab. inż. Jan Kazimierczak KATEDA INFOMATYKI TECHNICZNEJ Ćwiczenia laboratoryjne z Logiki Układów Cyfrowych ćwiczenie 204 Temat: Hardware'owa implementacja automatu skończonego pełniącego
Obliczenia inspirowane Naturą
Obliczenia inspirowane Naturą Wykład 05 Biologia i gramatyka Jarosław Miszczak IITiS PAN Gliwice 07/04/2016 1 / 40 1 Nieformalne określenie fraktali. 2 Wymiar pudełkowy/fraktalny. 3 Definicja fraktali.
WYKŁAD Z ANALIZY MATEMATYCZNEJ I. dr. Elżbieta Kotlicka. Centrum Nauczania Matematyki i Fizyki
WYKŁAD Z ANALIZY MATEMATYCZNEJ I dr. Elżbieta Kotlicka Centrum Nauczania Matematyki i Fizyki http://im0.p.lodz.pl/~ekot Łódź 2006 Spis treści 1. CIĄGI LICZBOWE 2 1.1. Własności ciągów liczbowych o wyrazach
Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych
Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych mgr inż. C. Dendek prof. nzw. dr hab. J. Mańdziuk Politechnika Warszawska, Wydział Matematyki i Nauk Informacyjnych Outline 1 Uczenie
Spacery losowe generowanie realizacji procesu losowego
Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z
(j, k) jeśli k j w przeciwnym przypadku.
Zadanie 1. (6 punktów) Rozważmy język słów nad alfabetem {1, 2, 3}, w których podciąg z pozycji parzystych i podciąg z pozycji nieparzystych są oba niemalejące. Na przykład 121333 należy do języka, a 2111
Estymacja w regresji nieparametrycznej
Estymacja w regresji nieparametrycznej Jakub Kolecki Politechnika Gdańska 28 listopada 2011 1 Wstęp Co to jest regresja? Przykład regresji 2 Regresja nieparametryczna Założenia modelu Estymacja i jej charakterystyki
Detekcja rozkładów o ciężkich ogonach
Detekcja rozkładów o ciężkich ogonach J. Śmiarowska, P. Jamer Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska 24 kwietnia 2012 J. Śmiarowska, P. Jamer (Politechnika Warszawska) Detekcja
Topologia zbioru Cantora a obwody logiczne
Adam Radziwończyk-Syta Michał Skrzypczak Uniwersytet Warszawski 1 lipca 2009 http://students.mimuw.edu.pl/~mskrzypczak/dokumenty/ obwody.pdf Zbiór Cantora Topologia Definicja Przez zbiór Cantora K oznaczamy
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE
Studia podyplomowe dla nauczycieli INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE Przedmiot JĘZYKI PROGRAMOWANIA DEFINICJE I PODSTAWOWE POJĘCIA Autor mgr Sławomir Ciernicki 1/7 Aby
10. Translacja sterowana składnią i YACC
10. Translacja sterowana składnią i YACC 10.1 Charakterystyka problemu translacja sterowana składnią jest metodą generacji przetworników tekstu języków, których składnię opisano za pomocą gramatyki (bezkontekstowej)
Temat: Zastosowanie wyrażeń regularnych do syntezy i analizy automatów skończonych
Opracował: dr inż. Zbigniew Buchalski KATEDRA INFORMATYKI TECHNICZNEJ Ćwiczenia laboratoryjne z Logiki Układów Cyfrowych ćwiczenie Temat: Zastosowanie wyrażeń regularnych do syntezy i analizy automatów
Statystyczna analiza danych
Statystyczna analiza danych ukryte modele Markowa, zastosowania Anna Gambin Instytut Informatyki Uniwersytet Warszawski plan na dziś Ukryte modele Markowa w praktyce modelowania rodzin białek multiuliniowienia
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012
Projekt i implementacja systemu wspomagania planowania w języku Prolog
Projekt i implementacja systemu wspomagania planowania w języku Prolog Kraków, 29 maja 2007 Plan prezentacji 1 Wstęp Czym jest planowanie? Charakterystyka procesu planowania 2 Przeglad istniejacych rozwiazań
Hurtownie danych - przegląd technologii
Hurtownie danych - przegląd technologii Problematyka zasilania hurtowni danych - Oracle Data Integrator Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel
Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wydział Informatyki. mgr inż. Marcin Pietras
Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Wydział Informatyki mgr inż. Marcin Pietras Syntaktyczna i semantyczna analiza danych tekstowych z wykorzystaniem modeli Markowa realizowanych
LEM wydobywanie statystyk z korpusów
LEM wydobywanie statystyk z korpusów Maciej Piasecki, Tomasz Walkowiak Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej Maryl Instytut Bada Literackich Polska Akademia
7. Identyfikacja defektów badanego obiektu
7. Identyfikacja defektów badanego obiektu Pierwszym krokiem na drodze do identyfikacji defektów było przygotowanie tzw. odcisku palca poszczególnych defektów. W tym celu został napisany program Gaussian
Analiza zmienności czasowej danych mikromacierzowych
Systemy Inteligencji Obliczeniowej Analiza zmienności czasowej danych mikromacierzowych Kornel Chromiński Instytut Informatyki Uniwersytet Śląski Plan prezentacji Dane mikromacierzowe Cel badań Prezentacja
Metody Rozmyte i Algorytmy Ewolucyjne
mgr inż. Wydział Matematyczno-Przyrodniczy Szkoła Nauk Ścisłych Uniwersytet Kardynała Stefana Wyszyńskiego Podstawowe operatory genetyczne Plan wykładu Przypomnienie 1 Przypomnienie Metody generacji liczb
Gramatyki grafowe. Dla v V, ϕ(v) etykieta v. Klasa grafów nad Σ - G Σ.
Gramatyki grafowe Def. Nieskierowany NL-graf (etykietowane wierzchołki) jest czwórką g = (V, E, Σ, ϕ), gdzie: V niepusty zbiór wierzchołków, E V V zbiór krawędzi, Σ - skończony, niepusty alfabet etykiet
Metodologie programowania
Co kształtuje języki programowania? Wykład2,str.1 Metodologie programowania Koszty obliczeń: 1980 1960:sprzętdrogi,a wysiłek programistów niewielki 1970: sprzęt coraz tańszy, a programowane problemy coraz
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016
Symbol, alfabet, łańcuch
Łańcuchy i zbiory łańcuchów Teoria automatów i języków formalnych Dr inŝ. Janusz Majewski Katedra Informatyki Symbol, alfabet, łańcuch Symbol Symbol jest to pojęcie niedefiniowane (synonimy: znak, litera)
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu
Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotności, p-wartość i moc testu Wrocław, 01.03.2017r Przykład 2.1 Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów
Wykład5,str.1. Maszyny ze stosem ... 1,0 λ r. λ,z λ
Wykład5,str1 p 0,Z 0Z 0,0 00 q λ,z λ r Wykład5,str1 Słowo na wejściu: 0011 część nieprzeczytana Z p 0,Z 0Z 0,0 00 q λ,z λ r Wykład5,str1 Słowo na wejściu: 0011 część nieprzeczytana 0 Z p 0,Z 0Z 0,0 00
Maszyna Turinga. Algorytm. czy program???? Problem Hilberta: Przykłady algorytmów. Cechy algorytmu: Pojęcie algorytmu
Problem Hilberta: 9 Czy istnieje ogólna mechaniczna procedura, która w zasadzie pozwoliłaby nam po kolei rozwiązać wszystkie matematyczne problemy (należące do odpowiednio zdefiniowanej klasy)? 2 Przykłady
Rodzinę spełniającą trzeci warunek tylko dla sumy skończonej nazywamy ciałem (algebrą) w zbiorze X.
1 σ-ciała Definicja 1.1 (σ - ciało) σ - ciałem (σ - algebrą) w danym zbiorze X (zwanym przestrzenią) nazywamy rodzinę M pewnych podzbiorów zbioru X, spełniającą trzy warunki: 1 o M; 2 o jeśli A M, to X
Komputerowa Analiza Danych Doświadczalnych
Komputerowa Analiza Danych Doświadczalnych Prowadząca: dr inż. Hanna Zbroszczyk e-mail: gos@if.pw.edu.pl tel: +48 22 234 58 51 konsultacje: poniedziałek, 10-11, środa: 11-12 www: http://www.if.pw.edu.pl/~gos/students/kadd
Prawdopodobieństwo i statystyka
Wykład IV: 27 października 2014 Współczynnik korelacji Brak korelacji a niezależność Definicja współczynnika korelacji Współczynnikiem korelacji całkowalnych z kwadratem zmiennych losowych X i Y nazywamy