Korpus Dyskursu Parlamentarnego
|
|
- Michał Maj
- 5 lat temu
- Przeglądów:
Transkrypt
1 Korpus Dyskursu Parlamentarnego Maciej Ogrodniczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki PAN Warsztaty CLARIN-PL Lublin, 25 września 2019 r.
2 Korpus Dyskursu Parlamentarnego W pigułce: zbiór dokumentów parlamentu RP z lat (prawie 700 mln segmentów): stenogramów z posiedzeń plenarnych, stenogramów z posiedzeń komisji, interpelacji, zapytań i odpowiedzi w postaci tekstowej, z anotacjami lingwistycznymi. 2
3 Dane źródłowe Trochę historii: 1993 : edytowalne PDFy, inne formaty dostępne wewnętrznie i pozyskane w ramach projektu CESAR, : skany/ocr stenogramów w ramach CLARIN-u, : OCR skanów przygotowanych przez Bibliotekę Sejmową, z poprawkami struktury za pomocą skryptów pisanych przez różne osoby. Parlamentaria: katalogi_bazy_archiwum_sejmu/ 3
4 Dane wynikowe Trochę statystyki: Lata Źródło Segmenty Sejm Ustawodawczy I V kadencja Sejmu II RP I V kadencja Senatu II RP Krajowa Rada Narodowa Sejm Ustawodawczy I X kadencja Sejmu PRL I VIII kadencja Sejmu III RP Interpelacje sejmowe Komisje sejmowe I-IX kadencja Senatu III RP Komisje senackie
5 Dane korpusowe Format korpusu: opis lingwistyczny zgodny z Narodowym Korpusem Języka Polskiego, p. anotacja zewnętrzna TEI P5 stworzona automatycznie narzędziami analizy lingwistycznej: analizatorem morfologicznym Morfeusz SGJP (podział tekstu na wypowiedzi, segmenty, lematyzacja), tagerem Concraft (ujednoznacznione interpretacje morfoskładniowe), wykrywaczem nazw własnych Liner2 (imiona i nazwiska, organizacje, nazwy geograficzne). 5
6 Dostęp do korpusu Dostęp: do pobrania w postaci plików XML-owych (aktualnie bez anotacji lingwistycznych): do przeszukiwania wyszukiwarką MTAS: 6
7 Wersja do pobrania Struktura katalogów: sejm +---posiedzenia +---pp sjm-ppxxx header.xml text_structure.xml sjm-ppxxx PPC_header.xml 7
8 Wersja do pobrania: nagłówek Podstawowe metadane: <sourcedesc> <bibl> <title>sprawozdanie stenograficzne z obrad Senatu RP z 7 grudnia 2016 r. (kadencja IX, Posiedzenie Plenarne 31, dzień 6).</title> <publisher>kancelaria Senatu RP</publisher> <note type="system">iii RP</note> <note type="house">senat</note> <note type="termno">9</note> <note type="type">posiedzenie Plenarne</note> <note type="sessionno">31</note> <note type="dayno">6</note> <date> </date> </bibl> </sourcedesc> 8
9 Wersja do pobrania: nagłówek Lista mówców: <profiledesc> <particdesc> <person xml:id="senatorbogdanborusewicz" role="speaker"> <persname>senator Bogdan Borusewicz</persName> </person>... <person xml:id="gloszsali" role="speaker"> <persname>głos z sali</persname> </person> </person> </particdesc> </profiledesc> 9
10 Wersja do pobrania: struktura tekstu Wypowiedzi: <teicorpus> <xi:include href="ppc_header.xml"/> <TEI> <xi:include href="header.xml"/> <text> <body> <! > <div xml:id="txt_7-div"> <u xml:id="txt_7.1-u" who="#marszalek"> Głos ma poseł Edward Szymański. </u> <u xml:id="txt_7.2-u" who="#poseledwardszymanski"> Obywatelu Marszałku! Wysoki Sejmie! 10
11 Wyszukiwarka Co potrafi? wyszukiwać teksty na podstawie metadanych (np. tytuł, rok, data posiedzenia, kadencja,...) wyszukiwać segmenty ( słowa). 11
12 Wyszukiwanie tekstów 12
13 Model segmentacji Segmentacja a la NKJP: Będę szedł i gwizdał. 5 segmentów (włączając interpunkcję): Gwizdalibyśmy. 4 segmenty: Gwizdali by śmy. ponieważ: byśmy gwizdali oraz: Długośmy gwizdali. 13
14 Wyszukiwanie segmentów 14
15 Język zapytań Zapytania o segmenty: warunki dla segmentów zapisujemy w nawiasach kwadratowych: [atrybut="wartość"] najważniejsze atrybuty: base, orth, pos, np. [base="polska"] p. ściągawka do NKJP: atrybuty można łączyć używając operatorów koniunkcji &, alternatywy i negacji!. 15
16 Język zapytań Wyrażenia regularne: kropka zastępuje dowolny znak: bez. beza, bezy, bezą itp., ale nie bez czy bezami, znak zapytania oznacza opcjonalność poprzedniego znaku: beza? bez lub beza, gwiazdka oznacza dowolną (także zerową) liczbę wystąpień znaku lub wyrażenia bezpośrednio przed nią: Ala.* Ala i Alaska, nawiasy klamrowe oznaczają określoną liczbę wystąpień znaku lub wyrażenia poprzedzającego, np. tra(la)2,3 odpowiada segmentom tralala i tralalala. 16
17 Model nazw własnych Nazwy własne a la NKJP: Jednostka nazewnicza persname org- Name geog- Name place- Name date time forename surname add- Name settlement district region country bloc 17
18 Język zapytań Nazwy własne: zapytania w nawiasach kątowych z podaniem typu: <ne="person"/> operatory łączące segmenty: nazwa geograficzna zawierająca przyimek: <ne="geogname" /> containing [pos="prep"] nazwisko osoby, które stanowi część nazwy geograficznej: <ne="persname.surname"/> within <ne="geogname"/> dwa kolejne segmenty, z których pierwszy zaczyna się od A, drugi od M i które w całości w tekście występują jako nazwa osoby: [orth="a.*"][orth="m.*"] fullyalignedwith <ne="persname"/> 18
19 Ćwiczenia! Jak w Korpusomacie: 1 W którym roku po raz pierwszy użyto wyrażenia posłanka zamiast poseł? 2 Jaka jest nasza niepodległość? (jaki przymiotnik pojawia się najczęściej pomiędzy tymi dwoma rzeczownikami?) 3 Jaki najdłuższy łańcuch rzeczowników w dopełniaczu znajdziemy w korpusie? 4 Jakie wyrażenia przyimkowe z rzeczownikiem w celowniku pojawiały się najczęściej w wypowiedziach w okresie międzywojennym? 5 Jakie imię będące częścią nazwy organizacji pada w wypowiedziach sejmowych najczęściej? 6...? 19
20 Wyszukiwarka ngramów W zasadzie eksperyment: wyłącznie na danych posiedzeń plenarnych, trochę jak Google Ngram Viewer ( z możliwością pokazania frekwencji względnej i bezwzględnej. 20
21 Ngramy: socjalizm vs. komunizm 21
22 Ngramy: budownictwo mieszkaniowe 22
23 Ngramy: masy pracujące 23
24 Ngramy: edukacja vs. szkolnictwo 24
25 Plany na przyszłość Co dalej? porządki w danych (wciąż jest dużo błędów!), więcej danych, lepsza informacja o mówcach, ich przynależności partyjnej, płci,... linki do dokumentów źródłowych, lepsze narzędzia analizy lingwistycznej (nowsze i starsze ), więcej warstw analitycznych, co jeszcze? 25
26 Dziękuję! Państwu za uwagę, a instytucjom finansującym nasze prace za wsparcie: projekt europejski CESAR: Central and South-East European Resources (CIP ICT-PSP ) projekt CLARIN-PL (DIR/WK/2016/02 i 2018/01) 26
27 Bibliografia Zanim pojawi się książka: Ogrodniczuk M. (2018). Polish Parliamentary Corpus [w:] Darja Fišer, Maria Eskevich, Franciska de Jong (red.) Proceedings of the LREC 2018 Workshop ParlaCLARIN: Creating and Using Parliamentary Corpora, s Paryż, European Language Resources Association. Ogrodniczuk M. (2012). The Polish Sejm Corpus [w:] Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC 2012), s Stambuł, European Language Resources Association. 27
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego
Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016
KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk
KorBa Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk ALLPPT.com _ Free PowerPoint Templates, Diagrams and Charts PODSTAWOWE
Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu
Tworzenie przeszukiwalnych korpusów j zyka polskiego za pomoc Korpusomatu Witold Kiera± Šukasz Kobyli«ski Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN IV cykl wykªadów i warsztatów CLARIN-PL Šód¹
Źródła informacji prawniczej w Bibliotece Sejmowej
Źródła informacji prawniczej w Bibliotece Sejmowej Zenon Mikos Anna Sadoch X Krajowe Forum Informacji Naukowej i Technicznej Zakopane, 22-25 września 2009 r. Dziewięćdziesiąt lat Biblioteki Sejmowej Listopad
Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego
Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego Witold Kiera± Šukasz Kobyli«ski Maciej Ogrodniczuk Michaª Wasiluk Zbigniew Gawªowicz Instytut Podstaw Informatyki PAN IX cykl
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN, Instytut Podstaw Informatyki PAN Podstawowe informacje o projekcie
Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki
Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN
KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN Podstawowe informacje o projekcie Projekt realizowany przez IJP
WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp
WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp Natalia Kotsyba, IBI AL UW 24 marca 2010 Plan zajęć Praca domowa na zapytania do Korpusu IPI PAN za pomocą
CLARIN rozproszony system technologii językowych dla różnych języków europejskich
CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN
Zaawansowane narzędzie do analizy korpusu w oparciu o reguły
CLARIN-PL Zaawansowane narzędzie do analizy korpusu w oparciu o reguły Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl 2015-04-13
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra
Program warsztatów CLARIN-PL
W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19
Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego
Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego Dorota Adamiec Instytut Języka Polskiego PAN Elektroniczny
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego
Korpusomat narz dzie do tworzenia przeszukiwalnych korpusów j zyka polskiego Witold Kiera± Šukasz Kobyli«ski Maciej Ogrodniczuk Michaª Wasiluk Instytut Podstaw Informatyki PAN V cykl wykªadów i warsztatów
j INSTYTUT PODSTAW INFORMATYKI
Format dokumentów w projekcie elektronicznego korpusu tekstów polskich z XVII i XVIII w. Maciej Ogrodniczuk Michał Lenart Institute of Computer Science Polish Academy of Sciences j INSTYTUT PODSTAW INFORMATYKI
Narzędzia do automatycznego wydobywania kolokacji
Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex
Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej
II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych
II cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych 18-20 maja 2015 roku Politechnika Wrocławska, Centrum Kongresowe,
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego
Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Marcin Woliński i Anna Andrzejczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Warsztaty CLARIN-PL,
Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)
Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Dorota Adamiec IJP PAN Włodzimierz Gruszczyński IJP PAN Maciej Ogrodniczuk IPI PAN Stan przekrojowych badań nad słownictwem polskim
Kancelaria Senatu Biuro Analiz i Dokumentacji
Prezentacja Danuta Małgorzata Korzeniowska Kierownik Działu Analiz i Opracowań Tematycznych Wsparcie eksperckie Biur Senatorskich przez Prace biura oraz elektroniczny dostęp do prac jest przygotowane
Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN
Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN Wystąpienie przygotowane w ramach projektu Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do roku 1772)
XML i nowoczesne metody zarządzania treścią
XML i nowoczesne metody zarządzania treścią Wykład 14: Studium przypadku: System SET Władysław Baksza, Maciej Ogrodniczuk MIMUW, 14 stycznia 2010 Wykład 14: Studium przypadku: System SET XML i nowoczesne
Języki formalne i automaty Ćwiczenia 6
Języki formalne i automaty Ćwiczenia 6 Autor: Marcin Orchel Spis treści Spis treści... 1 Wstęp teoretyczny... 2 Wyrażenia regularne... 2 Standardy IEEE POSIX Basic Regular Expressions (BRE) oraz Extended
Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI XVIII Wieku jako uzupełniona bibliografia Zawadzkiego
Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI XVIII Wieku jako uzupełniona bibliografia Zawadzkiego Włodzimierz Gruszczyński Maciej Ogrodniczuk Instytut Języka Polskiego Polskiej
U C H W A Ł A Sejmu Rzeczypospolitej Polskiej z dnia 30 lipca 1992 r. REGULAMIN SEJMU RZECZYPOSPOLITEJ POLSKIEJ
ORGANY SEJMU U C H W A Ł A Sejmu Rzeczypospolitej Polskiej z dnia 30 lipca 1992 r. REGULAMIN SEJMU RZECZYPOSPOLITEJ POLSKIEJ Rozdział 3 ORGANY SEJMU Art. 9 Organami Sejmu są: 1) Marszałek Sejmu, 2) Prezydium
P R AWO KO N S T Y T U C Y J N E. SEMESTR LETNI 2018/2019 mgr Anna Kuchciak
P R AWO KO N S T Y T U C Y J N E SEMESTR LETNI 2018/2019 mgr Anna Kuchciak art. 110 ust. 1 Konstytucji RP Sejm wybiera ze swojego grona Marszałka Sejmu i wicemarszałków. O R G A N Y S E J M U ( O R G A
BalticBottomBase. Instytut Morski w Gdańsku Gdańsk,
BalticBottomBase mgr inż. Przemysław Kulesza dr Piotr Piotrowski mgr inż. Michał Wójcik Spójne wyszukiwanie w zbiorze różnorodnych danych geograficznych - metamodel i metoda wyszukiwania Instytut Morski
Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.
Inforex - zarządzanie korpusami i ich anotacja Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl jan.kocon@pwr.edu.pl
Przedstawię teraz tzw. podstawowe symbole wyrażenia regularne (BRE, Basic Regular Expression)
Sed edytor strumieniowy,sed wczytuje bieżący wiersz pliku do wewnętrznego bufora celem manipulowania tekstem. Wynik jest wysyłany na standardowe wyjście. Oryginalny plik nie jest nigdy zmieniany. Jeżeli
Korpusy językowe podstawowa terminologia i metody tworzenia. Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r.
Korpusy językowe podstawowa terminologia i metody tworzenia Natalia Kotsyba IBI AL Uniwersytet Warszawski 12 i 26 stycznia 2011 r. Czym jest korpus? Zbiór tekstów albo zapisanych wypowiedzi, wykorzystywany
Informowanie o tworzeniu prawa przez Sejm
Informowanie o tworzeniu prawa przez Sejm dr Piotr Chybalski Biuro Analiz Sejmowych Kancelaria Sejmu Plan wystąpienia Podstawy prawne Dokumentowanie procesu tworzenia prawa przez Sejm Informowanie o tworzeniu
O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich
O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich mgr Aleksander Nosarzewski Szkoła Główna Handlowa w Warszawie pod kierunkiem naukowym dr hab. Bogumiła Kamińskiego, prof. SGH Problem Potrzeba
1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych
1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych Marcin Wolińſki, Witold Kieraś, Dorota Komo ńska, Emanuel Modrzejewſki Zespół Inżynieriey Lingw tyczney In ytut Pod aw Informatyki Polſkiey Akademii Nauk
Elektroniczny korpus tekstów polskich z XVII i XVIII wieku (do 1772 roku) prezentacja projektu badawczego
WŁODZIMIERZ GRUSZCZYŃSKI DOROTA ADAMIEC MACIEJ OGRODNICZUK Elektroniczny korpus tekstów polskich z XVII i XVIII wieku (do 1772 roku) prezentacja projektu badawczego Projekt Elektroniczny korpus tekstów
WŁODZIMIERZ GRUSZCZYŃSKI, DOROTA ADAMIEC, MACIEJ OGRODNICZUK
POLONICA XXXIII PL ISSN 0137-9712 WŁODZIMIERZ GRUSZCZYŃSKI, DOROTA ADAMIEC, MACIEJ OGRODNICZUK Elektroniczny korpus tekstów polskich z XVII i XVIII wieku (do 1772 roku) prezentacja projektu badawczego
Instrukcja korzystania z wyszukiwarki korpusowej w Korpusomacie
Instrukcja korzystania z wyszukiwarki korpusowej w Korpusomacie wersja robocza 14 sierpnia 2018 r. Spis treści Wprowadzenie......................................... 1 1. Segmentacja........................................
Przyrostowa metoda dygitalizacji słowników
Janusz S. Bień, Joanna Bilińska, Mateusz Sarnecki Wydział Neofilologii Uniwersytet Warszawski Leksykografia polska, ukraińska, bułgarska: słowniki tradycyjne i elektroniczne Warszawa, 13.11.2014 r. Słowniki
Historia kodowania i format plików XML. Jolanta Bachan
Historia kodowania i format plików XML Jolanta Bachan Co to jest format? Format to, w ogólnym znaczeniu, reguły określające strukturę fizyczną, sposób rozmieszczenia, zapisu informacji danego typu. Inaczej:
P R AWO KO N S T Y T U C Y J N E. SEMESTR LETNI 2017/2018 mgr Anna Kuchciak
P R AWO KO N S T Y T U C Y J N E SEMESTR LETNI 2017/2018 mgr Anna Kuchciak Z A S A D A K A D E N C Y J N O Ś C I zob. orzeczenie TK z 23 kwietnia 1996 r., sygn. K. 29/95; wyrok TK z 26 maja 1998 r., sygn.
ZAPIS STENOGRAFICZNY. VIII kadencja
ZAPIS STENOGRAFICZNY Wspólne posiedzenie Komisji Spraw Emigracji i Łączności z Polakami za Granicą (39.) oraz Komisji Zdrowia (51.) w dniu 20 czerwca 2013 r. VIII kadencja Porządek obrad: 1. Rozpatrzenie
Inforex - zarządzanie korpusami i ich anotacja
Inforex - zarządzanie korpusami i ich anotacja Marcin Oleksy marcin.oleksy@pwr.edu.pl Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii
Baza Cytowań POL-index założenia i cele
Baza Cytowań POL-index założenia i cele Wojciech Fenrich Centrum Promocji Informatyki, Warszawa, 20 listopada 2013 Plan wystąpienia Geneza systemu POL-index Zakres i przepływ danych w systemie Polski Współczynnik
CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy
Cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy 13 15 kwietnia 2015 roku Warszawa, Pałac Staszica, ul. Nowy Świat 72, sala 144
Zintegrowany system usług dla nauki etap II (ZSUN II)
Zintegrowany system usług dla nauki etap II (ZSUN II) Ośrodek Przetwarzania Informacji Państwowy Instytut Badawczy Jarosław Protasiewicz jaroslaw.protasiewicz@opi.org.pl Warszawa, 5 czerwca 2017 r. Geneza
KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)
KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów) Marcin Oleksy Michał Marcińczuk Politechnika ska Instytut Informatyki
Wyrażenie wewnątrz nawiasów jest atomem (rozpatrujemy je jako całość).
Wyrażenia regularne pełnią istotną rolę w PHP. Umożliwiają one opisywanie i przetwarzanie długich ciągów znaków. Dzieje się to na zasadzie porównania danego ciągu znaków z określonym wzorem, ułożonym przez
Zapis stenograficzny (2153) 191. posiedzenie Komisji Rodziny i Polityki Społecznej w dniu 13 kwietnia 2011 r.
ISSN 1643-2851 SENAT RZECZYPOSPOLITEJ POLSKIEJ Zapis stenograficzny (2153) 191. posiedzenie Komisji Rodziny i Polityki Społecznej w dniu 13 kwietnia 2011 r. VII kadencja Porządek obrad: 1. Rozpatrzenie
MONITORING PROCESU LEGISLACYJNEGO NA ETAPIE PARLAMENTARNYM
PODSTAWOWE INFORMACJE O PROJEKCIE 1. Data zakończenia prac nad raportem: 2016-05-19 2. Czy proces legislacyjny został zakończony (w jakikolwiek sposób)? 3. Autor raportu (imię i nazwisko): Kinga Polubicka
FUNKCJONOWANIE I ORGANIZACJA SEJMU, SENATU. PRAWA I OBOWIĄZKI PARLAMENTARZYSTY
FUNKCJONOWANIE I ORGANIZACJA SEJMU, SENATU. PRAWA I OBOWIĄZKI PARLAMENTARZYSTY Rozdział IV SEJM I SENAT Art. 95. Władzę ustawodawczą w Rzeczypospolitej Polskiej sprawują Sejm i Senat. Sejm sprawuje kontrolę
Ćwiczenia. dr Artur Bartoszewski www.bartoszewski.pr.radom.pl. Wydział Nauczycielski, Kierunek Pedagogika Wprowadzenie do baz danych
dr Artur Bartoszewski www.bartoszewski.pr.radom.pl Ćwiczenia 1 dr Artur Bartoszewski - WYKŁAD:, Ćwiczenia z baz danych - "lektury.dbf" Utwórz bazę danych w programiems Access o nazwie Lektury, importujdo
System Korekty Tekstu Polskiego
Wnioski Grzegorz Szuba System Korekty Tekstu Polskiego Plan prezentacji Geneza problemu i cele pracy Opis algorytmu bezkontekstowego Opis algorytmów kontekstowych Wyniki testów Rozszerzenie pracy - uproszczona
Wstęp do informatyki 2011/2012. Wyrażenia regularne (sed)
Wstęp do informatyki 2011/2012 Wyrażenia regularne (sed) Sed sed [OPCJE] polecenia [plik_wejściowy]... sed [OPCJE] -f skrypt_z_poleceniami_seda [plik_wejściowy]... Edytor strumieniowy stosowany do przetwarzania
WŁADZA USTAWODAWCZA W RZECZYPOSPOLITEJ POLSKIEJ - SEJM I SENAT Wybory i kadencja Sejmu i Senatu
Wybory i kadencja Sejmu i Senatu Wybory do Sejmu i Senatu Sejm składa się z 460 posłów. Wybory do Sejmu są powszechne, równe, bezpośrednie i proporcjonalne oraz odbywają się w głosowaniu tajnym. Wybrany
Aplikacja kliencka na Tablety z systemem Android. Instrukcja instalacji
Aplikacja kliencka na Tablety z systemem Android Instrukcja instalacji Wymagania techniczne Do poprawnego działania aplikacji esesja wymagane jest urządzenie typu Tablet o następujących parametrach: System
Tajemnice skutecznego wyszukiwania na przykładzie
Tajemnice skutecznego wyszukiwania na przykładzie Przeglądarka program otwierający wrota Internetu Wyszukiwarka a przeglądarka Wyszukiwarka program pozwalający wyszukiwać linki do stron WWW Kilka podstawowych
Spis treści 0. Szkoła Tokarskiego Marcin Woliński Adam Przepiórkowski Korpus IPI PAN Inne pojęcia LXIII Zjazd PTJ, Warszawa
Spis treści -1 LXIII Zjazd PTJ, Warszawa 16-17.09.2003 Pomor, Humor Morfeusz SIAT Poliqarp Holmes Kryteria wyboru Robert Wołosz Marcin Woliński Adam Przepiórkowski Michał Rudolf Niebieska gramatyka Saloni,
MONITORING PROCESU LEGISLACYJNEGO NA ETAPIE PARLAMENTARNYM
PODSTAWOWE INFORMACJE O PROJEKCIE 1. Data zakończenia prac nad raportem: 2016-02-16 2. Czy proces legislacyjny został zakończony (w jakikolwiek sposób)? 3. Autor raportu (imię i nazwisko): Wojciech ROGOWSKI
ZAPIS STENOGRAFICZNY. VIII kadencja
ZAPIS STENOGRAFICZNY Wspólne posiedzenie Komisji Kultury i Środków Przekazu (92.), Komisji Gospodarki Narodowej (261.) oraz Komisji Samorządu Terytorialnego i Administracji Państwowej (272.) w dniu 23
XQuery. sobota, 17 grudnia 11
XQuery XQuery XQuery pozwala na wydobywanie danych z dokumentów XML w sposób podobny do tego w jaki używany jest SQL do tabel w bazach danych. XQuery to język do wykonywania zapytań na dokumentach XML.
ZAPIS STENOGRAFICZNY. Posiedzenie Komisji Budżetu i Finansów Publicznych (103.) w dniu 8 sierpnia 2013 r. VIII kadencja
ZAPIS STENOGRAFICZNY Posiedzenie Komisji Budżetu i Finansów Publicznych (103.) w dniu 8 sierpnia 2013 r. VIII kadencja Porządek obrad: 1. Rozpatrzenie wniosków zgłoszonych na 38. posiedzeniu Senatu do
Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW
1/18 Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW Janusz S. Bień Katedra Lingwistyki Formalnej Wydział Neofilologii Uniwersytet Warszawski 2 czerwca 2014 r. 2/18 Wprowadzenie Katedra Lingwistyki
Biblioteka Wirtualnej Nauki
Biblioteka Wirtualnej Nauki BAZA EBSCO EBSCO Publishing oferuje użytkownikom w Polsce dostęp online do pakietu podstawowego baz danych w ramach projektu Electronic Information for Libraries Direct eifl
Metadane w Jagiellońskiej Bibliotece Cyfrowej. Piotr Myszkowski
Metadane w Jagiellońskiej Bibliotece Cyfrowej Piotr Myszkowski Informacje o obiektach w Jagiellońskiej Bibliotece Cyfrowej Dwa poziomy strukturyzacji informacji o obiektach odpowiadają dwóm podstawowym
Primo wyszukiwarka naukowa
Primo wyszukiwarka naukowa Wyszukiwarka Primo to uniwersalne narzędzie do jednoczesnego przeszukiwania wszystkich zasobów bibliotecznych, zarówno tradycyjnych jak i elektronicznych. Pozwala szybko dotrzeć
REGULAMIN MIĘDZYSZKOLNEGO KONKURSU ORTOGRAFICZNEGO SZKÓŁ PODSTAWOWYCH MIASTA POZNANIA
SZKOŁA PODSTAWOWA NR 18 W POZNANIU REGULAMIN MIĘDZYSZKOLNEGO KONKURSU ORTOGRAFICZNEGO SZKÓŁ PODSTAWOWYCH MIASTA POZNANIA Organizator : Szkoła Podstawowa nr 18 im. Zofii Nałkowskiej w Poznaniu Współorganizatorzy
SPIS TREŚCI. Przedmowa (Anna Rytel-Warzocha) Rozdział I Z PROBLEMATYKI STATUSU POSŁA... 13
SPIS TREŚCI Przedmowa (Anna Rytel-Warzocha)........................................... 11 Rozdział I Z PROBLEMATYKI STATUSU POSŁA..................................... 13 1. Niepołączalność mandatu poselskiego.....................................
- o zmianie ustawy o świadczeniach opieki zdrowotnej finansowanych ze środków publicznych
SEJM RZECZYPOSPOLITEJ POLSKIEJ VII kadencja Marszałek Senatu Druk nr 762 Warszawa, 26 lipca 2012 r. Pani Ewa Kopacz Marszałek Sejmu Rzeczypospolitej Polskiej Szanowna Pani Marszałek! Na podstawie art.
Pytania na powtórzenie wiadomości z zakresu ustroju Rzeczypospolitej Polskiej wiedza o społeczeństwie (nowa podstawa programowa)
Pytania na powtórzenie wiadomości z zakresu ustroju Rzeczypospolitej Polskiej wiedza o społeczeństwie (nowa podstawa programowa) 1) Kiedy odbyły się obrady Okrągłego Stołu? 2) Na czym polegały najważniejsze
Instrukcja przygotowania pliku do deponowania
Instrukcja przygotowania pliku do deponowania Etapy przygotowania pliku Przygotowanie pliku w formacie PDF Wielkość pliku PDF Uzupełnienie metadanych w dokumencie Nadanie nazwy pliku PDF Format tekstowy
Tablice (jedno i wielowymiarowe), łańcuchy znaków
Tablice (jedno i wielowymiarowe), łańcuchy znaków wer. 8 z drobnymi modyfikacjami! Wojciech Myszka Katedra Mechaniki i Inżynierii Materiałowej 2017-04-07 09:35:32 +0200 Zmienne Przypomnienie/podsumowanie
WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I
WK, FN-1, semestr letni 2010 Korpusy tekstów w lingwistyce. Wyrażenia regularne. Cz. I Natalia Kotsyba, IBI AL UW 3 marca 2010 Czym jest korpus? Zbiór tekstów albo zapisanych wypowiedzi w postaci elektronicznej,
Zapis stenograficzny (1937) 282. posiedzenie Komisji Gospodarki Narodowej w dniu 4 stycznia 2011 r.
ISSN 1643-2851 SENAT RZECZYPOSPOLITEJ POLSKIEJ Zapis stenograficzny (1937) 282. posiedzenie Komisji Gospodarki Narodowej w dniu 4 stycznia 2011 r. VII kadencja Porządek obrad: 1. Rozpatrzenie ustawy o
WYSZUKIWANIE W REJESTRZE ELEKTRONICZNYM NUMERÓW REFERENCYJNYCH
WYSZUKIWANIE W REJESTRZE ELEKTRONICZNYM NUMERÓW REFERENCYJNYCH Uwagi wstępne: Możesz wyszukiwać dokumenty w oparciu o kilka kryteriów jednocześnie: np. : słowo kluczowe i rodzaj dokumentu, słowo kluczowe
PROCES LEGISLACYJNY. Podstawy prawa i ochrona własności intelektualnej. Wykład nr IV. Instytut Inżynierii i Gospodarki Wodnej Zakład Gospodarki Wodnej
Wykład nr IV Podstawy prawa i ochrona własności intelektualnej PROCES LEGISLACYJNY Instytut Inżynierii i Gospodarki Wodnej Zakład Gospodarki Wodnej OPRACOWAŁ dr hab.inż.wojciech Chmielowski prof. PK Proces
SPIS TREŚCI. Spis treści Wstęp Wykaz skrótów, symboli i terminów gramatycznych MIANOWNIK
5 SPIS TREŚCI Spis treści... 5-12 Wstęp... 13-14 Wykaz skrótów, symboli i terminów gramatycznych... 15-16 MIANOWNIK... 17-65 TABELA prezentująca końcówki fleksyjne rzeczowników... 17 RZECZOWNIK, PRZYMIOTNIK...
Instrukcja przygotowania pliku do deponowania
Instrukcja przygotowania pliku do deponowania Etapy przygotowania pliku Przygotowanie pliku w formacie PDF Uzupełnienie metadanych w dokumencie Nadanie nazwy pliku PDF Format tekstowy pliku PDF Uporządkowanie
Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII w.
Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII w. Prezentacja projektu i jego zastosowania w pracy naukowej oraz dydaktyce Włodzimierz Gruszczyński 1 Maciej Ogrodniczuk
PROCES TWORZENIA PRAWA W POLSCE
PROCES TWORZENIA PRAWA W POLSCE Źródło: https://www.pexels.com/photo/flag-of-poland-5611/, baza PEXELS, licencja CCO Proces ustawodawczy, zwany też legislacyjnym, oznacza przebieg stanowienia prawa w Polsce.
Dlaczego GML? Gdańsk r. Karol Stachura
Dlaczego GML? Gdańsk 13.03.2017r. Karol Stachura Zanim o GML najpierw o XML Dlaczego stosuje się pliki XML: Tekstowe Samoopisujące się Elastyczne Łatwe do zmiany bez zaawansowanego oprogramowania Posiadające
XML i nowoczesne metody zarządzania treścią
XML i nowoczesne metody zarządzania treścią Wykład 5: Dokumentacja schematu oraz inne formalizmy modelowania dokumentów Maciej Ogrodniczuk MIMUW, 7 listopada 2011 Wykład 5: Dokumentacja i inne formalizmy
Multiwyszukiwarka PRIMO dla KUL jak korzystać?
Multiwyszukiwarka PRIMO dla KUL jak korzystać? Multiwyszukiwarka PRIMO to jedno okienko wyszukiwawcze, za pomocą którego jest możliwość przeszukiwania: - katalogu komputerowego BU KUL - subskrybowanych
BAZY DANYCH. Co to jest baza danych. Przykłady baz danych. Z czego składa się baza danych. Rodzaje baz danych
BAZY DANYCH Co to jest baza danych Przykłady baz danych Z czego składa się baza danych Rodzaje baz danych CO TO JEST BAZA DANYCH Komputerowe bazy danych już od wielu lat ułatwiają człowiekowi pracę. Są
EXCEL TABELE PRZESTAWNE
EXCEL TABELE PRZESTAWNE ZADANIE 1. (3 punkty). Ze strony http://www.staff.amu.edu.pl/~izab/ pobierz plik o nazwie Tabela1.xlsx. Używając tabel przestawnych wykonaj następujące polecenia: a) Utwórz pierwszą
POMOC. 1. Wybór Katalogu
Bibliografia Regionalna obejmuje książki i czasopisma lokalne zawierające wszelkie wiadomości na temat Woli. Gromadzone informacje dotyczą najczęściej takich zagadnień jak życie społeczne, inwestycje,
Open Access w technologii językowej dla języka polskiego
Open Access w technologii językowej dla języka polskiego Marek Maziarz, Maciej Piasecki Grupa Naukowa Technologii Językowych G4.19 Zakład Sztucznej Inteligencji, Instytut Informatyki, W-8, Politechnika
P R AWO KO N S T Y T U C Y J N E. SEMESTR LETNI 2018/2019 mgr Anna Kuchciak
P R AWO KO N S T Y T U C Y J N E SEMESTR LETNI 2018/2019 mgr Anna Kuchciak Z A S A DA P O DZ I A ŁU W Ł A DZ Y ART. 10 KONSTYTUCJI RP WŁADZA USTAWODAWCZA PRAWODAWSTWO WŁADZA WYKONAWCZA WYKONAWSTWO WŁADZA
M.P Nr 13 poz. 89. U C H W A Ł A Sejmu Rzeczypospolitej Polskiej. z dnia 6 marca 1993 r.
Kancelaria Sejmu s. 1/10 M.P. 1993 Nr 13 poz. 89 U C H W A Ł A Sejmu Rzeczypospolitej Polskiej z dnia 6 marca 1993 r. w sprawie zmiany Regulaminu Sejmu Rzeczypospolitej Polskiej Art. 1. W uchwale Sejmu
Druk nr 3820 Warszawa, 7 sierpnia 2015 r.
SEJM RZECZYPOSPOLITEJ POLSKIEJ VII kadencja Marszałek Senatu Druk nr 3820 Warszawa, 7 sierpnia 2015 r. Szanowna Pani Małgorzata Kidawa-Błońska Marszałek Sejmu Rzeczypospolitej Polskiej Szanowna Pani Marszałek!
WYKŁAD 1 METAJĘZYK SGML CZĘŚĆ 1
WYKŁAD 1 METAJĘZYK SGML CZĘŚĆ 1 SGML (Standard Generalized Markup Language) Standardowy uogólniony język znaczników służący do ujednolicania struktury i formatu różnego typu informacji (danych). Twórcy
Prawo parlamentarne - opis przedmiotu
Prawo parlamentarne - opis przedmiotu Informacje ogólne Nazwa przedmiotu Prawo parlamentarne Kod przedmiotu 10.9-WX-AdD-PP-Ć-14_pNadGenG6LWL Wydział Kierunek Wydział Prawa i Administracji Administracja
Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0
Słowem wstępu Część rodziny języków XSL Standard: W3C XSLT 1.0-1999 razem XPath 1.0 XSLT 2.0-2007 Trwają prace nad XSLT 3.0 Problem Zakładane przez XML usunięcie danych dotyczących prezentacji pociąga
- o zmianie ustawy - Kodeks karny.
SEJM RZECZYPOSPOLITEJ POLSKIEJ VI kadencja Marszałek Senatu Druk nr 3207 Warszawa, 15 czerwca 2010 r. Pan Bronisław Komorowski Marszałek Sejmu Rzeczypospolitej Polskiej Szanowny Panie Marszałku! Zgodnie
1. Pierwszy program. Kompilator ignoruje komentarze; zadaniem komentarza jest bowiem wyjaśnienie programu człowiekowi.
1. Pierwszy program // mój pierwszy program w C++ #include using namespace std; cout
2016 r. 2
Wystąpienia posła prof. Mirosława Krajewskiego na plenarnym posiedzeniu Sejmu RP w latach 2006-2007 w sprawie lustracji środowiska akademickiego dot. współpracy ze służbami komunistycznymi I. 5 kadencja,
JAVAScript w dokumentach HTML (1) JavaScript jest to interpretowany, zorientowany obiektowo, skryptowy język programowania.
IŚ ćw.8 JAVAScript w dokumentach HTML (1) JavaScript jest to interpretowany, zorientowany obiektowo, skryptowy język programowania. Skrypty JavaScript są zagnieżdżane w dokumentach HTML. Skrypt JavaScript
OSA OTWARTY SYSTEM ANTYPLAGIATOWY
OSA OTWARTY SYSTEM ANTYPLAGIATOWY Kontrola antyplagiatowa pisemnych prac na Uniwersytecie Mikołaja Kopernika w Toruniu Mariusz Czerniak Plan prezentacji Informacje o systemie OSA Kontrola wstępnych wersji
ISSN SENAT RZECZYPOSPOLITEJ POLSKIEJ
ISSN 1643-2851 SENAT RZECZYPOSPOLITEJ POLSKIEJ Zapis stenograficzny (858) Wspólne posiedzenie Komisji Budżetu i Finansów Publicznych (20.) oraz Komisji Ustawodawczej (183.) w dniu 22 kwietnia 2009 r. VII