XML and Content Management

Podobne dokumenty
XML i nowoczesne metody zarządzania treścią

Instrukcja obsługi User s manual

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Zasady rejestracji i instrukcja zarządzania kontem użytkownika portalu

Zmiany techniczne wprowadzone w wersji Comarch ERP Altum

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

SubVersion. Piotr Mikulski. SubVersion. P. Mikulski. Co to jest subversion? Zalety SubVersion. Wady SubVersion. Inne różnice SubVersion i CVS

Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards

Zarządzanie sieciami telekomunikacyjnymi

Stargard Szczecinski i okolice (Polish Edition)

The Electronic Corpus of the 17th and 18th c. Polish Texts (up to 1772). The final result

XML i nowoczesne metody zarządzania treścią

kdpw_stream Struktura komunikatu: Status komunikatu z danymi uzupełniającymi na potrzeby ARM (auth.ste ) Data utworzenia: r.

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2

archivist: Managing Data Analysis Results

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Tychy, plan miasta: Skala 1: (Polish Edition)

Website review radcowie.biz

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Updated Action Plan received from the competent authority on 4 May 2017

PROJECT. Syllabus for course Global Marketing. on the study program: Management

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

THE ADMISSION APPLICATION TO PRIVATE PRIMARY SCHOOL. PART I. Personal information about a child and his/her parents (guardians) Child s name...


ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

Website review pureorganic.pl

SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like

Raport bieżący: 44/2018 Data: g. 21:03 Skrócona nazwa emitenta: SERINUS ENERGY plc

Wprowadzenie do psql i SQL. Język komend psql. Podstawy instrukcji SELECT

XML Path Language (XPath)

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

PRZEWODNIK PO PRZEDMIOCIE. Negotiation techniques. Management. Stationary. II degree

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Instrukcja konfiguracji usługi Wirtualnej Sieci Prywatnej w systemie Mac OSX

Podstawa prawna: Art. 70 pkt 1 Ustawy o ofercie - nabycie lub zbycie znacznego pakietu akcji

Blow-Up: Photographs in the Time of Tumult; Black and White Photography Festival Zakopane Warszawa 2002 / Powiekszenie: Fotografie w czasach zgielku


Pielgrzymka do Ojczyzny: Przemowienia i homilie Ojca Swietego Jana Pawla II (Jan Pawel II-- pierwszy Polak na Stolicy Piotrowej) (Polish Edition)

OpenPoland.net API Documentation

Website review auto-web.pl

XPath XML Path Language. XPath. XSLT część 1. XPath data model. Wyrażenia XPath. Osie (axes) Location paths

How to share data from SQL database table to the OPC Server? Jak udostępnić dane z tabeli bazy SQL do serwera OPC? samouczek ANT.

EaglePCB_2_FreeCAD (beta)

METHOD 2 -DIAGNOSTIC OUTSIDE

Wdrożenie archiwum ELO w firmie z branży mediowej. Paweł Łesyk

Strona główna > Produkty > Systemy regulacji > System regulacji EASYLAB - LABCONTROL > Program konfiguracyjny > Typ EasyConnect.

deep learning for NLP (5 lectures)

Ilona B. Miles website Terms of Use (ewentualnie: Service)

POLITYKA PRYWATNOŚCI / PRIVACY POLICY

Wykaz linii kolejowych, które są wyposażone w urządzenia systemu ETCS

1945 (96,1%) backlinks currently link back (74,4%) links bear full SEO value. 0 links are set up using embedded object

OBWIESZCZENIE MINISTRA INFRASTRUKTURY. z dnia 18 kwietnia 2005 r.

Formularz recenzji magazynu. Journal of Corporate Responsibility and Leadership Review Form

Rev Źródło:

Wykaz linii kolejowych, które są wyposażone w urzadzenia systemu ETCS

Eksploracja Zasobów Internetu. PageRank intuicja: strona jest tak ważna jak ważne są strony, które na nią wskazują (Google)

Wyroby medyczne Część 1: Zastosowanie inżynierii użyteczności do wyrobów medycznych

Baptist Church Records

Wymagania wydawnicze - "Zeszyty Naukowe OTN" = The Scientific Journals of Science Association in Ostrołęka - publishing requirements

EXAMPLES OF CABRI GEOMETRE II APPLICATION IN GEOMETRIC SCIENTIFIC RESEARCH

Aktualizacja Oprogramowania Firmowego (Fleszowanie) Microprocessor Firmware Upgrade (Firmware downloading)

Metodyki projektowania i modelowania systemów Cyganek & Kasperek & Rajda 2013 Katedra Elektroniki AGH

Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2)


PROJECT. Syllabus for course Negotiations. on the study program: Management

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

HAPPY ANIMALS L01 HAPPY ANIMALS L03 HAPPY ANIMALS L05 HAPPY ANIMALS L07

HAPPY ANIMALS L02 HAPPY ANIMALS L04 HAPPY ANIMALS L06 HAPPY ANIMALS L08

WZÓR ŚWIADECTWA UZNANIA POJAZDU DROGOWEGO Komentarze

Zarządzenie Rektora Politechniki Gdańskiej Nr 39/2018 z 20 grudnia 2018 r.

Healthix Consent Web-Service Specification

17-18 września 2016 Spółka Limited w UK. Jako Wehikuł Inwestycyjny. Marek Niedźwiedź. InvestCamp 2016 PL

Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)

Systemy wbudowane. Poziomy abstrakcji projektowania systemów HW/SW. Wykład 9: SystemC modelowanie na różnych poziomach abstrakcji

SNP SNP Business Partner Data Checker. Prezentacja produktu

The Overview of Civilian Applications of Airborne SAR Systems

Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019

UWAGA!!!! Nie odsyłać do Spółki ATTENTION!!!!! Do not send it to the Company

FORMULARZ APLIKACYJNY CERTYFIKACJI STANDARDU GLOBALG.A.P. CHAIN OF CUSTODY GLOBALG.A.P. CHAIN OF CUSTODY APPLICATION FORM

PROJECT. Syllabus for course Principles of Marketing. on the study program: Management

XML. 6.6 XPath. XPath is a syntax used for selecting parts of an XML document

UMOWY WYPOŻYCZENIA KOMENTARZ

Patients price acceptance SELECTED FINDINGS

Oferta przetargu. Poland Tender. Nazwa. Miejscowość. Warszawa Numer ogłoszenia. Data zamieszczenia Typ ogłoszenia

Struktury proponowane dla unikalnych rozwiązań architektonicznych.

Traceability. matrix

Życie za granicą Studia

Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)

DM-ML, DM-FL. Auxiliary Equipment and Accessories. Damper Drives. Dimensions. Descritpion

Testy jednostkowe - zastosowanie oprogramowania JUNIT 4.0 Zofia Kruczkiewicz

Remember to set your printer to omit this page when running off copies.using this document.

Wykład 5_2 Arkusze stylów dziedziczenie. Technologie internetowe Zofia Kruczkiewicz

Hard-Margin Support Vector Machines

Kodeks postępowania administracyjnego

y = The Chain Rule Show all work. No calculator unless otherwise stated. If asked to Explain your answer, write in complete sentences.

T O M A S Z N I T K A

Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout

Transkrypt:

XML and Content Management Lecture 14: Case study: Legal documents in Sejm Władysław Baksza, Maciej Ogrodniczuk Sejm, 17 January 2011 Lecture 14: Case study: Legal documents in Sejm XML and Content Management 1

A little history Before 2005: a system for storing metadata of legal acts (current versions, proposals, amendments), texts stored in the filesystem as MS Word files, manual versioning, manual unification of texts. Lecture 14: Case study: Legal documents in Sejm XML and Content Management 2

Splitting the process Two (distinct) areas of document management: 1 a server module for managing the legislative processes: registering new texts, controlling status of work, managing variants of amendments, triggering edit/view/merge,... 2 editing environment (XMetaL): information stored to a large extent in texts: publication addresses, dates: when the bill has been passed, when it goes into effect etc. amendment links, definitions, XMetaL extensions (CSS/macros/keyboard shortcuts), repository integration: WebDAV. Lecture 14: Case study: Legal documents in Sejm XML and Content Management 3

What does Polish law look like? Lecture 14: Case study: Legal documents in Sejm XML and Content Management 4

What does the amendment look like? Lecture 14: Case study: Legal documents in Sejm XML and Content Management 5

XMetaL interface Lecture 14: Case study: Legal documents in Sejm XML and Content Management 6

Document schema General assumptions: no formatting constructs, representation of the legal structure: hiearchy of units: sections, chapters, articles, paragraphs, points,... text content of all parts, footnotes, additional elements: comments, definitions, statements of Constitutional Tribunal, external elements: editorial islands, amendment tags. Lecture 14: Case study: Legal documents in Sejm XML and Content Management 7

What does it look like? <ustawa data-uchwalenia="20 grudnia 1990"> <tytul>o jednostkach innowacyjno-wdrożeniowych</tytul> <adres-publikacji> <adres-dzu rok="1991" numer="2" pozycja="7"/> </adres-publikacji> <artykul nr="1">urząd Postępu Naukowo-Technicznego i Wdrożeń na dotychczasowych zasadach: <punkt nr="1">dokonuje skreśleń w rejestrze jednostek innowacyjno-wdrożeniowych w okresie trzech lat od dnia wejścia w życie niniejszej ustawy,</punkt> <punkt nr="2">wpisuje jednostki do rejestru.</punkt> </artykul> <artykul nr="2">ustawa wchodzi w życie po upływie 14 dni od dnia ogłoszenia.</artykul> </ustawa> Lecture 14: Case study: Legal documents in Sejm XML and Content Management 8

Results In 2009: documents created in XML (according to so-called Sejm schema ), multiformat presentation (PDF, HTML, DOCX) via XSLT, fine-grained versioning (at every save), texts stored in relational database (Oracle, CLOB), a mechanism for automated merging of amendments over the current text (with amendment links, tags, paths), Word2XML converter (semi-automated), software architecture: Solaris (Windows)/Oracle/JBoss/ XMetaL. Lecture 14: Case study: Legal documents in Sejm XML and Content Management 9

CSS example ustawa:before { content: "USTAWA\Az dnia " attr(data-uchwalenia) " r."; font-weight: bold; display: block; text-align: center; } Lecture 14: Case study: Legal documents in Sejm XML and Content Management 10

XSLT example <xsl:template match="artykul"> <xsl:choose> <xsl:when test="count(ancestor::*[name() = dodaj or name() = zastap ]) > 0"> <div class="artykul-cytowany"> <xsl:if test="position() = 1"> </xsl:if> Art. <xsl:value-of select = "@nr"/> <xsl:apply-templates/> </div> </xsl:when> <xsl:otherwise> <div class="artykul"> <div class="naglowek-artykulu">art. <xsl:value-of select = "@nr"/></div> <xsl:apply-templates/> </div> </xsl:otherwise> </xsl:choose> </xsl:template> Lecture 14: Case study: Legal documents in Sejm XML and Content Management 11

Merging amendments Bills can be merged with the current texts by means of: storing amendment links between pairs of texts in the amended contents: OO: links between the new and current text, CC: amendment tags representing individual changes in the text with their legally binding dates, link targets stored as XPath expressions, possibility of merging many bills over a single current text, signalling potential conflicts. Lecture 14: Case study: Legal documents in Sejm XML and Content Management 12

Amendment links Amendment links store information about the relation between the fragment of the bill and the fragment of the base text. They are inserted directly where the title of the base text is referred to (replacing it). The current information about the text is retrieved from the database every time the text is opened. An example: <przywolanie ustawa-id="8ab282971830bb8a01183221c82c0010" typ="nowelizacyjne"> <ustawa-info data-uchwalenia="6 grudnia 1996"> <tytul>o zastawie rejestrowym i rejestrze zastawów</tytul> <adres-publikacji> <adres-dzu rok="1996" numer="149" pozycja="703"/> </adres-publikacji> </ustawa-info> <przypis nr="2"/> </przywolanie> Lecture 14: Case study: Legal documents in Sejm XML and Content Management 13

Amendment tags Two dimensions: 1 the type of a change: <dodaj> (add), <zmien> (change), <usun> (delete), 2 change target: structure element, text fragment. Lecture 14: Case study: Legal documents in Sejm XML and Content Management 14

Examples of amendment types Text: W art. 7 w ust. 1 dodaje się pkt 6a w brzmieniu: 6a) analizę wykorzystania wynikających z kontroli wniosków dotyczących stanowienia lub stosowania prawa.. XML representation: W art. 7 w ust. 1 dodaje się pkt 6a w brzmieniu: <dodaj> <po-elemencie id="//artykul[@nr= 7 ] /ustep[@nr= 1 ]/punkt[@nr= 6 ]"/> <element> <punkt nr="6a">analizę wykorzystania wynikających z kontroli wniosków dotyczących stanowienia lub stosowania prawa.</punkt> </element> </dodaj> Lecture 14: Case study: Legal documents in Sejm XML and Content Management 15

Examples of amendment types Text: W art. 2 ust. 3 wyrazy armie zastępuje się wyrazami siły zbrojne. XML representation: W art. 2 ust. 3 wyrazy <zastap> <w-elemencie id="//artykul[@nr= 2 ] /ustep[@nr= 3 ]"/> <tekst>armie</tekst> <akcja>zastępuje się wyrazami</akcja> <tekstem>siły zbrojne</tekstem> </zastap>. Lecture 14: Case study: Legal documents in Sejm XML and Content Management 16

The model of a change tag (<zastap>) <xsd:element name="zastap"> <xsd:complextype> <xsd:choice> <xsd:sequence> <xsd:choice maxoccurs="unbounded"> <xsd:element ref="element"/> <xsd:element ref="elementy"/> </xsd:choice> <xsd:element ref="elementem" minoccurs="0"/> </xsd:sequence> <xsd:sequence> <xsd:element ref="w-elemencie" minoccurs="0" maxoccurs="unbounded"/> <xsd:element ref="tekst"/> <xsd:element ref="akcja" minoccurs="0"/> <xsd:element ref="tekstem"/> </xsd:sequence> </xsd:choice> <xsd:attributegroup ref="atr-nowelizacyjne"/> </xsd:complextype> </xsd:element> Lecture 14: Case study: Legal documents in Sejm XML and Content Management 17

Content model variants 5 content models for representing: 1 a change of a single structural element: <element id="ścieżka "> an empty element with a path pointing at the element which must be changed, <elementem> new element content (stored inside the tag), 2 a change of a continuous sequence of structural elements: <elementy od="ścieżka1 " do="ścieżka2 "> with paths pointing at the beginning and end of the set of elements being changed, <elementem> new content of the set, 3 a change of a text fragment: <w-elemencie id="ścieżka "> with the path to the element containing the text to be changed, <tekst> old text, <akcja> binding text (e.g. zastępuje się wyrazy ), <tekstem> new text, Lecture 14: Case study: Legal documents in Sejm XML and Content Management 18

Content model variants 4 encasing the text in a structural element: <element id="ścieżka "> pointing at element which has text to be encased, <elementem poziom="element "> naming the element representing required level of structure (e.g. ustep), 5 converting a structural element to the base text: <element id="ścieżka "> poiting at element which has content to be converted. Lecture 14: Case study: Legal documents in Sejm XML and Content Management 19

Amednment result Lecture 14: Case study: Legal documents in Sejm XML and Content Management 20

Word2XML conversion Majority of the texts are being created in MS Word, so they must be converted into XML: Word files saved as DOCXs, conversion implemented in Java, additional text properties (such as punctuation apart from the structure) verified by the conversion process, conversion errors saved in the result document as Word comments, result document created on the fly, regular expressions modified outside the converter. Lecture 14: Case study: Legal documents in Sejm XML and Content Management 21

Converter interface Lecture 14: Case study: Legal documents in Sejm XML and Content Management 22

Future plans What is not there, but could be (and is easy to implement with the current model): presentation of a version of each text valid for a given date, full-text search (and all other types of search), representation of committee works,??? Lecture 14: Case study: Legal documents in Sejm XML and Content Management 23