XML and Content Management

Podobne dokumenty
XML i nowoczesne metody zarządzania treścią

XML i nowoczesne metody zarządzania treścią

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

Tychy, plan miasta: Skala 1: (Polish Edition)

OpenPoland.net API Documentation

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

Stargard Szczecinski i okolice (Polish Edition)

Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)

Domy inaczej pomyślane A different type of housing CEZARY SANKOWSKI

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Wybrzeze Baltyku, mapa turystyczna 1: (Polish Edition)

POLITYKA PRYWATNOŚCI / PRIVACY POLICY

Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2

Installation of EuroCert software for qualified electronic signature

Pielgrzymka do Ojczyzny: Przemowienia i homilie Ojca Swietego Jana Pawla II (Jan Pawel II-- pierwszy Polak na Stolicy Piotrowej) (Polish Edition)

Helena Boguta, klasa 8W, rok szkolny 2018/2019

Dolny Slask 1: , mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition)

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

OSI Network Layer. Network Fundamentals Chapter 5. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

Hard-Margin Support Vector Machines

Polski Krok Po Kroku: Tablice Gramatyczne (Polish Edition) By Anna Stelmach

Zarządzanie sieciami telekomunikacyjnymi

Instrukcja obsługi User s manual

OSI Network Layer. Network Fundamentals Chapter 5. ITE PC v4.0 Chapter Cisco Systems, Inc. All rights reserved.

deep learning for NLP (5 lectures)

SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like


EXAMPLES OF CABRI GEOMETRE II APPLICATION IN GEOMETRIC SCIENTIFIC RESEARCH

Leba, Rowy, Ustka, Slowinski Park Narodowy, plany miast, mapa turystyczna =: Tourist map = Touristenkarte (Polish Edition)

Website review radcowie.biz

Wykaz linii kolejowych, które są wyposażone w urządzenia systemu ETCS

Website review pureorganic.pl

Website review auto-web.pl

Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2)

Wykaz linii kolejowych, które są wyposażone w urzadzenia systemu ETCS

SubVersion. Piotr Mikulski. SubVersion. P. Mikulski. Co to jest subversion? Zalety SubVersion. Wady SubVersion. Inne różnice SubVersion i CVS

Polska Szkoła Weekendowa, Arklow, Co. Wicklow KWESTIONRIUSZ OSOBOWY DZIECKA CHILD RECORD FORM

Rev Źródło:

Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019

Zmiany techniczne wprowadzone w wersji Comarch ERP Altum

Blow-Up: Photographs in the Time of Tumult; Black and White Photography Festival Zakopane Warszawa 2002 / Powiekszenie: Fotografie w czasach zgielku

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)


Systemy kodowania. Jolanta Bachan

HAPPY ANIMALS L01 HAPPY ANIMALS L03 HAPPY ANIMALS L05 HAPPY ANIMALS L07

HAPPY ANIMALS L02 HAPPY ANIMALS L04 HAPPY ANIMALS L06 HAPPY ANIMALS L08

Formularz recenzji magazynu. Journal of Corporate Responsibility and Leadership Review Form

Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)

ANKIETA ŚWIAT BAJEK MOJEGO DZIECKA

Egzamin maturalny z języka angielskiego na poziomie dwujęzycznym Rozmowa wstępna (wyłącznie dla egzaminującego)

Poland) Wydawnictwo "Gea" (Warsaw. Click here if your download doesn"t start automatically

Instrukcja konfiguracji usługi Wirtualnej Sieci Prywatnej w systemie Mac OSX

Realizacja systemów wbudowanych (embeded systems) w strukturach PSoC (Programmable System on Chip)

Revenue Maximization. Sept. 25, 2018

JĘZYK ANGIELSKI ĆWICZENIA ORAZ REPETYTORIUM GRAMATYCZNE

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to students

Wykład 5_2 Arkusze stylów dziedziczenie. Technologie internetowe Zofia Kruczkiewicz

SNP SNP Business Partner Data Checker. Prezentacja produktu

DO MONTAŻU POTRZEBNE SĄ DWIE OSOBY! INSTALLATION REQUIRES TWO PEOPLE!

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Previously on CSCI 4622

SG-MICRO... SPRĘŻYNY GAZOWE P.103

EXCEL PL PROGRAMOWANIE PDF

Marzec: food, advertising, shopping and services, verb patterns, adjectives and prepositions, complaints - writing

Raport bieżący: 44/2018 Data: g. 21:03 Skrócona nazwa emitenta: SERINUS ENERGY plc

TTIC 31190: Natural Language Processing

DOI: / /32/37

Wroclaw, plan nowy: Nowe ulice, 1:22500, sygnalizacja swietlna, wysokosc wiaduktow : Debica = City plan (Polish Edition)

OSI Physical Layer. Network Fundamentals Chapter 8. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Knovel Math: Jakość produktu

SNP Business Partner Data Checker. Prezentacja produktu

Healthix Consent Web-Service Specification

THE ADMISSION APPLICATION TO PRIVATE PRIMARY SCHOOL. PART I. Personal information about a child and his/her parents (guardians) Child s name...

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO

OBWIESZCZENIE MINISTRA INFRASTRUKTURY. z dnia 18 kwietnia 2005 r.

Oxford PWN Polish English Dictionary (Wielki Slownik Polsko-angielski)

ZARZADZANIE RYZYKIEM WALUTOWYM PDF

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO POZIOM ROZSZERZONY MAJ 2010 CZĘŚĆ I. Czas pracy: 120 minut. Liczba punktów do uzyskania: 23 WPISUJE ZDAJĄCY

18. Przydatne zwroty podczas egzaminu ustnego. 19. Mo liwe pytania egzaminatora i przyk³adowe odpowiedzi egzaminowanego

LEARNING AGREEMENT FOR STUDIES

MAGNESY KATALOG d e s i g n p r o d u c e d e l i v e r

Has the heat wave frequency or intensity changed in Poland since 1950?

Wroclaw, plan nowy: Nowe ulice, 1:22500, sygnalizacja swietlna, wysokosc wiaduktow : Debica = City plan (Polish Edition)

DODATKOWE ĆWICZENIA EGZAMINACYJNE

Technical conditions Warunki techniczne

FORMULARZ APLIKACYJNY CERTYFIKACJI STANDARDU GLOBALG.A.P. CHAIN OF CUSTODY GLOBALG.A.P. CHAIN OF CUSTODY APPLICATION FORM

PLSH1 (JUN14PLSH101) General Certificate of Education Advanced Subsidiary Examination June Reading and Writing TOTAL

Transkrypt:

Maciej Ogrodniczuk MIMUW, 1 October 2012

Text markup: prehistorical times

Text markup: prehistorical times Act III Scene I Hamlet To be or not to be that is the question.

Text markup: present time [Centering on] [Small caps on] Act III [New line] Scene I Act III [New line] Scene I [New line] [Small caps off] Hamlet [Centering off] To be or not to be [Bold on] that is the question. Hamlet [Bold off] [Indent 10 pt] To be or not to be that is the question.

What is the document composed of? [Act formatting] Act III [Scene formatting] Scene I [Person formatting] Hamlet [Line formatting] To be or not to be that is the question. + Act formatting, scene formatting: [Centered text] [Small caps] [Separate paragraph] Person formatting: [Bold text] [Separate paragraph] Line formatting: [Separate paragraph Indented 10 pt] = Act III Scene I Hamlet To be or not to be that is the question.

Another layout for the same text [Act formatting] Act III [Scene formatting] Scene I [Person formatting] Hamlet [Line formatting] To be or not to be that is the question. + Act formatting, scene formatting: [Centered, white on black/brown, in separate paragraph] Person formatting: [Bold, centered, in separate paragraph] Line formatting: [Decorative initial] = Act III Scene I Hamlet To be or not to be that is the question.

So, what is the document really composed of?

Is context-based visualisation a real-world case? USTAWA z dnia 2 lipca 2004 r. o zmianie ustawy Kodeks postępowania cywilnego oraz niektórych innych ustaw Art. 1. W ustawie z dnia 17 listopada 1964 r. Kodeks postępowania cywilnego (Dz. U. Nr 43, poz. 296, z późn. zm.) wprowadza się następujące zmiany: 1) art. 5 otrzymuje brzmienie:... Art. 5. W razie uzasadnionej potrzeby sąd może udzielić stronom i uczestnikom postępowania występującym w sprawie bez adwokata lub radcy prawnego niezbędnych pouczeń co do czynności procesowych. ;

Is context-based visualisation a real-world case? USTAWA z dnia 2 lipca 2004 r. o zmianie ustawy Kodeks postępowania cywilnego oraz niektórych innych ustaw Art. 1. W ustawie z dnia 17 listopada 1964 r. Kodeks postępowania cywilnego (Dz. U. Nr 43, poz. 296, z późn. zm.) wprowadza się następujące zmiany: 1) art. 5 otrzymuje brzmienie:... Art. 5. W razie uzasadnionej potrzeby sąd może udzielić stronom i uczestnikom postępowania występującym w sprawie bez adwokata lub radcy prawnego niezbędnych pouczeń co do czynności procesowych. ;

Is context-based visualisation a real-world case? USTAWA z dnia 2 lipca 2004 r. o zmianie ustawy Kodeks postępowania cywilnego oraz niektórych innych ustaw Art. 1. W ustawie z dnia 17 listopada 1964 r. Kodeks postępowania cywilnego (Dz. U. Nr 43, poz. 296, z późn. zm.) wprowadza się następujące zmiany: 1) art. 5 otrzymuje brzmienie:... Art. 5. W razie uzasadnionej potrzeby sąd może udzielić stronom i uczestnikom postępowania występującym w sprawie bez adwokata lub radcy prawnego niezbędnych pouczeń co do czynności procesowych. ;

1969: GML IBM Script editor macro language Generalized Markup Language (Goldfarb, Mosher, Lorie): tags describe document structure, they are replaced with formatting commands, there can be multiple visualization profiles for one document, the initial set of tags can be extended.

GML syntax: an example :p.gml supported hierarchical containers, such as :ol :li.ordered lists (like this one), :li.unordered lists, and :li.definition lists :eol. as well as simple structures. :p.markup minimization (later generalized and formalized in SGML), allowed the end-tags to be omitted for the "h1" and "p" elements. http://www.sgmlsource.com/history/roots.htm

Other markup systems Ventura <B>Hamlet<D> TEX/L A TEX \textbf{hamlet} QuarkXPress <B>Hamlet<B> RTF {\b\f5\cf1 Hamlet} HTML <B>Hamlet</B> PostScript /Times-BoldR 900 ff(hamlet)w Word 2007 <w:r><w:rpr><w:b/></w:rpr> <w:t>hamlet</w:t></w:r>

The need of a standard Problems: most applications use their own data formats, new version of applications often introduce changes in formats which causes backward compatibility problems (often: not possible to save in previous format), converters are available, but: only for the most popular formats, conversion may be lossy. Our dream format should be: flexible and universal so that it could represent many document formats, uniform and easy-to-understand to keep its processing simple.

From xkcd.com:

1986: SGML Standard Generalized Markup Language SGML ISO standard 8879:1986. 3 most important features of SGML: 1 descriptivness, 2 document typing, 3 portability. 1994: HTML 2.0 defined as SGML application.

Shortcomings of SGML Not so many flaws, but there are some basic ones... 1 obligatory definition of document structure, 2 complexity, too many options, 3 processing is difficult (= expensive).

1998: XML Extensible Markup Language XML W3C standard: 1.0: 1st edition from February 1998 r., 5th edition from 2008 r., 1.1 from 2006 r., 2.0 more questions than answers. http://www.w3.org/tr/rec-xml

XML-related family of standards

WWW Consortium (W3C) www.w3.org W3C is an international consortium developing Internet standards (not just XML-related, but dominated by XML). WD CR PR REC standard = agreement + compromise

What XML looks like? <?xml version="1.0" encoding="iso-8859-2"?> <ustawa> USTAWA <tytuł>o realizacji przedpłat na samochody</tytuł> <ustęp>nr="1"> 1. Osoby, które w 1981 r. wniosły przedpłaty na zakup samochodów i dotychczas samochodu nie odebrały, mają prawo do otrzymania rekompensaty w wysokości: <punkt>nr="1"> 1) 5.930 zł, jeśli przedpłata została wniesiona na samochód marki Fiat 126p,</punkt> <punkt>nr="2"> 2) 8.400 zł dla samochodu marki FSO 1500.</punkt> </ustęp> </ustawa>

What XML looks like? XML declaration: <?xml version="1.0" encoding="windows-1250" standalone="yes"?> Always at the beginning of document (first line, starting from the first character). Can be omitted if XML version is intended to be 1.0 and the text is UTF-8 or UTF-16-encoded. Specification definintion: XMLDecl ::= <?xml VersionInfo EncodingDecl? SDDecl? S??> Encoding-related issues see annex F of the XML specification. Elements i attributes: <element attribute="value"> <empty1></empty1> <empty2/>

Well-formedness If the document is constructed according to XML syntax rules, we call it well-formed. This means that e.g.: all tags are closed and properly nested, attribute values are enclosed in apostrophes or quotation marks, attribute names must be unique for the element,... and 9 other requirements ( specification). Verification of well-formedness of XML documents is done by XML parsers.

Namespaces Problem: How to merge: 1 <author> <title>prof.</title> <first-name>john</first-name> <surname>curious</surname> </author> 2 <chapter no="1"> <title>deep blue something</title>... </chapter>

Namespaces Solution: Using namespaces associations between URI/IRI and selected context name. Namespaces: disambiguate names, identify source of their definition.

Namespaces Usage: 1 declare namespace for the subtree with xmlns:prefix attribute and having URI/IRI as its value e.g. xmlns:authors="http://example.com/authors", 2 to express that name of the <surname> element comes from http://example.com/authors namespace, <authors:surname> notation is used, 3 no prefix (xmlns="http://example.com/authors") creates so-called default namespace. Best namespace document: http://www.rpbourret.com/xml/namespacesfaq.htm

Namespaces An example: <book> <authors xmlns:a="http://example.com/authors"> <a:author> <a:title>prof.</a:title> <a:first-name>john</a:first-name> <a:surname>curious</a:surname> </a:author> </authors> <content> <chapter no="1"> <title>deep blue something</title>... </chapter> </content> </book>

Which names belong to which namespace? Another example: <a xmlns:b="urn:b"> <c xmlns="urn:x"> <d:e xmlns="urn:y" xmlns:d="urn:d" b:f="g"> <i xmlns:b="urn:b2"> <j b:k="l"/> </i> </d:e> <m n="o"/> </c> <p/> </a> Solution: a?does not belong to any namespace c?belongs to urn:x e?belongs to urn:d f?belongs to urn:b i?belongs to urn:y j?belongs to urn:y k?belongs to urn:b2 m?belongs to urn:x n?does not belong to any namespace! p?does not belong to any namespace

XML and diacritics Default encoding for XML documents is UTF-8. Usage in XML document: respective string, &#code ; decimal character code, &#xcode ; hexadecimal character code. Diacritics can be used in attribute and element names.

UTF-8 and Unicode Unicode is a standard describing (in principles) a set of characters corresponding to all characters used around the world. Unicode assigns numbers to characters, but it does not define their representation (encoding). Most popular encodings: UTF-8 (first 128 = ASCII, 1 character can be 1-6 bytes), UTF-16 (each character is one or two 16-bit words), UTF-32/UCS-4 (each characters is one 32-bit word).

Unicode peculiarities Source: http://www.hltdays.pl/pdf/presentations/janusz-bień.pdf. What is a character? LATIN SMALL LETTER N (U+006E) COMBINING ACUTE ACCENT (U+0301) vs. LATIN SMALL LETTER N WITH ACUTE (U+0144) Character examples

XML and meaning of document fragments <ustawa data-wydania="2009-09-10"> <tytuł>o zniesieniu podatków</tytuł> <artykuł nr="1">wszystkie podatki zostają zniesione z dniem 1 stycznia 2010 r.</artykuł> </ustawa> <u45 d="2009-09-10"> <t>o zniesieniu podatków</t> <a n="1">wszystkie podatki zostają zniesione z dniem 1 stycznia 2010 r.</a> </u45> XML representation of a document does not assign any meaning to its fragments!

Summary: XML in 10 points (according to W3C) 1 XML is for structuring data, 2 XML looks a bit like HTML, 3 XML is text, but isn t meant to be read, 4 XML is verbose by design, 5 XML is a family of technologies, 6 XML is new, but not that new, 7 XML leads HTML to XHTML, 8 XML is modular, 9 XML is the basis for RDF and the Semantic Web, 10 XML is license-free, platform-independent and well-supported. http://www.w3.org/xml/1999/xml-in-10-points.html